Mục lục:
- Dữ liệu biểu đồ là gì?
- Cuối cùng, dự án Apache Spark có nhánh nhánh GraphX, cho phép tạo ra các dữ liệu biểu đồ và sau đó xử lý, tất cả đều nằm trong khuôn khổ Spark.
Video: Video nhóm 12 demo tìm đường đi ngắn nhất trên hadoop 2025
Một trong những công nghệ NoSQL nổi bật hơn bao gồm việc lưu trữ và xử lý dữ liệu đồ thị. Bạn có thể nghĩ rằng tuyên bố này là tin cũ vì các nhà khoa học máy tính đã được phát triển các kỹ thuật phân tích đồ thị trong nhiều thập kỷ. Những gì bạn nói có thể đúng, nhưng có gì mới là sử dụng Hadoop, bạn có thể phân tích đồ thị trên quy mô lớn.
Dữ liệu biểu đồ là gì?
đồ thị về thuật ngữ dữ liệu chỉ đơn giản là sự thể hiện của từng thực thể và mối quan hệ của chúng. Các thực thể của đồ thị được gọi là nút (hoặc đỉnh ), và các mối quan hệ giữa các thực thể trong một đồ thị được gọi là cạnh (hoặc kết nối >). Việc trình bày các bộ dữ liệu trong một biểu đồ, trái ngược với các hàng và cột truyền thống, làm cho việc xử lý dữ liệu của bạn dễ dàng hơn theo cách làm cho các mối quan hệ giữa các đối tượng rõ ràng. Các phép tính đồ thị điển hình được biểu diễn bởi khoảng cách đường đi ngắn nhất giữa nhiều nút trong đồ thị của bạn hoặc đơn giản bằng bao nhiêu nút có kết nối của một kiểu nhất định với một nút cụ thể. Ứng dụng nổi tiếng nhất cho các cơ sở dữ liệu đồ thị là thuật toán PageRank của Google, nó tính toán mối quan hệ liên kết giữa tất cả các trang web đã biết. Google đại diện cho web dưới dạng một biểu đồ khổng lồ, nơi các trang web là các nút, và liên kết từ trang này sang trang khác được biểu diễn dưới dạng các cạnh. (Google chia sẻ sự giàu có bằng cách xuất bản một bài báo mô tả dự án phân tích đồ thị của mình - có tên Pregel - back vào năm 2010.) Việc xử lý đồ thị Google quan tâm đến việc tính toán số lượng các kết nối gửi đến cho mỗi trang web.
Phân tích đồ thị trong Hadoop
Vào mùa xuân năm 2014, phân tích đồ thị trên Hadoop vẫn còn ở giai đoạn đầu. Với sự ra đời của YARN trong Hadoop 2, phân tích đồ thị và các kỹ thuật chế biến chuyên dụng khác sẽ ngày càng trở nên phổ biến trên Hadoop. Nhiều trang web xã hội được đề cập trong bài viết này sử dụng cơ sở dữ liệu biểu đồ và các công cụ xử lý đồ họa riêng của họ, nhưng Facebook là một người dùng nổi bật của Giraph. Bởi vì con dấu chấp thuận của Facebook, Giraph đã trở thành một lựa chọn phổ biến cho phân tích đồ thị trên Hadoop, nhưng nó có một số hạn chế. Nó chỉ là một công cụ xử lý bởi vì nó tải dữ liệu như một đồ thị vào bộ nhớ của cụm, và nó được tối ưu hóa cho các truy vấn theo lô.Một giải pháp xử lý đồ thị khác đến từ Aurelius, một công ty đã phát hành một bộ công cụ phân tích đồ thị mã nguồn mở cho Hadoop. Ở cốt lõi của các dịch vụ của nó là Titan, một cơ sở dữ liệu đồ thị sử dụng HBase như một lớp bền bỉ, được tối ưu hóa cho các truy vấn tương tác, và Faunus, một công cụ xử lý đồ thị lưu trữ một bản đồ của một đồ thị từ Titan trong HDFS và chạy các công việc MapReduce chống lại nó. Đối với cả các ứng dụng tương tác (Titan) và hàng loạt (Faunus), Aurelius có API đồ hoạ giao thông phổ biến có tên là Gremlin.