Video: Phân cụm dữ liệu và ứng dụng( Lấy source code:[email protected]) 2025
Một công cụ mã nguồn mở độc nhất vô nhị trong phân tích tiên đoán là Apache Mahout. Thư viện học máy này bao gồm các phiên bản quy mô lớn về phân cụm, phân loại, lọc cộng tác và các thuật toán khai thác dữ liệu khác có thể hỗ trợ mô hình phân tích tiên đoán quy mô lớn.
Một cách rất được đề nghị để xử lý dữ liệu cần thiết cho mô hình như vậy là chạy Mahout trong một hệ thống đang chạy Hadoop. Hadoop chỉ một máy chủ điều khiển các máy khác (như máy Map và máy Giảm) được sử dụng trong quá trình phân phối của nó. Mahout nên được cài đặt trên máy chủ đó.
Hãy tưởng tượng bạn có số lượng lớn dữ liệu trực tuyến - bài báo của Google - và bạn muốn phân cụm theo chủ đề, sử dụng một trong các thuật toán phân cụm. Sau khi cài đặt Hadoop và Mahout, bạn có thể thực hiện một trong các thuật toán - chẳng hạn như K-means - trên dữ liệu của bạn.
Việc thực hiện K-means theo Mahout sử dụng phương pháp MapReduce, làm cho nó khác với việc thực hiện bình thường của K-means. Mahout chia nhỏ thuật toán K-means thành các thủ tục phụ này:
-
KmeansMapper đọc tập dữ liệu đầu vào và sẽ chỉ định mỗi điểm đầu vào cho phương tiện được lựa chọn ban đầu gần nhất (đại diện cụm). Thủ tục
KmeansCombiner -
sẽ thu thập tất cả hồ sơ - cặp - do KmeansMapper sản xuất và tạo ra một phần để giảm tính toán của các đại diện cụm sau đó. KmeansReducer
-
nhận các giá trị được tạo ra bởi tất cả các nhiệm vụ phụ (tổ hợp) để tính các centroid thực tế của các cụm đó là sản phẩm cuối cùng của K-means.
-
xử lý lặp đi lặp lại quá trình cho đến khi tất cả các cụm đã hội tụ. Đầu ra của một lần lặp nhất định, một đầu ra phân cụm một phần, được sử dụng làm đầu vào cho lần lặp tiếp theo. Quá trình lập bản đồ và giảm số liệu cho đến khi phân công các hồ sơ và các nhóm không có thay đổi. Apache Mahout là một dự án mới được phát triển; chức năng của nó vẫn còn rất nhiều không gian để chứa các phần mở rộng. Trong thời gian đó, Mahout đã sử dụng MapReduce để thực hiện phân loại, nhóm và các kỹ thuật máy học khác và có thể làm được trên quy mô lớn.