Các khái niệm cơ bản của K-Means và các mô hình Clustering DBSCAN cho Predictive Analytics - núm vú

Video: Khai thác dữ liệu: Giới thiệu về phân lớp dữ liệu 2025

Học không được giám sát có nhiều thách thức đối với phân tích tiên đoán - bao gồm không biết phải làm gì khi chạy một thuật toán. Mỗi thuật toán sẽ cho kết quả khác nhau; bạn sẽ không bao giờ được chắc chắn cho dù một kết quả tốt hơn khác - hoặc thậm chí cho dù kết quả có giá trị nào.

Khi bạn biết kết quả ra sao, bạn có thể tinh chỉnh các thuật toán để tạo ra các kết quả mong muốn. Trong bộ dữ liệu thực tế, bạn sẽ không có sự sang trọng này. Bạn sẽ phải phụ thuộc vào một số kiến thức về dữ liệu hoặc trực giác để quyết định các thông số và thuật toán khởi tạo nào khi sử dụng khi bạn tạo mô hình của mình.

Hãy nghĩ đến

dữ liệu có thể phân tách có thể phân tách

như một bó điểm trong một biểu đồ có thể được tách bằng một đường thẳng. Nếu dữ liệu không được phân tách một cách tuyến tính thì cần phải có nhiều phiên bản nâng cao hơn của K-means - sẽ trở nên đắt hơn về mặt tính toán và có thể không phù hợp với các bộ dữ liệu rất lớn. Trong việc thực hiện tiêu chuẩn của nó, sự phức tạp để tính trung tâm cụm và khoảng cách là thấp.

K-means được sử dụng rộng rãi để giải quyết các vấn đề dữ liệu lớn bởi vì nó đơn giản để sử dụng, hiệu quả, và khả năng mở rộng cao. Không có gì ngạc nhiên khi hầu hết các nhà cung cấp thương mại sử dụng thuật toán K-means như một thành phần quan trọng trong các gói phân tích tiên đoán của họ.

Việc triển khai SDSCAN (Dựa trên Mật độ Dựa trên Không gian ứng dụng với Tiếng ồn) trong scikit-learn không đòi hỏi bất kỳ tham số khởi tạo do người dùng xác định để tạo ra một thể hiện. Bạn có thể ghi đè các tham số mặc định trong quá trình khởi tạo nếu bạn muốn. Thật không may, nếu bạn đang sử dụng các tham số mặc định, thuật toán không thể cung cấp một kết hợp chặt chẽ với kết quả mong muốn.

DBSCAN thích hợp hơn cho các bộ dữ liệu có kích thước cụm không tương xứng, và dữ liệu của chúng có thể được tách theo kiểu phi tuyến tính.Giống như K-means, DBSCAN có thể mở rộng, nhưng sử dụng nó trên các bộ dữ liệu rất lớn đòi hỏi nhiều bộ nhớ hơn và sức mạnh tính toán.