Video: NGHIÊN CỨU THUẬT TOÁN K-MEANS XÂY DỤNG ỨNG DỤNG PHÂN CỤM SINH VIÊN 2025
Bạn sử dụng các thuật toán phân cụm để chia nhỏ các tập dữ liệu của bạn thành các nhóm các điểm dữ liệu giống nhau nhất cho một thuộc tính được xác định trước. Nếu bạn có một tập dữ liệu mô tả nhiều thuộc tính về một tính năng cụ thể và muốn nhóm các điểm dữ liệu của bạn theo các thuộc tính thuộc tính của chúng, sau đó sử dụng các thuật toán phân cụm.
Một bản đồ phân tán đơn giản của bộ dữ liệu thu nhập quốc gia và giáo dục mang lại biểu đồ bạn thấy ở đây.
Trong phân nhóm không được giám sát, bạn bắt đầu với dữ liệu này và sau đó phân chia nó thành các tập con. Các tập con này được gọi là các cụm và bao gồm các điểm dữ liệu giống nhau nhất. Có vẻ như có ít nhất hai cụm, có thể ba là một ở dưới cùng với thu nhập thấp và giáo dục, và sau đó các quốc gia giáo dục bậc cao có vẻ như có thể phân chia giữa thu nhập thấp và thu nhập cao.
Hình dưới đây cho thấy kết quả của eyeballing - làm cho một ước tính trực quan của - cụm trong tập dữ liệu này.
Mặc dù bạn có thể tạo các ước tính về phân nhóm trực quan, bạn có thể đạt được kết quả chính xác hơn khi xử lý các tập dữ liệu lớn hơn bằng cách sử dụng các thuật toán để tạo các cụm cho bạn. Ước lượng trực quan là một phương pháp thô chỉ có ích trên các bộ dữ liệu nhỏ hơn phức tạp tối thiểu. Thuật toán - tạo ra các kết quả chính xác, lặp lại và bạn có thể sử dụng các thuật toán để tạo cụm cho nhiều chiều của dữ liệu trong tập dữ liệu của bạn.
Các thuật toán phân cụm là một kiểu tiếp cận trong việc học máy không được giám sát - các phương pháp tiếp cận khác bao gồm các phương pháp Markov và phương pháp giảm kích thước. Các thuật toán phân cụm thích hợp trong các trường hợp có các đặc điểm sau:
-
Bạn biết và hiểu số liệu bạn đang phân tích.
-
Trước khi chạy thuật toán phân nhóm, bạn không có ý tưởng chính xác về bản chất của các tập con (tập hợp). Thông thường, bạn sẽ không biết có bao nhiêu tập con trong tập dữ liệu trước khi bạn chạy thuật toán.
-
Các tập con (các cụm) được xác định bởi chỉ một tập dữ liệu mà bạn đang phân tích.
-
Mục tiêu của bạn là xác định mô hình mô tả các tập con trong một tập dữ liệu duy nhất và chỉ tập dữ liệu này.
Nếu bạn thêm nhiều dữ liệu, bạn nên chạy lại phân tích từ đầu để có được kết quả mô hình hoàn chỉnh và chính xác.