Video: TRÍ TUỆ NHÂN TẠO - MẠNG NƠRON - HỆ MỜ CẦN THIẾT CHO MỌI NGƯỜI | Kiến thức HỆ MỜ & NƠRON...Mờ - Nơron 2025
Mục đích của các thuật toán phân cụm và phân loại là để làm cho tinh thần và trích xuất giá trị từ các tập hợp lớn các dữ liệu có cấu trúc và không có cấu trúc. Nếu bạn đang làm việc với khối lượng lớn dữ liệu phi cấu trúc, chỉ cần cố gắng phân chia dữ liệu thành một số loại hợp lý trước khi phân tích nó.
Phân nhóm và phân loại cho phép bạn lướt qua dữ liệu một cách rộng rãi, và sau đó tạo ra một số cấu trúc logic dựa trên những gì bạn tìm thấy ở đó trước khi đi sâu vào phân tích các hạt và bu lông.
Ở dạng đơn giản nhất, cụm là tập các điểm dữ liệu chia sẻ các thuộc tính tương tự và các thuật toán phân cụm là các phương pháp nhóm các điểm dữ liệu này vào các các cụm dựa trên sự tương đồng của chúng. Bạn sẽ thấy các thuật toán phân cụm được sử dụng để phân loại bệnh trong khoa học y tế, nhưng bạn cũng sẽ thấy chúng được sử dụng để phân loại khách hàng trong nghiên cứu tiếp thị và đánh giá rủi ro sức khoẻ môi trường trong kỹ thuật môi trường.
Có các phương pháp xếp nhóm khác nhau, tùy thuộc vào cách bạn muốn chia sẻ số liệu của mình. Hai loại thuật toán phân cụm chính là
-
Hierarchical: Các thuật toán tạo các nhóm riêng lẻ các cụm được lồng nhau, mỗi cấp có cấp bậc riêng.
-
Phân vùng: Các thuật toán tạo ra chỉ một tập hợp các cụm.
Bạn chỉ có thể sử dụng các thuật toán phân cụm theo cấp bậc nếu bạn đã biết khoảng cách giữa các điểm dữ liệu trong tập dữ liệu của bạn. Thuật toán l-hàng xóm gần nhất được mô tả trong chương này thuộc về cấp bậc các thuật toán phân cụm.
Bạn có thể đã từng nghe về phân loại và nghĩ phân loại là giống như phân nhóm. Nhiều người làm, nhưng đây không phải là trường hợp. Trong phân loại, trước khi bạn bắt đầu, bạn đã biết số lớp mà dữ liệu của bạn cần được nhóm và bạn đã biết lớp bạn muốn mỗi điểm dữ liệu được gán. Trong phân loại, dữ liệu trong tập dữ liệu được học từ được dán nhãn.
Khi bạn sử dụng các thuật toán phân cụm, mặt khác, bạn không có khái niệm được xác định trước cho biết có bao nhiêu cụm phù hợp với dữ liệu của bạn và bạn dựa vào thuật toán phân cụm để sắp xếp và nhóm dữ liệu một cách thích hợp nhất. Với kỹ thuật xếp nhóm, bạn đang học từ dữ liệu không dán nhãn.
Để minh họa tốt hơn bản chất của phân loại, hãy xem Twitter và hệ thống gắn thẻ băm.Giả sử bạn vừa nhận được thức uống ưa thích của mình trên toàn thế giới: một chiếc cốc pha lê đá pha với Starbucks. Bạn rất vui khi có đồ uống của bạn mà bạn quyết định tweet về nó bằng một bức ảnh và cụm từ "Đây là loại cà phê ngon nhất EVER! #StarbucksRocks. "Tất nhiên, bạn bao gồm" # StarbucksRocks "trong tweet của mình để tweet đi vào dòng # StreamStocks và được phân loại cùng với tất cả các tweet khác đã được dán nhãn là #StarbucksRocks. Việc bạn sử dụng nhãn hashtag trong tweet của bạn nói với Twitter cách phân loại dữ liệu của bạn thành một nhóm dễ nhận biết và dễ tiếp cận, hoặc cụm .