Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Số liệu << (hoặc thu thập dữ liệu) là một tập các hạng mục trong phân tích tiên đoán. Ví dụ, một bộ tài liệu là một tập dữ liệu, nơi các mục dữ liệu là tài liệu. Một tập hợp thông tin người dùng mạng xã hội (tên, tuổi, danh sách bạn bè, ảnh, v.v.) là tập dữ liệu, nơi các mục dữ liệu là hồ sơ của người dùng mạng xã hội. Phân cụm dữ liệu

là nhiệm vụ chia một tập dữ liệu thành tập con của các mục tương tự. Các mục cũng có thể được gọi là trường hợp, quan sát, thực thể hoặc các đối tượng dữ liệu. Trong hầu hết các trường hợp, một tập dữ liệu được biểu diễn dưới dạng bảng - ma trận dữ liệu . Ma trận dữ liệu là một bảng các số, tài liệu, hoặc biểu thức, được biểu diễn theo hàng và cột như sau:

Mỗi hàng tương ứng với một mục nhất định trong bộ dữ liệu.

Hàng được đôi khi được gọi là

mục, đối tượng, trường hợp hoặc quan sát. Mỗi cột đại diện cho một đặc tính cụ thể của một mặt hàng.
Cột được gọi là

tính năng hoặc thuộc tính. Áp dụng việc phân cụm dữ liệu vào một tập dữ liệu tạo ra các nhóm các mục dữ liệu tương tự. Các nhóm này được gọi là

cụm - các bộ sưu tập các mục dữ liệu tương tự. có mối quan hệ bền vững, có thể đo lường được - rau tươi, ví dụ, giống nhau hơn các loại thực phẩm đông lạnh - và kỹ thuật xếp nhóm sử dụng mối quan hệ đó với nhóm các mặt hàng.

Sức mạnh của mối quan hệ giữa hai hoặc nhiều mục có thể được định lượng như là một biện pháp tương tự :

Một hàm toán học tính tương quan giữa hai mục dữ liệu. Kết quả tính toán đó, được gọi là giá trị tương tự, về cơ bản so sánh một mục dữ liệu cụ thể với tất cả các mục khác trong bộ dữ liệu. Những mặt hàng khác sẽ tương tự hoặc ít giống nhau hơn so với mặt hàng cụ thể đó.

Sự tương đồng tính toán đóng một vai trò quan trọng trong việc gán các mục cho các nhóm (

các cụm

). Mỗi nhóm có một mục đại diện cho nó; mục này được gọi là đại diện cụm . Xem xét một bộ dữ liệu bao gồm nhiều loại trái cây trong một giỏ. Giỏ hoa quả có nhiều loại trái cây như táo, chuối, chanh, lê. Trong trường hợp này, quả là các mục dữ liệu. Quá trình phân cụm dữ liệu chiết xuất các nhóm quả tương tự trong số liệu này (giỏ trái cây khác nhau). Bước đầu tiên trong quá trình clustering dữ liệu là chuyển tập dữ liệu này thành ma trận dữ liệu: Một cách để mô hình tập dữ liệu này là để các hàng đại diện cho các mục trong tập dữ liệu (hoa quả); và các cột đại diện cho các đặc tính, hoặc các tính năng, mô tả các mục.

Ví dụ, một đặc điểm quả có thể là loại trái cây (như quả chuối hay táo), trọng lượng, màu sắc, hoặc giá cả. Trong bộ dữ liệu ví dụ, các mục có ba đặc điểm: loại trái cây, màu sắc và trọng lượng.

Trong hầu hết các trường hợp, áp dụng kỹ thuật xếp dữ liệu vào tập dữ liệu quả như mô tả ở trên cho phép bạn

Lấy các nhóm (các nhóm) các mục tương tự.

Bạn có thể nói rằng quả của bạn là số N nhóm. Sau đó, nếu bạn chọn trái cây ngẫu nhiên, bạn sẽ có thể đưa ra một tuyên bố về mặt hàng đó như một phần của một trong những nhóm N.

Lấy các đại diện của nhóm của mỗi nhóm. Trong ví dụ này, một đại diện cụm sẽ chọn một loại trái cây từ giỏ và đặt nó sang một bên. Các đặc tính của trái cây này là như vậy mà trái cây tốt nhất đại diện cho cụm nó thuộc về.
Khi bạn thực hiện kết hợp, tập dữ liệu của bạn được tổ chức và chia thành các nhóm tự nhiên. Phân cụm dữ liệu cho thấy cấu trúc trong dữ liệu bằng cách khai thác các nhóm tự nhiên từ một tập dữ liệu. Do đó khám phá các cụm là một bước thiết yếu để xây dựng ý tưởng và giả thuyết về cấu trúc dữ liệu của bạn và thu thập thông tin chi tiết để hiểu rõ hơn về nó.

Phân cụm dữ liệu cũng có thể là một cách để mô hình hoá dữ liệu: Nó đại diện cho một khối lượng dữ liệu lớn hơn theo các nhóm hoặc các đại diện của cụm.

Ngoài ra, phân tích của bạn có thể tìm cách phân chia dữ liệu thành các nhóm tương tự - như khi

phân khúc thị trường

phân chia dữ liệu thị trường mục tiêu thành các nhóm như Người tiêu dùng có chung sở thích chẳng hạn như nấu ăn Địa Trung Hải) Những người tiêu dùng có nhu cầu chung (ví dụ những người bị dị ứng thức ăn đặc biệt)

Xác định các nhóm khách hàng tương tự có thể giúp bạn phát triển một chiến lược tiếp thị đáp ứng nhu cầu của các cụm cụ thể.
Hơn nữa, việc phân cụm dữ liệu cũng có thể giúp bạn xác định, tìm hiểu hoặc dự đoán bản chất của các mục dữ liệu mới - đặc biệt là làm thế nào dữ liệu mới có thể được liên kết với việc đưa ra dự đoán. Ví dụ: trong

nhận dạng mẫu, việc phân tích các mẫu trong dữ liệu (chẳng hạn như các mẫu mua ở các khu vực cụ thể hoặc theo nhóm tuổi) có thể giúp bạn phát triển các phân tích tiên đoán - trong trường hợp này dự đoán tính chất của các dữ liệu trong tương lai có thể phù hợp với khuôn mẫu. Ví dụ về giỏ trái cây sử dụng phân cụm dữ liệu để phân biệt các mục dữ liệu khác nhau. Giả sử doanh nghiệp của bạn lắp ráp các giỏ trái cây tùy thích, và một trái cây mới chưa biết được đưa ra thị trường. Bạn muốn học hoặc dự đoán cụm nào mục mới sẽ thuộc về nếu bạn thêm nó vào giỏ trái cây. Bởi vì bạn đã áp dụng việc thu thập dữ liệu đến bộ dữ liệu quả, bạn có bốn nhóm - làm cho nó dễ dàng hơn để dự đoán cụm nào (loại trái cây cụ thể) phù hợp với mặt hàng mới. Tất cả bạn phải làm là so sánh trái không rõ ràng với các đại diện của bốn cụm khác và xác định cụm nào phù hợp nhất.

Mặc dù quá trình này có thể hiển nhiên đối với một người làm việc với một số liệu nhỏ, nhưng nó không quá rõ ràng ở quy mô lớn hơn - khi bạn phải gom hàng triệu bài mà không cần kiểm tra từng phần.Sự phức tạp trở nên hàm mũ khi tập dữ liệu lớn, đa dạng, và tương đối không mạch lạc - đó là lý do tại sao thuật toán phân cụm tồn tại: Máy tính làm việc đó tốt nhất.