Trang Chủ Tài chính Cá nhân Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025

Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025
Anonim

Số liệu << (hoặc thu thập dữ liệu) là một tập các hạng mục trong phân tích tiên đoán. Ví dụ, một bộ tài liệu là một tập dữ liệu, nơi các mục dữ liệu là tài liệu. Một tập hợp thông tin người dùng mạng xã hội (tên, tuổi, danh sách bạn bè, ảnh, v.v.) là tập dữ liệu, nơi các mục dữ liệu là hồ sơ của người dùng mạng xã hội. Phân cụm dữ liệu

là nhiệm vụ chia một tập dữ liệu thành tập con của các mục tương tự. Các mục cũng có thể được gọi là trường hợp, quan sát, thực thể hoặc các đối tượng dữ liệu. Trong hầu hết các trường hợp, một tập dữ liệu được biểu diễn dưới dạng bảng - ma trận dữ liệu . Ma trận dữ liệu là một bảng các số, tài liệu, hoặc biểu thức, được biểu diễn theo hàng và cột như sau:

Mỗi hàng tương ứng với một mục nhất định trong bộ dữ liệu.
  • Hàng được đôi khi được gọi là

    mục, đối tượng, trường hợp hoặc quan sát. Mỗi cột đại diện cho một đặc tính cụ thể của một mặt hàng.

  • Cột được gọi là

    tính năng hoặc thuộc tính. Áp dụng việc phân cụm dữ liệu vào một tập dữ liệu tạo ra các nhóm các mục dữ liệu tương tự. Các nhóm này được gọi là

cụm - các bộ sưu tập các mục dữ liệu tương tự. có mối quan hệ bền vững, có thể đo lường được - rau tươi, ví dụ, giống nhau hơn các loại thực phẩm đông lạnh - và kỹ thuật xếp nhóm sử dụng mối quan hệ đó với nhóm các mặt hàng.

Sức mạnh của mối quan hệ giữa hai hoặc nhiều mục có thể được định lượng như là một biện pháp tương tự :

Một hàm toán học tính tương quan giữa hai mục dữ liệu. Kết quả tính toán đó, được gọi là giá trị tương tự, về cơ bản so sánh một mục dữ liệu cụ thể với tất cả các mục khác trong bộ dữ liệu. Những mặt hàng khác sẽ tương tự hoặc ít giống nhau hơn so với mặt hàng cụ thể đó.

Sự tương đồng tính toán đóng một vai trò quan trọng trong việc gán các mục cho các nhóm (

các cụm

). Mỗi nhóm có một mục đại diện cho nó; mục này được gọi là đại diện cụm . Xem xét một bộ dữ liệu bao gồm nhiều loại trái cây trong một giỏ. Giỏ hoa quả có nhiều loại trái cây như táo, chuối, chanh, lê. Trong trường hợp này, quả là các mục dữ liệu. Quá trình phân cụm dữ liệu chiết xuất các nhóm quả tương tự trong số liệu này (giỏ trái cây khác nhau). Bước đầu tiên trong quá trình clustering dữ liệu là chuyển tập dữ liệu này thành ma trận dữ liệu: Một cách để mô hình tập dữ liệu này là để các hàng đại diện cho các mục trong tập dữ liệu (hoa quả); và các cột đại diện cho các đặc tính, hoặc các tính năng, mô tả các mục.

Ví dụ, một đặc điểm quả có thể là loại trái cây (như quả chuối hay táo), trọng lượng, màu sắc, hoặc giá cả. Trong bộ dữ liệu ví dụ, các mục có ba đặc điểm: loại trái cây, màu sắc và trọng lượng.

Trong hầu hết các trường hợp, áp dụng kỹ thuật xếp dữ liệu vào tập dữ liệu quả như mô tả ở trên cho phép bạn

Lấy các nhóm (các nhóm) các mục tương tự.

Bạn có thể nói rằng quả của bạn là số N nhóm. Sau đó, nếu bạn chọn trái cây ngẫu nhiên, bạn sẽ có thể đưa ra một tuyên bố về mặt hàng đó như một phần của một trong những nhóm N.

  • Lấy các đại diện của nhóm của mỗi nhóm. Trong ví dụ này, một đại diện cụm sẽ chọn một loại trái cây từ giỏ và đặt nó sang một bên. Các đặc tính của trái cây này là như vậy mà trái cây tốt nhất đại diện cho cụm nó thuộc về.

  • Khi bạn thực hiện kết hợp, tập dữ liệu của bạn được tổ chức và chia thành các nhóm tự nhiên. Phân cụm dữ liệu cho thấy cấu trúc trong dữ liệu bằng cách khai thác các nhóm tự nhiên từ một tập dữ liệu. Do đó khám phá các cụm là một bước thiết yếu để xây dựng ý tưởng và giả thuyết về cấu trúc dữ liệu của bạn và thu thập thông tin chi tiết để hiểu rõ hơn về nó.

Phân cụm dữ liệu cũng có thể là một cách để mô hình hoá dữ liệu: Nó đại diện cho một khối lượng dữ liệu lớn hơn theo các nhóm hoặc các đại diện của cụm.

Ngoài ra, phân tích của bạn có thể tìm cách phân chia dữ liệu thành các nhóm tương tự - như khi

phân khúc thị trường

phân chia dữ liệu thị trường mục tiêu thành các nhóm như Người tiêu dùng có chung sở thích chẳng hạn như nấu ăn Địa Trung Hải) Những người tiêu dùng có nhu cầu chung (ví dụ những người bị dị ứng thức ăn đặc biệt)

  • Xác định các nhóm khách hàng tương tự có thể giúp bạn phát triển một chiến lược tiếp thị đáp ứng nhu cầu của các cụm cụ thể.

  • Hơn nữa, việc phân cụm dữ liệu cũng có thể giúp bạn xác định, tìm hiểu hoặc dự đoán bản chất của các mục dữ liệu mới - đặc biệt là làm thế nào dữ liệu mới có thể được liên kết với việc đưa ra dự đoán. Ví dụ: trong

nhận dạng mẫu, việc phân tích các mẫu trong dữ liệu (chẳng hạn như các mẫu mua ở các khu vực cụ thể hoặc theo nhóm tuổi) có thể giúp bạn phát triển các phân tích tiên đoán - trong trường hợp này dự đoán tính chất của các dữ liệu trong tương lai có thể phù hợp với khuôn mẫu. Ví dụ về giỏ trái cây sử dụng phân cụm dữ liệu để phân biệt các mục dữ liệu khác nhau. Giả sử doanh nghiệp của bạn lắp ráp các giỏ trái cây tùy thích, và một trái cây mới chưa biết được đưa ra thị trường. Bạn muốn học hoặc dự đoán cụm nào mục mới sẽ thuộc về nếu bạn thêm nó vào giỏ trái cây. Bởi vì bạn đã áp dụng việc thu thập dữ liệu đến bộ dữ liệu quả, bạn có bốn nhóm - làm cho nó dễ dàng hơn để dự đoán cụm nào (loại trái cây cụ thể) phù hợp với mặt hàng mới. Tất cả bạn phải làm là so sánh trái không rõ ràng với các đại diện của bốn cụm khác và xác định cụm nào phù hợp nhất.

Mặc dù quá trình này có thể hiển nhiên đối với một người làm việc với một số liệu nhỏ, nhưng nó không quá rõ ràng ở quy mô lớn hơn - khi bạn phải gom hàng triệu bài mà không cần kiểm tra từng phần.Sự phức tạp trở nên hàm mũ khi tập dữ liệu lớn, đa dạng, và tương đối không mạch lạc - đó là lý do tại sao thuật toán phân cụm tồn tại: Máy tính làm việc đó tốt nhất.

Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Lựa chọn của người biên tập

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Một Infographic tốt có thể trực quan kể một câu chuyện hoặc làm một số trừu tượng hoặc điểm số dễ hiểu, nhưng không có điều này xảy ra mà không có một cơ sở dữ liệu tốt. Các chính phủ thế giới và các tổ chức liên chính phủ duy trì các cơ sở dữ liệu về tất cả các loại thống kê. Dữ liệu về nhân khẩu học, kinh tế, sức khoẻ và văn hoá của vô số nước có sẵn trực tuyến cho ...

Tương lai của Infographics cho Giáo dục - núm vú

Tương lai của Infographics cho Giáo dục - núm vú

Sinh viên ngày nay có dây từ khi sinh ra, và khi họ đến trường tuổi, họ đã quen với các bài thuyết trình đầy màu sắc, đồ họa và giải trí. Nhập thông tin đồ họa. Có thể có một vài cách mà các biểu đồ chữ ký sẽ đóng vai trò mạnh mẽ hơn trong giáo dục trong thập kỷ tới và hơn thế nữa: Giải thích các khái niệm phức tạp: Chúng ta đã phải vật lộn qua một thứ gì đó trong trường học. ...

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Bạn có thể đã nghe nói rằng " đặt nó ", mà không thể được truer khi nói đến thêm văn bản để hình dung dữ liệu. Văn bản bị đặt sai trái có thể dẫn đến hiểu sai về dữ liệu. Bạn nên thực hiện theo hai phương pháp hay nhất để đưa văn bản vào hình dung dữ liệu của bạn: Giữ toàn bộ văn bản theo chiều ngang. Nonhorizontal ...

Lựa chọn của người biên tập

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

Câu hỏi Hoàn thành văn bản trên GRE bao gồm một câu hoặc đoạn văn với một, hai hoặc ba không gian trống cho một từ hoặc từ bị thiếu. Công việc của bạn là chọn từ hoặc từ thích hợp nhất để điền vào chỗ trống trong câu. Đây là một số ví dụ để bạn thử. Mẫu ...

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Khi bạn phải dịch một vấn đề từ vào toán học trên GRE, biết đâu để bắt đầu thường là thách thức khó khăn nhất. Điều quan trọng là bắt đầu với những gì bạn biết và làm việc theo những gì bạn không biết. Bạn có thể giải quyết hầu hết các vấn đề từ bằng cách tiếp cận theo từng bước: Đọc toàn bộ ...

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Viết luận văn (và ghi điểm) trên GRE là chủ quan đến một mức độ nào. Không có câu trả lời đúng hay sai, và mỗi bài luận hơi khác nhau, dựa trên quan điểm, kiến ​​thức, kinh nghiệm, cách viết của người thử nghiệm, v.v ... Tuy nhiên, những người đánh giá, có một danh sách các tiêu chuẩn cụ thể để phân loại bài luận của bạn. Để thực hiện tốt, hãy chắc chắn làm ...

Lựa chọn của người biên tập

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Ribbon trong PowerPoint 2011 cho Mac cho phép bạn thêm nội dung bằng các tùy chọn trên tab Trang chủ, trong nhóm Chèn. Mỗi lần bạn thêm một nội dung nào đó vào trang trình chiếu, nó được đặt trong một lớp trên đầu của tất cả các đối tượng hiện có trên trang trình bày. Chèn nội dung văn bản vào trang trình bày PowerPoint Nhấp vào tab Trang chủ của Ribbon và ...

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Tăng cường PowerPoint 2011 của bạn cho Mac trình bày với các đoạn âm thanh. Sử dụng âm thanh và âm nhạc là một cách hay để thu hút khán giả của bạn. Trong PowerPoint 2011 dành cho Mac, bạn có thể chọn một trong hai cách để kích hoạt hộp thoại Insert Audio: Từ Media Browser: Sử dụng tab Audio và kéo từ trình duyệt sang PowerPoint. ...

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Bao gồm cả phương tiện truyền thông trong trình tự hoạt hình của bạn là một ý tưởng tuyệt vời. Trong PowerPoint 2011 dành cho máy Mac, bạn không còn bị hạn chế khi xem phim trên đầu. Phim bây giờ hoạt động độc đáo trong lớp của riêng mình và có thể hoạt ảnh giống như bất kỳ đối tượng khác. Phim thậm chí có thể chồng chéo và theo dõi các đường dẫn chuyển động khi chúng chơi. Chỉ cần nhớ ...