Trang Chủ Tài chính Cá nhân Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025

Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025
Anonim

Số liệu << (hoặc thu thập dữ liệu) là một tập các hạng mục trong phân tích tiên đoán. Ví dụ, một bộ tài liệu là một tập dữ liệu, nơi các mục dữ liệu là tài liệu. Một tập hợp thông tin người dùng mạng xã hội (tên, tuổi, danh sách bạn bè, ảnh, v.v.) là tập dữ liệu, nơi các mục dữ liệu là hồ sơ của người dùng mạng xã hội. Phân cụm dữ liệu

là nhiệm vụ chia một tập dữ liệu thành tập con của các mục tương tự. Các mục cũng có thể được gọi là trường hợp, quan sát, thực thể hoặc các đối tượng dữ liệu. Trong hầu hết các trường hợp, một tập dữ liệu được biểu diễn dưới dạng bảng - ma trận dữ liệu . Ma trận dữ liệu là một bảng các số, tài liệu, hoặc biểu thức, được biểu diễn theo hàng và cột như sau:

Mỗi hàng tương ứng với một mục nhất định trong bộ dữ liệu.
  • Hàng được đôi khi được gọi là

    mục, đối tượng, trường hợp hoặc quan sát. Mỗi cột đại diện cho một đặc tính cụ thể của một mặt hàng.

  • Cột được gọi là

    tính năng hoặc thuộc tính. Áp dụng việc phân cụm dữ liệu vào một tập dữ liệu tạo ra các nhóm các mục dữ liệu tương tự. Các nhóm này được gọi là

cụm - các bộ sưu tập các mục dữ liệu tương tự. có mối quan hệ bền vững, có thể đo lường được - rau tươi, ví dụ, giống nhau hơn các loại thực phẩm đông lạnh - và kỹ thuật xếp nhóm sử dụng mối quan hệ đó với nhóm các mặt hàng.

Sức mạnh của mối quan hệ giữa hai hoặc nhiều mục có thể được định lượng như là một biện pháp tương tự :

Một hàm toán học tính tương quan giữa hai mục dữ liệu. Kết quả tính toán đó, được gọi là giá trị tương tự, về cơ bản so sánh một mục dữ liệu cụ thể với tất cả các mục khác trong bộ dữ liệu. Những mặt hàng khác sẽ tương tự hoặc ít giống nhau hơn so với mặt hàng cụ thể đó.

Sự tương đồng tính toán đóng một vai trò quan trọng trong việc gán các mục cho các nhóm (

các cụm

). Mỗi nhóm có một mục đại diện cho nó; mục này được gọi là đại diện cụm . Xem xét một bộ dữ liệu bao gồm nhiều loại trái cây trong một giỏ. Giỏ hoa quả có nhiều loại trái cây như táo, chuối, chanh, lê. Trong trường hợp này, quả là các mục dữ liệu. Quá trình phân cụm dữ liệu chiết xuất các nhóm quả tương tự trong số liệu này (giỏ trái cây khác nhau). Bước đầu tiên trong quá trình clustering dữ liệu là chuyển tập dữ liệu này thành ma trận dữ liệu: Một cách để mô hình tập dữ liệu này là để các hàng đại diện cho các mục trong tập dữ liệu (hoa quả); và các cột đại diện cho các đặc tính, hoặc các tính năng, mô tả các mục.

Ví dụ, một đặc điểm quả có thể là loại trái cây (như quả chuối hay táo), trọng lượng, màu sắc, hoặc giá cả. Trong bộ dữ liệu ví dụ, các mục có ba đặc điểm: loại trái cây, màu sắc và trọng lượng.

Trong hầu hết các trường hợp, áp dụng kỹ thuật xếp dữ liệu vào tập dữ liệu quả như mô tả ở trên cho phép bạn

Lấy các nhóm (các nhóm) các mục tương tự.

Bạn có thể nói rằng quả của bạn là số N nhóm. Sau đó, nếu bạn chọn trái cây ngẫu nhiên, bạn sẽ có thể đưa ra một tuyên bố về mặt hàng đó như một phần của một trong những nhóm N.

  • Lấy các đại diện của nhóm của mỗi nhóm. Trong ví dụ này, một đại diện cụm sẽ chọn một loại trái cây từ giỏ và đặt nó sang một bên. Các đặc tính của trái cây này là như vậy mà trái cây tốt nhất đại diện cho cụm nó thuộc về.

  • Khi bạn thực hiện kết hợp, tập dữ liệu của bạn được tổ chức và chia thành các nhóm tự nhiên. Phân cụm dữ liệu cho thấy cấu trúc trong dữ liệu bằng cách khai thác các nhóm tự nhiên từ một tập dữ liệu. Do đó khám phá các cụm là một bước thiết yếu để xây dựng ý tưởng và giả thuyết về cấu trúc dữ liệu của bạn và thu thập thông tin chi tiết để hiểu rõ hơn về nó.

Phân cụm dữ liệu cũng có thể là một cách để mô hình hoá dữ liệu: Nó đại diện cho một khối lượng dữ liệu lớn hơn theo các nhóm hoặc các đại diện của cụm.

Ngoài ra, phân tích của bạn có thể tìm cách phân chia dữ liệu thành các nhóm tương tự - như khi

phân khúc thị trường

phân chia dữ liệu thị trường mục tiêu thành các nhóm như Người tiêu dùng có chung sở thích chẳng hạn như nấu ăn Địa Trung Hải) Những người tiêu dùng có nhu cầu chung (ví dụ những người bị dị ứng thức ăn đặc biệt)

  • Xác định các nhóm khách hàng tương tự có thể giúp bạn phát triển một chiến lược tiếp thị đáp ứng nhu cầu của các cụm cụ thể.

  • Hơn nữa, việc phân cụm dữ liệu cũng có thể giúp bạn xác định, tìm hiểu hoặc dự đoán bản chất của các mục dữ liệu mới - đặc biệt là làm thế nào dữ liệu mới có thể được liên kết với việc đưa ra dự đoán. Ví dụ: trong

nhận dạng mẫu, việc phân tích các mẫu trong dữ liệu (chẳng hạn như các mẫu mua ở các khu vực cụ thể hoặc theo nhóm tuổi) có thể giúp bạn phát triển các phân tích tiên đoán - trong trường hợp này dự đoán tính chất của các dữ liệu trong tương lai có thể phù hợp với khuôn mẫu. Ví dụ về giỏ trái cây sử dụng phân cụm dữ liệu để phân biệt các mục dữ liệu khác nhau. Giả sử doanh nghiệp của bạn lắp ráp các giỏ trái cây tùy thích, và một trái cây mới chưa biết được đưa ra thị trường. Bạn muốn học hoặc dự đoán cụm nào mục mới sẽ thuộc về nếu bạn thêm nó vào giỏ trái cây. Bởi vì bạn đã áp dụng việc thu thập dữ liệu đến bộ dữ liệu quả, bạn có bốn nhóm - làm cho nó dễ dàng hơn để dự đoán cụm nào (loại trái cây cụ thể) phù hợp với mặt hàng mới. Tất cả bạn phải làm là so sánh trái không rõ ràng với các đại diện của bốn cụm khác và xác định cụm nào phù hợp nhất.

Mặc dù quá trình này có thể hiển nhiên đối với một người làm việc với một số liệu nhỏ, nhưng nó không quá rõ ràng ở quy mô lớn hơn - khi bạn phải gom hàng triệu bài mà không cần kiểm tra từng phần.Sự phức tạp trở nên hàm mũ khi tập dữ liệu lớn, đa dạng, và tương đối không mạch lạc - đó là lý do tại sao thuật toán phân cụm tồn tại: Máy tính làm việc đó tốt nhất.

Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Lựa chọn của người biên tập

Quản trị mạng Không dây: Rogue Access Points - những con vú

Quản trị mạng Không dây: Rogue Access Points - những con vú

Một trong những vấn đề lớn nhất mà các quản trị viên mạng phải giải quyết là vấn đề của rogue điểm truy cập. Một điểm truy cập rogue là một điểm truy cập mà đột nhiên xuất hiện trên mạng của bạn. Điều thường xảy ra là một nhân viên quyết định kết nối máy tính xách tay với mạng thông qua mạng không dây ...

Quản trị Mạng Không dây: Thiết lập Hotspot - núm vú

Quản trị Mạng Không dây: Thiết lập Hotspot - núm vú

Do đó bạn sở hữu một quán cà phê nhỏ và bạn nghĩ nó sẽ được mát mẻ để thiết lập một điểm nóng cho khách hàng của bạn để sử dụng, eh? Nếu bạn muốn thiết lập một hotspot miễn phí, đây là tất cả những gì bạn cần: Một kết nối Internet băng rộng đáng tin cậy. DSL, cáp, hoặc T-1 sẽ hoạt động độc đáo. Điểm truy cập không dây. Đối với một ...

Quản trị Mạng Không dây: Hiểu Phạm vi Dummies

Quản trị Mạng Không dây: Hiểu Phạm vi Dummies

Khoảng tối đa của thiết bị không dây chuẩn 802. 11 trong nhà khoảng 300 đôi chân. Điều này có thể có một hiệu ứng thú vị khi bạn có được một loạt các máy tính không dây với nhau - như vậy mà một số trong số họ nằm trong phạm vi của nhau, nhưng những người khác thì không. Ví dụ, giả sử Wally, Ward, và Beaver đều có ...

Lựa chọn của người biên tập

Outlook là gì? com? - núm vú giả

Outlook là gì? com? - núm vú giả

Triển vọng. com là một dịch vụ e-mail dựa trên web miễn phí do Microsoft cung cấp. Nó giống như dịch vụ Gmail của Google nhưng có một sự xoắn - một liên kết tới dữ liệu Outlook trên máy tính để bàn của bạn. Microsoft đã kết hợp Hotmail và Windows Live vào một dịch vụ e-mail, đồng thời hỗ trợ các địa chỉ liên lạc (bao gồm Facebook, Twitter và LinkedIn) và lịch của bạn. Bạn có thể ...

Mười Phụ kiện cho Outlook 2013 - núm vú

Mười Phụ kiện cho Outlook 2013 - núm vú

Triển vọng 2013 có thể làm được nhiều cho bạn mà không cần bất kỳ trợ giúp bên ngoài, các phụ kiện được xem như có thể làm cho cuộc sống của bạn dễ dàng hơn. Một số phụ kiện yêu thích tạo nên khả năng mà Outlook nên có nhưng không. Một số phụ kiện giúp bạn sử dụng dữ liệu Outlook của mình ở mọi nơi, mọi lúc. Điện thoại thông minh Điện thoại thông minh hiện có ở khắp mọi nơi, và có lẽ là ...

Chuyến tham quan giao diện Microsoft Outlook - núm vú

Chuyến tham quan giao diện Microsoft Outlook - núm vú

Triển vọng 2013 giống như các ứng dụng Office 2013 khác bằng nhiều cách. Ví dụ: nó có Ribbon, một tab File mở ra khung nhìn Backstage và một thanh trạng thái hiển thị thông điệp trạng thái và cung cấp một thanh trượt Zoom để thay đổi độ phóng đại của nội dung của ứng dụng. Điều duy nhất về Outlook là nó có nhiều ...

Lựa chọn của người biên tập

Cách sử dụng bản sao của Tài Khoản của Tập tin Dữ liệu QuickBooks năm 2014- núm vú

Cách sử dụng bản sao của Tài Khoản của Tập tin Dữ liệu QuickBooks năm 2014- núm vú

Cho dù khách hàng có chuyển bản sao của một kế toán của tập tin dữ liệu QuickBooks, gửi e-mail bản sao của kế toán, hoặc gửi bản sao của kế toán qua dịch vụ chuyển file Intuit, bạn sử dụng bản sao của kế toán bằng cách chọn File → Accountant Copy → Open & Convert Transfer Lệnh tập tin. Khi bạn chọn lệnh này, QuickBooks sẽ hiển thị một loạt các

Làm thế nào để Turn Job ước tính vào một Hoá đơn trong QuickBooks 2015 - núm vú

Làm thế nào để Turn Job ước tính vào một Hoá đơn trong QuickBooks 2015 - núm vú

QuickBooks nghĩa vụ phải làm cho cuộc sống dễ dàng hơn, phải không? Tại sao phải tạo một hóa đơn hoàn toàn mới cho một công việc mà bạn đã tạo ước tính công việc? Bạn có thể dễ dàng biến ước tính thành một hóa đơn bằng cách làm theo các bước đơn giản sau:

Cách sử dụng Ước tính việc làm trong QuickBooks 2012 - núm vú

Cách sử dụng Ước tính việc làm trong QuickBooks 2012 - núm vú

Nếu bạn đã nói với QuickBooks 2012 mà bạn muốn để tạo ước tính - bạn thực hiện việc này trong quá trình thiết lập QuickBooks - bạn có thể tạo dự toán công việc về số tiền mà bạn lập hoá đơn sau. Để tạo ước tính công việc, hãy chọn lệnh Khách hàng → Tạo Ước tính. QuickBooks hiển thị cửa sổ Tạo Ước tính. Tóm lại, bạn điền vào Ước tính Tạo ...