Trang Chủ Tài chính Cá nhân Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025

Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025
Anonim

Số liệu << (hoặc thu thập dữ liệu) là một tập các hạng mục trong phân tích tiên đoán. Ví dụ, một bộ tài liệu là một tập dữ liệu, nơi các mục dữ liệu là tài liệu. Một tập hợp thông tin người dùng mạng xã hội (tên, tuổi, danh sách bạn bè, ảnh, v.v.) là tập dữ liệu, nơi các mục dữ liệu là hồ sơ của người dùng mạng xã hội. Phân cụm dữ liệu

là nhiệm vụ chia một tập dữ liệu thành tập con của các mục tương tự. Các mục cũng có thể được gọi là trường hợp, quan sát, thực thể hoặc các đối tượng dữ liệu. Trong hầu hết các trường hợp, một tập dữ liệu được biểu diễn dưới dạng bảng - ma trận dữ liệu . Ma trận dữ liệu là một bảng các số, tài liệu, hoặc biểu thức, được biểu diễn theo hàng và cột như sau:

Mỗi hàng tương ứng với một mục nhất định trong bộ dữ liệu.
  • Hàng được đôi khi được gọi là

    mục, đối tượng, trường hợp hoặc quan sát. Mỗi cột đại diện cho một đặc tính cụ thể của một mặt hàng.

  • Cột được gọi là

    tính năng hoặc thuộc tính. Áp dụng việc phân cụm dữ liệu vào một tập dữ liệu tạo ra các nhóm các mục dữ liệu tương tự. Các nhóm này được gọi là

cụm - các bộ sưu tập các mục dữ liệu tương tự. có mối quan hệ bền vững, có thể đo lường được - rau tươi, ví dụ, giống nhau hơn các loại thực phẩm đông lạnh - và kỹ thuật xếp nhóm sử dụng mối quan hệ đó với nhóm các mặt hàng.

Sức mạnh của mối quan hệ giữa hai hoặc nhiều mục có thể được định lượng như là một biện pháp tương tự :

Một hàm toán học tính tương quan giữa hai mục dữ liệu. Kết quả tính toán đó, được gọi là giá trị tương tự, về cơ bản so sánh một mục dữ liệu cụ thể với tất cả các mục khác trong bộ dữ liệu. Những mặt hàng khác sẽ tương tự hoặc ít giống nhau hơn so với mặt hàng cụ thể đó.

Sự tương đồng tính toán đóng một vai trò quan trọng trong việc gán các mục cho các nhóm (

các cụm

). Mỗi nhóm có một mục đại diện cho nó; mục này được gọi là đại diện cụm . Xem xét một bộ dữ liệu bao gồm nhiều loại trái cây trong một giỏ. Giỏ hoa quả có nhiều loại trái cây như táo, chuối, chanh, lê. Trong trường hợp này, quả là các mục dữ liệu. Quá trình phân cụm dữ liệu chiết xuất các nhóm quả tương tự trong số liệu này (giỏ trái cây khác nhau). Bước đầu tiên trong quá trình clustering dữ liệu là chuyển tập dữ liệu này thành ma trận dữ liệu: Một cách để mô hình tập dữ liệu này là để các hàng đại diện cho các mục trong tập dữ liệu (hoa quả); và các cột đại diện cho các đặc tính, hoặc các tính năng, mô tả các mục.

Ví dụ, một đặc điểm quả có thể là loại trái cây (như quả chuối hay táo), trọng lượng, màu sắc, hoặc giá cả. Trong bộ dữ liệu ví dụ, các mục có ba đặc điểm: loại trái cây, màu sắc và trọng lượng.

Trong hầu hết các trường hợp, áp dụng kỹ thuật xếp dữ liệu vào tập dữ liệu quả như mô tả ở trên cho phép bạn

Lấy các nhóm (các nhóm) các mục tương tự.

Bạn có thể nói rằng quả của bạn là số N nhóm. Sau đó, nếu bạn chọn trái cây ngẫu nhiên, bạn sẽ có thể đưa ra một tuyên bố về mặt hàng đó như một phần của một trong những nhóm N.

  • Lấy các đại diện của nhóm của mỗi nhóm. Trong ví dụ này, một đại diện cụm sẽ chọn một loại trái cây từ giỏ và đặt nó sang một bên. Các đặc tính của trái cây này là như vậy mà trái cây tốt nhất đại diện cho cụm nó thuộc về.

  • Khi bạn thực hiện kết hợp, tập dữ liệu của bạn được tổ chức và chia thành các nhóm tự nhiên. Phân cụm dữ liệu cho thấy cấu trúc trong dữ liệu bằng cách khai thác các nhóm tự nhiên từ một tập dữ liệu. Do đó khám phá các cụm là một bước thiết yếu để xây dựng ý tưởng và giả thuyết về cấu trúc dữ liệu của bạn và thu thập thông tin chi tiết để hiểu rõ hơn về nó.

Phân cụm dữ liệu cũng có thể là một cách để mô hình hoá dữ liệu: Nó đại diện cho một khối lượng dữ liệu lớn hơn theo các nhóm hoặc các đại diện của cụm.

Ngoài ra, phân tích của bạn có thể tìm cách phân chia dữ liệu thành các nhóm tương tự - như khi

phân khúc thị trường

phân chia dữ liệu thị trường mục tiêu thành các nhóm như Người tiêu dùng có chung sở thích chẳng hạn như nấu ăn Địa Trung Hải) Những người tiêu dùng có nhu cầu chung (ví dụ những người bị dị ứng thức ăn đặc biệt)

  • Xác định các nhóm khách hàng tương tự có thể giúp bạn phát triển một chiến lược tiếp thị đáp ứng nhu cầu của các cụm cụ thể.

  • Hơn nữa, việc phân cụm dữ liệu cũng có thể giúp bạn xác định, tìm hiểu hoặc dự đoán bản chất của các mục dữ liệu mới - đặc biệt là làm thế nào dữ liệu mới có thể được liên kết với việc đưa ra dự đoán. Ví dụ: trong

nhận dạng mẫu, việc phân tích các mẫu trong dữ liệu (chẳng hạn như các mẫu mua ở các khu vực cụ thể hoặc theo nhóm tuổi) có thể giúp bạn phát triển các phân tích tiên đoán - trong trường hợp này dự đoán tính chất của các dữ liệu trong tương lai có thể phù hợp với khuôn mẫu. Ví dụ về giỏ trái cây sử dụng phân cụm dữ liệu để phân biệt các mục dữ liệu khác nhau. Giả sử doanh nghiệp của bạn lắp ráp các giỏ trái cây tùy thích, và một trái cây mới chưa biết được đưa ra thị trường. Bạn muốn học hoặc dự đoán cụm nào mục mới sẽ thuộc về nếu bạn thêm nó vào giỏ trái cây. Bởi vì bạn đã áp dụng việc thu thập dữ liệu đến bộ dữ liệu quả, bạn có bốn nhóm - làm cho nó dễ dàng hơn để dự đoán cụm nào (loại trái cây cụ thể) phù hợp với mặt hàng mới. Tất cả bạn phải làm là so sánh trái không rõ ràng với các đại diện của bốn cụm khác và xác định cụm nào phù hợp nhất.

Mặc dù quá trình này có thể hiển nhiên đối với một người làm việc với một số liệu nhỏ, nhưng nó không quá rõ ràng ở quy mô lớn hơn - khi bạn phải gom hàng triệu bài mà không cần kiểm tra từng phần.Sự phức tạp trở nên hàm mũ khi tập dữ liệu lớn, đa dạng, và tương đối không mạch lạc - đó là lý do tại sao thuật toán phân cụm tồn tại: Máy tính làm việc đó tốt nhất.

Các khái niệm cơ bản của các cụm dữ liệu trong phân tích dự đoán - những con số

Lựa chọn của người biên tập

Loại bỏ màu trong ảnh với lệnh Remove Color Command - những núm vú

Loại bỏ màu trong ảnh với lệnh Remove Color Command - những núm vú

T muốn bất kỳ màu sắc trong một hình ảnh. Với lệnh Remove Color trong Photoshop Elements 10, bạn có thể dễ dàng loại bỏ tất cả các màu từ một hình ảnh, lớp hoặc lựa chọn. Để sử dụng lệnh này, chỉ cần chọn Enhance → Adjust Color → Remove Color. Đôi khi, tẩy màu bằng lệnh này có thể để lại của bạn ...

Chỉnh sửa Ảnh Thiên nhiên của bạn với Photoshop Elements - núm vú

Chỉnh sửa Ảnh Thiên nhiên của bạn với Photoshop Elements - núm vú

Máy ảnh kỹ thuật số của bạn thực hiện tuyệt vời để chụp bản chất và hình ảnh phong cảnh. Nhưng hình ảnh kỹ thuật số nói chung cần một chút công việc. Photoshop Elements là phòng tối kỹ thuật số của bạn. Ứng dụng này có thể làm những điều kỳ diệu cho những hình ảnh mà không phải là khá đủ để snuff. Bạn cũng có thể sử dụng ứng dụng này để tăng cường hình ảnh và thêm các hình ảnh đặc biệt ...

Khám phá Các Tùy chọn In trong Photoshop Elements - Dummies

Khám phá Các Tùy chọn In trong Photoshop Elements - Dummies

Có lẽ là thách thức lớn nhất khi sử dụng các chương trình như Photoshop Elements các chuyên gia sử dụng ông nội của nó, Adobe Photoshop) đang nhận được những gì bạn thấy trên màn hình của bạn để hiển thị một bản fax hợp lý trên một trang in. Bạn có thể tìm thấy tất cả các loại sách về in màu - làm thế nào để có được màu sắc quyền, làm thế nào ...

Lựa chọn của người biên tập

RootsWeb. com trong nháy mắt - núm vú

RootsWeb. com trong nháy mắt - núm vú

RootsWeb. com là một cộng đồng trực tuyến được thiết lập tốt cho các nhà genealogist. Nó đã được khoảng một thời gian dài và đã đi qua renditions khác nhau. Vài năm trước, nó đã trở thành một phần của tổ tiên. com và vẫn gắn bó mật thiết với Tổ tiên. Trong khi Tổ tiên. com dựa chủ yếu vào các thuê bao để giữ bộ sưu tập của mình phát triển, RootsWeb. com dựa chủ yếu vào sự hào phóng ...

Cách tiếp cận Shotgun đối với Nghiên cứu về Phả hệ - những người có núm vú

Cách tiếp cận Shotgun đối với Nghiên cứu về Phả hệ - những người có núm vú

Có lẽ bạn đang tự hỏi làm thế nào để tìm người khác để chia sẻ thông tin về phả hệ. Vâng, bạn có thể bắt đầu bằng cách đọc qua sách điện thoại và gọi cho tất cả mọi người bằng tên họ bạn đang nghiên cứu. Tuy nhiên, với cách thức một số người cảm thấy về các nhà tiếp thị qua điện thoại, đây không phải là một chiến lược được đề nghị. Gửi email hàng loạt cho bất kỳ ai bạn tìm thấy với họ của bạn ...

Lựa chọn của người biên tập

Quan điểm vô thần của những đóng góp tích cực của tôn giáo - những con voi

Quan điểm vô thần của những đóng góp tích cực của tôn giáo - những con voi

Một số người vô thần cũng cảm thấy rằng tôn giáo không có đóng góp tích cực cho thế giới . Ngay cả người vô thần Bertrand Russell, một người có thẩm quyền cao trong hầu hết các ngày, tín chỉ tôn giáo chỉ với việc thiết lập lịch, nói rằng ông không thể nghĩ ra bất kỳ đóng góp khác. Hầu hết các người vô thần, ngay cả những người cảm thấy tôn giáo là một ảnh hưởng xấu tổng thể, thường có thể nghĩ rằng

Chủ nghĩa vô thần và Kinh thánh - những con voi

Chủ nghĩa vô thần và Kinh thánh - những con voi

Nhà văn khoa học viễn tưởng Isaac Asimov gọi Kinh thánh là "sức mạnh mạnh mẽ nhất cho chủ nghĩa vô thần đã từng hình thành" - và nhiều người theo chủ nghĩa vô thần đồng ý. Nhưng hầu hết mọi người chỉ quen thuộc với một người lấy mẫu cẩn thận của những đoạn văn cảm hứng từ Kinh thánh. Đối với mỗi đoạn văn truyền cảm hứng đi vào những chiếc bệ và những cái gối bằng kim, một nửa ...