Video: 52. Cách sửa đổi các trường thông tin trong Pivot Table | Khóa học phần mềm văn phòng Excel 2025
Cả hai clustering và phân loại dựa trên tính toán sự tương tự hoặc sự khác biệt giữa hai điểm dữ liệu. Nếu tập dữ liệu của bạn số - chỉ gồm các trường và giá trị số - và có thể được miêu tả trên đồ thị chiều nhỏ n thì có các số liệu hình học khác nhau mà bạn có thể sử dụng để mở rộng quy mô đa chiều của mình dữ liệu.
Một lô n chiều là một biểu đồ lô phân tán đa chiều mà bạn có thể sử dụng để vẽ lô n số kích thước của dữ liệu.
Một số số liệu hình học phổ biến dùng để tính khoảng cách giữa các điểm dữ liệu bao gồm số liệu đo khoảng cách Euclidean, Manhattan hoặc Minkowski. Những chỉ số này chỉ là các chức năng hình học khác nhau hữu ích cho việc mô hình khoảng cách giữa các điểm. Chỉ số Euclide là thước đo khoảng cách giữa các điểm vẽ trên một mặt phẳng Euclide.
Manhattan metric là thước đo khoảng cách giữa các điểm mà khoảng cách được tính như là tổng của giá trị tuyệt đối của sự khác biệt giữa hai điểm tọa độ Cartesian. Chỉ số khoảng cách Minkowski là một khái quát về các thước đo khoảng cách Euclidean và Manhattan. Khá thường xuyên, các số liệu này có thể được sử dụng-hoán đổi.
Nếu dữ liệu của bạn là số nhưng không được lập trình (chẳng hạn như các đường cong thay vì các điểm), bạn có thể tạo điểm tương đồng dựa trên sự khác biệt giữa các dữ liệu, thay vì các giá trị thực tế của bản thân dữ liệu.
Cuối cùng, đối với dữ liệu không phải số liệu, bạn có thể sử dụng các chỉ số như số liệu khoảng cách Jaccard, là chỉ mục so sánh số tính năng mà hai điểm dữ liệu có điểm chung. Ví dụ: để minh họa khoảng cách Jaccard, hãy suy nghĩ về hai chuỗi văn bản sau đây: Saint Louis de Ha Ha, Quebec và St Louis de Ha! Ha!, QC.
Các chuỗi văn bản này có điểm gì chung? Và những tính năng nào khác nhau giữa chúng? Số liệu Jaccard tạo ra một giá trị số chỉ số định lượng sự tương tự giữa các chuỗi văn bản.