Làm thế nào để chuyển đổi dữ liệu thô thành một phương pháp phân tích tiên đoán

Video: Lời Phật Dạy Về Cách Tạo Phước Đức - Cách Thay Đổi Vận Mệnh 2025

Trước khi bạn có thể trích xuất các nhóm các mục dữ liệu tương tự từ bộ dữ liệu của bạn cho dự án phân tích dự đoán, bạn có thể phải đại diện cho dữ liệu của bạn trong một bảng định dạng được gọi là ma trận dữ liệu . Đây là bước tiền xử lý xảy ra trước khi phân cụm dữ liệu.

Làm thế nào để tạo một ma trận phân tích tiên đoán của các thuật ngữ trong tài liệu

Giả sử tập dữ liệu mà bạn sắp phân tích được chứa trong một bộ tài liệu Microsoft Word. Điều đầu tiên bạn cần làm là chuyển tập các tài liệu thành ma trận dữ liệu. Một số công cụ thương mại và mã nguồn mở có thể xử lý công việc đó, tạo ra một ma trận, trong đó mỗi hàng tương ứng với một tài liệu trong bộ dữ liệu. Ví dụ về các công cụ này bao gồm RapidMiner, và R gói phần mở rộng văn bản.

Một tài liệu , về bản chất là một tập hợp các từ. Thuật ngữ là một tập gồm một hoặc nhiều từ.

Tất cả các thuật ngữ mà một tài liệu chứa được nhắc đến một lần hoặc nhiều lần trong cùng một tài liệu. Số lần một thuật ngữ được đề cập trong một tài liệu có thể được biểu diễn bằng tần suất tần số (TF), một giá trị số.

Chúng ta xây dựng ma trận các thuật ngữ trong tài liệu như sau:

Các thuật ngữ xuất hiện trong tất cả các tài liệu được liệt kê trên hàng đầu.
Các số xuất hiện bên trong các ô ma trận tương ứng với tần suất của từng thuật ngữ.
Ví dụ: Tài liệu A được biểu diễn dưới dạng tập hợp các số (5, 16, 0, 19, 0, 0.) trong đó 5 tương ứng với số lần lặp

phân tích tiên đoán , 16 tương ứng với số lần khoa học máy tính được lặp lại, và như vậy. Đây là cách đơn giản nhất để chuyển đổi một bộ tài liệu thành ma trận. Tài liệu A

5	16	0 <		Nghiên cứu tiên đoán	Khoa học Máy tính
Học tập	Clustering	0	Tài liệu B	8	6	2
3	0	0	Tài liệu C	0 < 2	3	3
9	Tài liệu D	1	9	13	4	6
7 > Tài liệu E	2	16	16	0	2	13
Tài liệu F	13	0	19	16 > 4	2	Khái niệm cơ bản về phân tích thuật ngữ tiên đoán
Một thách thức trong việc nhóm các tài liệu văn bản là xác định cách chọn các thuật ngữ tốt nhất để đại diện cho tất cả các tài liệu trong bộ sưu tập. Mức độ quan trọng của thuật ngữ trong một tập các tài liệu có thể được tính bằng nhiều cách khác nhau.	Ví dụ: nếu bạn đếm số lần một thuật ngữ được lặp lại trong tài liệu và so sánh tổng cộng với mức độ lặp lại trong toàn bộ bộ sưu tập, bạn sẽ nhận thức được tầm quan trọng của thuật ngữ so với các thuật ngữ khác.	Căn cứ vào tầm quan trọng tương đối của thuật ngữ trên tần số của nó trong bộ sưu tập thường được gọi là	trọng số	. Trọng lượng bạn chỉ định có thể dựa trên hai nguyên tắc:	Các thuật ngữ xuất hiện nhiều lần trong một tài liệu được ưa chuộng hơn các thuật ngữ chỉ xuất hiện một lần.	Các thuật ngữ được sử dụng trong các tài liệu tương đối ít được ưa chuộng hơn các thuật ngữ được đề cập trong tất cả các tài liệu.

Nếu (ví dụ) thuật ngữ

thế kỷ

được đề cập trong tất cả các tài liệu trong bộ dữ liệu của bạn thì bạn có thể không cân nhắc việc chỉ định trọng lượng đủ để có một cột của riêng mình trong ma trận.

Tương tự, nếu bạn đang xử lý một tập dữ liệu của người dùng mạng xã hội trực tuyến, bạn có thể dễ dàng chuyển đổi tập dữ liệu đó thành ma trận. ID người dùng hoặc tên sẽ chiếm các hàng; các cột sẽ liệt kê các tính năng mô tả tốt nhất những người dùng đó.