Video: [CTUMP] Hướng dẫn nhập và xử lý số liệu 2025
Trước khi chạy phân tích tiên đoán, bạn cần đảm bảo rằng dữ liệu sạch sẽ về các nội dung không liên quan trước khi bạn có thể sử dụng nó trong mô hình. Điều này bao gồm việc tìm kiếm và sửa chữa bất kỳ hồ sơ có chứa các giá trị sai lầm và cố gắng để điền vào bất kỳ giá trị thiếu. Bạn cũng cần phải quyết định có nên bao gồm bản ghi trùng lặp (ví dụ như hai tài khoản khách hàng).
Mục tiêu tổng thể là đảm bảo tính toàn vẹn của thông tin bạn đang sử dụng để xây dựng mô hình tiên đoán của bạn. Chú ý đặc biệt đến tính đầy đủ, chính xác và kịp thời của dữ liệu.
Thật hữu ích khi tạo thống kê mô tả (các đặc tính định lượng) cho các lĩnh vực khác nhau, chẳng hạn như tính toán min và max, kiểm tra phân bố tần số (tần suất xảy ra sự kiện) và xác minh phạm vi dự kiến. Việc chạy kiểm tra thông thường có thể giúp bạn gắn cờ bất kỳ dữ liệu nào nằm ngoài phạm vi mong muốn để điều tra thêm. Bất kỳ hồ sơ nào cho thấy những người nghỉ hưu có ngày sinh trong những năm 1990 có thể bị gắn cờ bởi phương pháp này.
dữ liệu hồ sơ (phân tích dữ liệu có sẵn và thu thập số liệu thống kê về chất lượng dữ liệu) và các công cụ trực quan hoá. Thiếu dữ liệu có thể là do thông tin cụ thể không được ghi lại. Trong trường hợp đó, bạn có thể cố gắng điền càng nhiều càng tốt; có thể dễ dàng bổ sung mặc định phù hợp để lấp đầy các khoảng trống của một số trường nhất định.
Mã vùng thiếu cho địa chỉ có thể được suy ra từ tên phố và thành phố cung cấp trong địa chỉ đó.
Trong trường hợp không biết thông tin hoặc không thể suy ra được thì bạn cần phải sử dụng các giá trị
khác so với không gian trống để chỉ ra rằng dữ liệu bị thiếu mà không làm ảnh hưởng đến tính chính xác của phân tích. Khoảng trống trong dữ liệu có thể có nghĩa là nhiều thứ, hầu hết không phải là tốt hoặc hữu ích. Bất cứ khi nào bạn có thể, bạn nên chỉ định bản chất của trống đó bằng cách điền vào chỗ có ý nghĩa Cũng giống như có thể xác định hoa hồng trong một cánh đồng lúa như là một loại cỏ dại, các ngoại lệ có thể có ý nghĩa khác nhau đối với các phân tích khác nhau.Nó phổ biến đối với một số mô hình được xây dựng chỉ để theo dõi những sai lệch đó và gắn cờ chúng.
Các mô hình phát hiện gian lận và giám sát hoạt động tội phạm quan tâm đến những người bên ngoài, những trường hợp đó cho biết điều gì đó không mong muốn xảy ra. Vì vậy, giữ các giá trị ngoài cùng trong tập dữ liệu trong các trường hợp như thế này được khuyến khích. Tuy nhiên, khi các ngoại lệ được coi là dị thường trong dữ liệu - và chỉ làm lệch các phân tích và dẫn đến các kết quả sai - gỡ chúng khỏi dữ liệu của bạn.
Sao chép dữ liệu cũng có thể hữu ích hoặc gây phiền toái; một số nó có thể là cần thiết, có thể chỉ ra giá trị, và có thể phản ánh một trạng thái chính xác của dữ liệu. Ví dụ: hồ sơ của khách hàng có nhiều tài khoản có thể được đại diện với nhiều mục (kỹ thuật, anyway) nhân bản và lặp đi lặp lại của cùng một hồ sơ.
Cũng giống như vậy, khi các hồ sơ trùng lặp không đóng góp giá trị cho việc phân tích và không cần thiết thì việc loại bỏ chúng có thể có giá trị to lớn. Điều này đặc biệt đúng đối với các tập dữ liệu lớn, trong đó việc loại bỏ các bản ghi trùng lặp có thể đơn giản hóa sự phức tạp của dữ liệu và giảm thời gian cần để phân tích.
Bạn có thể ngăn ngừa dữ liệu không chính xác vào hệ thống bằng cách áp dụng một số quy trình cụ thể:
Kiểm tra chất lượng của viện và xác nhận dữ liệu cho tất cả dữ liệu đang được thu thập.
-
Cho phép khách hàng kiểm tra và tự sửa dữ liệu cá nhân của họ.
-
Cung cấp cho khách hàng của bạn các giá trị có thể và mong muốn để lựa chọn.
-
Kiểm tra thường xuyên về tính toàn vẹn, tính nhất quán, và độ chính xác của dữ liệu.