Video: Philip Evans: How data will transform business 2025
Như với nhiều khía cạnh của bất kỳ hệ thống kinh doanh nào, dữ liệu là sự sáng tạo của con người - do đó, nó có khuynh hướng có một số giới hạn về khả năng sử dụng của nó khi bạn có được nó. Dưới đây là tổng quan về một số hạn chế mà bạn có thể gặp phải:
-
Dữ liệu có thể không đầy đủ. Thiếu các giá trị, ngay cả việc thiếu một phần hoặc một phần đáng kể của dữ liệu, có thể giới hạn khả năng sử dụng của nó.
Ví dụ: dữ liệu của bạn có thể chỉ bao gồm một hoặc hai điều kiện của tập lớn hơn mà bạn đang cố gắng mô hình hóa - như khi một mô hình được xây dựng để phân tích hiệu suất của thị trường chứng khoán chỉ có dữ liệu có sẵn trong 5 năm qua, dữ liệu và mô hình hướng tới giả định của một thị trường tăng trưởng.
Đảm bảo bạn đang xem khung thời gian cho bạn một bức tranh hoàn chỉnh về sự dao động tự nhiên của dữ liệu; dữ liệu của bạn không được giới hạn bởimùa vụ . Nếu bạn đang sử dụng dữ liệu từ các cuộc khảo sát, lưu ý rằng mọi người không phải lúc nào cũng cung cấp thông tin chính xác.
-
Không phải tất cả mọi người sẽ trả lời một cách trung thực về (nói) số lần họ tập thể dục - hoặc bao nhiêu đồ uống có cồn mà họ tiêu thụ - mỗi tuần. Mọi người có thể không gian dối như ý thức, nhưng dữ liệu vẫn còn lệch.
-
Dữ liệu được thu thập từ các nguồn đa dạng như khảo sát, thư điện tử, các mẫu nhập dữ liệu, và trang web của công ty sẽ có các thuộc tính và cấu trúc khác nhau. Dữ liệu từ các nguồn khác nhau có thể không có nhiều sự tương thích giữa các trường dữ liệu. Những dữ liệu này đòi hỏi phải có tiền xử lý lớn trước khi nó sẵn sàng phân tích. Thanh bên cạnh cung cấp một ví dụ.
Để xác định những hạn chế của dữ liệu, hãy đảm bảo:
Xác minh tất cả các biến bạn sẽ sử dụng trong mô hình của mình.
-
Đánh giá phạm vi của dữ liệu, đặc biệt là theo thời gian, vì vậy mô hình của bạn có thể tránh được cái bẫy theo mùa.
-
Kiểm tra các giá trị còn thiếu, xác định chúng và đánh giá tác động của chúng đối với phân tích tổng thể.
-
Theo dõi các giá trị cực đoan (ngoại lệ) và quyết định có đưa chúng vào phân tích hay không.
-
Xác nhận rằng tập huấn luyện và dữ liệu thử nghiệm đủ lớn.
-
Đảm bảo
-
kiểu dữ liệu (số nguyên, giá trị thập phân hoặc các ký tự, v.v.) là chính xác và đặt giới hạn trên và dưới của các giá trị có thể có. Chú ý thêm đến tích hợp dữ liệu khi dữ liệu của bạn đến từ nhiều nguồn.
-
Hãy chắc chắn bạn hiểu nguồn dữ liệu và ảnh hưởng của chúng đến chất lượng chung của dữ liệu.
Chọn một bộ dữ liệu có liên quan đại diện cho toàn bộ dân cư.
-
Chọn các thông số phù hợp cho phân tích của bạn.
-
Ngay cả sau khi chăm sóc và chú ý, đừng ngạc nhiên nếu dữ liệu của bạn vẫn cần tiền xử lý trước khi bạn có thể phân tích chính xác. Xử lý tiền xử lý thường mất nhiều thời gian và nỗ lực đáng kể bởi vì nó phải giải quyết một số vấn đề liên quan đến dữ liệu gốc - những vấn đề này bao gồm:
Bất kỳ giá trị nào bị thiếu trong dữ liệu.
-
Bất kỳ sự mâu thuẫn và / hoặc lỗi nào tồn tại trong dữ liệu.
-
Bất kỳ bản sao hoặc ngoại lệ nào trong dữ liệu.
-
Bất kỳ sự bình thường hóa hoặc sự chuyển đổi khác của dữ liệu.
-
Bất kỳ dữ liệu có nguồn gốc cần thiết cho việc phân tích.