Video: 8 bí ẩn kì lạ xoay quanh chiếc máy tính của bạn 2025
Việc khai thác dữ liệu được thực hiện bằng cách dùng thử và sai sót, và vì thế, đối với những người khai thác dữ liệu, những sai lầm chỉ là tự nhiên. Những sai lầm có thể có giá trị, nói cách khác, ít nhất là trong một số điều kiện. Tuy nhiên, không phải tất cả những sai lầm đều được tạo ra như nhau. Một số chỉ tránh được tốt hơn. Danh sách sau đây cung cấp mười sai lầm như vậy. Nếu bạn đọc cẩn thận, và cam kết với trí nhớ, bạn chỉ có thể tránh một vài va chạm trên đường cong học tập:
-
Xóa kiểm tra chất lượng dữ liệu: Hầu hết các chuyên viên khai thác dữ liệu nghĩ rằng phát triển các mô hình tiên đoán là thú vị hơn so với xem lại dữ liệu về các vấn đề về chất lượng. Nhưng nếu bạn không phát hiện được và sửa vấn đề chất lượng dữ liệu, bạn có thể kết thúc bằng những dự đoán vô giá trị.
-
Thiếu điểm: Bạn đã khám phá ra một điều thú vị! Đó là tốt đẹp, nhưng nếu nó không phải là cũng có liên quan đến vấn đề kinh doanh bạn đặt ra để giải quyết, tốt, nó không có liên quan ở tất cả. Lấy lại phong độ.
-
Bạn khám phá một tập dữ liệu và nhận thấy rằng khi Biến A tăng lên, B biến cũng tăng. Điều này có thể xảy ra do biến A ảnh hưởng đến biến B hoặc vì biến B ảnh hưởng đến biến A. Mặt khác, có thể cả hai đều chịu ảnh hưởng bởi một số biến khác mà bạn chưa xem xét. Hoặc nó có thể là một sự trùng hợp một lần. Ai có thể nói?
-
Đừng giả sử rằng các mối quan hệ bạn quan sát trong dữ liệu sẽ lặp lại trong những hoàn cảnh khác nhau. Nếu dữ liệu của bạn được thu thập trong một môi trường mát mẻ, đừng cho rằng mọi thứ sẽ hoạt động theo cùng một cách trong cài đặt nhà máy nóng. Cược vào các kết quả không có ý nghĩa:
-
Các phương pháp khai thác dữ liệu là không chính thức và thường không được hỗ trợ bằng phương pháp và lý thuyết khoa học, vì vậy kết quả của bạn có ý nghĩa kinh doanh tốt hơn. Nếu không có lời giải thích chung cho kết quả bạn đưa ra, quản lý điều hành của bạn có lẽ sẽ không nghiêm túc, và họ không nên. Yêu thích một phương pháp mô hình đặc biệt:
-
Không có kiểu mô hình khai thác dữ liệu đơn nào phù hợp với mọi tình huống. Đưa một mô hình vào sản xuất mà không có kiểm tra đầy đủ:
-
Không đặt cược doanh nghiệp của bạn trên mô hình dự đoán cho đến khi bạn kiểm tra nó với dữ liệu holdout và trên một quy mô nhỏ tại hiện trường. Bỏ qua các kết quả bạn không thích:
-
Nếu bạn bỏ qua dữ liệu của bạn bây giờ, nó sẽ trở lại một ngày và nói, "Tôi đã nói với bạn như vậy. " Sử dụng khai thác dữ liệu để giải quyết mọi nhu cầu phân tích dữ liệu:
-
Khai thác dữ liệu có giá trị to lớn, nhưng một số ứng dụng vẫn đòi hỏi các phương pháp thu thập dữ liệu nghiêm ngặt, phân tích thống kê chính thức và phương pháp khoa học. Giả sử rằng các kỹ thuật phân tích dữ liệu truyền thống không còn quan trọng nữa:
-
Hãy tham khảo mục đầu tiên.