Video: Esther Duflo: Social experiments to fight poverty 2025
Khi dữ liệu của bạn đã sẵn sàng và bạn sắp bắt đầu xây dựng mô hình tiên đoán để phân tích, bạn nên phác thảo phương pháp thử nghiệm của bạn và soạn thảo một kế hoạch kiểm tra. Việc kiểm tra nên được thực hiện bởi các mục tiêu kinh doanh mà bạn đã thu thập, ghi lại và thu thập tất cả các dữ liệu cần thiết để giúp bạn đạt được.
Ngay lập tức dơi, bạn nên đưa ra một phương pháp để kiểm tra liệu một mục tiêu kinh doanh đã đạt được thành công hay không. Vì phân tích tiên đoán đo lường khả năng xảy ra kết quả tương lai - và cách duy nhất để sẵn sàng để chạy thử nghiệm như vậy là bằng cách đào tạo mô hình của bạn về dữ liệu trong quá khứ, bạn vẫn phải xem nó có thể làm gì khi nó chống lại dữ liệu trong tương lai.
Tất nhiên, bạn không thể mạo hiểm chạy một mô hình chưa được thử nghiệm trên dữ liệu trong tương lai thực, vì vậy bạn sẽ cần phải sử dụng dữ liệu hiện có để mô phỏng dữ liệu trong tương lai một cách thực tế. Để làm như vậy, bạn phải phân chia dữ liệu bạn đang làm việc vào tập huấn và tập dữ liệu thử nghiệm.
Hãy đảm bảo rằng bạn chọn hai bộ dữ liệu này một cách ngẫu nhiên và rằng cả hai bộ dữ liệu chứa và bao gồm tất cả các tham số dữ liệu bạn đang đo.
Khi bạn chia dữ liệu thành bộ dữ liệu thử nghiệm và tập huấn, bạn sẽ tránh được bất kỳ vấn đề overfitting nào có thể phát sinh từ quá trình đào tạo mô hình trên toàn bộ tập dữ liệu và thu thập tất cả các mẫu tiếng ồn hoặc các tính năng cụ thể chỉ thuộc về bộ dữ liệu mẫu và không áp dụng cho các bộ dữ liệu khác.
Việc tách dữ liệu của bạn thành tập huấn và tập dữ liệu thử nghiệm, tương ứng khoảng 70 phần trăm và 30 phần trăm, đảm bảo đo lường chính xác hiệu suất của mô hình phân tích dự đoán mà bạn đang xây dựng. Bạn muốn đánh giá mô hình của mình đối với dữ liệu thử nghiệm vì đây là một cách đơn giản để đo lường xem dự đoán của mô hình có chính xác hay không.