Mục lục:
- Làm thế nào để sử dụng cross-validation
- Làm thế nào để cân bằng sự thiên vị và sự sai lệch
- Làm thế nào để khắc phục sự cố ý tưởng
Video: Buffet - Mô hình kinh doanh “lời không tưởng”: Khách ăn càng nhiều, nhà hàng càng lãi 2025
Để có thể kiểm tra mô hình phân tích tiên đoán mà bạn đã xây dựng, bạn cần chia bộ dữ liệu của mình thành hai bộ: tập huấn và kiểm tra tập dữ liệu. Những bộ dữ liệu này nên được chọn ngẫu nhiên và phải đại diện cho số dân thực tế.
-
Dữ liệu tương tự nên được sử dụng cho cả tập huấn và tập dữ liệu kiểm tra.
-
Thông thường tập dữ liệu huấn luyện lớn hơn đáng kể so với số liệu đo kiểm.
-
Sử dụng tập dữ liệu kiểm tra sẽ giúp bạn tránh được các lỗi như overfitting.
-
Mô hình được huấn luyện được chạy dựa trên dữ liệu thử nghiệm để xem mô hình sẽ hoạt động tốt như thế nào.
Một số nhà khoa học dữ liệu muốn có một bộ dữ liệu thứ ba có các đặc tính tương tự như trong số hai: số liệu xác nhận dữ liệu . Ý tưởng là nếu bạn đang tích cực sử dụng dữ liệu thử nghiệm để tinh chỉnh mô hình của mình, bạn nên sử dụng một bộ (thứ ba) riêng biệt để kiểm tra độ chính xác của mô hình.
Có một bộ dữ liệu xác nhận, không được sử dụng như là một phần của quá trình phát triển mô hình của bạn, giúp đảm bảo tính trung lập về độ chính xác và hiệu quả của mô hình.
Nếu bạn đã xây dựng nhiều mô hình sử dụng các thuật toán khác nhau, mẫu xác nhận cũng có thể giúp bạn đánh giá mô hình nào hoạt động tốt nhất.
Hãy chắc chắn rằng bạn kiểm tra lại công việc của bạn phát triển và thử nghiệm các mô hình. Đặc biệt, hãy hoài nghi nếu hiệu suất hoặc tính chính xác của mô hình có vẻ quá tốt để có thể đúng. Lỗi có thể xảy ra ở những nơi bạn ít mong đợi nhất. Ví dụ, tính ngày không chính xác cho dữ liệu chuỗi thời gian có thể dẫn đến kết quả sai.
Làm thế nào để sử dụng cross-validation
Cross-validation là một kỹ thuật phổ biến mà bạn có thể sử dụng để đánh giá và xác nhận mô hình của bạn. Cùng một nguyên tắc sử dụng các bộ dữ liệu riêng biệt để thử nghiệm và đào tạo áp dụng ở đây: Dữ liệu huấn luyện được sử dụng để xây dựng mô hình; mô hình được chạy trên bộ thử nghiệm để dự đoán dữ liệu nó đã không nhìn thấy trước đây, đó là một cách để đánh giá độ chính xác của nó.
Trong quá trình xác nhận chéo, dữ liệu lịch sử được chia thành số X của tập con. Mỗi lần một tập hợp con được chọn để sử dụng làm dữ liệu kiểm tra, phần còn lại của các tập con được sử dụng làm dữ liệu huấn luyện. Sau đó, vào lần chạy kế tiếp, bộ test trước đó sẽ trở thành một trong những bộ huấn luyện và một trong những bộ huấn luyện cũ trở thành bộ test.
Quá trình này tiếp tục cho đến khi tất cả các tập con của tập X đó đã được sử dụng làm tập kiểm tra.
Ví dụ: hãy tưởng tượng bạn có một tập dữ liệu mà bạn đã chia thành 5 bộ số từ 1 đến 5. Trong lần chạy đầu tiên, bạn sử dụng tập 1 làm tập kiểm tra và sử dụng bộ 2, 3, 4 và 5 làm tập huấn luyện.Sau đó, vào lần chạy thứ hai, bạn sử dụng tập 2 làm tập kiểm tra và tập 1, 3, 4, và 5 làm tập huấn luyện.
Bạn tiếp tục quá trình này cho đến khi tất cả các tập hợp con của 5 bộ đã được sử dụng làm tập kiểm tra.
Tính hợp pháp chéo cho phép bạn sử dụng mọi điểm dữ liệu trong dữ liệu lịch sử của bạn cho cả đào tạo và thử nghiệm. Kỹ thuật này hiệu quả hơn việc tách dữ liệu lịch sử của bạn thành hai bộ, sử dụng tập hợp có nhiều dữ liệu nhất để huấn luyện, sử dụng bộ khác để thử nghiệm và để nó ở đó.
Khi bạn kiểm tra chéo dữ liệu của mình, bạn sẽ tự bảo vệ mình chống lại dữ liệu thử nghiệm ngẫu nhiên quá dễ dự đoán - sẽ cho bạn ấn tượng sai lầm rằng mô hình của bạn là chính xác. Hoặc nếu bạn chọn dữ liệu thử nghiệm quá khó đoán trước, bạn có thể kết luận sai rằng mô hình của bạn không hoạt động như bạn mong đợi.
Cross-validation được sử dụng rộng rãi không chỉ để xác nhận độ chính xác của mô hình mà còn để so sánh hiệu suất của nhiều mô hình.
Làm thế nào để cân bằng sự thiên vị và sự sai lệch
Bias và sự sai lệch là hai nguồn lỗi mà có thể xảy ra khi bạn đang xây dựng mô hình phân tích của bạn.
Bias là kết quả của việc xây dựng mô hình làm đơn giản hóa đáng kể trình bày các mối quan hệ giữa các điểm dữ liệu trong dữ liệu lịch sử được sử dụng để xây dựng mô hình.
Sự khác biệt là kết quả của việc xây dựng mô hình cụ thể rõ ràng đối với dữ liệu được sử dụng để xây dựng mô hình.
Đạt được sự cân bằng giữa sai lệch và sai lệch - bằng cách giảm phương sai và dung sai một số sai lệch - có thể dẫn đến một mô hình tiên đoán tốt hơn. Việc thương mại này thường dẫn đến việc xây dựng các mô hình tiên đoán ít phức tạp hơn.
Nhiều thuật toán khai thác dữ liệu đã được tạo ra để đưa vào tài khoản thương mại-off giữa thiên vị và phương sai.
Làm thế nào để khắc phục sự cố ý tưởng
Khi bạn đang thử nghiệm mô hình của mình và bạn cảm thấy mình không đi đến đâu, dưới đây là một vài ý kiến để bạn có thể bắt đầu theo dõi:
-
Luôn luôn kiểm tra lại công việc của bạn. Bạn có thể đã bỏ qua một cái gì đó mà bạn cho là đúng nhưng không. Những sai sót như vậy có thể hiển thị (ví dụ) giữa các giá trị của một biến tiên đoán trong tập dữ liệu của bạn hoặc trong quá trình tiền xử lý bạn đã áp dụng cho dữ liệu.
-
Nếu thuật toán bạn chọn không mang lại bất kỳ kết quả nào, hãy thử một thuật toán khác. Ví dụ: bạn hãy thử một số thuật toán phân loại có sẵn và phụ thuộc vào dữ liệu của bạn và các mục tiêu kinh doanh của mô hình của bạn, một trong số đó có thể hoạt động tốt hơn các mô hình khác.
-
Hãy thử chọn các biến khác hoặc tạo các biến mới xuất phát. Luôn luôn theo dõi các biến có khả năng dự báo.
-
Thường xuyên tham khảo ý kiến các chuyên gia trong lĩnh vực kinh doanh có thể giúp bạn hiểu được dữ liệu, chọn các biến số và giải thích kết quả của mô hình.