Video: Machine learning: Các phương pháp lựa chọn mô hình, cross-validation 2025
Đôi khi, học máy đòi hỏi bạn phải dùng đến sự hợp tác chéo. Một vấn đề đáng chú ý với việc chia tách tập huấn / tập kiểm tra là bạn đang thực sự đưa ra sự thiên vị vào thử nghiệm của mình vì bạn đang giảm kích thước dữ liệu đào tạo trong mẫu. Khi bạn tách dữ liệu của mình, bạn có thể thực sự giữ một số ví dụ hữu ích ngoài việc đào tạo. Hơn nữa, đôi khi dữ liệu của bạn quá phức tạp đến nỗi bộ kiểm tra, mặc dù dường như tương tự như tập huấn luyện, không thực sự giống nhau bởi vì sự kết hợp các giá trị khác nhau (điển hình là các bộ dữ liệu chiều sâu).
Những vấn đề này làm tăng tính không ổn định của các kết quả lấy mẫu khi bạn không có nhiều ví dụ. Nguy cơ phân chia dữ liệu của bạn một cách không thuận lợi cũng giải thích tại sao việc chia tách tàu / bài kiểm tra không phải là giải pháp được yêu thích bởi các học viên máy học khi bạn phải đánh giá và điều chỉnh một giải pháp học máy.
Xác nhận chéo dựa trên k-folds thực sự là câu trả lời. Nó dựa vào phân chia ngẫu nhiên, nhưng lần này nó chia tách dữ liệu của bạn thành một số k nếp gấp (phần dữ liệu của bạn) có kích thước bằng nhau. Sau đó, mỗi lần gấp lại được tổ chức lần lượt như là một tập kiểm tra và những người khác được sử dụng để đào tạo. Mỗi lần lặp sử dụng một lần khác như một bài kiểm tra, tạo ra ước lượng lỗi.
Hoạt động tốt bất kể số ví dụ, bởi vì bằng cách tăng số nếp gấp sử dụng, bạn thực sự đang tăng kích cỡ tập luyện của mình (lớn hơn k, tập huấn luyện lớn hơn, giảm thiên vị) và giảm kích thước của bộ kiểm tra.
- Sự khác biệt trong phân phối cho các nếp gấp cá nhân không quan trọng như nhiều. Khi một lần có phân phối khác so với các phiên bản khác, nó chỉ được sử dụng một lần làm bộ thử nghiệm và pha trộn với những người khác như một phần của tập huấn luyện trong các bài kiểm tra còn lại.
- Bạn đang thực sự kiểm tra tất cả các quan sát, vì vậy bạn đang kiểm tra hoàn toàn giả thuyết học máy của bạn bằng cách sử dụng tất cả dữ liệu bạn có.
- Bằng cách lấy ý nghĩa của kết quả, bạn có thể mong đợi một hiệu suất tiên đoán. Ngoài ra, độ lệch tiêu chuẩn của kết quả có thể cho bạn biết bạn có thể mong đợi bao nhiêu biến thể trong dữ liệu thực ngoài dữ liệu. Sự thay đổi cao hơn trong các màn trình diễn được kiểm chứng qua lại cho bạn biết các dữ liệu cực kỳ đa dạng mà thuật toán không có khả năng bắt kịp.
- Việc sử dụng xác nhận chéo k-fold luôn là sự lựa chọn tối ưu trừ khi dữ liệu bạn đang sử dụng có một số thứ tự quan trọng. Ví dụ: nó có thể bao gồm một loạt thời gian, chẳng hạn như bán hàng. Trong trường hợp đó, bạn không nên sử dụng một phương pháp lấy mẫu ngẫu nhiên mà dựa vào một sự phân chia xe lửa / thử nghiệm dựa trên trình tự ban đầu để đơn đặt hàng được bảo toàn và bạn có thể kiểm tra các ví dụ cuối cùng của loạt lệnh đó.