Trang Chủ Tài chính Cá nhân Tránh các bẫy mẫu và bẫy rò rỉ trong máy học - núm vú

Tránh các bẫy mẫu và bẫy rò rỉ trong máy học - núm vú

Video: THI SÁNG TẠO KHOA HỌC KỸ THUẬT CẤP TỈNH 2018 PHẦN 1 2025

Video: THI SÁNG TẠO KHOA HỌC KỸ THUẬT CẤP TỈNH 2018 PHẦN 1 2025
Anonim

Cách tiếp cận xác nhận để học máy là một sự kiểm tra của một biện pháp khắc phục có thể để xu hướng lấy mẫu trong. Xu hướng lấy mẫu trong mẫu có thể xảy ra với dữ liệu của bạn trước khi việc học máy được đưa vào hoạt động và nó gây ra sự khác biệt lớn về các ước tính sau. Ngoài ra, bạn cần phải nhận thức được các bẫy rò rỉ có thể xảy ra khi một số thông tin từ mẫu không vượt qua đối với dữ liệu trong mẫu. Vấn đề này có thể xuất hiện khi bạn chuẩn bị dữ liệu hoặc sau khi mô hình máy học của bạn đã sẵn sàng và hoạt động.

Phương pháp khắc phục được gọi là sự kết hợp của các dự đoán, hoạt động hoàn hảo khi mẫu huấn luyện của bạn không bị méo và phân phối khác với mẫu như khi tất cả các lớp học của bạn có mặt nhưng không đúng tỷ lệ (như một ví dụ). Trong những trường hợp như vậy, kết quả của bạn bị ảnh hưởng bởi một sự khác biệt nào đó của các ước tính mà bạn có thể ổn định bằng một số cách: bằng cách lấy mẫu lại, như trong khởi động; bằng cách lấy mẫu (lấy một mẫu của mẫu); hoặc bằng cách sử dụng các mẫu nhỏ hơn (làm tăng sự thiên vị).

Để hiểu cách thức hoạt động của ensembling hiệu quả, hãy hình dung hình ảnh con bò đực. Nếu mẫu của bạn ảnh hưởng đến dự đoán, một số dự đoán sẽ chính xác và những người khác sẽ sai theo cách ngẫu nhiên. Nếu bạn thay đổi mẫu, các dự đoán đúng sẽ tiếp tục đúng, nhưng những sai lầm sẽ bắt đầu là các biến thể giữa các giá trị khác nhau. Một số giá trị sẽ là dự đoán chính xác mà bạn đang tìm kiếm; những người khác sẽ chỉ dao động quanh một bên phải.

Bằng cách so sánh các kết quả, bạn có thể đoán rằng những gì lặp lại là câu trả lời đúng. Bạn cũng có thể lấy trung bình các câu trả lời và đoán rằng câu trả lời đúng phải nằm ở giữa các giá trị. Với trò chơi bull-eye, bạn có thể hình dung các bức ảnh của các trò chơi khác nhau: Nếu vấn đề là sai, cuối cùng bạn sẽ đoán rằng mục tiêu nằm ở khu vực bị ảnh hưởng nhiều nhất hoặc ít nhất là ở trung tâm của tất cả các bức ảnh.

Trong hầu hết các trường hợp, cách tiếp cận này chứng minh là chính xác và cải thiện quá trình học của bạn rất nhiều. Khi vấn đề của bạn là thiên vị và không sai, việc sử dụng ensembling thực sự không gây hại cho đến khi bạn lấy mẫu quá ít. Một nguyên tắc nhỏ cho việc lấy mẫu phụ là lấy một mẫu từ 70 đến 90 phần trăm so với dữ liệu ban đầu trong mẫu. Nếu bạn muốn thực hiện công việc lắp ráp, bạn nên làm như sau:

  • Lặp đi lặp lại nhiều lần qua dữ liệu và mô hình của bạn (từ tối thiểu ba lần lặp đến hàng trăm lần).
  • Mỗi lần bạn lặp, hãy lấy mẫu (hoặc người nào khác khởi động) dữ liệu trong mẫu của bạn.
  • Sử dụng máy học tập cho mô hình trên dữ liệu được lấy mẫu lại và dự đoán các kết quả ngoài kết quả. Lưu lại những kết quả đó để sử dụng sau này.
  • Vào cuối các lần lặp lại, đối với mỗi trường hợp ngoại lệ mà bạn muốn tiên đoán, hãy dự đoán tất cả và ước tính họ nếu bạn đang hồi phục. Lấy lớp thường xuyên nhất nếu bạn đang phân loại.

Bẫy rò rỉ có thể làm bạn ngạc nhiên vì chúng có thể chứng minh là một nguồn gốc không rõ và không bị phát hiện của các vấn đề với quy trình học máy của bạn. Vấn đề là snooping, hoặc nếu không quan sát dữ liệu ngoài mẫu và quá thích nó thường xuyên. Nói tóm lại, snooping là một kiểu overfitting - chứ không chỉ là dữ liệu huấn luyện mà cả dữ liệu thử nghiệm, khiến cho vấn đề overfitting trở nên khó phát hiện hơn cho đến khi bạn có được dữ liệu mới.

Thông thường, bạn nhận ra rằng vấn đề đang trộm khi bạn đã áp dụng thuật toán học máy cho doanh nghiệp của bạn hoặc cho một dịch vụ cho công chúng, làm cho vấn đề trở thành một vấn đề mà mọi người có thể nhìn thấy.

Bạn có thể tránh snooping theo hai cách. Thứ nhất, khi vận hành vào dữ liệu, hãy cẩn thận để đào tạo, xác nhận và kiểm tra dữ liệu một cách riêng rẽ. Ngoài ra, khi xử lý, không bao giờ lấy bất kỳ thông tin nào từ xác nhận hay thử nghiệm, ngay cả những ví dụ đơn giản nhất và vô tội. Tệ hơn nữa là áp dụng một phép biến đổi phức tạp bằng cách sử dụng tất cả các dữ liệu. Ví dụ, trong lĩnh vực tài chính, tính toán trung bình và độ lệch chuẩn (có thể nói cho bạn biết rất nhiều về điều kiện thị trường và rủi ro) từ tất cả các dữ liệu đào tạo và thử nghiệm có thể làm rò rỉ thông tin quý giá về mô hình của bạn. Khi rò rỉ xảy ra, thuật toán học máy thực hiện các dự đoán trên bộ kiểm tra chứ không phải là dữ liệu ngoài mẫu của thị trường, có nghĩa là chúng không làm việc gì cả, do đó gây mất tiền.

Kiểm tra hiệu suất của các ví dụ ngoài mẫu của bạn Trong thực tế, bạn có thể mang lại một số thông tin từ việc snooping của bạn về kết quả kiểm tra để giúp bạn xác định một số thông số tốt hơn các kết quả khác hoặc dẫn bạn chọn một thuật toán học máy thay vì một thuật toán khác. Đối với mỗi mô hình hoặc tham số, hãy áp dụng lựa chọn của bạn dựa trên kết quả chẩn đoán chéo hoặc từ mẫu xác nhận. Không bao giờ bỏ qua việc lấy quà từ dữ liệu ngoài mẫu của bạn hoặc bạn sẽ hối tiếc về sau.

Tránh các bẫy mẫu và bẫy rò rỉ trong máy học - núm vú

Lựa chọn của người biên tập

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Một Infographic tốt có thể trực quan kể một câu chuyện hoặc làm một số trừu tượng hoặc điểm số dễ hiểu, nhưng không có điều này xảy ra mà không có một cơ sở dữ liệu tốt. Các chính phủ thế giới và các tổ chức liên chính phủ duy trì các cơ sở dữ liệu về tất cả các loại thống kê. Dữ liệu về nhân khẩu học, kinh tế, sức khoẻ và văn hoá của vô số nước có sẵn trực tuyến cho ...

Tương lai của Infographics cho Giáo dục - núm vú

Tương lai của Infographics cho Giáo dục - núm vú

Sinh viên ngày nay có dây từ khi sinh ra, và khi họ đến trường tuổi, họ đã quen với các bài thuyết trình đầy màu sắc, đồ họa và giải trí. Nhập thông tin đồ họa. Có thể có một vài cách mà các biểu đồ chữ ký sẽ đóng vai trò mạnh mẽ hơn trong giáo dục trong thập kỷ tới và hơn thế nữa: Giải thích các khái niệm phức tạp: Chúng ta đã phải vật lộn qua một thứ gì đó trong trường học. ...

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Bạn có thể đã nghe nói rằng " đặt nó ", mà không thể được truer khi nói đến thêm văn bản để hình dung dữ liệu. Văn bản bị đặt sai trái có thể dẫn đến hiểu sai về dữ liệu. Bạn nên thực hiện theo hai phương pháp hay nhất để đưa văn bản vào hình dung dữ liệu của bạn: Giữ toàn bộ văn bản theo chiều ngang. Nonhorizontal ...

Lựa chọn của người biên tập

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

Câu hỏi Hoàn thành văn bản trên GRE bao gồm một câu hoặc đoạn văn với một, hai hoặc ba không gian trống cho một từ hoặc từ bị thiếu. Công việc của bạn là chọn từ hoặc từ thích hợp nhất để điền vào chỗ trống trong câu. Đây là một số ví dụ để bạn thử. Mẫu ...

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Khi bạn phải dịch một vấn đề từ vào toán học trên GRE, biết đâu để bắt đầu thường là thách thức khó khăn nhất. Điều quan trọng là bắt đầu với những gì bạn biết và làm việc theo những gì bạn không biết. Bạn có thể giải quyết hầu hết các vấn đề từ bằng cách tiếp cận theo từng bước: Đọc toàn bộ ...

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Viết luận văn (và ghi điểm) trên GRE là chủ quan đến một mức độ nào. Không có câu trả lời đúng hay sai, và mỗi bài luận hơi khác nhau, dựa trên quan điểm, kiến ​​thức, kinh nghiệm, cách viết của người thử nghiệm, v.v ... Tuy nhiên, những người đánh giá, có một danh sách các tiêu chuẩn cụ thể để phân loại bài luận của bạn. Để thực hiện tốt, hãy chắc chắn làm ...

Lựa chọn của người biên tập

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Ribbon trong PowerPoint 2011 cho Mac cho phép bạn thêm nội dung bằng các tùy chọn trên tab Trang chủ, trong nhóm Chèn. Mỗi lần bạn thêm một nội dung nào đó vào trang trình chiếu, nó được đặt trong một lớp trên đầu của tất cả các đối tượng hiện có trên trang trình bày. Chèn nội dung văn bản vào trang trình bày PowerPoint Nhấp vào tab Trang chủ của Ribbon và ...

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Tăng cường PowerPoint 2011 của bạn cho Mac trình bày với các đoạn âm thanh. Sử dụng âm thanh và âm nhạc là một cách hay để thu hút khán giả của bạn. Trong PowerPoint 2011 dành cho Mac, bạn có thể chọn một trong hai cách để kích hoạt hộp thoại Insert Audio: Từ Media Browser: Sử dụng tab Audio và kéo từ trình duyệt sang PowerPoint. ...

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Bao gồm cả phương tiện truyền thông trong trình tự hoạt hình của bạn là một ý tưởng tuyệt vời. Trong PowerPoint 2011 dành cho máy Mac, bạn không còn bị hạn chế khi xem phim trên đầu. Phim bây giờ hoạt động độc đáo trong lớp của riêng mình và có thể hoạt ảnh giống như bất kỳ đối tượng khác. Phim thậm chí có thể chồng chéo và theo dõi các đường dẫn chuyển động khi chúng chơi. Chỉ cần nhớ ...