Các giới hạn của dữ liệu đánh giá trong quá trình học máy - núm vú

Video: Clip học sinh vào nhà nghỉ | Camera giấu kín | ANTV 2025

Dữ liệu đánh giá có những hạn chế trong học tập máy. và khác với bạn.Nhận được dữ liệu đánh giá cho phép một hệ thống recommender để học hỏi từ những kinh nghiệm của nhiều khách hàng.Đánh giá dữ liệu có thể lấy được từ phán đoán (như đánh giá một sản phẩm bằng cách sử dụng các ngôi sao hoặc số) hoặc một sự thực (một nhị phân 1/0 mà chỉ đơn giản cho biết bạn đã mua sản phẩm, xem một bộ phim, hoặc ngừng duyệt qua một trang web nhất định).

Bất kể nguồn hoặc loại dữ liệu, dữ liệu đánh giá luôn là về các hành vi. Để đánh giá một bộ phim, bạn phải quyết định xem nó, xem nó, và đánh giá nó dựa trên kinh nghiệm của bạn khi xem phim. Các hệ thống recommender thực tế học từ dữ liệu đánh giá theo những cách khác nhau:

Lọc hợp tác: Các trận đấu người đánh giá dựa trên sự giống nhau về sản phẩm hoặc phim được sử dụng trong quá khứ.Bạn có thể nhận được đề xuất dựa trên các mục thích bởi những người tương tự như bạn hoặc trên các mục tương tự như những người bạn thích.
Lọc nội dung: Không vượt qua thực tế là bạn đã xem một bộ phim. Nó kiểm tra các tính năng liên quan đến bạn và bộ phim để xác định liệu một đối sánh có tồn tại hay không dựa trên các danh mục lớn hơn mà các tính năng này đại diện. Ví dụ: nếu bạn là phụ nữ thích phim hành động, người giới thiệu sẽ tìm kiếm đề xuất bao gồm giao điểm của hai loại này.
Kiến nghị dựa trên kiến thức: Dựa trên siêu dữ liệu, chẳng hạn như các sở thích được thể hiện bởi người dùng và mô tả sản phẩm. Nó phụ thuộc vào học máy và có hiệu quả khi bạn không có đủ dữ liệu về hành vi để xác định đặc tính của người dùng hoặc sản phẩm. Đây được gọi là khởi động lạnh và đại diện cho một trong những nhiệm vụ giới thiệu khó nhất vì bạn không có quyền truy cập vào lọc cộng tác hoặc lọc dựa trên nội dung.

Khi sử dụng bộ lọc cộng tác, bạn cần phải tính tương tự. Ngoài Euclidean, Manhattan, và Chebyshev khoảng cách, phần còn lại của thông tin này thảo luận về sự giống nhau cô sin. Sự tương tự cosin đo khoảng cách cosine góc giữa hai vectơ, điều này có vẻ như là một khái niệm khó nắm bắt nhưng chỉ là một cách để đo góc trong không gian dữ liệu.

Hãy tưởng tượng một không gian có các tính năng và có hai điểm. Bạn có thể đo khoảng cách giữa các điểm. Ví dụ, bạn có thể sử dụng khoảng cách Euclide, đây là sự lựa chọn hoàn hảo khi bạn có ít kích thước, nhưng không thành công khi bạn có nhiều kích thước do sự nguyền rủa chiều kích.

Ý tưởng đằng sau khoảng cách cosine là sử dụng góc tạo bởi hai điểm nối với nguồn không gian (điểm mà tất cả các chiều không bằng nhau) thay thế. Nếu các điểm gần, góc hẹp, cho dù có bao nhiêu kích thước. Nếu chúng ở xa, góc là khá lớn.

Sự giống nhau về cosin thực hiện khoảng cách cosin theo tỷ lệ phần trăm và khá hiệu quả trong việc nói liệu một người dùng có giống người khác hay liệu một bộ phim có thể được liên kết với nhau hay không bởi vì những người sử dụng tương tự ủng hộ nó. Ví dụ sau xác định những bộ phim tương tự nhất cho phim 50, Star Wars.

print (colins (MovieLense [50]))

[1] "Chiến tranh giữa các vì sao (1977)"

similar_movies <- tương tự (MovieLense [50],

MovieLense [-50],

method = "cosine",

which = "items")

colnames (similar_movies) [which (similar_movies> 0.70)]

[1] "Toy Story (1995)" < (1981) "

" Sự trở về của Jedi (1983) "