Video: [BigData Engineering] P2: Phân tích và lấy thông tin theo yếu tố. 2025
Kỷ luật máy học có một danh mục các kỹ thuật phong phú và phong phú. Mahout mang một loạt các công cụ thống kê và các thuật toán vào bảng, nhưng nó chỉ nắm bắt được một phần của những kỹ thuật và thuật toán, vì nhiệm vụ chuyển đổi các mô hình này sang một khuôn khổ MapReduce là một thách thức.
Theo thời gian, Mahout chắc chắn sẽ tiếp tục mở rộng hộp công cụ thống kê của mình, nhưng cho đến khi đó tất cả các nhà khoa học dữ liệu và các nhà thống kê ở đó cần phải biết đến phần mềm mô hình hóa thay thế - đó là nơi mà R đi vào.
Ngôn ngữ R là một ngôn ngữ thống kê nguồn mở mạnh và phổ biến và môi trường phát triển. Nó cung cấp một hệ sinh thái phân tích phong phú có thể hỗ trợ các nhà khoa học dữ liệu khảo sát dữ liệu, hình dung, phân tích thống kê và tính toán, mô hình, học máy và mô phỏng. Ngôn ngữ R thường được sử dụng bởi các nhà thống kê, khai thác dữ liệu, các nhà phân tích dữ liệu, và (hiện nay) các nhà khoa học dữ liệu.
Ngôn ngữ có thể truy cập được đối với những người quen thuộc với các kiểu cấu trúc dữ liệu đơn giản - vectơ, vô hướng, khung dữ liệu (ma trận), và tương tự - thường được sử dụng bởi các nhà thống kê cũng như các lập trình viên.Các hệ thống này không phân phối được và không được phát triển để có thể mở rộng cho thế giới petabyte hiện đại của dữ liệu lớn. Các đề xuất để khắc phục những hạn chế này cần mở rộng phạm vi của R vượt quá tải trong bộ nhớ và các môi trường thực thi máy tính duy nhất, trong khi duy trì tinh thần của R cho các thuật toán thống kê dễ triển khai.