Video: Hướng dẫn cài đặt Hadoop 2.2.0 (single node cluster) 2025
Tại cốt lõi của nó, MapReduce là một mô hình lập trình để xử lý bộ dữ liệu được lưu trữ theo cách phân tán qua các nút nô lệ của Hadoop cluster. Khái niệm then chốt ở đây là chia và chinh phục. Cụ thể, bạn muốn phá vỡ một bộ dữ liệu lớn thành nhiều phần nhỏ hơn và xử lý chúng song song với cùng một thuật toán.
Với Hadoop Distributed File System (HDFS), các tệp tin đã được chia thành các phần có kích thước nhỏ. MapReduce là những gì bạn sử dụng để xử lý tất cả các mảnh.
Xác định chính xác các bộ dữ liệu để xử lý từ các khối dữ liệu. Điều này liên quan đến tính toán nơi mà các hồ sơ được xử lý được đặt trong các khối dữ liệu.-
Chạy thuật toán được chỉ định chống lại mỗi bản ghi trong tập dữ liệu cho đến khi tất cả hồ sơ được xử lý.
-
Trường hợp cá nhân của ứng dụng đang chạy chống lại một khối dữ liệu trong một bộ dữ liệu được gọi là nhiệm vụ lập bản đồ
. (Đây là phần ánh xạ của MapReduce.)
-
(Các kết quả đầu ra được kết hợp tạm thời, nói cách khác.) Giai đoạn này là tùy chọn bởi vì, trong một số trường hợp thông thường, nó không phải là mong muốn.
Dựa vào yêu cầu phân vùng, hãy nhóm các phân vùng có thể áp dụng của dữ liệu từ các bộ kết quả của người lập bản đồ.
-
Đun sôi bộ kết quả từ người lập bản đồ vào một bộ kết quả duy nhất - Giảm phần của MapReduce.
-
nhiệm vụ giảm . (Như kỳ lạ vì nó có thể xảy ra, vì "Reduce" là một phần của tên MapReduce, giai đoạn này có thể là tùy chọn, các ứng dụng mà không có giảm tốc được gọi là các công việc chỉ có bản đồ , có thể hữu ích khi không có cần phải kết hợp các bộ kết quả từ các nhiệm vụ bản đồ.)