Video: Video dùng hadoop mapreduce phân tích mã độc 2025
Sau giai đoạn Bản đồ và trước khi bắt đầu giai đoạn Giảm là một quá trình chuyển giao, được gọi là shuffle and sắp xếp . Ở đây, dữ liệu từ các tác vụ lập bản đồ được chuẩn bị và chuyển đến các nút mà các tác vụ giảm tốc sẽ được chạy. Khi công việc lập bản đồ hoàn thành, các kết quả được sắp xếp theo trọng số, phân vùng nếu có nhiều trình làm giảm và sau đó ghi vào đĩa.
Bạn có thể thấy khái niệm này trong hình sau, hiển thị dòng chảy xử lý dữ liệu MapReduce và sự tương tác của nó với các thành phần vật lý của cụm Hadoop. (Một lưu ý ngắn gọn: Dữ liệu trong bộ nhớ được biểu diễn bằng các ô màu trắng, và dữ liệu được lưu trữ trên đĩa được biểu diễn bởi các ô màu xám)
Để tránh các kịch bản mà hiệu suất của một công việc MapReduce bị cản trở bởi một công việc lập bản đồ straggling đang chạy trên nút slave kém hiệu quả, thì khung MapReduce sử dụng một khái niệm được gọi là
thực thi đầu cơ .
Đầu ra từ các tác vụ lập bản đồ không được ghi vào HDFS, mà là cho đĩa cục bộ trên nút nô lệ mà tác vụ lập bản đồ đã được chạy. Do đó, nó không phải được nhân rộng qua cụm Hadoop.
Bên cạnh việc nén kết xuất, bạn có thể tăng hiệu quả hoạt động bằng cách chạy một tác vụ kết hợp. Chiến thuật đơn giản này được trình bày ở đây liên quan đến việc giảm địa phương cho đầu ra cho các tác vụ lập bản đồ riêng lẻ.
Trong phần lớn các trường hợp, bạn không cần thêm chương trình, vì bạn có thể nói hệ thống sử dụng chức năng giảm tốc. Nếu bạn không sử dụng chức năng giảm tốc của mình, bạn cần đảm bảo rằng đầu ra của trình kết hợp giống với chức năng của trình giảm tốc.
Nó phụ thuộc vào framework MapReduce cho dù chức năng combiner cần được chạy một lần, nhiều lần hoặc không bao giờ, vì vậy điều quan trọng là mã của bộ kết hợp đảm bảo rằng các kết quả cuối cùng không bị ảnh hưởng bởi nhiều lần chạy. Chạy bộ kết hợp có thể mang lại lợi ích về hiệu năng bằng cách giảm bớt lượng dữ liệu trung gian, nếu không thì cần phải được truyền qua mạng.
Điều này cũng làm giảm số lượng xử lý các nhiệm vụ giảm thiểu sẽ cần phải làm. Bạn đang chạy một nhiệm vụ thêm ở đây, do đó, có thể là bất kỳ đạt được hiệu suất là không đáng kể hoặc thậm chí có thể dẫn đến hiệu suất tổng thể tồi tệ hơn. Mileage của bạn có thể khác nhau, do đó kiểm tra cẩn thận này.
Sau khi tất cả các kết quả của các tác vụ lập bản đồ được sao chép vào các nút tác vụ giảm thiểu, các tệp này được hợp nhất và sắp xếp.