Video: How to design your own task tracker, To Do List in excel with dashboards, reports and charts 2025
Việc xử lý MapReduce trong Hadoop 1 được thực hiện bởi các trình khai báo JobTracker và TaskTracker. JobTracker duy trì chế độ xem tất cả các tài nguyên xử lý sẵn có trong cluster Hadoop, và khi các yêu cầu ứng dụng được đưa ra, nó lên lịch và triển khai chúng tới các nút TaskTracker để thực hiện.
Khi các ứng dụng đang chạy, JobTracker nhận các cập nhật trạng thái từ các nút TaskTracker để theo dõi sự tiến bộ của chúng và, nếu cần thiết, phối hợp xử lý bất kỳ lỗi nào. JobTracker cần chạy trên một nút chính trong cluster Hadoop khi nó phối hợp thực hiện tất cả các ứng dụng MapReduce trong cluster, vì vậy đó là một dịch vụ quan trọng.
Là một quá trình nô lệ, TaskTracker nhận được yêu cầu xử lý từ JobTracker. Trách nhiệm chính của nó là theo dõi việc thực hiện các khối lượng công việc MapReduce xảy ra tại địa phương trên nút nô lệ của nó và gửi các thông tin cập nhật trạng thái cho JobTracker.Khi điều chỉnh một cụm Hadoop, việc thiết lập số lượng bản đồ tối ưu và giảm khe là rất quan trọng. Số khe phải được cấu hình cẩn thận dựa trên bộ nhớ, đĩa và tài nguyên CPU có sẵn trên mỗi nút nô lệ. Bộ nhớ là quan trọng nhất của ba nguồn lực này từ một quan điểm hiệu suất. Như vậy, tổng số khe nhiệm vụ cần được cân bằng với số lượng bộ nhớ tối đa được cấp phát cho kích thước heap của Java.
Lưu ý rằng mỗi bản đồ và giảm nhiệm vụ sẽ sinh ra máy ảo Java riêng (JVM) và heap đó đại diện cho số lượng bộ nhớ được phân bổ cho mỗi JVM. Tỷ lệ khe bản đồ để giảm khe cắm cũng là một cân nhắc quan trọng.
Ví dụ: nếu bạn có nhiều khe bản đồ và không đủ chỗ để giảm tải cho khối lượng công việc của bạn, các khe bản đồ sẽ có xu hướng ngồi nhàn rỗi, trong khi các công việc của bạn đang chờ để giảm khe để có mặt.Các bộ khe khác nhau được xác định cho nhiệm vụ bản đồ và giảm nhiệm vụ vì chúng sử dụng các tài nguyên máy tính khá khác nhau.Nhiệm vụ bản đồ được phân công dựa trên dữ liệu địa phương, và chúng phụ thuộc rất nhiều vào I / O và CPU của đĩa. Giảm nhiệm vụ được chỉ định dựa trên tính khả dụng, không phải ở địa phương, và phụ thuộc rất nhiều vào băng thông mạng vì họ cần phải nhận được kết xuất từ các tác vụ bản đồ.