Video: Phân Tích Dữ Liệu BIGDATA - [ [Trần Minh Quang] 2025
Do nhiều triển khai Hadoop hiện tại vẫn chưa sử dụng Nhà thương thuyết Tài nguyên Khác (YARN), hãy xem cách Hadoop quản lý việc xử lý dữ liệu của nó trước những ngày của Hadoop 2. Tập trung vào vai trò mà các daemon của JobTracker và TaskMaster taskTracker chơi trong việc xử lý MapReduce.
Toàn bộ việc sử dụng các hệ thống phân tán là để có thể triển khai các tài nguyên máy tính trong một mạng máy tính khép kín theo cách thức có khả năng chịu lỗi, dễ dàng và không tốn kém.
Khái niệm này, được gọi làsự tách biệt các mối quan tâm, đảm bảo rằng nếu bạn đang có, ví dụ như lập trình ứng dụng, bạn không cần phải lo lắng về các chi tiết cụ thể, ví dụ như sự chuyển đổi dự phòng nhiệm vụ bản đồ. Trong Hadoop, hệ thống bao gồm bốn lớp khác biệt, như được hiển thị: Hệ thống tệp phân phối Hadoop (HDFS) là lớp lưu trữ dữ liệu, kết quả tạm thời và tập kết quả cuối cùng được lưu trữ.
-
Quản lý tài nguyên: Ngoài không gian đĩa, tất cả các nút nô lệ trong cụm Hadoop đều có chu kỳ CPU, RAM và băng thông mạng. Một hệ thống như Hadoop cần phải có khả năng bành trướng ra các nguồn lực này để nhiều ứng dụng và người dùng có thể chia sẻ cluster theo những cách có thể dự báo và có thể điều chỉnh được. Công việc này được thực hiện bởi các daemon JobTracker.
-
Quy trình quy trình MapReduce xác định việc thực hiện tất cả các ứng dụng trong Hadoop 1. Điều này bắt đầu với giai đoạn bản đồ; tiếp tục với tập hợp với xáo trộn, sắp xếp, hoặc hợp nhất; và kết thúc bằng giai đoạn giảm. Trong Hadoop 1, điều này cũng được quản lý bởi trình nền của JobTracker, với sự thực thi cục bộ đang được quản lý bởi các trình nền TaskTracker đang chạy trên các nút nô lệ.
Giao diện lập trình ứng dụng (API): -
Các ứng dụng được phát triển cho Hadoop 1 cần được mã hoá sử dụng API MapReduce. Trong Hadoop 1, dự án Hive and Pig cung cấp cho các lập trình viên với các giao diện dễ dàng hơn để viết các ứng dụng Hadoop, và bên dưới mui xe, mã của họ biên dịch xuống MapReduce. Trong thế giới của Hadoop 1 (là thế giới duy nhất mà bạn đã có cho đến gần đây), tất cả xử lý dữ liệu xoay quanh MapReduce.
-