Video: Hadoop - Bài 1: Giới thiệu về Big Data 2025
Hadoop là một công cụ xử lý dữ liệu mã nguồn mở do Apache Software Foundation phát triển. Hadoop hiện là chương trình đi-vào để xử lý khối lượng lớn và các loại dữ liệu vì nó được thiết kế để làm cho máy tính quy mô lớn hơn giá cả phải chăng và linh hoạt. Với sự xuất hiện của Hadoop, việc xử lý dữ liệu đại chúng đã được giới thiệu với nhiều người hơn và nhiều tổ chức hơn.
Hadoop có thể cung cấp cho bạn một giải pháp tuyệt vời để xử lý, xử lý và nhóm các luồng khối lượng dữ liệu cấu trúc, bán cấu trúc và không có cấu trúc. Bằng cách thiết lập và triển khai Hadoop, bạn sẽ có được một cách tương đối hợp lý để bắt đầu sử dụng và thu thập thông tin chi tiết từ tất cả dữ liệu của tổ chức chứ không chỉ dựa vào bộ dữ liệu giao dịch mà bạn đang ngồi ở một kho dữ liệu cũ ở đâu đó.
Hadoop là một trong những chương trình phổ biến nhất hiện có cho các yêu cầu tính toán quy mô lớn. Hadoop cung cấp một lớp bản đồ và giảm khả năng xử lý các yêu cầu xử lý dữ liệu của hầu hết các dự án dữ liệu lớn.
Thỉnh thoảng dữ liệu quá lớn và nhanh cho cả Hadoop để xử lý. Trong những trường hợp này, các tổ chức đang chuyển sang triển khai MapReduce thay thế, được tùy chỉnh nhiều hơn.
Hadoop sử dụng các nhóm phần cứng hàng hóa để lưu trữ dữ liệu. Phần cứng trong mỗi cụm được kết nối, và phần cứng này bao gồm máy chủ các máy chủ chung loại hiệu năng thấp với chi phí thấp, cung cấp các khả năng tính toán mạnh mẽ khi chạy song song qua một nhóm chia sẻ. Các máy chủ hàng hóa này còn được gọi là nút . Máy tính tính tiền làm giảm đáng kể chi phí liên quan đến việc xử lý và lưu trữ dữ liệu lớn.
Khung chế biến phân tán:-
Hadoop sử dụng Hadoop MapReduce làm khuôn khổ xử lý phân tán của nó. Một lần nữa, khuôn khổ phân phối là một khuôn khổ mạnh mẽ, nơi các tác vụ xử lý được phân bố qua các nhóm các nút để khối lượng dữ liệu lớn có thể được xử lý rất nhanh trên toàn bộ hệ thống. Hệ thống tệp phân phối:
-
Hadoop sử dụng Hệ thống tệp phân phối Hadoop (HDFS) làm hệ thống tệp phân phối của mình. Khối lượng công việc của các ứng dụng chạy trên Hadoop được chia ra giữa các nút của cụm Hadoop, và sau đó đầu ra được lưu trữ trên HDFS. Nhóm Hadoop có thể bao gồm hàng ngàn nút. Để giữ cho chi phí của quá trình nhập / xuất (I / O) thấp, các công việc Hadoop MapReduce được thực hiện càng gần với dữ liệu càng tốt.
Nghĩa là bộ vi xử lý giảm nhiệm vụ được định vị càng sát càng tốt với dữ liệu tác vụ bản đồ đi ra cần được xử lý. Thiết kế này tạo điều kiện chia sẻ yêu cầu tính toán trong xử lý dữ liệu lớn.
Hadoop cũng hỗ trợ tổ chức theo thứ bậc. Một số nút của nó được phân loại là các nút chủ, và các nút khác được phân loại là nô lệ. Dịch vụ chủ, được gọi là
JobTracker , được thiết kế để kiểm soát một số dịch vụ nô lệ. Các dịch vụ nô lệ (còn gọi là TaskTrackers ) được phân bổ cho mỗi nút. JobTracker điều khiển TaskTracker và gán các nhiệm vụ Hadoop MapReduce cho họ. Trong một phiên bản mới hơn của Hadoop, được gọi là Hadoop 2, một quản lý tài nguyên được gọi là Hadoop YARN đã được thêm vào. Đối với MapReduce trong Hadoop, YARN hoạt động như một hệ thống tích hợp để thực hiện các chức năng quản lý và sắp xếp tài nguyên.
Hadoop xử lý dữ liệu theo lô. Do đó, nếu bạn đang làm việc với dữ liệu phát trực tuyến theo thời gian thực, bạn sẽ không thể sử dụng Hadoop để xử lý các sự cố dữ liệu lớn của mình. Điều này cho biết, nó rất hữu ích để giải quyết nhiều loại khác của các vấn đề dữ liệu lớn.