Video: [BigData Engineering] P4: Cài cắm hadoop, chuẩn bị nhóm các yếu tố 2025
Các nhà đổi mới công cụ tìm kiếm như Yahoo! và Google đã phải đối mặt với một vấn đề dữ liệu bog. Họ cần phải tìm ra một cách để hiểu được lượng dữ liệu khổng lồ mà động cơ của họ đang thu thập. Các công ty này cần cả hai để hiểu những thông tin họ thu thập và làm thế nào họ có thể kiếm tiền từ dữ liệu đó để hỗ trợ mô hình kinh doanh của họ.
Hadoop đã được phát triển vì nó đại diện cho cách thức thực tiễn nhất để cho phép các công ty quản lý khối lượng dữ liệu khổng lồ một cách dễ dàng. Hadoop cho phép các vấn đề lớn được chia thành các phần tử nhỏ hơn để phân tích có thể được thực hiện nhanh chóng và tiết kiệm chi phí.
Bằng cách chia nhỏ dữ liệu thành các phần nhỏ có thể được xử lý song song, bạn có thể xử lý thông tin và sắp xếp lại các phần nhỏ để đưa ra kết quả.
Hadoop ban đầu được xây dựng bởi một Yahoo! kỹ sư tên là Doug Cutting và hiện là một dự án nguồn mở được quản lý bởi Tổ chức Phần mềm Apache. Nó được tạo sẵn dưới Giấy phép Apache v2. 0.
Hadoop là một khối xây dựng cơ bản trong mong muốn của chúng tôi để nắm bắt và xử lý dữ liệu lớn. Hadoop được thiết kế để parallelize xử lý dữ liệu trên các nút máy tính để tăng tốc độ tính toán và ẩn độ trễ. Ở cốt lõi của nó, Hadoop có hai thành phần chính:
Một cụm lưu trữ dữ liệu đáng tin cậy, có băng thông cao và chi phí thấp giúp dễ dàng quản lý các tệp tin liên quan trên máy. Công cụ MapReduce:
Hiệu suất cao xử lý dữ liệu song song / phân tán của thuật toán MapReduce. Hadoop được thiết kế để xử lý số lượng lớn các dữ liệu có cấu trúc và không có cấu trúc (terabytes đến petabytes) và được thực hiện trên các kệ máy chủ hàng hóa như một cụm Hadoop. Máy chủ có thể được thêm vào hoặc gỡ bỏ khỏi cluster tự động vì Hadoop được thiết kế để "tự chữa bệnh. "Nói cách khác, Hadoop có thể phát hiện những thay đổi, bao gồm lỗi, và điều chỉnh những thay đổi đó và tiếp tục hoạt động mà không bị gián đoạn.