Video: Large scale data analysis made easy - Apache Hadoop 2025
Hadoop nhiều hơn MapReduce và HDFS (Hadoop Distributed File System): Đây cũng là một gia đình có liên quan đến các dự án (một hệ sinh thái thực sự) cho máy tính phân tán và quy mô lớn xử lí dữ liệu. Hầu hết (nhưng không phải tất cả) các dự án này được tổ chức bởi Tổ chức Phần mềm Apache. Bảng liệt kê một số dự án này.
Các dự án liên quan đến Hadoop
Tên dự án
Mô tả
Ambari
Bộ công cụ quản trị Hadoop tích hợp cho
cài đặt, giám sát và duy trì cụm Hadoop. Ngoài ra
bao gồm các công cụ để thêm hoặc gỡ bỏ các nút nô lệ.
Avro
Một khuôn khổ cho việc tuần tự hóa hiệu quả (một dạng
chuyển đổi) dữ liệu thành một dạng nhị phân nhỏ gọn
Flume
Một dịch vụ luồng dữ liệu cho sự di chuyển của khối lượng lớn nhật ký > dữ liệu vào Hadoop
HBase
Một cơ sở dữ liệu cột phân tán sử dụng HDFS để lưu trữ cơ sở
của nó. Với HBase, bạn có thể lưu trữ dữ liệu trong các bảng lớn
vô cùng với cấu trúc cột thay đổi.
HCatalog
Một dịch vụ cung cấp quan điểm quan hệ về dữ liệu được lưu trữ trong
Hadoop, bao gồm cách tiếp cận chuẩn cho dữ liệu dạng bảng
Hive
Một kho dữ liệu phân tán cho dữ liệu được lưu trữ trong HDFS;
Cung cấp một ngôn ngữ truy vấn dựa trên SQL
(HiveQL)
Huế
Một giao diện quản trị Hadoop với các công cụ GUI tiện dụng cho các tệp duyệt
, phát hành các truy vấn Hive and Pig và phát triển Oozie < công việc
Mahout
Một thư viện các thuật toán thống kê học máy đã được thực hiện trong MapReduce
và có thể chạy trên Hadoop
Oozie
Một công cụ quản lý luồng công việc có thể xử lý lịch trình và > kết hợp các ứng dụng Hadoop
Pig
Một nền tảng để phân tích các bộ dữ liệu rất lớn chạy trên 999 trên HDFS và với một lớp cơ sở bao gồm một trình biên dịch
tạo ra các trình tự các chương trình MapReduce và một lớp ngôn ngữ
bao gồm ngôn ngữ truy vấn có tên Pig Latin
Sqoop
Một công cụ để di chuyển dữ liệu một cách hiệu quả giữa cơ sở dữ liệu quan hệ
và HDFS
ZooKeeper
Một giao diện đơn giản phối hợp các dịch vụ
(chẳng hạn như đặt tên, cấu hình và đồng bộ hóa) chúng tôi ed bởi
ứng dụng phân tán
Hình này cho thấy các dự án hệ sinh thái Hadoop khác nhau và mối quan hệ giữa chúng với nhau như thế nào:
Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...
Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...
Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...
Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...
Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...
JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...