Video: Bigdata 2025
Bạn sẽ thấy rằng các hệ sinh thái Hadoop có nhiều thành phần, tất cả đều tồn tại như các dự án Apache của riêng họ. Vì Hadoop đã phát triển đáng kể và phải đối mặt với một số thay đổi quan trọng hơn, các phiên bản khác nhau của các thành phần cộng đồng nguồn mở này có thể không tương thích hoàn toàn với các thành phần khác. Điều này đặt ra những khó khăn đáng kể cho những người tìm kiếm để có được một sự khởi đầu độc lập với Hadoop bằng cách tải xuống và biên dịch các dự án trực tiếp từ Apache.
Cũng giống như Red Hat đã cung cấp bao bì tiện dụng cho Linux, một số công ty đã đưa Hadoop và một số công nghệ liên quan vào phân phối Hadoop của họ. Danh sách này mô tả những điểm nổi bật hơn:
Đồng thời, Cloudera đã làm cho nó trở thành một thực tiễn thông thường để đẩy nhanh việc áp dụng mã nguồn mở alpha và beta cho các phiên bản Hadoop mới hơn. Cách tiếp cận của nó là lấy các thành phần mà nó cho là trưởng thành và bổ sung chúng vào các thư viện nguồn mở đã sẵn sàng sản xuất hiện có trong phân bố của nó. EMC
: Pivotal HD, phân phối Apache Hadoop của EMC, tích hợp công nghệ cơ sở dữ liệu song song (MPP) của EMC với các ứng dụng Apache Hadoop.Kết quả là phân phối Hadoop hiệu năng cao với xử lý SQL thật sự cho Hadoop. Truy vấn dựa trên SQL và các công cụ thông minh kinh doanh khác có thể được sử dụng để phân tích dữ liệu được lưu trữ trong HDFS.
Hortonworks: Một người chơi chính khác trong thị trường Hadoop, Hortonworks có số lượng lớn nhất của người tham gia và đóng góp mã cho các thành phần hệ sinh thái Hadoop. (Người tạo ra là người giữ cửa các dự án của Apache và có quyền phê duyệt thay đổi mã).
Hortonworks là một phần tách biệt từ Yahoo!, là người điều khiển công ty ban đầu của dự án Hadoop bởi vì nó cần một nền tảng có quy mô lớn để hỗ trợ hoạt động kinh doanh của nó. Trong tất cả các nhà cung cấp phân phối Hadoop, Hortonworks là người cam kết nhất cho phong trào nguồn mở, dựa trên khối lượng tuyệt đối của công việc phát triển nó góp phần vào cộng đồng, và bởi vì tất cả các nỗ lực phát triển của nó là (cuối cùng) được xếp vào mã nguồn mở.
Mô hình kinh doanh của Hortonworks dựa trên khả năng tận dụng sự phân bố phổ biến của HDP và cung cấp các dịch vụ và hỗ trợ trả tiền. Tuy nhiên, nó không bán phần mềm sở hữu. Thay vào đó, công ty nhiệt tình hỗ trợ ý tưởng làm việc trong cộng đồng nguồn mở để phát triển các giải pháp đáp ứng các yêu cầu về tính năng của doanh nghiệp (ví dụ xử lý truy vấn nhanh hơn với Hive). Hortonworks đã tạo ra một số mối quan hệ với các công ty thành lập trong ngành quản lý dữ liệu: Teradata, Microsoft, Informatica, và SAS. Mặc dù các công ty này không có dịch vụ Hadoop của riêng mình, họ vẫn hợp tác với Hortonworks để cung cấp các giải pháp tích hợp Hadoop với các bộ sản phẩm của riêng họ.
Các sản phẩm Hortonworks Hadoop là Hortonworks Data Platform (HDP), bao gồm Hadoop cũng như các công cụ và các dự án có liên quan. Cũng không giống như Cloudera, Hortonworks chỉ phát hành các phiên bản HDP với mã mức sản xuất từ cộng đồng mã nguồn mở. IBM
: Big Blue cung cấp một loạt các dịch vụ của Hadoop, với trọng tâm là giá trị được thêm vào trên cùng của ngăn xếp Hadoop nguồn mở.
Intel:
Phân phối Intel cho Apache Hadoop (Phân phối Intel) cung cấp xử lý phân tán và quản lý dữ liệu cho các ứng dụng doanh nghiệp phân tích dữ liệu lớn.
Các tính năng chính bao gồm hiệu suất tuyệt vời với tối ưu hóa bộ xử lý Intel Xeon, lưu trữ SSD của Intel và mạng Intel 10GbE; bảo mật dữ liệu thông qua mã hóa và giải mã trong HDFS và kiểm soát truy cập dựa trên vai trò với mức độ chi tiết ở cấp độ tế bào ở HBase; cải thiện hiệu suất truy vấn Hive; hỗ trợ phân tích thống kê với một kết nối cho R, gói thống kê mã nguồn mở phổ biến; và đồ hoạ phân tích thông qua Trình tạo đồ thị Intel.
MapR : Để có một bản phân phối hoàn chỉnh cho Apache Hadoop và các dự án có liên quan độc lập với Apache Software Foundation, bạn không cần phải nhìn xa hơn MapR. Tự hào không phụ thuộc vào Java hay dựa vào hệ thống tập tin Linux, MapR đang được quảng bá là phân phối Hadoop duy nhất cung cấp bảo vệ dữ liệu đầy đủ, không có điểm thất bại duy nhất và lợi thế dễ sử dụng đáng kể.
Có ba phiên bản MapR hiện có: M3, M5 và M7. Phiên bản M3 là miễn phí và có sẵn cho việc sử dụng sản xuất không giới hạn; MapR M5 là một phần mềm cung cấp phần mềm cấp trung cấp; và MapR M7 là một phân phối hoàn chỉnh cho Apache Hadoop và HBase bao gồm Pig, Hive, Sqoop và nhiều hơn nữa.