Video: Big Data analytics Hadoop with Mapreduce, HIVE, PIG , Zookeeper and Spark Class 1 2025
Khi bạn kiểm tra các phần tử của Apache Hive, bạn có thể nhìn thấy ở phía dưới cùng của Hive nằm trên đầu trang của Hadoop Distributed File System (HDFS) và các hệ thống MapReduce.
Trong trường hợp của MapReduce, các hình ảnh thể hiện cả Hadoop 1 và Hadoop 2 thành phần. Với Hadoop 1, truy vấn Hive được chuyển đổi sang mã MapReduce và được thực hiện bằng cơ sở hạ tầng MapReduce v1 (MRv1), như JobTracker và TaskTracker.
Với Hadoop 2, YARN đã tách quản lý và lập kế hoạch tài nguyên khỏi khuôn khổ MapReduce. Các truy vấn Hive vẫn có thể được chuyển đổi sang mã MapReduce và được thực hiện, bây giờ với MapReduce v2 (MRv2) và cơ sở hạ tầng YARN.
Có một khuôn khổ mới đang được phát triển gọi là Apache Tez, được thiết kế để cải thiện hiệu suất Hive cho các truy vấn theo lô và hỗ trợ các truy vấn nhỏ hơn (còn gọi là thời gian thực). Vào thời điểm viết, dự án Apache Tez vẫn đang trong giai đoạn ủ bệnh, và chưa có bản phát hành sẵn sàng cho sản xuất.
Di chuyển lên biểu đồ, bạn tìm thấy các Hive Driver, mà biên dịch, tối ưu hóa, và thực hiện các HiveQL. Trình điều khiển Hive có thể chọn thực hiện câu lệnh và lệnh HiveQL tại địa phương hoặc sinh ra một công việc MapReduce, tùy thuộc vào nhiệm vụ đang diễn ra. Trình điều khiển Hive lưu trữ siêu dữ liệu bảng trong metastore và cơ sở dữ liệu.
Bạn có thể có một số quen với SQL và mô hình cơ sở dữ liệu quan hệ từ thế giới của RDBMS. Một quan hệbảng
hoặc
Cấu hình này tốt cho mục đích học tập, nhưng chế độ nhúng chỉ có thể hỗ trợ một phiên Nêu duy nhất, vì vậy nó thường không được sử dụng trong môi trường sản xuất nhiều người dùng.Hai chế độ khác tồn tại - cục bộ và
từ xa - có thể hỗ trợ tốt hơn nhiều phiên Hive trong môi trường sản xuất. Ngoài ra, bạn có thể cấu hình bất kỳ RDBMS nào tương thích với bộ Java (JDBC) Application Programming Interface (API). (Các ví dụ ở đây bao gồm MySQL và DB2) Chìa khóa để hỗ trợ ứng dụng là Hive Thrift Server, cho phép nhiều khách hàng truy cập hệ thống con Hive. Trình khách SQL SQuirreL SQL nguồn mở được đưa vào làm ví dụ. Điểm chính là bất kỳ ứng dụng JDBC nào có thể truy cập vào Hive thông qua trình điều khiển JDBC đi kèm. Câu lệnh tương tự áp dụng cho các máy khách tương thích với Open Database Connectivity (ODBC) - ví dụ unixODBC và tiện ích isql, thường đi kèm với Linux, cho phép truy cập vào Hive từ các máy khách Linux từ xa. Ngoài ra, nếu bạn sử dụng Microsoft Excel, bạn sẽ vui lòng biết rằng bạn có thể truy cập Hive sau khi cài đặt trình điều khiển Microsoft ODBC trên hệ thống khách hàng của bạn. Cuối cùng, nếu bạn cần truy cập Hive từ các ngôn ngữ lập trình khác ngoài Java (PHP hoặc Python, ví dụ), Apache Thrift là câu trả lời. Khách hàng của Apache Thrift kết nối với Hive qua Hive Thrift Server, giống như các khách hàng của JDBC và ODBC.
Để tiếp tục với bản vẽ kiến trúc Hive, lưu ý rằng Hive bao gồm một Giao diện Dòng lệnh (Command Line Interface - CLI), nơi bạn có thể sử dụng cửa sổ terminal Linux để phát hành các truy vấn và các lệnh quản trị trực tiếp đến Driver Hive. Nếu phương pháp tiếp cận đồ họa có tốc độ cao hơn, bạn còn có một giao diện web tiện dụng để bạn có thể truy cập các bảng và dữ liệu được quản lý bởi Hive qua trình duyệt yêu thích của bạn.
Có một công nghệ trình duyệt web khác gọi là Hue cung cấp một giao diện người dùng đồ họa (GUI) cho Apache Hive. Một số người dùng Hadoop muốn có một GUI theo ý của họ thay vì chỉ là một giao diện dòng lệnh (CLI). Cùng với Hive, Huế hỗ trợ các công nghệ chính Hadoop khác cũng như HDFS, MapReduce / YARN, HBase, Zookeeper, Oozie, Pig và Sqoop. Bạn sẽ thích tên cho Giao diện đồ hoạ Apache Hive của Huế - nó được gọi là Beeswax.