Video: XUẤT KÍCH REVIEW | PSG-1 HIVE EPSILON 2025
Khách hàng đầu tiên của Hive là giao diện dòng lệnh Hive (CLI). Để nắm vững các điểm tốt hơn của khách hàng CLI Hive, có thể giúp xem xét kiến trúc Hive (hơi bận rộn).
Trong hình thứ hai, kiến trúc được tinh giản để chỉ tập trung vào các thành phần được yêu cầu khi chạy CLI.
Đây là những thành phần của Hive cần thiết khi chạy CLI trên một cụm Hadoop. Tại đây, bạn chạy Hive ở chế độ cục bộ, sử dụng bộ nhớ cục bộ chứ không phải HDFS cho dữ liệu của bạn.
Để chạy Hive CLI, bạn thực hiện lệnh hive và chỉ định CLI như là dịch vụ bạn muốn chạy. Trong danh sách sau, bạn có thể thấy lệnh được yêu cầu cũng như một số câu lệnh HiveQL đầu tiên của chúng tôi. (Một chú thích từng bước sử dụng mô hình A-B-C được bao gồm trong danh sách để hướng sự chú ý của bạn vào các lệnh quan trọng.)
(A) $ $ HIVE_HOME / bin hive --service cli (B) hive> đặt hive. cli. in. hiện hành. db = true; (C) hive (mặc định)> TẠO DATABASE ourfirstdatabase; OK Thời gian thực hiện: 3.756 giây (D) hive (mặc định)> USE ourfirstdatabase; OK Thời gian thực hiện: 0. 039 giây (E) hive (ourfirstdatabase)> CREATE TABLE our_first_table (> FirstName STRING,> LastName STRING,> EmployeeId INT); OK Thời gian thực hiện: 0. 043 giây hive (ourfirstdatabase)> quit; (F) $ ls / home / biadmin / Hive / kho / ourfirstdatabase. db our_first_table Câu lệnh đầu tiên (xem Bước A) bắt đầu Hive CLI sử dụng biến môi trường $ HIVE_HOME. Tùy chọn dòng lệnh cli-service cung cấp chỉ đạo hệ thống Hive để bắt đầu giao diện dòng lệnh, mặc dù bạn có thể đã chọn các máy chủ khác.
Ở bước C, bạn sử dụng ngôn ngữ định nghĩa dữ liệu của HiveQL (DDL) để tạo cơ sở dữ liệu đầu tiên của bạn. (Hãy nhớ rằng các cơ sở dữ liệu trong Hive chỉ đơn giản là các không gian tên nơi các bảng đặc biệt cư trú, bởi vì một bộ các bảng có thể được coi là một cơ sở dữ liệu hoặc giản đồ, bạn có thể đã sử dụng thuật ngữ SCHEMA thay cho DATABASE để đạt được kết quả tương tự.
Cụ thể hơn, bạn đang sử dụng DDL để cho hệ thống tạo một cơ sở dữ liệu được gọi là ourfirstdatabase và sau đó để làm cơ sở dữ liệu này mặc định cho các lệnh HiveQL DDL tiếp theo sử dụng lệnh USE trong Bước D. Trong Bước E, bảng và cho nó tên (khá thích hợp) our_first_table.
(Cho đến bây giờ, bạn có thể tin tưởng rằng nó trông giống như SQL, có lẽ một vài sự khác biệt nhỏ trong cú pháp phụ thuộc vào RDBMS bạn quen thuộc - và bạn đã đúng). Lệnh cuối cùng, trong Bước F, thực hiện danh sách thư mục của thư mục kho chứa Hive đã chọn để bạn có thể thấy rằng tệp tin our_first_table đã được lưu trữ trên đĩa.
Bạn đặt hive. metastore. Kho. dir biến để trỏ đến các thư mục địa phương / home / biadmin / Hive / kho trong máy ảo Linux của bạn hơn là sử dụng HDFS như bạn sẽ vào một cụm Hadoop thích hợp.
Sau khi bạn đã tạo bảng, điều thú vị là xem siêu dữ liệu của bảng. Trong môi trường sản xuất, bạn có thể có hàng chục bảng trở lên, vì vậy hữu ích để có thể xem lại cấu trúc bảng theo thời gian. Bạn
sử dụng lệnh HiveQL để thực hiện việc này bằng Hive CLI, nhưng máy chủ Hive Web Interface (HWI) cung cấp một giao diện hữu ích cho kiểu thao tác này. Sử dụng máy chủ HWI thay vì CLI cũng có thể an toàn hơn. Cẩn thận xem xét phải được thực hiện khi sử dụng CLI trong môi trường sản xuất bởi vì máy chạy CLI phải có quyền truy cập vào toàn bộ cluster Hadoop. Do đó, các quản trị viên hệ thống thường đặt các công cụ như hệ vỏ an toàn (ssh) để cung cấp khả năng kiểm soát và an toàn truy cập vào máy chạy CLI cũng như để cung cấp mã hóa mạng. Tuy nhiên, khi máy chủ HWI được sử dụng, người dùng chỉ có thể truy cập dữ liệu Hive cho phép bởi máy chủ HWI thông qua trình duyệt web của mình.