SQL Truy cập và Apache Hive - núm vú - Tài chính Cá nhân 2025

Video: BIG DATA for Management - Dữ liệu lớn trong quản trị doanh nghiệp - Đào tạo Tập Đoàn Trí Việt 2025

Apache Hive là giao diện truy vấn dữ liệu phổ biến rộng rãi nhất trong cộng đồng Hadoop. Ban đầu, mục tiêu thiết kế cho Hive không phải là tính tương thích SQL đầy đủ và hiệu suất cao, nhưng cung cấp một giao diện dễ hiểu và quen thuộc đối với các nhà phát triển cần phải đưa ra các truy vấn theo lô đối với Hadoop.

Cách tiếp cận này không còn hiệu quả nữa, do đó nhu cầu tăng lên nhờ hỗ trợ SQL thực và hiệu năng tốt. Hortonworks đã đáp ứng nhu cầu này bằng cách tạo ra dự án Stinger, nơi mà nó đầu tư các nguồn lực của nhà phát triển để cải thiện Hive nhanh hơn, tăng quy mô ở mức petabyte và đáp ứng được các tiêu chuẩn SQL. Công việc này được thực hiện theo ba giai đoạn.

Trong Giai đoạn 3, diễn biến thực sự quan trọng diễn ra, tách riêng Hive khỏi MapReduce. Cụ thể, nó liên quan đến việc phát hành Apache Tez, một mô hình xử lý thay thế cho Hadoop, được thiết kế cho khối lượng công việc tương tác.