SQL truy cập thực sự có nghĩa là gì - đầu

Video: Website là gì và bạn cần có gì để thiết lập một trang web || định nghĩa web xem xong hiểu ngay. 2025

Một số công ty đang đầu tư rất nhiều để thúc đẩy các dự án nguồn mở và các giải pháp độc quyền cho truy cập SQL vào dữ liệu Hadoop. Khi bạn nghe từ truy cập SQL, bạn nên biết rằng bạn đang dựa vào một số giả định cơ bản:

Tiêu chuẩn ngôn ngữ: Tiêu chuẩn quan trọng nhất, dĩ nhiên, đòi hỏi ngôn ngữ riêng của mình. Nhiều giải pháp "giống như SQL" tồn tại, mặc dù chúng thường không đo lường theo những cách cơ bản nhất định - những cách ngăn cản các câu lệnh SQL điển hình từ khi làm việc.
Trình điều khiển:
Một thành phần quan trọng khác trong giải pháp truy cập SQL là trình điều khiển - giao diện cho các ứng dụng để kết nối và trao đổi dữ liệu với kho dữ liệu. Nếu không có trình điều khiển, không có giao diện SQL cho bất kỳ ứng dụng khách hoặc các công cụ để kết nối để gửi các truy vấn SQL.

Như vậy, bất kỳ SQL nào về giải pháp Hadoop đều phải có các trình điều khiển JDBC và ODBC ít nhất bởi vì chúng là các công nghệ giao diện cơ sở dữ liệu được sử dụng phổ biến nhất.
Truy cập thời gian thực:
Cho đến Hadoop 2, việc thực hiện dựa trên MapReduce là tùy chọn sẵn có duy nhất cho phân tích đối với dữ liệu được lưu trữ trong Hadoop. Đối với các truy vấn tương đối đơn giản liên quan đến việc quét toàn bộ dữ liệu trong một bảng, Hadoop khá nhanh so với cơ sở dữ liệu quan hệ truyền thống.

Lưu ý rằng đây là trường hợp sử dụng phân tích theo đợt, trong đó
nhanh có thể có nghĩa là hàng giờ, tùy thuộc vào số lượng dữ liệu có liên quan. Nhưng khi gặp những câu hỏi phức tạp hơn, liên quan đến các tập con dữ liệu, Hadoop đã không làm tốt. MapReduce là một khuôn khổ xử lý hàng loạt, do đó đạt được hiệu suất cao cho các truy vấn theo thời gian thực trước khi Hadoop 2 không thể kiến trúc được. Một động lực ban đầu cho YARN, hệ thống lập kế hoạch và quản lý tài nguyên mới trên khối, cần phải hỗ trợ các khuôn khổ xử lý khác để cho phép các khối lượng công việc theo thời gian thực, chẳng hạn như các truy vấn SQL tương tác. Thật vậy, một giải pháp SQL thích hợp không nên để mọi người chờ đợi các truy vấn hợp lý.

Dữ liệu có thể thay đổi:
Một câu hỏi phổ biến trong nhiều cuộc thảo luận về hỗ trợ SQL trên Hadoop là "Chúng ta có thể sử dụng, và các câu lệnh, như chúng ta có thể làm trong một cơ sở dữ liệu quan hệ điển hình? "Giờ đây, câu trả lời là không, phản ánh bản chất của HDFS - nó tập trung vào các tệp lớn và không thay đổi.Các công nghệ như Hive cung cấp truy cập chỉ đọc vào các tệp này. Bất kể, công việc đang được tiến hành trong dự án Hive Apache.