Mục lục:
- Đôi khi bạn có thể cần phải truy vấn các luồng dữ liệu lớn theo thời gian thực … và bạn không thể làm điều này bằng Hadoop. Trong những trường hợp này, thay vào đó, hãy sử dụng khuôn khổ chế biến thời gian thực. Một khuôn khổ xử lý thời gian thực
- Giới thiệu cơ sở dữ liệu NoSQL
- Các hệ thống NoSQL tạo điều kiện cho các dữ liệu không SQL truy vấn các dữ liệu không có quan hệ hoặc không có lược đồ, bán cấu trúc và không có cấu trúc. Bằng cách này, cơ sở dữ liệu NoSQL có thể xử lý các nguồn dữ liệu được cấu trúc, bán cấu trúc, và phi cấu trúc được phổ biến trong các hệ thống dữ liệu lớn.
Video: 5 sai lầm thường gặp khi backup dữ liệu (và giải pháp) 2025
Nhìn qua Hadoop, bạn có thể thấy các giải pháp dữ liệu lớn khác chân trời. Các giải pháp này cho phép làm việc với dữ liệu lớn trong thời gian thực hoặc sử dụng các công nghệ cơ sở dữ liệu thay thế để xử lý và xử lý nó. Ở đây, bạn được giới thiệu về các khuôn khổ xử lý thời gian thực, sau đó là các nền tảng MPP (Massively Parallel Processing) và cuối cùng là các cơ sở dữ liệu NoSQL cho phép bạn làm việc với các dữ liệu lớn bên ngoài môi trường Hadoop.
Bạn nên biết một điều gì đó được gọi là sự tuân thủ ACID, viết tắt của A tomicity, C sự an toàn, I sol, và D sự tuân thủ không dễ dãi. ACID tuân thủ là một tiêu chuẩn mà theo đó các giao dịch cơ sở dữ liệu chính xác và đáng tin cậy được đảm bảo. Trong các giải pháp dữ liệu lớn, hầu hết các hệ thống cơ sở dữ liệu không phải là ACID tuân thủ, nhưng điều này không nhất thiết đặt ra một vấn đề lớn. Đó là bởi vì hầu hết các hệ thống dữ liệu lớn đều sử dụng Hệ thống Hỗ trợ Quyết định (DSS) để xử lý hàng loạt dữ liệu trước khi dữ liệu đó được đọc.
DSS là các hệ thống thông tin được sử dụng để hỗ trợ quyết định tổ chức. DSS không giao dịch chứng minh không có yêu cầu tuân thủ ACID thực.
Đôi khi bạn có thể cần phải truy vấn các luồng dữ liệu lớn theo thời gian thực … và bạn không thể làm điều này bằng Hadoop. Trong những trường hợp này, thay vào đó, hãy sử dụng khuôn khổ chế biến thời gian thực. Một khuôn khổ xử lý thời gian thực
là - như tên của nó ngụ ý - một khuôn khổ có thể xử lý dữ liệu trong thời gian thực (hoặc gần thời gian thực) khi luồng dữ liệu và luồng vào hệ thống. Về cơ bản, các khuôn khổ xử lý thời gian thực là phản đề của các khuôn khổ xử lý hàng loạt mà bạn thấy được triển khai trong Hadoop.
Các giải pháp trong thể loại này bao gồm Apache Storm và Apache Spark để xử lý luồng gần thời gian thực.
-
Các khuôn khổ triển khai các phương pháp truy vấn sáng tạo nhằm tạo điều kiện truy vấn dữ liệu lớn theo thời gian thực: Một số giải pháp trong danh mục này bao gồm Dremel, Apache Drill của Google, Shark for Apache Hive và Impala Cloudera.
-
. Các nền tảng xử lý song song (MPP) Massively có thể được sử dụng thay vì MapReduce như là một cách tiếp cận thay thế cho xử lý dữ liệu phân tán. Nếu mục tiêu của bạn là triển khai chế biến song song trên kho dữ liệu truyền thống, thì một MPP có thể là giải pháp hoàn hảo.
Để hiểu cách MPP so sánh với một khung xử lý song song chuẩn MapReduce, hãy xem xét những điều sau đây. MPP chạy các công việc tính toán song song trên phần cứng tùy chọn, trong khi MapReduce chạy chúng trên các máy chủ hàng hóa giá rẻ. Do đó, khả năng xử lý MPP là chi phí hạn chế. Điều này nói rằng MPP nhanh hơn và dễ sử dụng hơn các công việc MapReduce tiêu chuẩn. Đó là vì MPP có thể được truy vấn bằng Ngôn ngữ truy vấn có cấu trúc (Structured Query Language - SQL), nhưng các công việc MapReduce bản địa được kiểm soát bởi ngôn ngữ lập trình Java phức tạp hơn.
Nhà cung cấp nổi tiếng MPP và các sản phẩm bao gồm nền tảng Teradata cũ, cộng thêm các giải pháp mới hơn như Greenplum DCA của EMC 2, Vertica của HP, Netezza của IBM và Exadata của Oracle.Giới thiệu cơ sở dữ liệu NoSQL
Hệ thống quản lý CSDL
truyền thống
(RDBMS) không được trang bị để xử lý các yêu cầu về dữ liệu lớn. Đó là bởi vì các cơ sở dữ liệu quan hệ truyền thống được thiết kế để chỉ xử lý các tập dữ liệu quan hệ được xây dựng bằng dữ liệu được lưu trữ trong hàng và cột sạch và do đó có khả năng được truy vấn thông qua Structured Query Language (SQL). Các hệ thống RDBM không có khả năng xử lý dữ liệu phi cấu trúc và bán cấu trúc. Hơn nữa, các hệ thống RDBM đơn giản không có khả năng xử lý và xử lý cần thiết để đáp ứng các yêu cầu về khối lượng dữ liệu và vận tốc lớn. Đây là nơi NoSQL đi vào. Các cơ sở dữ liệu NoSQL, như MongoDB, không liên quan, các hệ thống cơ sở dữ liệu phân tán được thiết kế để vượt qua thách thức dữ liệu lớn. Cơ sở dữ liệu NoSQL bước ra khỏi kiến trúc cơ sở dữ liệu quan hệ truyền thống và cung cấp một giải pháp hiệu quả hơn và khả năng mở rộng hơn.
Các hệ thống NoSQL tạo điều kiện cho các dữ liệu không SQL truy vấn các dữ liệu không có quan hệ hoặc không có lược đồ, bán cấu trúc và không có cấu trúc. Bằng cách này, cơ sở dữ liệu NoSQL có thể xử lý các nguồn dữ liệu được cấu trúc, bán cấu trúc, và phi cấu trúc được phổ biến trong các hệ thống dữ liệu lớn.
NoSQL cung cấp bốn loại cơ sở dữ liệu không quan hệ - cơ sở dữ liệu đồ thị, cơ sở dữ liệu tài liệu, cửa hàng giá trị quan trọng, và cửa hàng gia đình cột. Vì NoSQL cung cấp chức năng bản địa cho từng loại cấu trúc dữ liệu riêng lẻ, nó cung cấp chức năng lưu trữ và truy xuất rất hiệu quả cho hầu hết các loại dữ liệu không quan hệ. Khả năng thích ứng và hiệu quả này làm cho NoSQL trở thành một sự lựa chọn ngày càng được ưa chuộng để xử lý các dữ liệu lớn và để vượt qua những thách thức trong quá trình xử lý đi cùng với nó. Có một số cuộc tranh luận về tầm quan trọng của tên NoSQL. Một số cho rằng NoSQL là viết tắt của Không chỉ SQL, trong khi những người khác tranh luận rằng các từ viết tắt là
Cơ sở dữ liệu không phải SQL
. Lập luận là khá phức tạp và không có câu trả lời thực sự cắt và khô.Để giữ mọi thứ đơn giản, chỉ cần suy nghĩ về NoSQL như là một lớp các hệ thống quản lý cơ sở dữ liệu không quan hệ không nằm trong dải các hệ thống RDBM được truy vấn bằng SQL.