Mục lục:
Video: So sánh CSDL NoSQL và SQL (Bài 1.5) 2025
Lưu trữ và lấy ra số lượng lớn dữ liệu và làm việc rất nhanh, và một khi bạn đã có dữ liệu mới được quản lý trong NoSQL, bạn có thể làm được những điều tuyệt vời.
Khai thác và làm giàu thực thể
Bạn có thể sử dụng các trình kích hoạt cơ sở dữ liệu, hành động cảnh báo và các hệ thống bên ngoài để phân tích dữ liệu nguồn. Có lẽ nó phần lớn là văn bản miễn phí nhưng đề cập đến các chủ đề đã biết. Những kích hoạt và hành động cảnh báo này có thể làm nổi bật văn bản như là một Người hoặc Tổ chức, gắn nhãn nội dung một cách hiệu quả và tài liệu mà nó đặt bên trong.
Một ví dụ điển hình là nội dung trong một bài báo. Bạn có thể sử dụng một công cụ như Apache Stanbol hoặc OpenCalais để xác định các thuật ngữ chính. Những công cụ này có thể thấy "Tổng thống Putin" và quyết định điều này liên quan đến một người được gọi là Vladimir Putin, người Nga, và là chủ tịch hiện tại của Liên bang Nga.
Các ví dụ khác bao gồm tên bệnh và dược phẩm, các tổ chức, các chủ đề đàm thoại, các sản phẩm đã đề cập và bình luận có tích cực hay tiêu cực.
Đây là tất cả các ví dụ về sự khai thác thực thể (đó là quá trình tự động trích xuất các loại đối tượng từ tên văn bản của chúng) . Bằng cách xác định các cụm từ khóa, bạn có thể gắn thẻ chúng hoặc gói chúng trong một phần tử XML, giúp bạn tìm kiếm nội dung hiệu quả hơn.
Làm giàu thực thể nghĩa là thêm thông tin dựa trên văn bản gốc ngoài việc xác định nó. Trong ví dụ của Putin, bạn có thể biến từ chữ "Putin" thành Tổng thống Putin. Ngoài ra, bạn có thể biến "London" thành London.
Bạn có thể hiển thị dữ liệu này trong một giao diện người dùng dưới dạng văn bản được đánh dấu bằng liên kết tới các thông tin khác về mỗi chủ đề.
Bạn có thể cung cấp sự phong phú bằng cách sử dụng tìm kiếm tự do, cảnh báo, kích hoạt cơ sở dữ liệu, và tích hợp vào phần mềm bên ngoài như TEMIS Luxid và SmartLogic.
Tìm kiếm và cảnh báo
Khi bạn lưu trữ thông tin của mình, bạn có thể muốn tìm kiếm nó. Tìm kiếm văn bản đơn giản là đơn giản, nhưng sau khi thực hiện khai thác thực thể, bạn có nhiều tùy chọn hơn. Bạn có thể tìm kiếm cụ thể cho một người có tên "Orange" (như trong William of Orange) chứ không phải là các hồ sơ tìm kiếm đề cập đến thuật ngữ cam - tất nhiên đó cũng là màu sắc và trái cây.
Làm như vậy dẫn đến tìm kiếm chi tiết hơn. Nó cũng cho phép điều hướng theo chiều dọc. Nếu bạn đi đến Amazon và tìm kiếm Harry Potter, bạn sẽ thấy các danh mục cho sách, phim, trò chơi, v.v. Danh mục sản phẩm là ví dụ về khía cạnh , cho bạn một khía cạnh của dữ liệu trong kết quả tìm kiếm - tức là các giá trị phổ biến nhất của từng khía cạnh trên tất cả các kết quả tìm kiếm, những người không có trên trang hiện tại.
Các giao diện người dùng có thể hỗ trợ khám phá phong phú vào dữ liệu (cũng như các tìm kiếm cơ bản của Google). Người dùng cũng có thể sử dụng chúng để lưu và tải các tìm kiếm trước đó.
Bạn có thể thiết lập các tiêu chí tìm kiếm đã lưu để các cảnh báo được kích hoạt khi các bản ghi mới được thêm vào khớp với tiêu chí đó. Vì vậy, nếu một bản ghi mới đến mà phù hợp với tiêu chí tìm kiếm của bạn, một hành động xảy ra. Có lẽ "Putin" trở thành Putin
Không phải tất cả các công cụ tìm kiếm đều có thể làm cho mọi thuật ngữ truy vấn trở nên cảnh báo. Một số được giới hạn trong các lĩnh vực văn bản; những người khác không thể làm các tiêu chí không gian địa lý. Đảm bảo bạn có thể xử lý các cảnh báo bạn cần phải định cấu hình.
Các hàm tổng hợp
Một khi bạn tìm thấy thông tin có liên quan, bạn có thể muốn đào sâu hơn. Tùy thuộc vào nguồn, bạn có thể hỏi có bao nhiêu quốc gia có GDP lớn hơn 400 tỷ đô la Mỹ, hoặc độ tuổi trung bình của tất cả các thành viên trong cây gia đình của bạn, hoặc nơi nào cắn rắn nhất xảy ra ở Úc. Những ví dụ này minh họa cách phân tích được thực hiện qua một tập hợp các kết quả tìm kiếm. Đây là các phép tính bản đồ nhiệt tính, bình quân trung bình, và không gian địa lý.
Có thể tính toán như vậy bên cạnh dữ liệu cung cấp một số lợi thế. Ưu tiên đầu tiên là bạn có thể sử dụng các chỉ mục để tăng tốc độ. Thứ hai, các chỉ số này có thể sẽ được lưu trữ trong bộ nhớ, làm cho chúng nhanh hơn. Thứ ba, trong các chỉ mục bộ nhớ đặc biệt hữu ích cho một cơ sở dữ liệu NoSQL sử dụng lưu trữ Hadoop File System (HDFS). HDFS không thực hiện việc lập chỉ mục gốc hoặc lưu trữ cột trong bộ nhớ để tính toán kết hợp nhanh - nó đòi hỏi một cơ sở dữ liệu NoSQL ở trên để thực hiện việc này.
Điều hướng theo mặt là một ví dụ về tập hợp dựa trên đếm trên kết quả tìm kiếm hiển thị trong một giao diện người dùng. Điều này cũng đúng đối với một dòng thời gian cho thấy số lượng hồ sơ đề cập đến một điểm cụ thể trong thời gian. Ví dụ: bạn có muốn hiển thị kết quả từ năm nay, tháng này hay giờ này không?
Nếu bạn muốn chức năng này, hãy chắc chắn rằng cơ sở dữ liệu của bạn có khả năng tính tổng hợp hiệu quả bên cạnh dữ liệu. Hầu hết các cơ sở dữ liệu NoSQL làm, nhưng một số thì không.
Lập biểu và kinh doanh thông minh
Phần mở rộng giao diện người dùng rõ ràng tiếp theo liên quan đến biểu đồ và xem tóm tắt bảng cho các thông tin quản lý trực tiếp và phân tích tình báo kinh doanh lịch sử.
Hầu hết các cơ sở dữ liệu NoSQL cung cấp một API REST dễ dàng tích hợp trong các cơ sở dữ liệu của chúng. Điều này có nghĩa là bạn có thể cắm một loạt tầng ứng dụng hoặc thậm chí kết nối trực tiếp các ứng dụng JavaScript với các cơ sở dữ liệu này. Một loạt các thư viện biểu đồ tuyệt vời có sẵn cho JavaScript. Thậm chí bạn có thể sử dụng Hệ sinh thái R để tạo các biểu đồ dựa trên dữ liệu được lưu trữ trong các cơ sở dữ liệu này, sau khi cài đặt một kết nối cơ sở dữ liệu thích hợp.
Một số cơ sở dữ liệu NoSQL thậm chí cung cấp một ODBC hoặc JDBC database cơ sở dữ liệu plug-in. Tạo các chỉ mục trong một bản ghi nhất định và hiển thị chúng dưới dạng một -relational view là cách đơn giản để biến dữ liệu phi cấu trúc trong một cơ sở dữ liệu NoSQL thành dữ liệu có thể được phân tích bằng một công cụ thông minh kinh doanh.
Kiểm tra xem nhà cung cấp cơ sở dữ liệu NoSQL của bạn có cung cấp các công cụ trực quan hoặc có các đối tác kinh doanh với các công cụ hơn là có thể kết nối với các cơ sở dữ liệu này. Trong các công cụ phổ biến bao gồm Tableau Server, một máy chủ thông tin kinh doanh-chia sẻ hiện đại hỗ trợ xuất bản báo cáo tương tác qua dữ liệu trong nhiều cơ sở dữ liệu, bao gồm cơ sở dữ liệu NoSQL.