Video: Dữ liệu lớn là gì và nó hoạt động như thế nào? 2025
Có rất nhiều phương pháp để phân tích dữ liệu phi cấu trúc cho sáng kiến dữ liệu lớn của bạn. Về mặt lịch sử, những kỹ thuật này xuất phát từ các lĩnh vực kỹ thuật như NLP, khám phá kiến thức, khai thác dữ liệu, thu thập thông tin và thống kê. Phân tích văn bản là quá trình phân tích văn bản phi cấu trúc, thu thập thông tin có liên quan và chuyển nó thành thông tin có cấu trúc và sau đó có thể được tận dụng bằng nhiều cách khác nhau.
Đôi khi một ví dụ có thể giúp giải thích một chủ đề phức tạp. Giả sử bạn làm việc cho bộ phận tiếp thị trong một công ty điện thoại không dây. Bạn vừa đưa ra hai kế hoạch gọi mới - Kế hoạch A và Kế hoạch B - và bạn không nhận được sự thu hút mà bạn muốn trong Kế hoạch A. Các văn bản không có cấu trúc từ các ghi chú trung tâm cuộc gọi có thể cho bạn một cái nhìn sâu sắc là tại sao điều này xảy ra.
Thời hạn chuyển tiếp, dữ liệu 4GB, kế hoạch dữ liệu, và đắt là bằng chứng cho thấy có vấn đề xảy ra với các phút lăn, kế hoạch dữ liệu và giá cả. Những từ như vô lý và ngu ngốc cung cấp cái nhìn sâu sắc về tình cảm của người gọi, mà trong trường hợp này là tiêu cực. Cust XYZ
Kế hoạch A
Số vòng lùi | Trung lập | Cust ABC | Kế hoạch A |
---|---|---|---|
Số liệu | Thời gian hoàn tất | Phủ định | XXXX |
Phương án A | Đắt | Trung tính | XXXX |
Kế hoạch A | Kế hoạch dữ liệu | Trung lập | Cust XYT > Kế hoạch A |
Kế hoạch dữ liệu | Phủ định | Bạn có thể nhìn vào điều này và nói, "Nhưng tôi có thể đã tìm ra bằng cách nhìn vào hồ sơ của trung tâm gọi. "Tuy nhiên, đây chỉ là một phần nhỏ của thông tin được ghi lại bởi hàng ngàn nhân viên trung tâm cuộc gọi. Mỗi đại lý cá nhân không thể nhận ra một xu hướng rộng lớn liên quan đến vấn đề với từng kế hoạch được cung cấp bởi công ty. | Các nhân viên không có thời gian hoặc yêu cầu chia sẻ thông tin này trên tất cả các nhân viên trung tâm cuộc gọi khác có thể nhận được số lượng cuộc gọi tương tự về Kế hoạch A. Tuy nhiên, sau khi thông tin này được tổng hợp và xử lý bằng các thuật toán phân tích văn bản, xu hướng có thể xuất hiện từ dữ liệu phi cấu trúc này. Đó là điều làm cho phân tích văn bản mạnh mẽ như vậy. |
Tìm kiếm là về việc lấy ra một tài liệu dựa trên những gì người dùng cuối đã biết họ đang tìm kiếm. Phân tích văn bản là về việc khám phá thông tin. Mặc dù phân tích văn bản khác với tìm kiếm, nhưng nó có thể tăng cường các kỹ thuật tìm kiếm. Ví dụ: phân tích văn bản kết hợp với tìm kiếm có thể được sử dụng để phân loại tốt hơn hoặc phân loại các tài liệu và tạo ra tóm tắt hoặc tóm tắt các tài liệu. | Có bốn công nghệ: truy vấn, khai thác dữ liệu, tìm kiếm và phân tích văn bản. Ở phía bên trái của bảng là truy vấn và tìm kiếm, cả về truy xuất. Ví dụ: người dùng cuối có thể truy vấn cơ sở dữ liệu để tìm hiểu xem có bao nhiêu khách hàng đã ngừng sử dụng các dịch vụ của công ty trong tháng vừa qua. | Truy vấn sẽ trả về một số duy nhất. Chỉ bằng cách hỏi nhiều hơn và các câu hỏi khác nhau thì người dùng cuối có được thông tin cần thiết để xác định lý do khiến khách hàng rời khỏi. Tương tự như vậy, tìm kiếm từ khóa cho phép người dùng cuối tìm các tài liệu có chứa tên của đối thủ cạnh tranh của một công ty. Việc tìm kiếm sẽ trả về một nhóm các tài liệu. Chỉ bằng cách đọc các tài liệu người dùng cuối sẽ đưa ra bất kỳ câu trả lời có liên quan. | Truy vấn |
Tìm kiếm: Trả lại tài liệu
Phân tích văn bản: Thông tin chi tiết từ văn bản
Truy vấn
Thông tin chi tiết
Các công nghệ về phần trả lại trái của thông tin và yêu cầu sự tương tác của con người để tổng hợp và phân tích thông tin đó. Các công nghệ về khai thác dữ liệu đúng và phân tích văn bản - cung cấp thông tin chi tiết nhanh hơn nhiều. Hy vọng rằng, giá trị của phân tích văn bản cho tổ chức của bạn đang trở nên rõ ràng.