Mục lục:
- Cách sử dụng tìm kiếm dựa trên từ khoá trong dự đoán phân tích
- Dự án nhằm mục đích điều tra các tìm kiếm và phân tích doanh nghiệp có quy mô lớn hiện có trên thị trường và xây dựng một mẫu thử nghiệm cho một khuôn khổ tiên tiến để tổ chức dữ liệu của Ngân hàng Thế giới - hầu hết là một bộ sưu tập tài liệu, ấn phẩm, báo cáo dự án không có cấu trúc , tóm tắt, và nghiên cứu trường hợp.
Video: Hướng dẫn dự đoán chi phí, số lần nhấp chuột và thứ hạng từ khóa | Alada.vn 2025
dữ liệu phân tích tiên đoán của bạn cần biết cách tìm thông tin bạn muốn tìm. Có hai khái niệm chính về tìm kiếm dữ liệu của bạn để chuẩn bị cho việc sử dụng nó trong phân tích tiên đoán:
-
Sẵn sàng vượt qua tìm kiếm từ khóa cơ bản
-
Làm cho dữ liệu của bạn có thể tìm kiếm theo ngữ nghĩa
Cách sử dụng tìm kiếm dựa trên từ khoá trong dự đoán phân tích
Hãy tưởng tượng nếu bạn được giao nhiệm vụ tìm kiếm số lượng lớn dữ liệu. Một cách để tiếp cận vấn đề là đưa ra một truy vấn tìm kiếm bao gồm (rõ ràng) các từ. Công cụ tìm kiếm sẽ tìm các từ phù hợp trong cơ sở dữ liệu, kho dữ liệu hoặc đi lục lọi qua bất kỳ văn bản nào mà dữ liệu của bạn cư trú.
Giả sử bạn đang thực hiện truy vấn tìm kiếm sau: Tổng thống Hoa Kỳ thăm Châu Phi . Kết quả tìm kiếm sẽ bao gồm văn bản có chứa chính xác một hoặc một sự kết hợp của các từ Tổng thống, Hoa Kỳ, thăm, Châu Phi . Bạn có thể nhận được thông tin chính xác mà bạn đang tìm kiếm, nhưng không phải luôn luôn.
Còn các tài liệu không chứa bất kỳ từ nào đã đề cập trước đó, nhưng một số sự kết hợp sau đây: Chuyến đi của Obama tới Kenya .
Không có từ nào bạn tìm kiếm ban đầu ở đó - nhưng kết quả tìm kiếm là ngữ nghĩa (có ý nghĩa) hữu ích. Làm thế nào bạn có thể chuẩn bị dữ liệu của bạn được lấy lại ngữ nghĩa? Làm thế nào bạn có thể vượt xa việc tìm kiếm từ khóa truyền thống? Câu trả lời của bạn có thể được tìm thấy nếu bạn tiếp tục đọc.
Một ví dụ về cách các công trình nghiên cứu dựa trên ngữ nghĩa là một dự án mà Anasse Bari lãnh đạo tại Ngân hàng Thế giới, một tổ chức quốc tế có nhiệm vụ chính là để chống lại đói nghèo trên toàn thế giới.
Dự án nhằm mục đích điều tra các tìm kiếm và phân tích doanh nghiệp có quy mô lớn hiện có trên thị trường và xây dựng một mẫu thử nghiệm cho một khuôn khổ tiên tiến để tổ chức dữ liệu của Ngân hàng Thế giới - hầu hết là một bộ sưu tập tài liệu, ấn phẩm, báo cáo dự án không có cấu trúc, tóm tắt, và nghiên cứu trường hợp.
Kiến thức quý giá này là một nguồn lực được sử dụng cho sứ mệnh chính của Ngân hàng trong việc giảm đói nghèo trên thế giới. Nhưng thực tế là nó không có cấu trúc làm cho nó khó khăn để truy cập, chụp, chia sẻ, hiểu, tìm kiếm, khai thác dữ liệu, và hình dung.
Ngân hàng Thế giới là một tổ chức bao la, với nhiều đơn vị trên toàn cầu. Một trong những bộ phận chính đang phấn đấu để có một khuôn khổ và sẵn sàng phân bổ nguồn lực để hỗ trợ nhóm Bari là Mạng lưới Phát triển Con người trong Ngân hàng Thế giới.
Phó chủ tịch của Mạng lưới Phát triển con người vạch ra một vấn đề phát sinh từ sự mơ hồ: Bộ phận của ông đã sử dụng một số thuật ngữ và khái niệm có ý nghĩa chung chung nhưng khác biệt.
Chẳng hạn, các thuật ngữ như khí hậu học, thay đổi khí hậu, suy giảm khí ozone, và
phát thải khí nhà kính đều liên quan đến ngữ nghĩa nhưng không giống nhau về ý nghĩa. Anh ấy muốn có khả năng tìm kiếm đủ thông minh để trích xuất các tài liệu chứa các khái niệm liên quan khi ai đó tìm kiếm bất kỳ từ nào trong số những từ này. Khung nguyên mẫu "cho khả năng đó mà nhóm Bari đã chọn là Kiến trúc Quản lý Thông tin phi cấu trúc (UIMA), một giải pháp dựa trên phần mềm. Được thiết kế bởi IBM Research, UIMA có sẵn trong phần mềm IBM như IBM Content Analytics, một trong những công cụ hỗ trợ IBM Watson, máy tính nổi tiếng đã giành được trò chơi Jeopardy. Nhóm Bari đã hợp sức với một đội ngũ rất tài năng từ IBM Content Management và Enterprise Search, và sau đó là một nhóm IBM Watson, để cộng tác trong dự án này. Giải pháp quản lý thông tin phi cấu trúc
là một hệ thống phần mềm phân tích khối lượng lớn các thông tin phi cấu trúc (văn bản, âm thanh, video, hình ảnh, v.v.) để khám phá, tổ chức và cung cấp kiến thức có liên quan tới khách hàng hoặc ứng dụng người dùng cuối.
Bản thể luận
của một tên miền là một loạt các khái niệm và các thuật ngữ liên quan đến tên miền. Giải pháp dựa trên UIMA sử dụng bản thể luận để cung cấp khả năng gắn thẻ ngữ nghĩa, cho phép tìm kiếm phong phú hơn so với định dạng dữ liệu (văn bản, phát biểu, thuyết trình PowerPoint, e-mail, video …). UIMA nối thêm một lớp khác vào dữ liệu đã chụp, sau đó thêm siêu dữ liệu để xác định dữ liệu có thể được tìm kiếm theo cấu trúc và ngữ nghĩa.
Tìm kiếm ngữ nghĩa dựa trên ý nghĩa ngữ cảnh của cụm từ tìm kiếm khi chúng xuất hiện trong không gian dữ liệu có thể tìm kiếm mà UIMA xây dựng. Tìm kiếm ngữ nghĩa là chính xác hơn so với tìm kiếm dựa trên từ khóa thông thường bởi vì truy vấn của người dùng trả về kết quả tìm kiếm không chỉ các tài liệu có chứa các cụm từ tìm kiếm, mà cả các tài liệu có liên quan đến ngữ nghĩa có liên quan đến truy vấn. đa dạng sinh học ở Châu Phi , một tìm kiếm điển hình (từ khoá) sẽ trả lại các tài liệu có các từ chính xác đa dạng sinh học
và Châu Phi
. Một tìm kiếm ngữ nghĩa dựa trên UIMA sẽ trả lại không chỉ các tài liệu có hai từ đó, mà còn là bất cứ điều gì có liên quan đến ngữ nghĩa với các tài liệu "đa dạng sinh học ở Châu Phi" có chứa các từ như là "tài nguyên thực vật ở châu Phi", "nguồn động vật Ma-rốc "hoặc" nguồn gen ở Zimbabwe. " Thông qua các ngữ nghĩa gắn thẻ và sử dụng các bản thể luận, thông tin trở nên có khả năng truy xuất ngữ nghĩa, độc lập với ngôn ngữ hoặc môi trường mà thông tin được tạo ra (Word, PowerPoint, e-mail, video, v.v.). Giải pháp này cung cấp một trung tâm duy nhất mà dữ liệu có thể được thu thập, tổ chức, trao đổi, và mang lại khả năng truy xuất ngữ nghĩa. Từ điển đồng nghĩa và các thuật ngữ có liên quan là mã nguồn mở (có sẵn miễn phí) - hoặc bạn có thể phát triển các từ điển riêng của mình cho tên miền hoặc dữ liệu của bạn. Bạn có thể xây dựng bảng tính có từ gốc và các từ, từ đồng nghĩa và các từ liên quan tương ứng. Bảng tính có thể được tải lên trong một công cụ tìm kiếm như IBM Content Analytics (ICA) để cấp quyền cho phân tích nội dung và tìm kiếm doanh nghiệp.