Video: Susan Etlinger: What do we do with all this big data? 2025
Phân tích tình cảm xã hội dễ bị overhyped nhất Hadoop sử dụng, không đáng ngạc nhiên, cho rằng thế giới liên tục được kết nối và dân số biểu hiện hiện tại. Trường hợp sử dụng này thúc đẩy nội dung từ các diễn đàn, blog và các nguồn thông tin xã hội khác để phát triển ý thức về những gì mọi người đang làm (ví dụ các sự kiện trong cuộc sống) và cách họ phản ứng thế giới xung quanh họ (tình cảm).
Bởi vì dữ liệu dựa trên văn bản không tự nhiên phù hợp với cơ sở dữ liệu quan hệ, Hadoop là nơi thực tế để khám phá và chạy các phân tích về dữ liệu này.
Ngôn ngữ khó giải thích, ngay cả đối với con người vào những thời điểm - đặc biệt nếu bạn đang đọc văn bản được viết bởi những người trong một nhóm xã hội khác với của bạn. Nhóm người này có thể nói ngôn ngữ của bạn, nhưng biểu hiện và phong cách của họ hoàn toàn xa lạ, vì vậy bạn không biết họ đang nói về một trải nghiệm hay hay một điều xấu.
Ví dụ: nếu bạn nghe từ bom để tham chiếu đến một bộ phim, điều đó có nghĩa là bộ phim không tốt (hoặc tốt, nếu bạn là một phần của giới trẻ phong trào diễn giải "Đó là bom đạn" như một lời khen); tất nhiên, nếu bạn đang kinh doanh an ninh hàng không, từ bom có một ý nghĩa khác. Vấn đề là ngôn ngữ được sử dụng theo nhiều cách khác nhau và liên tục phát triển.
Khi bạn phân tích tình cảm trên phương tiện truyền thông xã hội, bạn có thể chọn từ nhiều cách tiếp cận. Phương pháp cơ bản lập trình phân tích cú pháp văn bản, chiết xuất chuỗi và áp dụng các quy tắc. Trong những tình huống đơn giản, cách tiếp cận này là hợp lý. Tuy nhiên, khi các yêu cầu phát triển và các quy tắc trở nên phức tạp hơn, việc mã hóa văn bản trích xuất văn bản một cách nhanh chóng trở nên không còn khả thi từ quan điểm bảo trì mã, đặc biệt là để tối ưu hóa hiệu năng.
Các phương pháp tiếp cận dựa trên ngữ pháp và quy tắc để xử lý văn bản tốn rất nhiều chi phí, điều này là một cân nhắc quan trọng trong việc khai thác quy mô lớn ở Hadoop. Các quy tắc liên quan nhiều hơn (điều này là không tránh khỏi đối với các mục đích phức tạp như trích ly tình cảm), việc xử lý nhiều hơn là cần thiết.
Cách khác, cách tiếp cận dựa trên số liệu thống kê ngày càng trở nên phổ biến đối với phân tích tình cảm. Thay vì tự viết các quy tắc phức tạp, bạn có thể sử dụng các mô hình học máy theo định hướng trong Apache Mahout. Việc bắt ở đây là bạn sẽ cần phải đào tạo mô hình của bạn với các ví dụ về tình cảm tích cực và tiêu cực. Dữ liệu đào tạo bạn cung cấp nhiều hơn (ví dụ: văn bản từ tweets và phân loại của bạn), kết quả của bạn chính xác hơn.
Các trường hợp sử dụng để phân tích tình cảm xã hội có thể được áp dụng trên một loạt các ngành công nghiệp. Ví dụ, xem xét an toàn thực phẩm: Cố gắng để dự đoán hoặc xác định sự bùng phát các căn bệnh do thực phẩm càng nhanh càng tốt là rất quan trọng đối với cán bộ y tế.
Hình dưới đây cho thấy một ứng dụng dựa trên Hadoop đang nuốt chữ tweets bằng cách sử dụng các trình rút trích dựa trên căn bệnh tiềm ẩn: FLU hoặc THỰC HÀNH THỰC PHẨM.
Bạn có thấy bản đồ nhiệt tạo ra cho thấy vị trí địa lý của các tweet không? Một đặc điểm của dữ liệu trong một thế giới dữ liệu lớn là hầu hết nó là không gian làm giàu: Nó có thông tin địa phương (cũng như các thuộc tính thời gian). Trong trường hợp này, hồ sơ Twitter đã được đảo ngược thiết kế bằng cách tìm kiếm vị trí đã được xuất bản.
Khi nó kết thúc, rất nhiều tài khoản Twitter có vị trí địa lý như là một phần của hồ sơ công khai của họ (cũng như tuyên bố phủ nhận rõ ràng nói rằng suy nghĩ của họ là của riêng mình như trái ngược với nói chuyện với nhà tuyển dụng của họ).
Làm thế nào tốt của một công cụ dự đoán phương tiện truyền thông xã hội có thể được cho sự bùng nổ của bệnh cúm hoặc một sự cố ngộ độc thực phẩm? Xem xét các dữ liệu mẫu ẩn danh được hiển thị. Bạn có thể thấy rằng các phương tiện truyền thông xã hội đã đánh trumped tất cả các chỉ số khác để dự đoán một ổ dịch cúm ở một quận U. cụ thể trong mùa hè cuối và vào đầu mùa thu.
Ví dụ này cho thấy một lợi ích khác thu được từ việc phân tích phương tiện truyền thông xã hội: Nó cho bạn một cơ hội chưa từng có để nhìn vào thông tin thuộc tính trong hồ sơ của người đăng. Cấp, những gì mọi người nói về bản thân trong hồ sơ Twitter của họ thường không đầy đủ (ví dụ: mã vị trí không được điền) hoặc không có ý nghĩa (mã vị trí có thể nói đám mây nine ).
Nhưng bạn có thể học hỏi rất nhiều về con người theo thời gian, dựa trên những gì họ nói. Ví dụ: khách hàng có thể có tweeted (đăng trên Twitter) thông báo về việc sinh con, hình ảnh của Instagram về bức tranh mới nhất của cô ấy, hoặc một bài đăng trên Facebook nói rằng cô ấy không thể tin được hành vi của Walter White trong đêm chung kết Breaking Bad đêm qua.
Trong ví dụ phổ biến này, công ty của bạn có thể trích xuất một sự kiện trong cuộc sống mà đưa ra một đồ thị gia đình (một đứa trẻ mới là một bản cập nhật có giá trị cho một hồ sơ quản lý dữ liệu Master), một sở thích (sơn) và một thuộc tính quan tâm (bạn thích chương trình Breaking Bad ).
Bằng cách phân tích dữ liệu xã hội theo cách này, bạn có cơ hội để xác định các thuộc tính cá nhân với thông tin như sở thích, sinh nhật, sự kiện cuộc sống, vị trí địa lý (quốc gia, tiểu bang và thành phố, ví dụ), người sử dụng lao động, giới tính, hôn nhân trạng thái và hơn thế nữa.
Giả sử bạn là CIO của một hãng hàng không. Bạn có thể sử dụng thông tin về những khách du lịch vui vẻ hoặc tức giận thường xuyên không chỉ để xác định tình cảm mà còn thu thập thông tin khách hàng cho chương trình khách hàng trung thành của bạn bằng cách sử dụng thông tin trên mạng xã hội.
Hãy tưởng tượng bạn có thể nhắm mục tiêu khách hàng tiềm năng tốt như thế nào với thông tin vừa chia sẻ - ví dụ như một email cho khách hàng biết rằng Season 5 của Breaking Bad hiện đã có trên hệ thống phương tiện của máy bay hoặc thông báo rằng trẻ em dưới hai tuổi bay miễn phí.
Đây cũng là một ví dụ điển hình về cách các hệ thống lưu trữ (ví dụ: bán hàng hoặc thuê bao cơ sở dữ liệu) có thể đáp ứng các hệ thống cam kết (ví dụ: các kênh hỗ trợ). Mặc dù lịch sử cứu chuộc và lịch sử đi lại của thành viên trung thành nằm trong một cơ sở dữ liệu quan hệ, nhưng hệ thống tương tác có thể cập nhật hồ sơ (ví dụ như một cột).