Video: [BigData Engineering] P2: Phân tích và lấy thông tin theo yếu tố. 2025
Phân tích nhật ký là một trường hợp sử dụng phổ biến cho một dự án mở Hadoop. Thật vậy, việc sử dụng sớm nhất của Hadoop là để phân tích quy mô lớn các nhật ký clickstream - nhật ký ghi dữ liệu về các trang web mà mọi người truy cập và theo thứ tự họ ghé thăm chúng.
Tất cả các bản ghi dữ liệu được tạo ra bởi cơ sở hạ tầng CNTT của bạn thường được gọi là dữ liệu thải. Nhật ký là sản phẩm phụ của một máy chủ hoạt động, giống như khói phát ra từ ống xả của động cơ. Xả dữ liệu có ý nghĩa về ô nhiễm hoặc lãng phí, và nhiều doanh nghiệp chắc chắn sẽ tiếp cận loại dữ liệu này với ý nghĩ đó.
Dữ liệu nhật ký thường phát triển nhanh chóng, và do khối lượng lớn sản xuất, có thể rất tẻ nhạt để phân tích. Và, giá trị tiềm năng của dữ liệu này thường không rõ ràng. Vì vậy, sự cám dỗ trong các bộ phận CNTT là lưu trữ dữ liệu nhật ký này trong thời gian ít nhất là hợp lý. (Hậu quả của việc lưu trữ dữ liệu là không tốn kém, và Hadoop ban đầu được phát triển đặc biệt cho các dữ liệu, và nếu không có giá trị kinh doanh nhận thức, tại sao lưu nó?)
Nhưng Hadoop thay đổi toán học: chế biến hàng loạt quy mô của dữ liệu đăng nhập.
Trường hợp sử dụng phân tích dữ liệu nhật ký là nơi hữu ích để bắt đầu chuyến đi Hadoop của bạn bởi vì rất có thể các dữ liệu bạn đang làm việc đang bị xóa hoặc "rơi xuống sàn nhà. "Một số công ty thường xuyên ghi lại một terabyte (TB) hoặc nhiều hoạt động web của khách hàng mỗi tuần loại bỏ dữ liệu mà không cần phân tích (điều này khiến bạn tự hỏi tại sao họ lại quan tâm đến việc thu thập dữ liệu).
Để bắt đầu một cách nhanh chóng, dữ liệu trong trường hợp sử dụng này có thể dễ dàng nhận và thường không bao gồm những vấn đề tương tự bạn sẽ gặp phải nếu bạn bắt đầu hành trình Hadoop của mình với các dữ liệu khác (được quản lý).
Hầu hết các hộ gia đình đều có đồng hồ đo thông minh sử dụng điện. Những chiếc xe mới hơn có hàng nghìn bộ cảm biến ghi lại các khía cạnh của tình trạng và việc sử dụng của chúng. Mỗi lần nhấp chuột và di chuyển chuột bạn thực hiện trong khi duyệt Internet gây ra một loạt các mục đăng nhập sẽ được tạo ra.Mỗi lần bạn mua cái gì đó - thậm chí không sử dụng thẻ tín dụng hoặc thẻ ghi nợ - hệ thống ghi lại hoạt động trong cơ sở dữ liệu - và trong nhật ký.Bạn có thể thấy một số nguồn dữ liệu đăng nhập phổ biến: máy chủ CNTT, các luồng web, các cảm biến và các hệ thống giao dịch.
Mỗi ngành công nghiệp (cũng như tất cả các loại bản ghi vừa mô tả) có tiềm năng rất lớn cho việc phân tích có giá trị - đặc biệt là khi bạn không thể thực hiện được một loại hoạt động nào đó và sau đó liên kết các phát hiện của bạn với một tập dữ liệu khác để cung cấp bối cảnh.
Ví dụ: hãy xem xét trải nghiệm duyệt web và tiêu biểu điển hình này:
Bạn lướt trang web, tìm kiếm các mặt hàng cần mua.
-
Bạn nhấp vào để đọc phần mô tả sản phẩm đánh bắt mắt của bạn.
-
Cuối cùng, bạn thêm một mặt hàng vào giỏ hàng và tiến hành thanh toán (hành động mua hàng).
-
Sau khi xem chi phí vận chuyển, tuy nhiên, bạn quyết định rằng mặt hàng đó không đáng giá và bạn đóng cửa sổ trình duyệt. Mỗi nhấp chuột bạn đã thực hiện - và sau đó ngừng làm - có tiềm năng cung cấp cái nhìn sâu sắc có giá trị cho công ty đằng sau trang web thương mại điện tử này.
Trong ví dụ này, giả sử rằng doanh nghiệp này thu thập dữ liệu luồng nhấp chuột (dữ liệu về mỗi lần nhấp chuột và chế độ xem trang mà khách truy cập "chạm vào") nhằm mục đích hiểu rõ hơn cách phục vụ khách hàng tốt hơn. Một thách thức chung giữa các doanh nghiệp thương mại điện tử là nhận ra những yếu tố chủ chốt đằng sau các xe đẩy bị bỏ rơi. Khi bạn thực hiện phân tích sâu hơn về dữ liệu luồng nhấp chuột và kiểm tra hành vi người dùng trên trang web, các mô hình sẽ xuất hiện.
Công ty của bạn có biết câu trả lời cho câu hỏi dường như đơn giản, "Một số sản phẩm nhất định bị bỏ rơi nhiều hơn những sản phẩm khác? "Hoặc câu trả lời cho câu hỏi" Bạn có thể thu lại được bao nhiêu doanh thu nếu bạn giảm 10% thất thoát hàng? "Sau đây là một ví dụ về loại báo cáo mà bạn có thể trình bày với các nhà lãnh đạo doanh nghiệp của bạn để tìm kiếm sự đầu tư vào nguyên nhân Hadoop của bạn.
Để đạt được điểm mà bạn có thể tạo ra dữ liệu để xây dựng các đồ thị được hiển thị, bạn cô lập các phiên duyệt web của người dùng cá nhân (một quá trình gọi là
phiên họp) , xác định nội dung của giỏ hàng của họ, và sau đó thiết lập trạng thái của giao dịch vào cuối phiên - tất cả bằng cách kiểm tra dữ liệu luồng nhấp chuột. Sau đây là ví dụ về cách lắp ráp các phiên duyệt web của người dùng bằng cách nhóm tất cả nhấp chuột và địa chỉ URL theo địa chỉ IP.
Trong ngữ cảnh Hadoop, bạn luôn làm việc với các khóa và giá trị - mỗi giai đoạn của đầu vào MapReduce và xuất dữ liệu theo các bộ khóa và giá trị. Chìa khóa là địa chỉ IP, và giá trị bao gồm dấu thời gian và URL. Trong giai đoạn bản đồ, phiên người dùng được lắp ráp song song cho tất cả các khối tệp của bộ dữ liệu nhấp chuột được lưu trữ trong cụm Hadoop của bạn.
Giai đoạn bản đồ trả về các phần tử này:
Trang cuối cùng đã được truy cập
-
Danh sách các mục trong giỏ hàng
-
Trạng thái giao dịch cho mỗi phiên người dùng (được lập chỉ mục bởi khóa địa chỉ IP) < Bộ phận giảm tốc thu các bản ghi này và thực hiện việc tổng hợp số lượng và giá trị của giỏ hàng bị bỏ rơi mỗi tháng và cung cấp tổng số các trang cuối phổ biến nhất mà ai đó xem trước khi kết thúc phiên người dùng.