Trang Chủ Tài chính Cá nhân Log Dữ liệu Phân tích với Hadoop - núm vú

Log Dữ liệu Phân tích với Hadoop - núm vú

Video: [BigData Engineering] P2: Phân tích và lấy thông tin theo yếu tố. 2025

Video: [BigData Engineering] P2: Phân tích và lấy thông tin theo yếu tố. 2025
Anonim

Phân tích nhật ký là một trường hợp sử dụng phổ biến cho một dự án mở Hadoop. Thật vậy, việc sử dụng sớm nhất của Hadoop là để phân tích quy mô lớn các nhật ký clickstream - nhật ký ghi dữ liệu về các trang web mà mọi người truy cập và theo thứ tự họ ghé thăm chúng.

Tất cả các bản ghi dữ liệu được tạo ra bởi cơ sở hạ tầng CNTT của bạn thường được gọi là dữ liệu thải. Nhật ký là sản phẩm phụ của một máy chủ hoạt động, giống như khói phát ra từ ống xả của động cơ. Xả dữ liệu có ý nghĩa về ô nhiễm hoặc lãng phí, và nhiều doanh nghiệp chắc chắn sẽ tiếp cận loại dữ liệu này với ý nghĩ đó.

Dữ liệu nhật ký thường phát triển nhanh chóng, và do khối lượng lớn sản xuất, có thể rất tẻ nhạt để phân tích. Và, giá trị tiềm năng của dữ liệu này thường không rõ ràng. Vì vậy, sự cám dỗ trong các bộ phận CNTT là lưu trữ dữ liệu nhật ký này trong thời gian ít nhất là hợp lý. (Hậu quả của việc lưu trữ dữ liệu là không tốn kém, và Hadoop ban đầu được phát triển đặc biệt cho các dữ liệu, và nếu không có giá trị kinh doanh nhận thức, tại sao lưu nó?)

Nhưng Hadoop thay đổi toán học: chế biến hàng loạt quy mô của dữ liệu đăng nhập.

Trường hợp sử dụng phân tích dữ liệu nhật ký là nơi hữu ích để bắt đầu chuyến đi Hadoop của bạn bởi vì rất có thể các dữ liệu bạn đang làm việc đang bị xóa hoặc "rơi xuống sàn nhà. "Một số công ty thường xuyên ghi lại một terabyte (TB) hoặc nhiều hoạt động web của khách hàng mỗi tuần loại bỏ dữ liệu mà không cần phân tích (điều này khiến bạn tự hỏi tại sao họ lại quan tâm đến việc thu thập dữ liệu).

Để bắt đầu một cách nhanh chóng, dữ liệu trong trường hợp sử dụng này có thể dễ dàng nhận và thường không bao gồm những vấn đề tương tự bạn sẽ gặp phải nếu bạn bắt đầu hành trình Hadoop của mình với các dữ liệu khác (được quản lý).

Hầu hết các hộ gia đình đều có đồng hồ đo thông minh sử dụng điện. Những chiếc xe mới hơn có hàng nghìn bộ cảm biến ghi lại các khía cạnh của tình trạng và việc sử dụng của chúng. Mỗi lần nhấp chuột và di chuyển chuột bạn thực hiện trong khi duyệt Internet gây ra một loạt các mục đăng nhập sẽ được tạo ra.

Mỗi lần bạn mua cái gì đó - thậm chí không sử dụng thẻ tín dụng hoặc thẻ ghi nợ - hệ thống ghi lại hoạt động trong cơ sở dữ liệu - và trong nhật ký.Bạn có thể thấy một số nguồn dữ liệu đăng nhập phổ biến: máy chủ CNTT, các luồng web, các cảm biến và các hệ thống giao dịch.

Mỗi ngành công nghiệp (cũng như tất cả các loại bản ghi vừa mô tả) có tiềm năng rất lớn cho việc phân tích có giá trị - đặc biệt là khi bạn không thể thực hiện được một loại hoạt động nào đó và sau đó liên kết các phát hiện của bạn với một tập dữ liệu khác để cung cấp bối cảnh.

Ví dụ: hãy xem xét trải nghiệm duyệt web và tiêu biểu điển hình này:

Bạn lướt trang web, tìm kiếm các mặt hàng cần mua.

  1. Bạn nhấp vào để đọc phần mô tả sản phẩm đánh bắt mắt của bạn.

  2. Cuối cùng, bạn thêm một mặt hàng vào giỏ hàng và tiến hành thanh toán (hành động mua hàng).

  3. Sau khi xem chi phí vận chuyển, tuy nhiên, bạn quyết định rằng mặt hàng đó không đáng giá và bạn đóng cửa sổ trình duyệt. Mỗi nhấp chuột bạn đã thực hiện - và sau đó ngừng làm - có tiềm năng cung cấp cái nhìn sâu sắc có giá trị cho công ty đằng sau trang web thương mại điện tử này.

Trong ví dụ này, giả sử rằng doanh nghiệp này thu thập dữ liệu luồng nhấp chuột (dữ liệu về mỗi lần nhấp chuột và chế độ xem trang mà khách truy cập "chạm vào") nhằm mục đích hiểu rõ hơn cách phục vụ khách hàng tốt hơn. Một thách thức chung giữa các doanh nghiệp thương mại điện tử là nhận ra những yếu tố chủ chốt đằng sau các xe đẩy bị bỏ rơi. Khi bạn thực hiện phân tích sâu hơn về dữ liệu luồng nhấp chuột và kiểm tra hành vi người dùng trên trang web, các mô hình sẽ xuất hiện.

Công ty của bạn có biết câu trả lời cho câu hỏi dường như đơn giản, "Một số sản phẩm nhất định bị bỏ rơi nhiều hơn những sản phẩm khác? "Hoặc câu trả lời cho câu hỏi" Bạn có thể thu lại được bao nhiêu doanh thu nếu bạn giảm 10% thất thoát hàng? "Sau đây là một ví dụ về loại báo cáo mà bạn có thể trình bày với các nhà lãnh đạo doanh nghiệp của bạn để tìm kiếm sự đầu tư vào nguyên nhân Hadoop của bạn.

Để đạt được điểm mà bạn có thể tạo ra dữ liệu để xây dựng các đồ thị được hiển thị, bạn cô lập các phiên duyệt web của người dùng cá nhân (một quá trình gọi là

phiên họp) , xác định nội dung của giỏ hàng của họ, và sau đó thiết lập trạng thái của giao dịch vào cuối phiên - tất cả bằng cách kiểm tra dữ liệu luồng nhấp chuột. Sau đây là ví dụ về cách lắp ráp các phiên duyệt web của người dùng bằng cách nhóm tất cả nhấp chuột và địa chỉ URL theo địa chỉ IP.

Trong ngữ cảnh Hadoop, bạn luôn làm việc với các khóa và giá trị - mỗi giai đoạn của đầu vào MapReduce và xuất dữ liệu theo các bộ khóa và giá trị. Chìa khóa là địa chỉ IP, và giá trị bao gồm dấu thời gian và URL. Trong giai đoạn bản đồ, phiên người dùng được lắp ráp song song cho tất cả các khối tệp của bộ dữ liệu nhấp chuột được lưu trữ trong cụm Hadoop của bạn.

Giai đoạn bản đồ trả về các phần tử này:

Trang cuối cùng đã được truy cập

  • Danh sách các mục trong giỏ hàng

  • Trạng thái giao dịch cho mỗi phiên người dùng (được lập chỉ mục bởi khóa địa chỉ IP) < Bộ phận giảm tốc thu các bản ghi này và thực hiện việc tổng hợp số lượng và giá trị của giỏ hàng bị bỏ rơi mỗi tháng và cung cấp tổng số các trang cuối phổ biến nhất mà ai đó xem trước khi kết thúc phiên người dùng.

Log Dữ liệu Phân tích với Hadoop - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...