Trang Chủ Tài chính Cá nhân Cách sử dụng Apache Hadoop cho Predictive Analytics - núm vú

Cách sử dụng Apache Hadoop cho Predictive Analytics - núm vú

Video: Video dùng hadoop mapreduce phân tích mã độc 2025

Video: Video dùng hadoop mapreduce phân tích mã độc 2025
Anonim

Apache Hadoop là một nền tảng phần mềm mã nguồn mở miễn phí để viết và chạy các ứng dụng xử lý một lượng lớn dữ liệu để phân tích tiên đoán. Nó cho phép xử lý song song phân tán các bộ dữ liệu lớn được tạo ra từ nhiều nguồn khác nhau. Về cơ bản, đó là một công cụ mạnh để lưu trữ và xử lý dữ liệu lớn.

Hadoop lưu trữ bất kỳ loại dữ liệu nào, có cấu trúc hoặc không có cấu trúc, từ các nguồn khác nhau - và tổng hợp dữ liệu đó theo bất kỳ cách nào bạn muốn. Hadoop xử lý dữ liệu không đồng nhất bằng cách sử dụng xử lý song song phân tán - làm cho nó trở thành một khuôn khổ rất hiệu quả để sử dụng trong phần mềm phân tích xử lý dữ liệu lớn. Không có gì ngạc nhiên khi một số công ty lớn đang áp dụng Hadoop, bao gồm Facebook, Yahoo!, Google, IBM, Twitter và LinkedIn.

Mặt khác, Hadoop làm cho công việc đó trở nên liền mạch - với một phần nhỏ của chi phí - cho phép các công ty tìm thấy những hiểu biết có giá trị trong số liệu phong phú họ thu được và đang tích lũy.

Bạn không phải xây dựng một lược đồ trước khi bạn có thể hiểu được dữ liệu của bạn; Hadoop cho phép bạn truy vấn dữ liệu đó ở định dạng ban đầu.

Hadoop sử dụng hai thành phần chính (tiểu dự án) để thực hiện công việc của mình: MapReduce và Hadoop Distributed File System. Hai thành phần này hoạt động hợp tác:

MapReduce

: Việc triển khai MapReduce của Hadoop dựa trên nghiên cứu của Google về các mô hình lập trình để xử lý các tập dữ liệu lớn bằng cách chia chúng thành những khối nhỏ các tác vụ. MapReduce sử dụng thuật toán phân tán, trên một nhóm các máy tính trong một cluster, để xử lý các tập dữ liệu lớn.Nó bao gồm hai chức năng:

Chức năng

  • Bản đồ ()

    • nằm trên nút chủ (máy tính nối mạng). Nó phân chia truy vấn đầu vào hoặc nhiệm vụ thành các nhiệm vụ phụ nhỏ hơn, sau đó phân phối cho nút công nhân để xử lý các nhiệm vụ nhỏ hơn và vượt qua câu trả lời về nút chính. Các nhiệm vụ phụ được chạy song song trên nhiều máy tính. Hàm Giảm () thu thập kết quả của tất cả các nhiệm vụ phụ và kết hợp chúng để tạo ra một kết quả cuối cùng tổng hợp - mà nó trả về như là câu trả lời cho truy vấn lớn ban đầu.

    • Hệ thống tệp phân phối Hadoop (HDFS) : HDFS sao chép các khối dữ liệu nằm trên các máy tính khác trong trung tâm dữ liệu của bạn (để đảm bảo độ tin cậy) và quản lý việc chuyển dữ liệu đến các phần khác nhau của hệ thống phân phối của bạn. Xem xét cơ sở dữ liệu của hai tỷ người, và giả sử bạn muốn tính toán số bạn bè xã hội của ông X và sắp xếp chúng theo vị trí địa lý của họ. Đó là một trật tự cao. Dữ liệu cho hai tỷ người có thể bắt nguồn từ nhiều nguồn khác nhau như mạng xã hội, danh sách địa chỉ liên hệ qua e-mail, bài đăng, tweet, lịch sử duyệt web - và đó chỉ dành cho người mở. Hadoop có thể tổng hợp khối lượng dữ liệu khổng lồ, đa dạng này để bạn có thể điều tra nó bằng truy vấn đơn giản.

  • Bạn sẽ sử dụng các khả năng lập trình MapReduce để giải quyết truy vấn này. Định nghĩa Bản đồ và Giảm thủ tục thậm chí làm cho bộ dữ liệu lớn này có thể quản lý được. Sử dụng các công cụ mà Hadoop cung cấp, bạn sẽ tạo ra một sự thực hiện MapReduce có thể tính toán như là hai nhiệm vụ phụ: Tính số lượng trung bình các bạn xã hội của ông X.

Sắp xếp các bạn của Mr. X theo vị trí địa lý.

Chương trình triển khai MapReduce của bạn sẽ chạy các nhiệm vụ phụ song song, quản lý truyền thông giữa các nhiệm vụ phụ và tổng hợp các kết quả. Trong số hai tỷ người, bạn sẽ biết bạn bè trực tuyến của Mr. X là ai.

Hadoop cung cấp một bộ xử lý Map; (những) người mà bạn chọn sẽ phụ thuộc vào cơ sở hạ tầng của bạn.

  • Mỗi bộ xử lý của bạn sẽ xử lý một số lượng hồ sơ nhất định. Giả sử rằng mỗi bộ xử lý xử lý một triệu bản ghi dữ liệu. Mỗi bộ xử lý thực hiện một thủ tục Map để tạo ra nhiều bản ghi các cặp khóa-giá trị nơi

  • G

(key) là vị trí địa lý của một người (quốc gia) và

N

(value) là số địa chỉ liên lạc của người đó. Giả sử mỗi bộ xử lý Bản đồ tạo ra nhiều cặp mẫu, như sau: Bản đồ bộ xử lý số 1: Bản đồ bộ xử lý số 2: Bản đồ bộ xử lý số 3:

Bản đồ bộ xử lý số 4:

Bản đồ bộ vi xử lý # 5:

Bản đồ bộ xử lý số 6:

Trong giai đoạn Giảm, Hadoop chỉ định một nhiệm vụ cho một số bộ xử lý nhất định: Thực hiện các Quy trình Giảm tổng hợp các giá trị của cùng một phím để sản xuất một kết quả cuối cùng. Đối với ví dụ này, việc thực hiện Giảm sẽ tổng hợp các giá trị cho mỗi vị trí chính - vị trí địa lý. Vì vậy, sau giai đoạn Bản đồ, giai đoạn Giảm được tạo ra những điều sau:

------ ----

Rõ ràng, ôngX là một người nổi tiếng - nhưng đây là một ví dụ rất đơn giản về cách MapReduce có thể được sử dụng. Hãy tưởng tượng bạn đang xử lý một tập dữ liệu lớn mà bạn muốn thực hiện các hoạt động phức tạp như tập hợp hàng tỷ tài liệu mà hoạt động và dữ liệu chỉ là quá lớn đối với một máy duy nhất để xử lý. Hadoop là công cụ để xem xét.

Cách sử dụng Apache Hadoop cho Predictive Analytics - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...