Trang Chủ Tài chính Cá nhân Hadoop MapReduce cho Big Data - núm vú

Hadoop MapReduce cho Big Data - núm vú

Mục lục:

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2025

Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2025
Anonim

Để hiểu đầy đủ các khả năng của Hadoop MapReduce, điều quan trọng là phải phân biệt giữa MapReduce (thuật toán) thực hiện MapReduce. Hadoop MapReduce là một triển khai các thuật toán được phát triển và duy trì bởi dự án Apache Hadoop.

Thật hữu ích khi nghĩ về việc triển khai này như là một công cụ MapReduce, bởi vì đó chính là cách nó hoạt động. Bạn cung cấp đầu vào (nhiên liệu), động cơ chuyển đổi đầu vào vào đầu ra một cách nhanh chóng và hiệu quả, và bạn nhận được câu trả lời bạn cần.

Hadoop MapReduce bao gồm nhiều giai đoạn, mỗi bộ có một bộ các hoạt động quan trọng giúp bạn đạt được mục tiêu nhận được những câu trả lời cần thiết từ những dữ liệu lớn. Quá trình này bắt đầu với yêu cầu của người dùng để chạy một chương trình MapReduce và tiếp tục cho đến khi kết quả được ghi lại vào HDFS.

HDFS và MapReduce thực hiện công việc của họ trên các nút trong một cụm được lưu trữ trên các kệ máy chủ hàng hóa. Để đơn giản hóa quá trình thảo luận, sơ đồ chỉ hiển thị hai nút.

Sau đó, nó chỉ định một RecordReader để chuyển đổi các dữ liệu thô để xử lý bằng bản đồ. Một số loại RecordReaders được cung cấp với Hadoop, cung cấp nhiều lựa chọn chuyển đổi. Tính năng này là một trong những cách mà Hadoop quản lý rất nhiều loại dữ liệu được tìm thấy trong các vấn đề dữ liệu lớn.

Để bắt đầu bản đồ dữ liệu lớn

Dữ liệu của bạn hiện ở dạng chấp nhận được đối với bản đồ. Đối với mỗi cặp đầu vào, một trường hợp riêng biệt của bản đồ được gọi để xử lý dữ liệu. Nhưng nó làm gì với sản lượng đã được xử lý, và làm thế nào bạn có thể theo dõi chúng?

Bản đồ có hai khả năng bổ sung để giải quyết các câu hỏi. Do bản đồ và giảm nhu cầu làm việc cùng nhau để xử lý dữ liệu của bạn, chương trình cần phải thu thập dữ liệu từ những người lập bản đồ độc lập và chuyển nó tới bộ phận giảm thiểu. Công việc này được thực hiện bởi một OutputCollector. Một chức năng Reporter cũng cung cấp thông tin thu thập được từ các tác vụ bản đồ để bạn biết khi nào hoặc nếu các công việc bản đồ hoàn tất.

Tất cả công việc này đang được thực hiện trên nhiều nút trong cùng một cluster Hadoop.Bạn có thể có các trường hợp cần phải tích lũy kết quả từ các quy trình lập bản đồ nhất định trước khi các bộ phận giảm tốc có thể bắt đầu. Hoặc, một số kết quả trung gian có thể cần được xử lý trước khi giảm.

Ngoài ra, một số đầu ra này có thể nằm trên một nút khác với nút mà các bộ phận giảm tốc cho đầu ra cụ thể đó sẽ chạy. Việc thu thập và xáo trộn các kết quả trung gian được thực hiện bởi một phân vùng và một loại. Các nhiệm vụ bản đồ sẽ phân phối các kết quả đến một phân vùng cụ thể như các đầu vào cho các nhiệm vụ giảm bớt.

Sau khi tất cả các nhiệm vụ bản đồ hoàn thành, các kết quả trung gian được tập hợp trong phân vùng và xáo trộn xảy ra, phân loại đầu ra để xử lý tối ưu bằng cách giảm.

Giảm và kết hợp dữ liệu lớn

Đối với mỗi cặp đầu ra, giảm được gọi để thực hiện nhiệm vụ của nó. Tương tự như bản đồ, giảm tập hợp kết xuất của nó trong khi tất cả các tác vụ được xử lý. Giảm không thể bắt đầu cho đến khi tất cả bản đồ được hoàn tất. Sản lượng giảm cũng là chìa khóa và một giá trị. Mặc dù điều này là cần thiết để giảm làm công việc của nó, nó có thể không phải là định dạng đầu ra hiệu quả nhất cho các ứng dụng của bạn.

Hadoop cung cấp một tính năng OutputFormat, và nó hoạt động rất giống InputFormat. OutputFormat lấy cặp khóa-giá trị và sắp xếp đầu ra để ghi vào HDFS. Nhiệm vụ cuối cùng là thực sự ghi dữ liệu lên HDFS. Điều này được thực hiện bởi RecordWriter, và nó thực hiện tương tự như RecordReader trừ ngược lại. Cần dữ liệu OutputFormat và ghi nó lên HDFS dưới dạng cần thiết cho các yêu cầu của chương trình.

Sự phối hợp của tất cả các hoạt động này được quản lý trong các phiên bản trước của Hadoop bởi một kế hoạch công việc. Lập kế hoạch này là thô sơ, và khi sự kết hợp của việc làm thay đổi và phát triển, rõ ràng là một cách tiếp cận khác nhau là cần thiết. Sự thiếu hụt cơ bản trong kế hoạch cũ là thiếu quản lý tài nguyên. Phiên bản mới nhất của Hadoop có khả năng mới này.

Hadoop MapReduce là trung tâm của hệ thống Hadoop. Nó cung cấp tất cả các khả năng bạn cần để phá vỡ dữ liệu lớn thành các khối có thể quản lý, xử lý dữ liệu song song trên phân nhóm của bạn và sau đó làm cho dữ liệu có sẵn cho người dùng tiêu dùng hoặc xử lý bổ sung. Và nó làm tất cả các công việc này một cách nhanh chóng, chống chịu lỗi. Điều này chỉ là khởi đầu.

Hadoop MapReduce cho Big Data - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...