Trang Chủ Tài chính Cá nhân Giai đoạn Bản đồ của Ứng dụng MapReduce của Hadoop - núm vú

Giai đoạn Bản đồ của Ứng dụng MapReduce của Hadoop - núm vú

Video: Go-Viet xóa Hoàng Sa, Trường Sa khỏi bản đồ trên app? 2025

Video: Go-Viet xóa Hoàng Sa, Trường Sa khỏi bản đồ trên app? 2025
Anonim

Một ứng dụng MapReduce xử lý dữ liệu trong phân tách đầu vào trên cơ sở ghi lại bản ghi-ghi-kỷ lục và mỗi bản ghi được hiểu bởi MapReduce là một khóa / giá trị cặp. Sau khi đã tính toán phân chia đầu vào, các tác vụ lập bản đồ có thể bắt đầu xử lý chúng - tức là ngay sau khi cơ sở lập lịch trình của Resource Manager phân bổ cho họ các tài nguyên xử lý của chúng. (Trong Hadoop 1, JobTracker chỉ định nhiệm vụ lập bản đồ đến các khe chế biến cụ thể.)

Nhiệm vụ mapper tự xử lý phân chia đầu vào của nó một lần - trong hình, bản ghi này được biểu diễn bởi cặp khóa / giá trị. Trong trường hợp dữ liệu chuyến bay của chúng tôi, khi phân chia đầu vào được tính (sử dụng phương pháp xử lý tệp mặc định cho tệp văn bản), giả định là mỗi hàng trong tệp văn bản là một bản ghi.

Đối với mỗi bản ghi, văn bản của hàng chính nó đại diện cho giá trị, và byte bù đắp của mỗi hàng từ đầu chia tách được coi là chìa khóa.

Bạn có thể tự hỏi tại sao số hàng không được sử dụng thay vì byte bù đắp. Khi bạn xem xét rằng một tệp văn bản rất lớn được chia nhỏ thành nhiều khối dữ liệu cá nhân và được xử lý như nhiều phân chia, số lượng hàng là một khái niệm rủi ro.

Số dòng trong mỗi phân chia khác nhau, vì vậy sẽ không thể tính được số hàng trước một dòng được xử lý. Tuy nhiên, với byte offset, bạn có thể chính xác, bởi vì mỗi khối có một số byte cố định.

Là một tác vụ lập bản đồ xử lý mỗi bản ghi, nó tạo ra một cặp khóa / giá trị mới: Khóa và giá trị ở đây có thể hoàn toàn khác với cặp nhập vào. Đầu ra của tác vụ lập bản đồ là bộ sưu tập đầy đủ của tất cả cặp khóa / giá trị này.

Trước khi xuất tập tin đầu ra cuối cùng cho mỗi tác vụ lập bản đồ, đầu ra được phân chia theo khoá và được sắp xếp. Phân vùng này có nghĩa là tất cả các giá trị cho mỗi khoá được nhóm lại với nhau.

Trong trường hợp ứng dụng mẫu cơ bản khá đơn giản, chỉ có một bộ giảm thiểu duy nhất, vì vậy tất cả các đầu ra của tác vụ lập bản đồ được ghi vào một tệp duy nhất. Nhưng trong trường hợp có nhiều trình làm giảm, mọi tác vụ lập bản đồ cũng có thể tạo nhiều tệp đầu ra.

Sự phân mảnh của các tập tin đầu ra này được dựa trên khóa phân vùng. Ví dụ: nếu chỉ có ba khoá phân vùng riêng biệt cho các tác vụ lập bản đồ và bạn đã định cấu hình ba trình giảm thiểu cho công việc, sẽ có ba tệp đầu ra của bản đồ. Trong ví dụ này, nếu một công việc lập bản đồ cụ thể xử lý phân chia đầu vào và tạo ra kết quả với hai trong số ba phím, sẽ chỉ có hai tệp xuất.

Luôn nén các tác phẩm đầu ra của tác vụ bản đồ. Lợi ích lớn nhất ở đây là tăng hiệu suất, bởi vì việc viết các tệp đầu ra nhỏ hơn giảm thiểu chi phí không thể tránh khỏi của việc truyền sản lượng bản đồ tới các nút mà các trình điều khiển đang chạy.

Bộ phân vùng mặc định là quá đủ trong hầu hết các tình huống, nhưng đôi khi bạn có thể muốn tùy chỉnh cách dữ liệu được phân vùng trước khi nó được xử lý bởi các trình làm giảm. Ví dụ: bạn có thể muốn dữ liệu trong bộ kết quả của mình được sắp xếp theo khóa và các giá trị của chúng - được gọi là loại thứ cấp .

Để thực hiện việc này, bạn có thể ghi đè lên trình phân vùng mặc định và thực hiện theo cách của riêng mình. Quá trình này yêu cầu một số lưu ý, tuy nhiên, bởi vì bạn sẽ muốn đảm bảo rằng số lượng các bản ghi trong mỗi phân vùng là thống nhất. (Nếu một bộ giảm tốc phải xử lý nhiều dữ liệu hơn các bộ phận giảm tốc khác, bạn sẽ đợi công việc MapReduce của bạn kết thúc trong khi bộ giảm tốc quá tải đang làm giảm thông qua bộ dữ liệu không lớn của nó)

Sử dụng các tệp trung gian có kích thước chuẩn, bạn tốt hơn có thể tận dụng lợi thế của song song có sẵn trong xử lý MapReduce.

Giai đoạn Bản đồ của Ứng dụng MapReduce của Hadoop - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...