Trang Chủ Tài chính Cá nhân Hadoop là gì? - núm vú

Hadoop là gì? - núm vú

Video: Hadoop - Bài 1: Giới thiệu về Big Data 2025

Video: Hadoop - Bài 1: Giới thiệu về Big Data 2025
Anonim

Hadoop là một công cụ xử lý dữ liệu mã nguồn mở do Apache Software Foundation phát triển. Hadoop hiện là chương trình đi-vào để xử lý khối lượng lớn và các loại dữ liệu vì nó được thiết kế để làm cho máy tính quy mô lớn hơn giá cả phải chăng và linh hoạt. Với sự xuất hiện của Hadoop, việc xử lý dữ liệu đại chúng đã được giới thiệu với nhiều người hơn và nhiều tổ chức hơn.

Hadoop có thể cung cấp cho bạn một giải pháp tuyệt vời để xử lý, xử lý và nhóm các luồng khối lượng dữ liệu cấu trúc, bán cấu trúc và không có cấu trúc. Bằng cách thiết lập và triển khai Hadoop, bạn sẽ có được một cách tương đối hợp lý để bắt đầu sử dụng và thu thập thông tin chi tiết từ tất cả dữ liệu của tổ chức chứ không chỉ dựa vào bộ dữ liệu giao dịch mà bạn đang ngồi ở một kho dữ liệu cũ ở đâu đó.

Hadoop là một trong những chương trình phổ biến nhất hiện có cho các yêu cầu tính toán quy mô lớn. Hadoop cung cấp một lớp bản đồ và giảm khả năng xử lý các yêu cầu xử lý dữ liệu của hầu hết các dự án dữ liệu lớn.

Thỉnh thoảng dữ liệu quá lớn và nhanh cho cả Hadoop để xử lý. Trong những trường hợp này, các tổ chức đang chuyển sang triển khai MapReduce thay thế, được tùy chỉnh nhiều hơn.

Hadoop sử dụng các nhóm phần cứng hàng hóa để lưu trữ dữ liệu. Phần cứng trong mỗi cụm được kết nối, và phần cứng này bao gồm máy chủ các máy chủ chung loại hiệu năng thấp với chi phí thấp, cung cấp các khả năng tính toán mạnh mẽ khi chạy song song qua một nhóm chia sẻ. Các máy chủ hàng hóa này còn được gọi là nút . Máy tính tính tiền làm giảm đáng kể chi phí liên quan đến việc xử lý và lưu trữ dữ liệu lớn.

Khung chế biến phân tán:

  • Hadoop sử dụng Hadoop MapReduce làm khuôn khổ xử lý phân tán của nó. Một lần nữa, khuôn khổ phân phối là một khuôn khổ mạnh mẽ, nơi các tác vụ xử lý được phân bố qua các nhóm các nút để khối lượng dữ liệu lớn có thể được xử lý rất nhanh trên toàn bộ hệ thống. Hệ thống tệp phân phối:

  • Hadoop sử dụng Hệ thống tệp phân phối Hadoop (HDFS) làm hệ thống tệp phân phối của mình. Khối lượng công việc của các ứng dụng chạy trên Hadoop được chia ra giữa các nút của cụm Hadoop, và sau đó đầu ra được lưu trữ trên HDFS. Nhóm Hadoop có thể bao gồm hàng ngàn nút. Để giữ cho chi phí của quá trình nhập / xuất (I / O) thấp, các công việc Hadoop MapReduce được thực hiện càng gần với dữ liệu càng tốt.

Nghĩa là bộ vi xử lý giảm nhiệm vụ được định vị càng sát càng tốt với dữ liệu tác vụ bản đồ đi ra cần được xử lý. Thiết kế này tạo điều kiện chia sẻ yêu cầu tính toán trong xử lý dữ liệu lớn.

Hadoop cũng hỗ trợ tổ chức theo thứ bậc. Một số nút của nó được phân loại là các nút chủ, và các nút khác được phân loại là nô lệ. Dịch vụ chủ, được gọi là

JobTracker , được thiết kế để kiểm soát một số dịch vụ nô lệ. Các dịch vụ nô lệ (còn gọi là TaskTrackers ) được phân bổ cho mỗi nút. JobTracker điều khiển TaskTracker và gán các nhiệm vụ Hadoop MapReduce cho họ. Trong một phiên bản mới hơn của Hadoop, được gọi là Hadoop 2, một quản lý tài nguyên được gọi là Hadoop YARN đã được thêm vào. Đối với MapReduce trong Hadoop, YARN hoạt động như một hệ thống tích hợp để thực hiện các chức năng quản lý và sắp xếp tài nguyên.

Hadoop xử lý dữ liệu theo lô. Do đó, nếu bạn đang làm việc với dữ liệu phát trực tuyến theo thời gian thực, bạn sẽ không thể sử dụng Hadoop để xử lý các sự cố dữ liệu lớn của mình. Điều này cho biết, nó rất hữu ích để giải quyết nhiều loại khác của các vấn đề dữ liệu lớn.

Hadoop là gì? - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...