Trang Chủ Tài chính Cá nhân Hadoop Hệ thống tệp phân phối (HDFS) cho Dự án Dữ liệu Lớn - những cái đầu

Hadoop Hệ thống tệp phân phối (HDFS) cho Dự án Dữ liệu Lớn - những cái đầu

Mục lục:

Video: GCP-How to Install Cloudera Manager on Google Cloud Cluster 2025

Video: GCP-How to Install Cloudera Manager on Google Cloud Cluster 2025
Anonim

Hadoop Distributed File System là một phương pháp linh hoạt, linh hoạt và tập hợp để quản lý các tập tin trong một môi trường dữ liệu lớn. HDFS không phải là đích cuối cùng cho các tệp. Thay vào đó, nó là một dịch vụ dữ liệu cung cấp một bộ các tính năng độc đáo cần thiết khi lượng dữ liệu và vận tốc cao. Bởi vì dữ liệu được viết một lần và sau đó đọc nhiều lần sau đó, chứ không phải là viết thường xuyên của các hệ thống tập tin khác, HDFS là một sự lựa chọn tuyệt vời để hỗ trợ phân tích dữ liệu lớn.

Dữ liệu lớn NameNodes

HDFS hoạt động bằng cách chia các tệp lớn thành các phần nhỏ hơn được gọi là khối . Các khối được lưu trữ trên các nút dữ liệu, và đó là trách nhiệm của NameNode để biết các khối nào mà các nút dữ liệu tạo thành tệp hoàn chỉnh. NameNode cũng hoạt động như một "cảnh sát giao thông", quản lý tất cả các truy cập vào các tập tin.

Bộ sưu tập hoàn chỉnh của tất cả các tệp trong cluster đôi khi được gọi là không gian tên hệ thống tệp . Đây là công việc của NameNode để quản lý không gian tên này.

Mặc dù một mối quan hệ mạnh mẽ tồn tại giữa NameNode và các nút dữ liệu, chúng hoạt động theo kiểu "lỏng lẻo". Điều này cho phép các phần tử cluster hoạt động tự động, thêm các máy chủ khi nhu cầu tăng lên. Trong một cấu hình điển hình, bạn sẽ tìm thấy một NameNode và có thể là một nút dữ liệu chạy trên một máy chủ vật lý trong giá. Các máy chủ khác chỉ chạy các nút dữ liệu.

Các nút dữ liệu giao tiếp với nhau để chúng có thể hợp tác trong quá trình vận hành hệ thống tập tin bình thường. Điều này là cần thiết vì các khối cho một tệp có thể sẽ được lưu trữ trên nhiều nút dữ liệu. Vì NameNode rất quan trọng cho hoạt động chính xác của cluster, nên nó có thể và nên được sao chép để bảo vệ chống lại một thất bại điểm duy nhất.

Các nút dữ liệu lớn

Các nút dữ liệu không thông minh, nhưng chúng có tính đàn hồi. Trong nhóm HDFS, khối dữ liệu được nhân rộng trên nhiều nút dữ liệu và quyền truy cập được quản lý bởi NameNode. Cơ chế sao chép được thiết kế cho hiệu quả tối ưu khi tất cả các nút của cụm được thu thập vào một giá đỡ. Trên thực tế, NameNode sử dụng "ID giá" để theo dõi các nút dữ liệu trong cụm.

Các nút dữ liệu cũng cung cấp thông điệp "heartbeat" để phát hiện và đảm bảo kết nối giữa NameNode và các nút dữ liệu. Khi nhịp tim không còn nữa, NameNode sẽ hủy bỏ nút dữ liệu từ cluster và tiếp tục hoạt động như thể không có gì xảy ra. Khi nhịp tim trở lại, nó được thêm vào cụm thông minh đối với người dùng hoặc ứng dụng.

Tính toàn vẹn dữ liệu là một tính năng chính. HDFS hỗ trợ một số khả năng được thiết kế để cung cấp tính toàn vẹn dữ liệu. Như bạn có thể mong đợi, khi các tệp được chia thành các khối và sau đó phân phối trên các máy chủ khác nhau trong cụm, bất kỳ biến thể nào trong hoạt động của bất kỳ phần tử nào cũng có thể ảnh hưởng đến tính toàn vẹn dữ liệu. HDFS sử dụng nhật ký giao dịch và kiểm tra checksum để đảm bảo toàn vẹn toàn bộ cụm.

Các bản ghi giao dịch theo dõi mọi hoạt động và có hiệu quả trong việc kiểm tra hoặc xây dựng lại hệ thống tập tin nếu có điều gì đó không tốt.

Checksum validations được sử dụng để đảm bảo nội dung của các tệp trong HDFS. Khi khách hàng yêu cầu một tệp tin, nó có thể xác minh nội dung bằng cách kiểm tra checksum của nó. Nếu checksum khớp, hoạt động của tệp tin có thể tiếp tục. Nếu không, báo cáo là lỗi. Các tập tin checksum được ẩn để giúp tránh giả mạo.

Các nút dữ liệu sử dụng đĩa cục bộ trong máy chủ hàng hóa để tồn tại. Tất cả các khối dữ liệu được lưu trữ cục bộ, chủ yếu vì lý do hiệu suất. Khối dữ liệu được nhân rộng trên một số nút dữ liệu, do đó sự thất bại của một máy chủ có thể không nhất thiết phải làm hỏng tệp. Mức độ sao chép, số lượng các nút dữ liệu và không gian tên HDFS được thiết lập khi cụm được thực hiện.

HDFS cho dữ liệu lớn

HDFS giải quyết những thách thức dữ liệu lớn bằng cách chia tệp thành một tập hợp các khối nhỏ hơn có liên quan. Các khối này được phân phối giữa các nút dữ liệu trong cụm HDFS và được quản lý bởi NameNode. Kích thước khối có thể được cấu hình và thường là 128 megabytes (MB) hoặc 256MB, có nghĩa là một tệp 1GB tiêu thụ tám khối 128MB cho nhu cầu lưu trữ cơ bản của nó.

HDFS có tính đàn hồi, vì vậy các khối này được nhân rộng trong toàn bộ cụm sao trong trường hợp máy chủ bị lỗi. HDFS theo dõi tất cả những phần này như thế nào? Câu trả lời ngắn gọn là hệ thống tệp siêu dữ liệu .

Siêu dữ liệu được định nghĩa là "dữ liệu về dữ liệu. "Hãy suy nghĩ về siêu dữ liệu HDFS như một khuôn mẫu để cung cấp mô tả chi tiết về những điều sau:

  • Khi tệp được tạo, truy cập, sửa đổi, xóa, v.v …

  • Trường hợp các khối của tệp được lưu trữ trong cụm < Có bao nhiêu tập tin được lưu trong cluster

  • Có bao nhiêu nút dữ liệu trong cluster

  • Vị trí của nhật ký giao dịch cho cụm

  • HDFS

  • Ai có quyền xem hoặc sửa đổi tệp < metadata được lưu trữ trong NameNode, và trong khi cluster đang hoạt động, tất cả các siêu dữ liệu được nạp vào bộ nhớ vật lý của máy chủ NameNode. Như bạn có thể mong đợi, cụm sao lớn hơn, dấu chân metadata càng lớn.

Máy chủ khối làm chính xác những gì? Kiểm tra danh sách sau:

Lưu trữ các khối dữ liệu trong hệ thống tệp cục bộ của máy chủ. HDFS có sẵn trên nhiều hệ điều hành khác nhau và hoạt động giống nhau dù trên Windows, Mac OS hay Linux.

  • Lưu trữ siêu dữ liệu của một khối trong hệ thống tập tin cục bộ dựa trên mẫu siêu dữ liệu trong NameNode.

  • Thực hiện xác nhận định kỳ của kiểm tra tập tin.

  • Gửi báo cáo định kỳ đến NameNode về những khối nào có sẵn cho hoạt động của tệp.

  • Cung cấp siêu dữ liệu và dữ liệu cho khách hàng theo yêu cầu. HDFS hỗ trợ truy cập trực tiếp tới các nút dữ liệu từ các chương trình ứng dụng khách.

  • Chuyển tiếp dữ liệu đến các nút dữ liệu khác dựa trên mô hình "pipelining".

  • Chặn vị trí trên các nút dữ liệu là rất quan trọng đối với việc nhân rộng dữ liệu và hỗ trợ cho việc sắp xếp dữ liệu. HDFS giữ một bản sao của mỗi khối tại địa phương. HDFS nghiêm túc về việc nhân rộng dữ liệu và khả năng phục hồi.

Hadoop Hệ thống tệp phân phối (HDFS) cho Dự án Dữ liệu Lớn - những cái đầu

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...