Mục lục:
Video: GCP-How to Install Cloudera Manager on Google Cloud Cluster 2025
Hadoop Distributed File System là một phương pháp linh hoạt, linh hoạt và tập hợp để quản lý các tập tin trong một môi trường dữ liệu lớn. HDFS không phải là đích cuối cùng cho các tệp. Thay vào đó, nó là một dịch vụ dữ liệu cung cấp một bộ các tính năng độc đáo cần thiết khi lượng dữ liệu và vận tốc cao. Bởi vì dữ liệu được viết một lần và sau đó đọc nhiều lần sau đó, chứ không phải là viết thường xuyên của các hệ thống tập tin khác, HDFS là một sự lựa chọn tuyệt vời để hỗ trợ phân tích dữ liệu lớn.
Dữ liệu lớn NameNodes
HDFS hoạt động bằng cách chia các tệp lớn thành các phần nhỏ hơn được gọi là khối . Các khối được lưu trữ trên các nút dữ liệu, và đó là trách nhiệm của NameNode để biết các khối nào mà các nút dữ liệu tạo thành tệp hoàn chỉnh. NameNode cũng hoạt động như một "cảnh sát giao thông", quản lý tất cả các truy cập vào các tập tin.
Bộ sưu tập hoàn chỉnh của tất cả các tệp trong cluster đôi khi được gọi là không gian tên hệ thống tệp . Đây là công việc của NameNode để quản lý không gian tên này.
Mặc dù một mối quan hệ mạnh mẽ tồn tại giữa NameNode và các nút dữ liệu, chúng hoạt động theo kiểu "lỏng lẻo". Điều này cho phép các phần tử cluster hoạt động tự động, thêm các máy chủ khi nhu cầu tăng lên. Trong một cấu hình điển hình, bạn sẽ tìm thấy một NameNode và có thể là một nút dữ liệu chạy trên một máy chủ vật lý trong giá. Các máy chủ khác chỉ chạy các nút dữ liệu.
Các nút dữ liệu giao tiếp với nhau để chúng có thể hợp tác trong quá trình vận hành hệ thống tập tin bình thường. Điều này là cần thiết vì các khối cho một tệp có thể sẽ được lưu trữ trên nhiều nút dữ liệu. Vì NameNode rất quan trọng cho hoạt động chính xác của cluster, nên nó có thể và nên được sao chép để bảo vệ chống lại một thất bại điểm duy nhất.
Các nút dữ liệu lớn
Các nút dữ liệu không thông minh, nhưng chúng có tính đàn hồi. Trong nhóm HDFS, khối dữ liệu được nhân rộng trên nhiều nút dữ liệu và quyền truy cập được quản lý bởi NameNode. Cơ chế sao chép được thiết kế cho hiệu quả tối ưu khi tất cả các nút của cụm được thu thập vào một giá đỡ. Trên thực tế, NameNode sử dụng "ID giá" để theo dõi các nút dữ liệu trong cụm.
Các nút dữ liệu cũng cung cấp thông điệp "heartbeat" để phát hiện và đảm bảo kết nối giữa NameNode và các nút dữ liệu. Khi nhịp tim không còn nữa, NameNode sẽ hủy bỏ nút dữ liệu từ cluster và tiếp tục hoạt động như thể không có gì xảy ra. Khi nhịp tim trở lại, nó được thêm vào cụm thông minh đối với người dùng hoặc ứng dụng.
Tính toàn vẹn dữ liệu là một tính năng chính. HDFS hỗ trợ một số khả năng được thiết kế để cung cấp tính toàn vẹn dữ liệu. Như bạn có thể mong đợi, khi các tệp được chia thành các khối và sau đó phân phối trên các máy chủ khác nhau trong cụm, bất kỳ biến thể nào trong hoạt động của bất kỳ phần tử nào cũng có thể ảnh hưởng đến tính toàn vẹn dữ liệu. HDFS sử dụng nhật ký giao dịch và kiểm tra checksum để đảm bảo toàn vẹn toàn bộ cụm.
Các bản ghi giao dịch theo dõi mọi hoạt động và có hiệu quả trong việc kiểm tra hoặc xây dựng lại hệ thống tập tin nếu có điều gì đó không tốt.
Checksum validations được sử dụng để đảm bảo nội dung của các tệp trong HDFS. Khi khách hàng yêu cầu một tệp tin, nó có thể xác minh nội dung bằng cách kiểm tra checksum của nó. Nếu checksum khớp, hoạt động của tệp tin có thể tiếp tục. Nếu không, báo cáo là lỗi. Các tập tin checksum được ẩn để giúp tránh giả mạo.
Các nút dữ liệu sử dụng đĩa cục bộ trong máy chủ hàng hóa để tồn tại. Tất cả các khối dữ liệu được lưu trữ cục bộ, chủ yếu vì lý do hiệu suất. Khối dữ liệu được nhân rộng trên một số nút dữ liệu, do đó sự thất bại của một máy chủ có thể không nhất thiết phải làm hỏng tệp. Mức độ sao chép, số lượng các nút dữ liệu và không gian tên HDFS được thiết lập khi cụm được thực hiện.
HDFS cho dữ liệu lớn
HDFS giải quyết những thách thức dữ liệu lớn bằng cách chia tệp thành một tập hợp các khối nhỏ hơn có liên quan. Các khối này được phân phối giữa các nút dữ liệu trong cụm HDFS và được quản lý bởi NameNode. Kích thước khối có thể được cấu hình và thường là 128 megabytes (MB) hoặc 256MB, có nghĩa là một tệp 1GB tiêu thụ tám khối 128MB cho nhu cầu lưu trữ cơ bản của nó.
HDFS có tính đàn hồi, vì vậy các khối này được nhân rộng trong toàn bộ cụm sao trong trường hợp máy chủ bị lỗi. HDFS theo dõi tất cả những phần này như thế nào? Câu trả lời ngắn gọn là hệ thống tệp siêu dữ liệu .
Siêu dữ liệu được định nghĩa là "dữ liệu về dữ liệu. "Hãy suy nghĩ về siêu dữ liệu HDFS như một khuôn mẫu để cung cấp mô tả chi tiết về những điều sau:
-
Khi tệp được tạo, truy cập, sửa đổi, xóa, v.v …
-
Trường hợp các khối của tệp được lưu trữ trong cụm < Có bao nhiêu tập tin được lưu trong cluster
-
Có bao nhiêu nút dữ liệu trong cluster
-
Vị trí của nhật ký giao dịch cho cụm
-
HDFS
-
Ai có quyền xem hoặc sửa đổi tệp < metadata được lưu trữ trong NameNode, và trong khi cluster đang hoạt động, tất cả các siêu dữ liệu được nạp vào bộ nhớ vật lý của máy chủ NameNode. Như bạn có thể mong đợi, cụm sao lớn hơn, dấu chân metadata càng lớn.
Máy chủ khối làm chính xác những gì? Kiểm tra danh sách sau:
Lưu trữ các khối dữ liệu trong hệ thống tệp cục bộ của máy chủ. HDFS có sẵn trên nhiều hệ điều hành khác nhau và hoạt động giống nhau dù trên Windows, Mac OS hay Linux.
-
Lưu trữ siêu dữ liệu của một khối trong hệ thống tập tin cục bộ dựa trên mẫu siêu dữ liệu trong NameNode.
-
Thực hiện xác nhận định kỳ của kiểm tra tập tin.
-
Gửi báo cáo định kỳ đến NameNode về những khối nào có sẵn cho hoạt động của tệp.
-
Cung cấp siêu dữ liệu và dữ liệu cho khách hàng theo yêu cầu. HDFS hỗ trợ truy cập trực tiếp tới các nút dữ liệu từ các chương trình ứng dụng khách.
-
Chuyển tiếp dữ liệu đến các nút dữ liệu khác dựa trên mô hình "pipelining".
-
Chặn vị trí trên các nút dữ liệu là rất quan trọng đối với việc nhân rộng dữ liệu và hỗ trợ cho việc sắp xếp dữ liệu. HDFS giữ một bản sao của mỗi khối tại địa phương. HDFS nghiêm túc về việc nhân rộng dữ liệu và khả năng phục hồi.