Mục lục:
- Đối với các nút chủ Hadoop, bất kể số nút nô lệ hay cách sử dụng cụm, đặc điểm lưu trữ là nhất quán. Sử dụng bốn ổ SAS SAS 900 GB, cùng với bộ điều khiển RAID được cấu hình cho RAID 1 + 0. Các ổ đĩa SAS đắt hơn ổ đĩa SATA, và có dung lượng lưu trữ thấp hơn, nhưng chúng nhanh hơn và đáng tin cậy hơn nhiều.
- Vào thời điểm viết bài này, hầu hết các kiến trúc tham khảo đề xuất sử dụng bo mạch chủ với hai ổ cắm CPU, mỗi lõi có sáu hoặc tám lõi. Kiến trúc Intel Ivy Bridge thường được sử dụng.
- Yêu cầu bộ nhớ thay đổi đáng kể tùy thuộc vào quy mô của cụm Hadoop.Bộ nhớ là một yếu tố quan trọng cho các nút chủ Hadoop bởi vì các máy chủ NameNode đang hoạt động và dự phòng dựa nhiều vào bộ nhớ RAM để quản lý HDFS. Như vậy, sử dụng bộ nhớ sửa lỗi (ECC) cho các nút chủ Hadoop. Thông thường, các nút chính cần giữa 64 GB và 128 GB RAM.
- Giao tiếp nhanh rất quan trọng cho các dịch vụ trên các nút chủ, vì vậy chúng tôi khuyên bạn nên sử dụng một cặp kết nối ngoại quan 10GbE. Cặp ngoại quan này cung cấp dự phòng, nhưng cũng tăng gấp đôi thông qua đến 20GbE. Đối với các cụm nhỏ hơn (ví dụ: ít hơn 50 nút), bạn có thể thoát khỏi việc sử dụng kết nối 1 GbE.
Video: Hadoop là gì 2025
Các nút chủ trong các cụm Hadoop được phân phối chủ trì các dịch vụ quản lý lưu trữ và xử lý khác nhau, được mô tả trong danh sách này, cho toàn bộ cụm Hadoop. Dự phòng là rất quan trọng để tránh những điểm thất bại duy nhất, do đó bạn thấy hai công tắc và ba nút chủ.
-
TênNode: Quản lý lưu trữ HDFS. Để đảm bảo tính sẵn sàng cao, bạn có cả NameNode và NameNode đang hoạt động. Mỗi nút chạy trên nút chủ của nó.
-
Cung cấp checkpointing các dịch vụ cho NameNode. Điều này liên quan đến việc đọc bản ghi chỉnh sửa của NameNode để thay đổi các tệp trong tệp HDFS (tệp mới, đã xoá và được nối) kể từ điểm kiểm tra cuối cùng và áp dụng chúng vào tệp tin chính của NameNode để ánh xạ các tệp vào các khối dữ liệu. Ngoài ra, Nút Sao lưu giữ một không gian tên hệ thống tệp tin trong bộ nhớ và giữ nó trong trạng thái đồng bộ với trạng thái của TênNode. Đối với các triển khai có tính sẵn sàng cao, không sử dụng nút điểm kiểm soát hoặc nút sao lưu - thay vì sử dụng Standby NameNode. Ngoài việc là một standby hoạt động cho NameNode, Standby NameNode duy trì các dịch vụ checkpointing và giữ một bản sao up-to-date của không gian tên hệ thống tập tin trong bộ nhớ.
-
Nhận sửa đổi đăng nhập sửa đổi cho biết các thay đổi đối với tệp trong HDFS từ NameNode. Ít nhất ba dịch vụ JournalNode (và nó luôn luôn là một số lẻ) phải được chạy trong một cluster, và chúng đủ nhẹ để chúng có thể được colocated với các dịch vụ khác trên các nút chủ. Resource Manager:
-
Giám sát việc lên kế hoạch cho các nhiệm vụ ứng dụng và quản lý các tài nguyên của Hadoop cluster. Dịch vụ này là trung tâm của YARN.
-
Đối với máy chủ Hadoop 1, xử lý việc quản lý tài nguyên cụm và lên kế hoạch. Với YARN, JobTracker đã lỗi thời và không được sử dụng. Một số triển khai của Hadoop vẫn chưa di chuyển sang Hadoop 2 và YARN. HMaster:
-
Theo dõi các máy chủ khu vực HBase và xử lý mọi thay đổi siêu dữ liệu. Để đảm bảo tính sẵn sàng cao, hãy chắc chắn sử dụng một ví dụ HMaster thứ hai. Dịch vụ HMaster đủ nhẹ để được colocated với các dịch vụ khác trên các nút chủ. Trong Hadoop 1, các phiên bản của dịch vụ HMaster chạy trên các nút chủ. Trong Hadoop 2, với Hoya (HBase on Yarn), các trường hợp HMaster chạy trong các thùng chứa trên các nút nô lệ. Người giữ cửa:
-
Tọa độ phân phối các thành phần và cung cấp các cơ chế để giữ cho chúng đồng bộ. Zookeeper được sử dụng để phát hiện sự thất bại của NameNode và chọn một NameNode mới.Nó cũng được sử dụng với HBase để quản lý các trạng thái của HMaster và RegionServers. Cũng như JournalNode, bạn cần ít nhất ba trường hợp các nút Zookeeper (và luôn luôn là một số lẻ), và chúng đủ nhẹ để được colocated với các dịch vụ khác trên các nút chủ.
Ở đây, bạn có ba nút chính (cùng một phần cứng), trong đó các dịch vụ chính Active NameNode, Standby NameNode và Resource Manager đều có máy chủ riêng. Có các dịch vụ JournalNode và Zookeeper chạy trên mỗi máy chủ, nhưng chúng rất nhẹ và sẽ không phải là nguồn gây tranh cãi tài nguyên với các dịch vụ NameNode và Resource Manager.
Các nguyên tắc giống nhau cho Hadoop 1, nơi bạn cần một nút chủ chuyên dụng cho các dịch vụ NameNode, Secondary NameNode và JobTracker.
Nếu bạn định sử dụng HBase với Hoya ở Hadoop 2, bạn không cần bất kỳ dịch vụ bổ sung nào. Đối với các triển khai Hadoop 1 sử dụng HBase, hãy kiểm tra hình dưới đây để triển khai các dịch vụ trên các nút chủ của Hadoop cluster.
Có hai sự khác biệt khi so sánh các máy chủ chính này với các máy chủ chính Hadoop 1 mà không có hỗ trợ HBase: ở đây bạn cần hai dịch vụ HMaster (một để điều phối HBase và một để hoạt động như một standby) và các dịch vụ Zookeeper trên cả ba nút chủ để xử lý chuyển đổi dự phòng.
Nếu bạn định sử dụng cụm Hadoop 1 chỉ cho HBase, bạn có thể làm mà không có dịch vụ JobTracker, vì HBase không phụ thuộc vào cơ sở hạ tầng Hadoop 1 MapReduce.
Khi người ta nói về phần cứng cho Hadoop, họ thường nhấn mạnh việc sử dụng các thành phần
hàng hóa - những thứ không đắt tiền. Bởi vì bạn phải cúi xuống chỉ với vài nút chủ (thông thường, ba hoặc bốn), bạn không bị ảnh hưởng bởi chi phí nhân, ví dụ như khi bạn quyết định sử dụng các ổ đĩa cứng đắt tiền. Hãy nhớ rằng, nếu không có nút chủ, không có cụm Hadoop. Các nút chính phục vụ chức năng nhiệm vụ quan trọng, và mặc dù bạn cần sự thừa, bạn nên thiết kế chúng với tính sẵn sàng cao và khả năng phục hồi.
Lưu trữ được đề xuất
Đối với các nút chủ Hadoop, bất kể số nút nô lệ hay cách sử dụng cụm, đặc điểm lưu trữ là nhất quán. Sử dụng bốn ổ SAS SAS 900 GB, cùng với bộ điều khiển RAID được cấu hình cho RAID 1 + 0. Các ổ đĩa SAS đắt hơn ổ đĩa SATA, và có dung lượng lưu trữ thấp hơn, nhưng chúng nhanh hơn và đáng tin cậy hơn nhiều.
Việc triển khai các ổ đĩa SAS của bạn như một mảng RAID đảm bảo rằng các dịch vụ quản lý Hadoop có một kho dự phòng cho các dữ liệu quan trọng của họ. Điều này cung cấp cho bạn đủ lưu trữ ổn định, nhanh chóng và dự phòng để hỗ trợ việc quản lý cụm Hadoop của bạn.
Bộ vi xử lý được đề xuất
Vào thời điểm viết bài này, hầu hết các kiến trúc tham khảo đề xuất sử dụng bo mạch chủ với hai ổ cắm CPU, mỗi lõi có sáu hoặc tám lõi. Kiến trúc Intel Ivy Bridge thường được sử dụng.
Bộ nhớ được đề nghị
Yêu cầu bộ nhớ thay đổi đáng kể tùy thuộc vào quy mô của cụm Hadoop.Bộ nhớ là một yếu tố quan trọng cho các nút chủ Hadoop bởi vì các máy chủ NameNode đang hoạt động và dự phòng dựa nhiều vào bộ nhớ RAM để quản lý HDFS. Như vậy, sử dụng bộ nhớ sửa lỗi (ECC) cho các nút chủ Hadoop. Thông thường, các nút chính cần giữa 64 GB và 128 GB RAM.
Yêu cầu bộ nhớ NameNode là một chức năng trực tiếp của số khối tệp tin được lưu trữ trong HDFS. Theo nguyên tắc, NameNode sử dụng khoảng 1GB RAM cho mỗi triệu khối HDFS. (Nhớ rằng các tệp tin được chia nhỏ thành các khối riêng lẻ và được sao chép sao cho có ba bản sao của mỗi khối.)
Các yêu cầu về bộ nhớ của các máy chủ Resource Manager, HMaster, Zookeeper và JournalNode ít hơn đáng kể so với máy chủ NameNode. Tuy nhiên, thực hành tốt để kích thước các nút chủ trong một thời trang nhất quán để chúng có thể hoán đổi cho nhau trong trường hợp thất bại phần cứng.
Khuyến khích kết nối mạng