Mục lục:
- Đối với các nút cạnh trong một cụm Hadoop, sử dụng bộ nhớ lớp doanh nghiệp. Đối với các nút cạnh tập trung vào các công cụ quản trị và chạy các ứng dụng khách, sử dụng bốn ổ đĩa SAS 900GB cùng với bộ điều khiển RAID được cấu hình cho RAID 1 + 0.
- Một nút cạnh có mục đích chung sẽ được phục vụ tốt bởi cấu hình bộ xử lý tương tự với một nút được sử dụng cho các nút nô lệ - đặc biệt là một máy chủ dual-socket với bộ xử lý Ivy Bridge với tốc độ từ 2 đến 2. 5GHz.
- Đối với hầu hết khối lượng công việc trên các nút cạnh, 48GB bộ nhớ RAM là đủ.
- Máy tính đa địa chỉ là máy tính có kết nối chuyên dụng với nhiều mạng. Đây là minh hoạ thực tế tại sao các nút cạnh thích hợp hoàn toàn với sự tương tác với thế giới bên ngoài cụm Hadoop. Giữ cụm Hadoop của bạn trong mạng con riêng của chính nó là một thực hành tuyệt vời, vì vậy các nút cạnh này phục vụ như một cửa sổ được kiểm soát bên trong cụm.
Video: GCP-How to Install Cloudera Manager on Google Cloud Cluster 2025
Các nút cạnh là giao diện giữa cụm Hadoop và mạng bên ngoài. Vì lý do này, chúng đôi khi được gọi là các nút gateway . Thông thường, các nút cạnh được sử dụng để chạy ứng dụng khách và các công cụ quản lý cụm.
Chúng cũng thường được sử dụng làm vùng dàn cho dữ liệu được chuyển vào cụm Hadoop. Như vậy, Oozie, Pig, Sqoop và các công cụ quản lý như Hue và Ambari chạy tốt ở đó. Hình này cho biết các quy trình bạn có thể chạy trên các nút Edge.
Các nút cạnh thường bị bỏ qua trong các cuộc thảo luận về kiến trúc phần cứng Hadoop. Tình huống này là không may bởi vì các nút cạnh phục vụ một mục đích quan trọng trong một cụm Hadoop, và chúng có các yêu cầu về phần cứng khác với các nút chủ và nút nô lệ.
Nhìn chung, nên giảm thiểu việc triển khai các công cụ quản trị trên các nút chủ và nút nô lệ để đảm bảo rằng các dịch vụ Hadoop quan trọng như NameNode ít cạnh tranh với các nguồn lực nhất có thể.
Hình này cho thấy hai nút cạnh, nhưng đối với nhiều cụm Hadoop, một nút cạnh duy nhất sẽ là đủ. Thêm các nút cạnh là rất cần thiết khi khối lượng dữ liệu được chuyển vào hoặc ra khỏi cluster là quá nhiều cho một máy chủ duy nhất để xử lý.
Đối với các nút cạnh trong một cụm Hadoop, sử dụng bộ nhớ lớp doanh nghiệp. Đối với các nút cạnh tập trung vào các công cụ quản trị và chạy các ứng dụng khách, sử dụng bốn ổ đĩa SAS 900GB cùng với bộ điều khiển RAID được cấu hình cho RAID 1 + 0.
Các nút cạnh định hướng để nhập dữ liệu rõ ràng cần thêm không gian lưu trữ, vì vậy bạn có thể thêm các ổ đĩa vào nút cạnh. Trong trường hợp này, sử dụng các ổ LFF SAS vì có nhiều năng lực cao hơn, so với các ổ đĩa SAS dạng form factor nhỏ hơn.
Bộ vi xử lý được đề nghị
Một nút cạnh có mục đích chung sẽ được phục vụ tốt bởi cấu hình bộ xử lý tương tự với một nút được sử dụng cho các nút nô lệ - đặc biệt là một máy chủ dual-socket với bộ xử lý Ivy Bridge với tốc độ từ 2 đến 2. 5GHz.
Bộ nhớ được đề xuất
Đối với hầu hết khối lượng công việc trên các nút cạnh, 48GB bộ nhớ RAM là đủ.
Khuyến khích kết nối mạng Để cho phép truyền thông giữa mạng bên ngoài và cụm Hadoop, các nút cạnh cần phải được kết hợp nhiều trong mạng con riêng của cụm Hadoop cũng như vào mạng công ty.
Máy tính đa địa chỉ là máy tính có kết nối chuyên dụng với nhiều mạng. Đây là minh hoạ thực tế tại sao các nút cạnh thích hợp hoàn toàn với sự tương tác với thế giới bên ngoài cụm Hadoop. Giữ cụm Hadoop của bạn trong mạng con riêng của chính nó là một thực hành tuyệt vời, vì vậy các nút cạnh này phục vụ như một cửa sổ được kiểm soát bên trong cụm.
Đối với các nút cạnh có chức năng chạy các ứng dụng khách hoặc các công cụ quản trị, nên dùng hai cặp kết nối mạng 1GbE ngoại quan: một cặp kết nối với cụm Hadoop và một cặp khác cho mạng bên ngoài.
Các nút cạnh để định hướng các tốc độ truyền dữ liệu trong và ngoài sẽ cần hai (hoặc nhiều) cặp kết nối mạng 10GbE ngoại quan: một cặp để kết nối với cụm Hadoop và một cặp khác cho mạng bên ngoài hoặc các nguồn dữ liệu cụ thể.