Video: GCP-How to Install Cloudera Manager on Google Cloud Cluster 2025
Chọn bất kỳ hệ thống xử lý dữ liệu nào cũng giống như khoa học là một nghệ thuật.Với Hadoop, bạn xem xét thông tin tương tự như với cơ sở dữ liệu quan hệ, ví dụ như: bạn cần biết bạn có bao nhiêu dữ liệu, ước lượng tỷ lệ tăng trưởng dự kiến và thiết lập một chính sách lưu trữ (bao lâu để giữ dữ liệu)
Sau khi bạn xác định có bao nhiêu dữ liệu bạn cần phải lưu trữ, bạn có thể bắt đầu phân tích các cân nhắc cụ thể của Hadoop Giả sử bạn có một công ty viễn thông và bạn đã thiết lập rằng bạn cần 750 terabytes (TB) dung lượng lưu trữ cho các tệp nhật ký ghi dữ liệu cuộc gọi (CDR). < Bạn giữ lại các hồ sơ này để tuân theo các quy định của chính phủ, nhưng bạn cũng có thể phân tích chúng o xem các mô hình churn và theo dõi sức khỏe của mạng, ví dụ. Để xác định có bao nhiêu không gian lưu trữ bạn cần, và kết quả là có bao nhiêu kệ và nút nô lệ bạn cần, bạn hãy tính toán với các yếu tố sau:
Không gian hoán đổi:
Bất kỳ phân tích hoặc xử lý dữ liệu nào do MapReduce cần thêm 25 phần trăm không gian để lưu trữ bất kỳ tập kết quả tạm thời và cuối cùng nào. (Công ty viễn thông hiện cần 1875 terabyte dung lượng lưu trữ.)-
Công ty viễn thông lưu trữ CDRs dưới dạng nén, với tỷ lệ nén trung bình dự kiến là 3: 1. Bây giờ bạn cần 625 terabyte. Giả sử mỗi nút slave có mười hai ổ 3TB dành riêng cho HDFS, mỗi nô lệ có 36 terabyte dung lượng lưu trữ HDFS thô, vì vậy công ty cần 18 nút slave.
-
Số kệ: Bởi vì mỗi nút slave sử dụng 2RU và công ty trong ví dụ cần ba nút chính (1RU apiece) và hai thiết bị chuyển mạch ToR (1RU apiece), bạn cần tổng cộng là 41RU. Đó là 1RU ít hơn tổng công suất của một rack tiêu chuẩn, do đó, một rack duy nhất là đủ cho việc triển khai này.
Bất kể, không còn chỗ để tăng trưởng trong cụm này, do đó, cẩn thận khi mua một giá đỡ thứ hai (và hai thiết bị chuyển mạch ToR) và chia các nút nô lệ giữa hai kệ. -
Thử nghiệm: Duy trì một cụm thử nghiệm mà là một đại diện quy mô nhỏ hơn của cụm sản xuất là một thực hành tiêu chuẩn. Nó không phải là lớn, nhưng bạn muốn có ít nhất năm nút dữ liệu để bạn có được một đại diện chính xác về hành vi của Hadoop.Giống như bất kỳ môi trường thử nghiệm nào, nó phải được cô lập trên một mạng khác nhau từ cụm sản xuất.
-
Sao lưu và khôi phục thảm họa: Giống như bất kỳ hệ thống sản xuất nào, công ty viễn thông cũng cần cân nhắc các yêu cầu về sao lưu và khôi phục thảm họa. Công ty này có thể đi xa đến mức tạo ra một cụm gương để đảm bảo họ có một chế độ chờ nóng cho toàn bộ hệ thống của họ. Đây rõ ràng là lựa chọn đắt tiền nhất, nhưng thích hợp cho các môi trường mà thời gian hoạt động liên tục là rất quan trọng.
-
Ở mức cuối cùng của dải tần cao nhất (ngoài việc không sao lưu dữ liệu), công ty viễn thông có thể thường xuyên sao lưu tất cả dữ liệu (bao gồm bản thân dữ liệu, ứng dụng, tệp cấu hình và siêu dữ liệu) buộc bằng dây vải. Với băng, dữ liệu không thể truy cập ngay, nhưng nó sẽ cho phép khôi phục thảm họa trong trường hợp toàn bộ cụm Hadoop sản xuất thất bại. Cũng giống như máy tính cá nhân của bạn, khi ổ cứng chính làm đầy không gian, hệ thống sẽ chậm lại đáng kể. Hadoop không phải là ngoại lệ. Ngoài ra, một ổ đĩa cứng thực hiện tốt hơn khi nó có từ 85 đến 90 phần trăm đầy đủ. Với thông tin này trong tâm trí, nếu hiệu suất là quan trọng đối với bạn, bạn nên tăng lên các yếu tố trao đổi không gian từ 25 đến 33 phần trăm.