Video: Technology Stacks - Computer Science for Business Leaders 2016 2025
Lý do người dân lấy mẫu dữ liệu của họ trước khi chạy phân tích thống kê trong Hadoop là loại phân tích này thường đòi hỏi tài nguyên máy tính đáng kể. Điều này không đơn giản chỉ là về khối lượng dữ liệu: có năm yếu tố chính tác động đến quy mô phân tích thống kê:
-
Điều này rất dễ, nhưng chúng ta phải đề cập đến nó: khối lượng dữ liệu mà bạn sẽ thực hiện phân tích chắc chắn xác định quy mô phân tích.
-
Số lượng các biến đổi cần thiết trên bộ dữ liệu trước khi áp dụng mô hình thống kê chắc chắn là một nhân tố.
-
Số tương quan cặp tính bạn sẽ cần để tính đóng một vai trò.
-
Mức độ phức tạp của tính toán thống kê được áp dụng là một yếu tố.
-
Số lượng mô hình thống kê được áp dụng cho bộ dữ liệu của bạn đóng một vai trò quan trọng.
Hadoop đưa ra cách giải quyết vấn đề này bằng cách cung cấp một nền tảng để thực hiện tính toán song song trên dữ liệu trong Hadoop.
Khi làm như vậy, nó có thể lật dòng dữ liệu phân tích; thay vì di chuyển dữ liệu từ kho của nó đến máy chủ phân tích, Hadoop phân tích trực tiếp dữ liệu. Cụ thể hơn, HDFS cho phép bạn lưu trữ các dãy núi dữ liệu của bạn và sau đó mang tính toán (trong các tác vụ MapReduce) tới các nút nô lệ.
Thách thức chung của việc di chuyển từ các hệ thống thống kê đa xử lý đối xứng (SMP) sang kiến trúc Hadoop là địa phương của dữ liệu. Trên nền tảng SMP truyền thống, nhiều bộ xử lý chia sẻ quyền truy cập vào một tài nguyên bộ nhớ chính.
Trong Hadoop, HDFS sao chép phân vùng dữ liệu qua nhiều nút và máy. Ngoài ra, các thuật toán thống kê được thiết kế để xử lý dữ liệu trong bộ nhớ bây giờ phải thích ứng với các bộ dữ liệu kéo dài nhiều nút / kệ và không thể hy vọng phù hợp trong một khối bộ nhớ duy nhất.