Video: Big Data - Tim Smith 2025
Chi phí lưu trữ thấp cho Hadoop cộng với khả năng truy vấn dữ liệu Hadoop với SQL làm cho Hadoop trở thành điểm đến hàng đầu cho dữ liệu lưu trữ. Trường hợp sử dụng này có tác động thấp đến tổ chức của bạn bởi vì bạn có thể bắt đầu xây dựng bộ kỹ năng Hadoop của mình dựa trên dữ liệu không được lưu trữ trên các hệ thống nhiệm vụ quan trọng.
Hơn nữa, bạn không phải làm việc chăm chỉ để có được dữ liệu. (Vì các dữ liệu lưu trữ thường được lưu trữ trên các hệ thống có mức sử dụng thấp, nên dễ dàng hơn so với dữ liệu nằm trong "sự quan trọng" đối với các hệ thống nhiệm vụ quan trọng như kho dữ liệu). Nếu bạn đã sử dụng Hadoop như một đích khu vực, bạn có nền tảng cho kho lưu trữ của bạn! Bạn chỉ cần giữ những gì bạn muốn lưu trữ và xóa những gì bạn không.
Nếu bạn nghĩ về khu đích của Hadoop, kho lưu trữ có thể truy vấn, thể hiện trong hình, mở rộng giá trị của Hadoop và bắt đầu tích hợp các phần có thể đã tồn tại trong doanh nghiệp của bạn. Đây là một ví dụ tuyệt vời về việc tìm kiếm các nền kinh tế về quy mô và cơ hội thu chi phí bằng cách sử dụng Hadoop.
Ở đây, thành phần lưu trữ kết nối hạ cánh và kho dữ liệu. Các dữ liệu được lưu trữ bắt nguồn từ kho và sau đó được lưu giữ trong cụm Hadoop, cũng là nơi cung cấp hạ cánh. Nói tóm lại, bạn có thể sử dụng cụm Hadoop tương tự để lưu trữ dữ liệu và hoạt động như vùng đích của bạn.
Công nghệ chính Hadoop bạn sử dụng để thực hiện việc lưu trữ là Sqoop, có thể di chuyển dữ liệu được lưu trữ từ kho dữ liệu vào Hadoop. Bạn sẽ cần phải xem xét các hình thức mà bạn muốn dữ liệu để có trong cụm Hadoop của bạn. Nói chung, tập tin nén Hive là một lựa chọn tốt.
Tất nhiên bạn có thể biến đổi dữ liệu từ các cấu trúc kho sang một dạng khác (ví dụ như một mẫu bình thường để giảm sự dư thừa), nhưng nói chung đây không phải là một ý tưởng hay. Giữ dữ liệu trong cấu trúc giống như trong kho sẽ làm cho việc thực hiện truy vấn toàn bộ dữ liệu dễ dàng hơn trên dữ liệu đã lưu trữ trong Hadoop và dữ liệu đang hoạt động trong kho.
Khái niệm truy vấn cả tập dữ liệu hoạt động và lưu trữ sẽ đưa ra một cân nhắc khác: bạn nên lưu trữ dữ liệu bao nhiêu? Thực sự có hai lựa chọn phổ biến: lưu trữ tất cả mọi thứ như dữ liệu được thêm vào và thay đổi trong kho dữ liệu hoặc chỉ lưu trữ dữ liệu bạn cho là lạnh.
Lưu trữ tất cả mọi thứ có lợi cho phép bạn dễ dàng phát hành các truy vấn từ một giao diện duy nhất trên toàn bộ bộ dữ liệu - không có lưu trữ đầy đủ, bạn cần phải tìm ra giải pháp truy vấn liên hợp, nơi bạn phải kết hợp các kết quả từ kho lưu trữ và kho dữ liệu đang hoạt động.
Nhưng nhược điểm ở đây là việc cập nhật thường xuyên dữ liệu nóng của kho dữ liệu của bạn sẽ gây ra nhức đầu cho kho lưu trữ dựa trên nền tảng Hadoop. Điều này là do bất kỳ thay đổi nào đối với dữ liệu trong các hàng và cột riêng lẻ sẽ yêu cầu xoá bán buôn và sắp xếp lại các bộ dữ liệu hiện có.
Giờ đây dữ liệu lưu trữ được lưu trữ trong đích đích của Hadoop (giả sử bạn đang sử dụng một tùy chọn như các tệp Hive đã nén trước đó), bạn có thể truy vấn dữ liệu đó. Đây là nơi mà SQL trên các giải pháp Hadoop có thể trở nên thú vị.
Một ví dụ tuyệt vời về những gì có thể là cho các công cụ phân tích (ở bên phải trong hình) để trực tiếp chạy báo cáo hoặc phân tích dữ liệu lưu trữ được lưu trữ trong Hadoop. Đây không phải là để thay thế kho dữ liệu - sau khi tất cả, Hadoop sẽ không thể phù hợp với đặc tính hiệu năng của kho để hỗ trợ hàng trăm hoặc nhiều người dùng đồng thời đặt câu hỏi phức tạp.
Vấn đề ở đây là bạn có thể sử dụng các công cụ báo cáo chống lại Hadoop để thử nghiệm và đưa ra các câu hỏi mới để trả lời trong một kho hàng hoặc siêu thị chuyên dụng.
Khi bạn bắt đầu dự án dựa trên Hadoop đầu tiên để lưu trữ dữ liệu kho, đừng phá vỡ các quy trình hiện tại cho đến khi bạn đã thử nghiệm đầy đủ về giải pháp Hadoop mới của mình. Nói cách khác, nếu chiến lược lưu trữ hiện tại của bạn là lưu trữ vào băng, hãy giữ lại quy trình đó và lưu trữ kép dữ liệu vào Hadoop và băng keo cho đến khi bạn hoàn toàn kiểm tra kịch bản (thường là khôi phục dữ liệu kho trong trường hợp của một thất bại nhà kho).
Mặc dù bạn đang duy trì (trong ngắn hạn) hai kho lưu trữ, bạn sẽ có một cơ sở hạ tầng mạnh mẽ tại chỗ và được thử nghiệm trước khi bạn ngừng hoạt động theo quy trình đã qua thử thách. Quá trình này có thể đảm bảo rằng bạn vẫn làm việc - với chủ nhân hiện tại của bạn.
Trường hợp sử dụng này đơn giản vì không có thay đổi đối với kho hiện tại. Mục tiêu kinh doanh vẫn như cũ: chi phí lưu trữ và chi phí giấy phép rẻ hơn bằng cách di chuyển dữ liệu hiếm khi sử dụng vào kho lưu trữ. Sự khác biệt trong trường hợp này là công nghệ đằng sau kho lưu trữ là Hadoop thay vì lưu trữ ngoại tuyến, như băng.
Ngoài ra, các nhà cung cấp lưu trữ khác nhau đã bắt đầu kết hợp Hadoop vào các giải pháp của họ (ví dụ như cho phép tệp lưu trữ sở hữu của họ nằm trên HDFS), do đó, mong đợi khả năng trong lĩnh vực này sẽ sớm mở rộng.
Khi bạn phát triển các kỹ năng của Hadoop (như trao đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ và truy vấn dữ liệu trong HDFS), bạn có thể sử dụng chúng để giải quyết các vấn đề lớn hơn, chẳng hạn như các dự án phân tích, có thể cung cấp thêm giá trị cho đầu tư Hadoop của tổ chức bạn.