Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2025
Ý tưởng của động cơ ETL lấy cảm hứng từ Hadoop đã thu được rất nhiều lực kéo trong những năm gần đây. Sau cùng, Hadoop là một nền lưu trữ và xử lý dữ liệu linh hoạt có thể hỗ trợ số lượng lớn dữ liệu và hoạt động trên dữ liệu đó. Đồng thời, nó là lỗi khoan dung, và nó cung cấp cơ hội cho vốn và cắt giảm chi phí phần mềm.
Mặc dù sự phổ biến của Hadoop như là một công cụ ETL, nhiều người (bao gồm cả một công ty nổi tiếng của các nhà phân tích) không khuyên Hadoop là công nghệ duy nhất cho chiến lược ETL của bạn. Điều này phần lớn là do việc phát triển các luồng ETL đòi hỏi nhiều kiến thức về hệ thống cơ sở dữ liệu hiện có của tổ chức, bản chất của dữ liệu và các báo cáo và ứng dụng phụ thuộc vào nó.
Bạn phải mã các yếu tố như gỡ lỗi song song, các dịch vụ quản lý ứng dụng (chẳng hạn như kiểm tra trỏ và lỗi và xử lý sự kiện). Ngoài ra, hãy xem xét các yêu cầu của doanh nghiệp như glossarization và có thể hiển thị dòng dõi dữ liệu của bạn.
Ngay cả đối với các hệ thống cơ sở dữ liệu quan hệ, ETL đủ phức tạp để có những sản phẩm chuyên dụng phổ biến cung cấp các giao diện để quản lý và phát triển luồng ETL. Một số sản phẩm hiện nay hỗ trợ ETL dựa trên Hadoop và các phát triển dựa trên Hadoop khác. Tuy nhiên, tùy thuộc vào yêu cầu của bạn, bạn có thể cần phải viết một số mã của riêng bạn để hỗ trợ logic chuyển đổi của bạn.