Video: [160629] [FULL VIETSUB] WEEKLY IDOL EP 257 BEAST (SOFTSUB) 2025
Các công cụ ETL kết hợp ba chức năng quan trọng (trích xuất, chuyển đổi, tải) cần thiết để lấy dữ liệu từ một môi trường dữ liệu lớn và đưa nó vào môi trường dữ liệu khác. Theo truyền thống, ETL đã được sử dụng với việc xử lý hàng loạt trong môi trường kho dữ liệu. Kho dữ liệu cung cấp cho người dùng doanh nghiệp một cách để củng cố thông tin để phân tích và báo cáo dữ liệu liên quan đến trọng tâm kinh doanh của họ. Các công cụ ETL được sử dụng để biến đổi dữ liệu thành định dạng theo yêu cầu của kho dữ liệu.
Việc chuyển đổi thực sự được thực hiện ở một vị trí trung gian trước khi dữ liệu được tải vào kho dữ liệu. Nhiều nhà cung cấp phần mềm, bao gồm IBM, Informatica, Pervasive, Talend, và Pentaho, cung cấp các công cụ phần mềm ETL.
ETL cung cấp cơ sở hạ tầng cơ bản để tích hợp bằng cách thực hiện ba chức năng quan trọng:
-
Trích: Đọc dữ liệu từ cơ sở dữ liệu nguồn.
-
Nạp: Ghi dữ liệu vào cơ sở dữ liệu đích.
-
Tuy nhiên, ETL đang phát triển để hỗ trợ tích hợp nhiều hơn các kho dữ liệu truyền thống. ETL có thể hỗ trợ tích hợp trên các hệ thống giao dịch, kho dữ liệu hoạt động, nền tảng BI, các trung tâm MDM, các đám mây và nền tảng Hadoop. Các nhà cung cấp phần mềm ETL đang mở rộng các giải pháp của họ để cung cấp khả năng khai thác, chuyển đổi và tải dữ liệu lớn giữa Hadoop và các nền tảng quản lý dữ liệu truyền thống.
Công cụ ETL là cần thiết cho việc tải và chuyển đổi dữ liệu có cấu trúc và không có cấu trúc thành Hadoop. Các công cụ ETL nâng cao có thể đọc và ghi nhiều tệp song song từ và đến Hadoop để đơn giản hóa cách dữ liệu được hợp nhất thành một quá trình chuyển đổi chung. Một số giải pháp kết hợp các thư viện các phép biến đổi ETL dựng sẵn cho cả dữ liệu giao dịch và tương tác chạy trên Hadoop hoặc một cơ sở hạ tầng lưới truyền thống.
Chuyển đổi dữ liệu là quá trình thay đổi định dạng dữ liệu để nó có thể được sử dụng bởi các ứng dụng khác nhau.Điều này có thể có nghĩa là một sự thay đổi từ định dạng dữ liệu được lưu trữ ở định dạng cần thiết bởi ứng dụng sẽ sử dụng dữ liệu. Quá trình này cũng bao gồm các hướng dẫnánh xạ
để các ứng dụng được cho biết làm thế nào để có được dữ liệu họ cần để xử lý.
Quá trình chuyển đổi dữ liệu được thực hiện phức tạp hơn rất nhiều do sự tăng trưởng đáng kinh ngạc trong số lượng dữ liệu phi cấu trúc. Một ứng dụng kinh doanh như quản lý quan hệ khách hàng có các yêu cầu cụ thể về cách lưu dữ liệu. Dữ liệu có thể cấu trúc trong các hàng và cột được tổ chức của cơ sở dữ liệu quan hệ. Dữ liệu
bán cấu trúc hoặc không có cấu trúc nếu không tuân theo yêu cầu định dạng cứng nhắc. Thông tin trong e-mail được coi là không có cấu trúc, ví dụ. Một số thông tin quan trọng nhất của công ty là các hình thức có cấu trúc phi cấu trúc và phi cấu trúc như tài liệu, thư điện tử, định dạng tin nhắn phức tạp, tương tác hỗ trợ khách hàng, giao dịch và thông tin đến từ các ứng dụng đóng gói như ERP và CRM. Công cụ chuyển đổi dữ liệu không được thiết kế để hoạt động tốt với dữ liệu phi cấu trúc. Kết quả là các công ty cần kết hợp thông tin phi cấu trúc vào quá trình ra quyết định về quy trình kinh doanh của mình đã phải đối mặt với một số lượng lớn thủ công mã hóa để hoàn thành việc tích hợp dữ liệu cần thiết. Do sự tăng trưởng và tầm quan trọng của dữ liệu phi cấu trúc để đưa ra quyết định, các giải pháp ETL từ các nhà cung cấp lớn đang bắt đầu đưa ra những cách tiếp cận chuẩn hóa để chuyển đổi dữ liệu phi cấu trúc sao cho nó có thể được tích hợp dễ dàng hơn với dữ liệu có cấu trúc hoạt động.