Video: Import vs Export Sqoop 2025
Sẵn sàng lặn vào nhập dữ liệu với Sqoop? Bắt đầu bằng cách xem hình, minh hoạ các bước trong một hoạt động nhập khẩu Sqoop điển hình từ một RDBMS hoặc một hệ thống kho dữ liệu. Không có gì quá phức tạp ở đây - chỉ là một bảng dữ liệu sản phẩm điển hình của một công ty hư cấu điển hình đang được nhập vào một cụm máy chủ Apache Hadoop điển hình từ một hệ thống quản lý dữ liệu điển hình (DMS).
Trong Bước 1, Sqoop sử dụng trình kết nối thích hợp để lấy ra siêu dữ liệu Bảng Sản phẩm từ DMS mục tiêu. (Siêu dữ liệu được sử dụng để lập bản đồ các loại dữ liệu từ bảng Sản phẩm sang các loại dữ liệu bằng ngôn ngữ Java)
Bước 2 sau đó sử dụng siêu dữ liệu này để tạo ra và biên dịch một lớp Java sẽ được sử dụng bởi một hoặc nhiều nhiệm vụ bản đồ để nhập các hàng thực từ bảng Sản phẩm. Sqoop lưu các lớp Java được tạo ra để tạm thời không gian hoặc vào một thư mục bạn chỉ định để bạn có thể tận dụng nó để xử lý tiếp theo của hồ sơ dữ liệu của bạn.
Sqoop mã Java đã được lưu cho bạn giống như món quà mà tiếp tục cho! Với mã này, Sqoop nhập hồ sơ từ DMS và lưu trữ chúng vào HDFS sử dụng một trong ba định dạng mà bạn có thể chọn: dữ liệu Avro nhị phân, các tệp trình tự nhị phân hoặc các tệp văn bản được phân tách. Sau đó, mã này có sẵn cho bạn để xử lý dữ liệu tiếp theo.
Các tệp trình tự là một sự lựa chọn tự nhiên nếu bạn đang nhập các kiểu dữ liệu nhị phân và bạn sẽ cần lớp Java được tạo ra để tuần tự hóa và hủy kết nối dữ liệu của bạn sau này - có lẽ đối với việc xử lý hoặc xuất khẩu MapReduce. Dữ liệu Avro - dựa trên khung tuần tự riêng của Apache - rất hữu ích nếu bạn cần tương tác với các ứng dụng khác sau khi nhập vào HDFS.
Nếu bạn chọn lưu trữ dữ liệu nhập vào theo định dạng văn bản phân cách, bạn có thể tìm thấy mã Java được tạo ra có giá trị sau này khi bạn phân tích cú pháp và thực hiện chuyển đổi định dạng dữ liệu trên dữ liệu mới của bạn. Bạn sẽ thấy rằng mã được tạo ra cũng giúp bạn hợp nhất các bộ dữ liệu sau các hoạt động nhập khẩu Sqoop và mã Java được tạo ra có thể giúp tránh sự mơ hồ khi xử lý dữ liệu văn bản phân cách.
Cuối cùng, trong Bước 3, Sqoop chia các bản ghi dữ liệu trong bảng Products trên một số tác vụ bản đồ (với số lượng người lập bản đồ tùy ý chỉ định bởi người dùng) và nhập dữ liệu bảng vào HDFS, Hive hoặc HBase.