Video: Tổng hợp dữ liệu từ nhiều file excel vào 1 file không cần mở file 2025
Các tệp dữ liệu phi cấu trúc bao gồm một loạt các bit. Tệp không tách các bit khỏi nhau theo bất kỳ cách nào. Bạn không thể chỉ cần nhìn vào các tập tin và xem bất kỳ cấu trúc vì không có để xem. Định dạng tệp phi cấu trúc dựa vào người dùng tệp để biết cách diễn giải dữ liệu.
Ví dụ: mỗi pixel của tệp hình ảnh có thể bao gồm ba trường 32-bit. Biết rằng mỗi lĩnh vực là 32-bit là tùy thuộc vào bạn. Một tiêu đề ở đầu tập tin có thể cung cấp manh mối về việc giải thích tệp tin, nhưng ngay cả như vậy, bạn cũng cần biết cách tương tác với tệp.
Ví dụ này cho thấy làm thế nào để làm việc với một hình ảnh như là một tập tin phi cấu trúc. Hình ảnh ví dụ là một cung cấp tên miền công cộng từ commons. wikimedia. org. Để làm việc với hình ảnh, bạn cần truy cập vào thư viện hình ảnh scikit, là một bộ sưu tập các thuật toán được sử dụng để xử lý hình ảnh miễn phí. Dưới đây là một hướng dẫn cho thư viện này.
Nhiệm vụ đầu tiên là để có thể hiển thị hình ảnh trên màn hình bằng cách sử dụng mã sau đây. (Mã này có thể cần một chút thời gian để chạy) Hình ảnh đã sẵn sàng khi chỉ báo bận bị mất khỏi tab Máy tính IPython)
từ skimage. io import imread
từ skimage. biến đổi nhập khẩu thay đổi
từ pyplot nhập khẩu matplotlib như plt 999 nhập khẩu matplotlib. cm như cm
example_file = (" // tải lên wikimedia. org /" +
"wikipedia / commons / 7 / 7d / dog_face. png")
image = imread (example_file, as_grey = Đúng)
plt. imshow (hình ảnh, cmap = cm xám)
Mã bắt đầu bằng cách nhập một số thư viện. Sau đó nó tạo ra một chuỗi trỏ đến tệp mẫu trực tuyến và đặt nó trong
example_file
. Chuỗi này là một phần của cuộc gọi phương thức
imread ()
, cùng với
as_grey
, được đặt thành
Đúng
. Đối số
as_grey
nói với Python để biến hình ảnh màu thành màu xám. Bất kỳ hình ảnh nào đã có trong grayscale vẫn giữ như vậy.
Bây giờ bạn đã tải một hình ảnh, bạn cần phải render nó (làm cho nó sẵn sàng để hiển thị trên màn hình)
imshow ()
chức năng thực hiện render và sử dụng một bản đồ màu xám. > Hiển thị hình ảnh trên màn hình sau khi bạn hiển thị và hiển thị nó
Đóng hình ảnh khi bạn xem xong.
Chức năng thực hiện hiển thị
hình ảnh
cho bạn. (Dấu hoa thị trong mục
Trong [*]:
print ("kiểu dữ liệu:% s, hình:% s"%
(kiểu hình, hình ảnh))
Đầu ra từ cuộc gọi này cho bạn biết rằng loại hình ảnh là một
numpy. ndarray
và kích thước hình ảnh là 90 pixel x 90 pixel. Hình ảnh thực sự là một mảng các điểm ảnh mà bạn có thể thao tác bằng nhiều cách khác nhau. Ví dụ: nếu bạn muốn cắt ảnh, bạn có thể sử dụng đoạn mã sau để thao tác mảng ảnh:
image2 = image [5: 70, 0: 70]
plt. imshow (image2, cmap = cm xám)
plt. show ()
Các numpy
. ndarray
trong
image2
nhỏ hơn hình ảnh trong
hình ảnh
, vì vậy đầu ra cũng nhỏ hơn. Kết quả điển hình được hiển thị bên dưới. Mục đích của việc cắt ảnh là làm cho nó có kích thước cụ thể. Cả hai hình ảnh phải có cùng kích thước để bạn phân tích chúng. Cắt là một cách để đảm bảo rằng các hình ảnh có kích thước chính xác để phân tích.
Việc cắt ảnh làm cho ảnh nhỏ hơn.
Một phương pháp khác mà bạn có thể sử dụng để thay đổi kích thước hình ảnh là thay đổi kích cỡ của nó. Đoạn mã sau đây sẽ thay đổi kích thước hình ảnh với một kích thước cụ thể để phân tích:
image3 = thay đổi kích cỡ (image2, (30, 30), mode = "gần nhất")
print ("kiểu dữ liệu:% s, hình:% s"%
(kiểu (image3), hình 3.)
Kết quả từ < print ()
chức năng cho bạn biết rằng hình ảnh bây giờ là 30 pixels by 30 pixels in size. Bạn có thể so sánh nó với bất kỳ hình ảnh có cùng kích thước.
Sau khi bạn có tất cả các hình ảnh đúng kích cỡ, bạn cần phải làm phẳng chúng. Hàng tập hợp dữ liệu luôn là một chiều không phải là hai chiều. Hình ảnh hiện tại là một mảng 30 x 30 pixel, vì vậy bạn không thể làm cho nó trở thành một phần của tập dữ liệu. Đoạn mã sau đây làm phẳng
image3
để nó trở thành một mảng của 900 phần tử được lưu trong
image_row
:
image_row = image3. flatten ()
print ("kiểu dữ liệu:% s, hình:% s"%
(type (image_row), image_row. shape))
Lưu ý rằng kiểu này vẫn là
numpy. ndarray
. Bạn có thể thêm mảng này vào một bộ dữ liệu và sau đó sử dụng bộ dữ liệu cho các mục đích phân tích. Kích thước là 900 phần tử, như dự kiến.