Mục lục:
- Cạo dữ liệu với nhập khẩu. io
- Hình quilt hình ảnh được hiển thị có nguồn gốc từ "Nhãn để Tái sử dụng" Tìm kiếm hình ảnh của Google với thuật ngữ
- điêu khắc
Video: Bí Ẩn Thiên Linh Cái (T2): Kinh hoàng 3 Chiếc Sọ Người Trong Hộp Gỗ l Hồ Sơ Vụ Án | ANTV 2025
Cho dù bạn cần dữ liệu để hỗ trợ phân tích doanh nghiệp hay một tác phẩm báo chí sắp tới, việc cạo web có thể giúp bạn theo dõi các nguồn dữ liệu độc đáo và thú vị. Trong web scraping bạn thiết lập các chương trình tự động và sau đó để cho họ trau dồi web cho các dữ liệu bạn cần. Dưới đây là các công cụ miễn phí szome mà bạn có thể sử dụng để cạo dữ liệu hoặc hình ảnh, kể cả nhập khẩu. io, ImageQuilts và DataWrangler.
Cạo dữ liệu với nhập khẩu. io
Đã bao giờ bạn cố gắng sao chép và dán một bảng từ trang web vào một tài liệu Microsoft Office và sau đó không thể có được các cột để xếp thẳng? Bực bách, phải không? Đây chính là điểm đau mà nhập khẩu. io được thiết kế để giải quyết.
nhập khẩu. io - được phát hiện là "import-eye-oh" - là một ứng dụng dành cho máy tính để bàn miễn phí mà bạn có thể sử dụng để sao chép, dán, làm sạch và định dạng bất kỳ phần nào của trang web chỉ bằng một vài cú nhấn chuột. Bạn thậm chí có thể sử dụng nhập khẩu. io để tự động thu thập dữ liệu và trích xuất dữ liệu từ danh sách nhiều trang.
Sử dụng nhập khẩu. io, bạn có thể cạo dữ liệu từ một loạt các trang web đơn giản hoặc phức tạp:
-
Đơn giản: Truy cập các trang web thông qua các siêu liên kết đơn giản xuất hiện trên Trang 1, Trang 2, Trang 3.
-
Xảy ra: > Điền vào biểu mẫu hoặc chọn từ danh sách thả xuống, sau đó gửi yêu cầu cạo của bạn đến công cụ. nhập khẩu. Tính năng ấn tượng nhất của io là khả năng quan sát cú click chuột của bạn để tìm hiểu những gì bạn muốn, và sau đó cung cấp cho bạn những cách nó có thể tự động hoàn thành nhiệm vụ của bạn cho bạn. Mặc dù nhập khẩu. io học hỏi và đề xuất các nhiệm vụ, nó không có hành động đối với những nhiệm vụ đó cho đến khi bạn đã đánh dấu đề xuất là đúng. Do đó, những tương tác tăng cường của con người làm giảm nguy cơ máy tính sẽ đưa ra một kết luận không đúng do đoán quá.
Nhiệm vụ ImageQuilts thực hiện là mô tả đơn giản nhưng rất phức tạp để thực hiện. ImageQuilts kết hợp hàng chục hình ảnh và ghép tất cả lại thành một "chăn" bao gồm nhiều hàng có chiều cao bằng nhau. Nhiệm vụ này có thể phức tạp bởi vì các hình ảnh nguồn gần như không bao giờ có cùng chiều cao. ImageQuilts scrapes và thay đổi kích thước hình ảnh trước khi khâu chúng lại với nhau thành một ảnh đầu ra.
Hình quilt hình ảnh được hiển thị có nguồn gốc từ "Nhãn để Tái sử dụng" Tìm kiếm hình ảnh của Google với thuật ngữ
dữ liệu
khoa học
. ImageQuilts thậm chí cho phép bạn chọn thứ tự của hình ảnh hoặc để ngẫu nhiên chúng. Bạn có thể sử dụng công cụ này để kéo và thả bất kỳ hình ảnh nào vào bất kỳ vị trí nào, xóa một hình ảnh, phóng to tất cả hình ảnh cùng một lúc, hoặc phóng to từng hình một. Bạn thậm chí có thể sử dụng công cụ để giữ bí mật giữa các màu sắc hình ảnh - từ màu sắc đến màu xám hoặc màu đảo ngược (điều này rất tiện dụng khi tạo ra các tờ rơi xúc phạm, nếu bạn là một trong số những người hiếm hoi đó vẫn xử lý tương tự -photography). Wrangling dữ liệu với DataWrangler
DataWrangler là một công cụ trực tuyến được hỗ trợ bởi Phòng thí nghiệm Dữ liệu Tương tác của Đại học Washington (vào thời điểm DataWrangler được phát triển, nhóm này được gọi là Tập đoàn Stanford Visualization Group). Nhóm này đã phát triển Lyra, môi trường hiển thị dữ liệu tương tác mà bạn có thể sử dụng để tạo ra các hình ảnh phức tạp mà không cần trải nghiệm lập trình.
Nếu mục tiêu của bạn là
điêu khắc
dữ liệu của bạn - hoặc làm sạch những thứ bằng cách di chuyển vật xung quanh giống như một người điêu khắc (chia đôi phần này cho hai, cắt nhẹ và di chuyển nó ở đó, đẩy nó xuống để mọi thứ bên dưới nó được chuyển sang bên phải, v.v …) - DataWrangler là công cụ dành cho bạn.
Bạn có thể thao tác với DataWrangler tương tự như những gì bạn có thể làm trong Excel bằng Visual Basic. Ví dụ: bạn có thể sử dụng DataWrangler hoặc Excel với Visual Basic để sao chép, dán và định dạng thông tin từ các danh sách trên Internet. DataWrangler thậm chí đề xuất các hành động dựa trên tập dữ liệu của bạn và có thể lặp lại các hành động phức tạp trên toàn bộ tập dữ liệu - các hành động như loại bỏ các hàng bị bỏ qua, chia tách dữ liệu từ một cột thành hai hoặc chuyển một tiêu đề sang dữ liệu cột. DataWrangler cũng có thể cho bạn biết nơi tập dữ liệu của bạn thiếu dữ liệu. Thiếu dữ liệu có thể cho biết lỗi định dạng cần được làm sạch.