Mục lục:
- Nhiệm vụ: Lựa chọn dữ liệu
- Nhiệm vụ: Dọn dẹp dữ liệu
- Nhiệm vụ: Xây dựng dữ liệu
- Nhiệm vụ: Tích hợp dữ liệu
- Nhiệm vụ: Định dạng dữ liệu
Video: Nuôi tôm siêu thâm canh 3 giai đoạn 2025
Những người khai thác dữ liệu dành hầu hết thời gian vào giai đoạn thứ ba của Mô hình quá trình Tiêu chuẩn hoá Công nghiệp Đa thập phân (CRISP-DM): chuẩn bị dữ liệu. Hầu hết các dữ liệu được sử dụng cho khai thác dữ liệu ban đầu được thu thập và bảo quản cho các mục đích khác và cần một số sàng lọc trước khi nó đã sẵn sàng để sử dụng cho mô hình hóa.
Giai đoạn chuẩn bị dữ liệu bao gồm năm nhiệm vụ . Đây là
-
Chọn dữ liệu
-
Dữ liệu làm sạch
-
Xây dựng dữ liệu
-
Tích hợp dữ liệu
-
Định dạng dữ liệu
Hướng dẫn từng bước của CRISP-DM không đề cập rõ ràng các bộ dữ liệu như là các sản phẩm các công việc chuẩn bị dữ liệu, nhưng những bộ dữ liệu đó đã được tồn tại tốt hơn và được lưu trữ và lưu trữ hợp lý. Bộ dữ liệu sẽ không tương ứng với các tác vụ, nhưng thông tin về dữ liệu được sử dụng nên được bao gồm trong mỗi báo cáo có thể phân phối.
Nhiệm vụ: Lựa chọn dữ liệu
Bây giờ bạn sẽ quyết định phần nào của dữ liệu mà bạn có là thực sự sẽ được sử dụng cho việc khai thác dữ liệu.
Sự phân phối cho nhiệm vụ này là lý do để đưa vào và loại trừ. Trong đó, bạn sẽ giải thích dữ liệu sẽ và sẽ không được sử dụng cho công việc khai thác dữ liệu thêm nữa.
Bạn sẽ giải thích lý do đưa hoặc loại bỏ từng phần dữ liệu mà bạn có, dựa trên sự liên quan đến mục tiêu của bạn, chất lượng dữ liệu và các vấn đề kỹ thuật - chẳng hạn như giới hạn về số trường hoặc hàng mà công cụ của bạn có thể xử lý, hoặc sự phù hợp của các định dạng dữ liệu cho nhu cầu của bạn.
Nhiệm vụ: Dọn dẹp dữ liệu
Dữ liệu mà bạn đã chọn để sử dụng không có khả năng hoàn toàn sạch sẽ (không có lỗi). Bạn sẽ thực hiện các thay đổi, có thể theo dõi các nguồn để thực hiện sửa đổi dữ liệu cụ thể, loại trừ một số trường hợp hoặc các ô riêng lẻ (các mục dữ liệu) hoặc thay thế một số mục dữ liệu bằng các giá trị mặc định hoặc các thay thế được lựa chọn bằng kỹ thuật mô hình phức tạp hơn. Bạn có thể chọn chỉ sử dụng các tập con của dữ liệu cho tất cả hoặc một số công việc khai thác dữ liệu của bạn.
Sản phẩm được phân phối cho nhiệm vụ này là báo cáo dọn dẹp dữ liệu, tài liệu nào, chi tiết nặng nề, mọi quyết định và hành động được sử dụng để làm sạch dữ liệu của bạn. Báo cáo này nên bao gồm và tham khảo đến từng vấn đề chất lượng dữ liệu đã được xác định trong nhiệm vụ kiểm tra chất lượng xác minh trong giai đoạn hiểu biết dữ liệu của quy trình. Bạn báo cáo cũng nên đề cập đến tác động tiềm ẩn đến kết quả của các lựa chọn bạn đã thực hiện trong quá trình làm sạch dữ liệu.
Nhiệm vụ: Xây dựng dữ liệu
Bạn có thể cần phải lấy được một số trường mới (ví dụ: sử dụng ngày phân phối và ngày mà khách hàng đặt hàng để tính thời gian khách hàng đợi để nhận đơn đặt hàng), tổng hợp dữ liệu, hoặc bằng cách khác tạo ra một hình thức dữ liệu mới.
Các tài liệu phân phối cho nhiệm vụ này bao gồm hai báo cáo:
-
Thuộc tính đã đưa ra: Một báo cáo mô tả những lĩnh vực (cột) mới mà bạn đã xây dựng, cách bạn đã làm và tại sao.
-
Các bản ghi đã tạo: Một báo cáo mô tả những trường hợp (hàng) mới bạn đã xây dựng, cách bạn đã thực hiện và tại sao.
Mặc dù các dữ liệu hợp nhất và các tác vụ dữ liệu định dạng được liệt kê lần cuối trong giai đoạn này của quá trình, chúng không luôn luôn đến cuối, và chúng có thể không xuất hiện chỉ một lần. Bạn có thể phải thực hiện một số hợp nhất hoặc định dạng lại sớm trong giai đoạn chuẩn bị dữ liệu.
Nhiệm vụ: Tích hợp dữ liệu
Dữ liệu của bạn có thể nằm trong một số bộ dữ liệu khác nhau. Bạn sẽ cần hợp nhất một số hoặc tất cả các bộ dữ liệu khác nhau lại với nhau để sẵn sàng cho giai đoạn tạo mẫu.
Sự phân phối cho nhiệm vụ này là dữ liệu được hợp nhất.
Nhiệm vụ: Định dạng dữ liệu
Dữ liệu thường đến với bạn dưới các định dạng khác với những mô hình được tạo thuận lợi nhất cho việc mô hình hóa. (Thay đổi định dạng thường được điều khiển bởi thiết kế các công cụ của bạn.) Vì vậy, hãy chuyển đổi các định dạng đó ngay bây giờ.
Phân phối cho tác vụ này là dữ liệu được định dạng lại của bạn.
Bạn nên kết thúc giai đoạn chuẩn bị dữ liệu của quá trình khai thác dữ liệu với một tập dữ liệu đã sẵn sàng cho mô hình hóa và một bản báo cáo kỹ lưỡng mô tả tập dữ liệu.