Trang Chủ Tài chính Cá nhân Giai đoạn 3 của Mô hình Quy trình CRISP-DM: Chuẩn bị dữ liệu

Giai đoạn 3 của Mô hình Quy trình CRISP-DM: Chuẩn bị dữ liệu

Mục lục:

Video: Nuôi tôm siêu thâm canh 3 giai đoạn 2025

Video: Nuôi tôm siêu thâm canh 3 giai đoạn 2025
Anonim

Những người khai thác dữ liệu dành hầu hết thời gian vào giai đoạn thứ ba của Mô hình quá trình Tiêu chuẩn hoá Công nghiệp Đa thập phân (CRISP-DM): chuẩn bị dữ liệu. Hầu hết các dữ liệu được sử dụng cho khai thác dữ liệu ban đầu được thu thập và bảo quản cho các mục đích khác và cần một số sàng lọc trước khi nó đã sẵn sàng để sử dụng cho mô hình hóa.

Giai đoạn chuẩn bị dữ liệu bao gồm năm nhiệm vụ . Đây là

  • Chọn dữ liệu

  • Dữ liệu làm sạch

  • Xây dựng dữ liệu

  • Tích hợp dữ liệu

  • Định dạng dữ liệu

Hướng dẫn từng bước của CRISP-DM không đề cập rõ ràng các bộ dữ liệu như là các sản phẩm các công việc chuẩn bị dữ liệu, nhưng những bộ dữ liệu đó đã được tồn tại tốt hơn và được lưu trữ và lưu trữ hợp lý. Bộ dữ liệu sẽ không tương ứng với các tác vụ, nhưng thông tin về dữ liệu được sử dụng nên được bao gồm trong mỗi báo cáo có thể phân phối.

Nhiệm vụ: Lựa chọn dữ liệu

Bây giờ bạn sẽ quyết định phần nào của dữ liệu mà bạn có là thực sự sẽ được sử dụng cho việc khai thác dữ liệu.

Sự phân phối cho nhiệm vụ này là lý do để đưa vào và loại trừ. Trong đó, bạn sẽ giải thích dữ liệu sẽ và sẽ không được sử dụng cho công việc khai thác dữ liệu thêm nữa.

Bạn sẽ giải thích lý do đưa hoặc loại bỏ từng phần dữ liệu mà bạn có, dựa trên sự liên quan đến mục tiêu của bạn, chất lượng dữ liệu và các vấn đề kỹ thuật - chẳng hạn như giới hạn về số trường hoặc hàng mà công cụ của bạn có thể xử lý, hoặc sự phù hợp của các định dạng dữ liệu cho nhu cầu của bạn.

Nhiệm vụ: Dọn dẹp dữ liệu

Dữ liệu mà bạn đã chọn để sử dụng không có khả năng hoàn toàn sạch sẽ (không có lỗi). Bạn sẽ thực hiện các thay đổi, có thể theo dõi các nguồn để thực hiện sửa đổi dữ liệu cụ thể, loại trừ một số trường hợp hoặc các ô riêng lẻ (các mục dữ liệu) hoặc thay thế một số mục dữ liệu bằng các giá trị mặc định hoặc các thay thế được lựa chọn bằng kỹ thuật mô hình phức tạp hơn. Bạn có thể chọn chỉ sử dụng các tập con của dữ liệu cho tất cả hoặc một số công việc khai thác dữ liệu của bạn.

Sản phẩm được phân phối cho nhiệm vụ này là báo cáo dọn dẹp dữ liệu, tài liệu nào, chi tiết nặng nề, mọi quyết định và hành động được sử dụng để làm sạch dữ liệu của bạn. Báo cáo này nên bao gồm và tham khảo đến từng vấn đề chất lượng dữ liệu đã được xác định trong nhiệm vụ kiểm tra chất lượng xác minh trong giai đoạn hiểu biết dữ liệu của quy trình. Bạn báo cáo cũng nên đề cập đến tác động tiềm ẩn đến kết quả của các lựa chọn bạn đã thực hiện trong quá trình làm sạch dữ liệu.

Nhiệm vụ: Xây dựng dữ liệu

Bạn có thể cần phải lấy được một số trường mới (ví dụ: sử dụng ngày phân phối và ngày mà khách hàng đặt hàng để tính thời gian khách hàng đợi để nhận đơn đặt hàng), tổng hợp dữ liệu, hoặc bằng cách khác tạo ra một hình thức dữ liệu mới.

Các tài liệu phân phối cho nhiệm vụ này bao gồm hai báo cáo:

  • Thuộc tính đã đưa ra: Một báo cáo mô tả những lĩnh vực (cột) mới mà bạn đã xây dựng, cách bạn đã làm và tại sao.

  • Các bản ghi đã tạo: Một báo cáo mô tả những trường hợp (hàng) mới bạn đã xây dựng, cách bạn đã thực hiện và tại sao.

Mặc dù các dữ liệu hợp nhất và các tác vụ dữ liệu định dạng được liệt kê lần cuối trong giai đoạn này của quá trình, chúng không luôn luôn đến cuối, và chúng có thể không xuất hiện chỉ một lần. Bạn có thể phải thực hiện một số hợp nhất hoặc định dạng lại sớm trong giai đoạn chuẩn bị dữ liệu.

Nhiệm vụ: Tích hợp dữ liệu

Dữ liệu của bạn có thể nằm trong một số bộ dữ liệu khác nhau. Bạn sẽ cần hợp nhất một số hoặc tất cả các bộ dữ liệu khác nhau lại với nhau để sẵn sàng cho giai đoạn tạo mẫu.

Sự phân phối cho nhiệm vụ này là dữ liệu được hợp nhất.

Nhiệm vụ: Định dạng dữ liệu

Dữ liệu thường đến với bạn dưới các định dạng khác với những mô hình được tạo thuận lợi nhất cho việc mô hình hóa. (Thay đổi định dạng thường được điều khiển bởi thiết kế các công cụ của bạn.) Vì vậy, hãy chuyển đổi các định dạng đó ngay bây giờ.

Phân phối cho tác vụ này là dữ liệu được định dạng lại của bạn.

Bạn nên kết thúc giai đoạn chuẩn bị dữ liệu của quá trình khai thác dữ liệu với một tập dữ liệu đã sẵn sàng cho mô hình hóa và một bản báo cáo kỹ lưỡng mô tả tập dữ liệu.

Giai đoạn 3 của Mô hình Quy trình CRISP-DM: Chuẩn bị dữ liệu

Lựa chọn của người biên tập

Cách chuyển đổi điện áp Hiện tại Bật và Tắt - núm vú

Cách chuyển đổi điện áp Hiện tại Bật và Tắt - núm vú

Chuyển mạch là chức năng quan trọng nhất trong thiết bị điện tử. Hãy nghĩ đến bộ TV của bạn: Bạn bật và tắt nguồn, chọn nguồn tín hiệu từ các lựa chọn đầu vào khác nhau (như đầu DVD, hộp cáp hoặc hệ thống chơi game) và thay đổi kênh truyền hình. Màn hình TV của bạn bao gồm hàng triệu điểm ảnh nhỏ (hình ảnh ...

Làm thế nào để Solder một Solid Joint trong Dự án Điện tử của bạn - núm vú

Làm thế nào để Solder một Solid Joint trong Dự án Điện tử của bạn - núm vú

Làm thế nào để Solder một Solid Joint trong dự án Điện tử của bạn < hình thức hàn phổ biến nhất khi tạo ra các dự án điện tử là thành phần hàn dẫn đến miếng đồng ở mặt sau của một bảng mạch in. Nếu bạn có thể làm điều đó, bạn sẽ không có vấn đề với các loại hàn khác, chẳng hạn như hàn hai dây với nhau hoặc hàn một dây vào một thiết bị đầu cuối chuyển đổi. Sau đây ...

ÁNh sáng-O-Rama Sequences được sử dụng trong chiếu sáng - đầu

ÁNh sáng-O-Rama Sequences được sử dụng trong chiếu sáng - đầu

Ở Light-O-Rama , một dãy được biểu diễn dưới dạng một lưới tương tự như lưới trong một chương trình bảng tính. Ví dụ, hình ảnh cho thấy một phần của một chuỗi rất đơn giản, trong đó đèn trên các kênh 1, 3 và 5 luân phiên bật và tắt mỗi nửa giây. Mỗi hàng trong lưới đại diện cho một ...

Lựa chọn của người biên tập

Làm thế nào để Tạo một trang Blog trong SharePoint - núm vú

Làm thế nào để Tạo một trang Blog trong SharePoint - núm vú

Để Tạo một blog trong SharePoint, bạn tạo ra một trang web mới hoặc địa điểm phụ. Dành thời gian để xem xét nơi blog này sẽ nằm trong thứ bậc trang web của bạn. Mặc dù bạn có thể thay đổi quyền ở bất kỳ mức nào, bạn vẫn có thể có blog tổng thống của bạn trên trang chính của SharePoint Intranet của bạn (và ...

Làm thế nào để tạo một ứng dụng tùy chỉnh trong SharePoint 2013 - núm vú

Làm thế nào để tạo một ứng dụng tùy chỉnh trong SharePoint 2013 - núm vú

Bạn tạo một ứng dụng tùy chỉnh sử dụng Custom Liệt kê ứng dụng. Ứng dụng Danh sách tùy chỉnh tạo ra một ứng dụng danh sách rất cơ bản mà sau đó bạn có thể tuỳ chỉnh cho kịch bản cụ thể của mình. Thực hiện theo các bước sau để tạo một ứng dụng tùy chỉnh: Nhấp vào biểu tượng bánh răng Cài đặt và chọn Thêm một ứng dụng. Trang Ứng dụng của bạn được hiển thị. Nhấp vào ...

Làm thế nào để Tạo một Thảo luận Ban App trong SharePoint - núm vú

Làm thế nào để Tạo một Thảo luận Ban App trong SharePoint - núm vú

Thêm một ứng dụng thảo luận trên SharePoint một quá trình rất đơn giản. Bạn chỉ cần chọn ứng dụng Thảo luận từ trang Apps You Can Add. Bạn có thể thêm nhiều bảng thảo luận vào trang web của mình như bạn muốn. Bạn có thể thấy nó mang lại lợi ích cho việc tạo ra một bảng thảo luận cho mỗi khu chức năng để giữ ...

Lựa chọn của người biên tập

Máy tính giả mạo dành cho Android hoặc Điều gì đặc biệt về Số 5554? - núm vú

Máy tính giả mạo dành cho Android hoặc Điều gì đặc biệt về Số 5554? - núm vú

Khi bạn khởi động trình mô phỏng thiết bị Android, tên của trình mô phỏng mới là cái gì đó giống như trình mô phỏng-5554 hoặc trình mô phỏng-5556. Tên bắt nguồn từ thực tế là mỗi lần chạy của trình mô phỏng Android sử dụng hai số cổng (hai kênh để giao tiếp với máy tính phát triển). Như bạn đã biết, trình duyệt web của bạn thường sử dụng số cổng 80 ...

Kích hoạt Chế độ xem trên Ứng dụng iOS của bạn - núm vú

Kích hoạt Chế độ xem trên Ứng dụng iOS của bạn - núm vú

Bất cứ khi nào bạn chỉ định một giá trị mới cho chế độ xem nhất định tài sản (như khung và thuộc tính của trung tâm), chế độ xem sẽ được vẽ lại ngay lập tức và thay đổi hiển thị ngay lập tức trên màn hình. Ngoài ra, thay đổi đối với một số thuộc tính xem (chẳng hạn như các thuộc tính được đề cập) có thể được hoạt hình. Điều này có nghĩa là việc thay đổi thuộc tính sẽ tạo ra hình ảnh động ...

Android: Sử dụng IDE Eclipse cho Phát triển Java - núm vú

Android: Sử dụng IDE Eclipse cho Phát triển Java - núm vú

Ngày nay, sử dụng một môi trường phát triển tích hợp (IDE) để phát triển Java dễ dàng hơn. IDE được chấp nhận rộng rãi nhất trong số các nhà phát triển Java là Eclipse. Bảng này cung cấp cho bạn các mẹo nhanh để sử dụng IDE Eclipse để phát triển các ứng dụng Android. Nhiệm vụ Làm thế nào để hoàn thành Bắt đầu một dự án mới của Android Từ màn hình Dự án mới, dưới Android ...