Mục lục:
- Nhiệm vụ: thu thập dữ liệu
- Nhiệm vụ: Khám phá dữ liệu
- Dấu hiệu điểm các vấn đề về chất lượng dữ liệu.
- Nó tồn tại, nhưng bạn không thể có nó. (Có thể vượt qua được giới hạn này không?)
Video: Quy trình nuôi tôm thẻ chân trắng siêu thâm canh 2 giai đoạn 2025
Trong giai đoạn thứ hai của Mô hình quá trình Tiêu chuẩn hoá Công nghiệp Đa thập phân (CRISP-DM), bạn lấy dữ liệu và xác minh rằng nó là thích hợp cho nhu cầu của bạn. Bạn có thể xác định các vấn đề khiến bạn trở lại với sự hiểu biết về kinh doanh và sửa đổi kế hoạch của mình. Bạn thậm chí có thể khám phá những sai sót trong sự hiểu biết về kinh doanh của bạn, một lý do khác để xem xét lại các mục tiêu và kế hoạch.
Giai đoạn hiểu biết về dữ liệu bao gồm bốn nhiệm vụ . Đây là
-
Thu thập dữ liệu
-
Mô tả dữ liệu
-
Khám phá dữ liệu
-
Xác minh chất lượng dữ liệu
Nhiệm vụ: thu thập dữ liệu
Bạn vừa đặt mục tiêu và định nghĩa một kế hoạch khai thác dữ liệu. Mỗi bước của kế hoạch phụ thuộc vào việc có đúng dữ liệu. Tốt hơn hãy chắc chắn rằng bạn thực sự có dữ liệu đó!
Chỉ cần một bản phân phối cho nhiệm vụ này: báo cáo thu thập dữ liệu ban đầu. Trong báo cáo của bạn, bạn cần xác minh rằng bạn đã có được dữ liệu hoặc ít nhất đã có quyền truy cập vào dữ liệu, kiểm tra quá trình truy cập dữ liệu và xác minh rằng dữ liệu tồn tại. Bạn cũng cần tải dữ liệu vào bất kỳ công cụ nào bạn sẽ sử dụng để khai thác dữ liệu để xác minh rằng các công cụ tương thích với dữ liệu.
Bạn có thể làm rất nhiều công việc để tập hợp các dữ liệu bạn cần trước khi bạn có thể viết báo cáo này. Trước tiên, bạn sẽ lập kế hoạch của mình như sau:
-
Các yêu cầu về dữ liệu phác thảo: Tạo một danh sách các loại dữ liệu cần thiết để giải quyết các mục tiêu khai thác dữ liệu. Mở rộng danh sách với các chi tiết như khoảng thời gian bắt buộc và định dạng dữ liệu.
-
Xác minh tính khả dụng của dữ liệu: Xác nhận rằng dữ liệu cần có tồn tại, và bạn có thể sử dụng nó. Nếu một số dữ liệu bạn muốn không có sẵn, hãy quyết định cách bạn sẽ giải quyết vấn đề đó. Xem xét các lựa chọn thay thế như
-
Xác định các tiêu chí lựa chọn:
-
Xác định các nguồn dữ liệu cụ thể (cơ sở dữ liệu, các tệp tin, tài liệu, v.v …) bạn sẽ sử dụng. Trong những nguồn này, hãy xác định các bảng, trường và các dãy trường hợp có liên quan đến dự án này.
-
Khi bạn đã trải qua các bước này, bạn phải thực sự có được dữ liệu. Ở giai đoạn này, nhập dữ liệu vào nền tảng khai thác dữ liệu bạn sẽ sử dụng cho dự án để xác nhận rằng có thể làm được điều đó và bạn hiểu quy trình. Trong quá trình thử nghiệm này, bạn có thể phát hiện các hạn chế về phần mềm (hoặc phần cứng) mà bạn đã không lường trước, chẳng hạn như
Giới hạn về số trường hợp hoặc trường, hoặc số lượng bộ nhớ bạn có thể sử dụng Không có khả năng đọc các định dạng dữ liệu của các nguồn của bạn
Khó khăn trong việc xử lý các sự không chính xác của dữ liệu (ví dụ, bạn có thể gặp phải các sản phẩm sẽ không nhập hoặc phân tích các tập dữ liệu không đầy đủ)
-
Cuối cùng, tóm tắt quá trình thu thập trong một báo cáo.Báo cáo nên mô tả các yêu cầu của bạn, và giải thích một cách chi tiết chính xác những dữ liệu bạn đã thu thập và từ những nguồn nào. Tại đây bạn xác nhận rằng bạn đã thực sự có được dữ liệu và nó tương thích với nền tảng khai thác dữ liệu của bạn. Nếu bạn gặp khó khăn, bạn sẽ giải thích họ là gì và làm thế nào bạn đã giải quyết chúng (sử dụng các nguồn thay thế, sửa đổi kế hoạch, thay đổi định dạng).
-
Việc phân phát cho nhiệm vụ này chỉ là một báo cáo đơn giản, nhưng công việc bạn cần làm trước khi bạn có thể viết báo cáo đó sẽ không đơn giản! Truy cập dữ liệu có thể là một trong những phần khó nhất và gây bực bội nhất của quá trình khai thác dữ liệu, với cả thách thức về kỹ thuật và kinh doanh.
-
Nhiệm vụ: Mô tả dữ liệu
Bây giờ bạn đã có dữ liệu, hãy chuẩn bị một mô tả chung về những gì bạn có.
Sự phân phối cho nhiệm vụ này là báo cáo mô tả dữ liệu. Trong đó, bạn mô tả nguồn và định dạng của dữ liệu, số lượng trường hợp, số lượng và mô tả của các trường và bất kỳ thông tin chung nào khác có thể quan trọng. Bạn cũng thực hiện một đánh giá ngắn gọn về sự phù hợp của dữ liệu cho mục đích khai thác dữ liệu của bạn. Ví dụ: xác minh rằng dữ liệu bao gồm các trường mà bạn mong đợi và cần phải ở đó và có đủ các trường hợp để phân tích.
Nhiệm vụ: Khám phá dữ liệu
Trong nhiệm vụ này, bạn kiểm tra dữ liệu chặt chẽ hơn. Đối với mỗi biến, bạn nhìn vào phạm vi của các giá trị và sự phân bố của chúng. Bạn sẽ sử dụng thao tác dữ liệu đơn giản và kỹ thuật thống kê cơ bản để kiểm tra thêm vào dữ liệu. Thăm dò dữ liệu hỗ trợ nhiều mục đích:
Làm quen với dữ liệu.
Dấu hiệu điểm các vấn đề về chất lượng dữ liệu.
Thiết lập giai đoạn chuẩn bị dữ liệu.
-
Kết quả của nhiệm vụ này là báo cáo thăm dò dữ liệu. Đây là nơi để ghi lại các giả thuyết hoặc phát hiện ban đầu mà bạn đã phát triển trong quá trình khảo sát dữ liệu. Báo cáo này nên bao gồm mô tả chi tiết hơn dữ liệu so với báo cáo mô tả dữ liệu, bao gồm bản phân phối, tóm tắt và bất kỳ dấu hiệu nào của sự cố về chất lượng dữ liệu.
-
Nhiệm vụ: Xác minh chất lượng dữ liệu
-
Bạn có dữ liệu và bạn đã kiểm tra nó, và bây giờ bạn phải xác định liệu nó có đủ tốt để hỗ trợ mục tiêu của bạn. Bạn thường sẽ có một số vấn đề về chất lượng để giải quyết nhưng vẫn có thể tiến lên phía trước, nhưng đôi khi chất lượng dữ liệu quá kém đến nỗi nó không thể hỗ trợ kế hoạch của bạn và bạn sẽ phải tìm kiếm các phương án khác. Một số vấn đề dữ liệu tồi tệ nhất sẽ bao gồm
Dữ liệu bạn cần không tồn tại. Có phải dữ liệu này được thu thập và lưu trữ để sử dụng trong tương lai không?)
Nó tồn tại, nhưng bạn không thể có nó. (Có thể vượt qua được giới hạn này không?)
Bạn thấy các vấn đề về chất lượng dữ liệu nghiêm trọng (rất nhiều thiếu sót hoặc các giá trị không chính xác mà không thể sửa chữa được).
-
Sự phân phối cho nhiệm vụ này là báo cáo chất lượng dữ liệu. Điều này tóm tắt dữ liệu bạn có, các vấn đề chất lượng nhỏ và quan trọng mà bạn đã tìm thấy và các biện pháp khắc phục có thể cho các vấn đề về chất lượng hoặc các phương án thay thế (chẳng hạn như sử dụng tài nguyên dữ liệu thay thế).Nếu bạn đang gặp phải bất kỳ vấn đề nghiêm trọng về chất lượng dữ liệu và không thể xác định được giải pháp đầy đủ, bạn có thể phải đề nghị xem xét lại mục tiêu hoặc kế hoạch.