Mục lục:
- Nhiệm vụ: Lựa chọn kỹ thuật mô hình hóa
- Nhiệm vụ: Thiết kế thử nghiệm
- Nhiệm vụ: Xây dựng mô hình (s)
- Nhiệm vụ: Đánh giá mô hình
Video: 4 Giai Đoạn Của Doanh Nghiệp | Làm Doanh Nghiệp Nhất Định Phải Biết - Học viện CEO Việt Nam 2024
Mô hình là một phần của mô hình quá trình Cross-Industry cho quá trình khai thác dữ liệu (CRISP-DM) mà hầu hết dữ liệu thợ mỏ như giỏi nhất. Dữ liệu của bạn đã có hình dạng tốt và bây giờ bạn có thể tìm kiếm các mẫu hữu ích trong dữ liệu của bạn.
Giai đoạn lập mô hình bao gồm bốn nhiệm vụ. Đây là
-
Chọn kỹ thuật lập mô hình
-
Thiết kế thử nghiệm
-
Mô hình xây dựng
-
Đánh giá mô hình
Nhiệm vụ: Lựa chọn kỹ thuật mô hình hóa
Thế giới tuyệt vời của khai thác dữ liệu cung cấp rất nhiều kỹ thuật mô hình, nhưng không phải tất cả chúng đều phù hợp với nhu cầu của bạn. Thu hẹp danh sách dựa trên các loại biến số có liên quan, lựa chọn các kỹ thuật có sẵn trong công cụ của bạn và bất kỳ cân nhắc kinh doanh nào quan trọng đối với bạn.
Ví dụ, nhiều tổ chức ưa thích các phương pháp với đầu ra dễ hiểu, vì vậy các cây quyết định hoặc hồi qui hậu cần có thể chấp nhận được, nhưng mạng nơ-ron sẽ không được chấp nhận.
Các tài liệu gửi cho nhiệm vụ này bao gồm hai báo cáo:
-
Kỹ thuật lập mô hình: Chỉ định (các) kỹ thuật mà bạn sẽ sử dụng.
-
Các giả định về mô hình hóa: Nhiều kỹ thuật lập mô hình dựa trên các giả định nhất định. Ví dụ: kiểu mô hình có thể được dùng cho dữ liệu có loại phân phối cụ thể. Ghi lại các giả định này trong báo cáo này.
Các nhà thống kê được thông tin đầy đủ, nghiêm khắc và kín đáo về những giả định. Điều đó không nhất thiết phải đúng với những người khai thác dữ liệu, và nó không phải là một yêu cầu để trở thành một thợ mỏ dữ liệu. Nếu bạn có kiến thức thống kê sâu và hiểu các giả định đằng sau các mô hình bạn chọn, bạn có thể nghiêm ngặt và kín đáo về các giả định.
Nhưng nhiều thợ khai thác dữ liệu, đặc biệt là các thợ mỏ khai thác mới làm quen, không phiền phức nhiều về các giả định. Cách khác là thử nghiệm - rất nhiều và rất nhiều thử nghiệm - của các mô hình của bạn.
Nhiệm vụ: Thiết kế thử nghiệm
Thử nghiệm trong nhiệm vụ này là bài kiểm tra mà bạn sẽ sử dụng để xác định mô hình hoạt động tốt như thế nào. Nó có thể đơn giản như chia tách dữ liệu của bạn thành một nhóm các trường hợp để huấn luyện mô hình và một nhóm khác để thử nghiệm mô hình.
Dữ liệu huấn luyện được sử dụng để phù hợp với các hình thức toán học với mô hình dữ liệu, và dữ liệu thử nghiệm được sử dụng trong quá trình huấn luyện mô hình để tránh overfitting: tạo ra mô hình hoàn hảo cho một tập dữ liệu, nhưng không khác. Bạn cũng có thể sử dụng dữ liệu tạm giữ, dữ liệu không được sử dụng trong quá trình huấn luyện mô hình để kiểm tra bổ sung.
Sự phân phối cho nhiệm vụ này là thiết kế thử nghiệm của bạn. Nó không cần phải phức tạp, nhưng bạn nên ít nhất là chăm sóc mà dữ liệu đào tạo và thử nghiệm của bạn là tương tự và bạn tránh việc giới thiệu bất kỳ sự thiên vị vào dữ liệu.
Nhiệm vụ: Xây dựng mô hình (s)
Mô hình hóa là điều mà nhiều người tưởng tượng là toàn bộ công việc của người khai thác dữ liệu, nhưng đó chỉ là một nhiệm vụ của hàng chục! Tuy nhiên, mô hình để giải quyết các mục tiêu kinh doanh cụ thể là trung tâm của nghề khai thác dữ liệu.
Các thiết bị phân phối cho nhiệm vụ này bao gồm ba mục:
-
Cài đặt thông số: Khi xây dựng mô hình, hầu hết các công cụ cung cấp cho bạn tùy chọn điều chỉnh nhiều cài đặt và các cài đặt này có ảnh hưởng đến cấu trúc của mô hình cuối cùng. Tài liệu các thiết lập này trong một báo cáo.
-
Mô tả mô hình: Mô tả mô hình của bạn. Xác định loại mô hình (như hồi quy tuyến tính hoặc mạng thần kinh) và các biến được sử dụng. Giải thích mô hình được diễn giải như thế nào. Ghi lại những khó khăn gặp phải trong quá trình lập mô hình.
-
Các mô hình: Sự phân phối này là các mô hình. Một số loại mô hình có thể dễ dàng xác định bằng một phương trình đơn giản; những thứ khác quá phức tạp và phải được truyền đi dưới một định dạng phức tạp hơn.
Nhiệm vụ: Đánh giá mô hình
Bây giờ bạn sẽ xem xét các mô hình mà bạn đã tạo ra, từ quan điểm kỹ thuật và từ quan điểm kinh doanh (thường là thông tin đầu vào từ các chuyên gia kinh doanh trong nhóm dự án của bạn).
Các tài liệu phân phối cho nhiệm vụ này bao gồm hai báo cáo:
-
Đánh giá mô hình: Tóm tắt thông tin được phát triển trong việc xem xét mô hình của bạn. Nếu bạn đã tạo ra một số mô hình, bạn có thể xếp hạng chúng dựa trên đánh giá của bạn về giá trị của chúng cho một ứng dụng cụ thể.
-
Cài đặt thông số đã được sửa đổi: Bạn có thể chọn tinh chỉnh các cài đặt đã được sử dụng để xây dựng mô hình và tiến hành một vòng mô hình khác và cố gắng cải thiện kết quả của bạn.
Khai thác dữ liệu, như hành, một con Dobos torte, hay một tảng đá trầm tích, có nhiều lớp. Khi bạn mới bắt đầu khai thác dữ liệu, bạn có thể bắt đầu bằng cách đặt các cài đặt thông số theo giá trị mặc định (thực tế, bạn thậm chí không nhận thấy các tùy chọn trừ khi bạn cố gắng tìm kiếm chúng).
Khi bạn cảm thấy thoải mái trong sự nghiệp khai thác dữ liệu mới của mình, bạn sẽ tìm hiểu về các thông số mô hình và biết cách bạn có thể sử dụng chúng. Tùy chọn của bạn sẽ khác nhau tùy theo loại mô hình và công cụ cụ thể mà bạn đang sử dụng.