Mục lục:
- Cách tải dữ liệu của bạn
- Dòng 1 nhập thư viện cho phép bạn tách bộ dữ liệu thành hai phần.
- Cách chạy dữ liệu thử nghiệm
- Vậy mô hình hồi quy hậu cần như thế nào với tham số C = 150 so sánh? Vâng, bạn không thể đánh bại 100 phần trăm. Đây là mã để tạo và đánh giá trình phân loại hậu cần với C = 150: >>>> logClassifier_2 = linear_model. LogisticRegression (C = 150, random_state = 111) >>> logClassifier_2. phù hợp (X_train, y_train) >>> dự đoán = logClassifier_2. dự đoán (X_test) >>> số liệu. accuracy_score (y_test, dự đoán) 0. 93333333333333335 >>> chỉ số. confusion_matrix (y_test, predicted) array ([[5, 0, 0], [0, 2, 0], [0, 1, 7]]
Video: The CIA's Covert Operations: Afghanistan, Cambodia, Nicaragua, El Salvador 2025
Sau khi bạn xây dựng mô hình dự đoán phân loại đầu tiên để phân tích dữ liệu, tạo ra nhiều mô hình hơn như nó là một nhiệm vụ thực sự đơn giản trong scikit. Sự khác biệt thực sự duy nhất từ mô hình này sang mô hình tiếp theo là bạn có thể phải điều chỉnh các tham số từ thuật toán sang thuật toán.
Cách tải dữ liệu của bạn
Danh sách mã này sẽ nạp bộ dữ liệu iris vào phiên làm việc của bạn: >>>> từ sklearn. datasets import load_iris >>> iris = load_iris ()
Cách tạo một thể hiện của trình phân loại
Chú ý tham số (thông số định chuẩn) trong hàm tạo. Thông số định chuẩn
được sử dụng để ngăn ngừa việc overfitting. Các tham số là không cần thiết thật (nhà xây dựng sẽ làm việc tốt mà không có nó bởi vì nó sẽ mặc định để C = 1). Tạo một phân loại hồi quy hậu cần sử dụng C = 150 tạo ra một cốt truyện tốt hơn của bề mặt quyết định. Bạn có thể thấy cả hai lô dưới đây.
Dòng 1 nhập thư viện cho phép bạn tách bộ dữ liệu thành hai phần.
Dòng 2 gọi hàm từ thư viện chia tách bộ dữ liệu thành hai phần và gán các bộ dữ liệu đã chia cho hai cặp các biến.
Dòng 3 lấy ví dụ của phân loại hồi quy hậu cần mà bạn vừa tạo và gọi phương thức phù hợp để đào tạo mô hình với tập dữ liệu huấn luyện.
Làm thế nào để hình dung phân loại
Nhìn vào bề mặt quyết định bề mặt trên cốt truyện, có vẻ như một số điều chỉnh đã được thực hiện. Nếu bạn nhìn vào giữa ô, bạn có thể thấy rằng nhiều điểm dữ liệu thuộc khu vực giữa (Versicolor) nằm trong khu vực ở phía bên phải (Virginica).
Hình ảnh này cho thấy bề mặt quyết định với một giá trị C là 150. Nó có vẻ tốt hơn, do đó lựa chọn sử dụng thiết đặt này cho mô hình hồi quy hậu cần của bạn có vẻ thích hợp.
Cách chạy dữ liệu thử nghiệm
Trong đoạn mã sau, dòng đầu tiên cung cấp dữ liệu thử nghiệm cho mô hình và dòng thứ ba hiển thị đầu ra: >>>> predicted = logClassifier. dự đoán (X_test) >>> predictedarray ([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2, 2])
Làm thế nào để đánh giá mô hình < Bạn có thể tham khảo chéo sản lượng từ dự đoán đối với mảng y_test. Kết quả là, bạn có thể thấy rằng nó dự đoán tất cả các dữ liệu thử nghiệm điểm chính xác. Dưới đây là mã: >>>> từ chỉ số nhập sklearn >>> predictedarray ([0, 0, 2, 1, 2, 0, 2, 2, 2]) >>> y_testarray ([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2, 2]) >>> số liệu. accuracy_score (y_test, dự đoán) 1. 0 # 1. 0 chính xác 100% >>> dự đoán == y_testarray ([True, True, True, True, True, True, True, True, True, True, True, True, True, True], dtype = bool)
Vậy mô hình hồi quy hậu cần như thế nào với tham số C = 150 so sánh? Vâng, bạn không thể đánh bại 100 phần trăm. Đây là mã để tạo và đánh giá trình phân loại hậu cần với C = 150: >>>> logClassifier_2 = linear_model. LogisticRegression (C = 150, random_state = 111) >>> logClassifier_2. phù hợp (X_train, y_train) >>> dự đoán = logClassifier_2. dự đoán (X_test) >>> số liệu. accuracy_score (y_test, dự đoán) 0. 93333333333333335 >>> chỉ số. confusion_matrix (y_test, predicted) array ([[5, 0, 0], [0, 2, 0], [0, 1, 7]]
Chúng tôi mong đợi tốt hơn, nhưng nó thực sự tồi tệ hơn. Có một lỗi trong dự đoán. Kết quả cũng giống như mô hình mô hình Máy hỗ trợ (SVM).
Đây là danh sách đầy đủ của mã để tạo và đánh giá một mô hình phân loại hồi quy hậu cần với các thông số mặc định: >>>> từ sklearn. datasets import load_iris >>> từ sklearn import linear_model >>> từ sklearn import cross_validation >>> từ các chỉ số nhập skleish >>> iris = load_iris () >>> X_train, X_test, y_train, y_test = cross_validation. train_test_split (dữ liệu iris, mục tiêu iris, test_size = 0.10, random_state = 111) >>> logClassifier = linear_model. LogisticRegression (, random_state = 111) >>> logClassifier. fit (X_train, y_train) >>> dự đoán = logClassifier. dự đoán (X_test) >>> predictedarray ([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2, 2]) >>> y_testarray ([0, 0, 2, 2, 1, 0, 0, 2, 2, 1, 2, 0, 2, 2, 2]) >>> chỉ số. accuracy_score (y_test, dự đoán) 1. 0 # 1. 0 chính xác 100% >>> dự đoán == y_testarray ([True, True, True, True, True, True, True, True, True, True, True, True, True, True], dtype = bool)