Mục lục:
- Đang nạp dữ liệu của bạn
- Dòng 1 nhập thư viện cho phép bạn tách bộ dữ liệu thành hai phần.
- mảng ([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 1, 2, 2, 2]) >>>> y_test
- Mô hình rừng ngẫu nhiên thực hiện như thế nào nếu bạn thay đổi tham số
Video: Our Miss Brooks: Board of Education Day / Cure That Habit / Professorship at State University 2025
Mô hình rừng ngẫu nhiên là một mô hình toàn thể có thể được sử dụng trong phân tích tiên đoán; phải mất một bộ sưu tập (cây) quyết định để tạo ra mô hình của nó. Ý tưởng là để lấy một mẫu ngẫu nhiên của người học yếu (một tập hợp ngẫu nhiên của dữ liệu đào tạo) và họ bỏ phiếu để lựa chọn mô hình mạnh nhất và tốt nhất. Mô hình rừng ngẫu nhiên có thể được sử dụng để phân loại hoặc hồi quy. Trong ví dụ sau, mô hình rừng ngẫu nhiên được sử dụng để phân loại các loài Iris.
Đang nạp dữ liệu của bạn
Danh sách mã này sẽ nạp bộ dữ liệu
iris
vào phiên làm việc của bạn: >>>> từ sklearn. datasets import load_iris >>>> iris = load_iris ()
Tạo một thể hiện của trình phân loại
Hai dòng mã sau đây tạo ra một thể hiện của trình phân loại. Dòng đầu tiên nhập thư viện rừng ngẫu nhiên. Dòng thứ hai tạo ra một ví dụ của thuật toán rừng ngẫu nhiên:
>>>> từ người lùn.
n_estimators
Tham số
n_estimators
trong hàm tạo là một thông số điều chỉnh thường dùng cho mô hình rừng ngẫu nhiên. Giá trị được sử dụng để xây dựng số cây trong rừng. Thường khoảng từ 10 đến 100 phần trăm của bộ dữ liệu, nhưng nó phụ thuộc vào dữ liệu bạn đang sử dụng. Ở đây, giá trị được đặt ở mức 15, tức là 10 phần trăm của dữ liệu. Sau đó, bạn sẽ thấy rằng việc thay đổi giá trị tham số thành 150 (100 phần trăm) sẽ cho kết quả tương tự.
n
_estimators
được sử dụng để điều chỉnh hiệu suất mô hình và overfitting. Giá trị càng lớn, hiệu suất càng tốt nhưng giá thành quá cao. Giá trị càng nhỏ, cơ hội không bị overfitting nhưng với chi phí thấp hơn. Ngoài ra, có một điểm làm tăng số lượng nói chung làm suy giảm trong việc cải thiện độ chính xác và có thể tăng đáng kể sức mạnh tính toán cần thiết. Tham số mặc định là 10 nếu nó bị bỏ qua trong constructor.
Bạn sẽ cần chia bộ dữ liệu thành các bộ đào tạo và tập kiểm tra trước khi bạn có thể tạo một thể hiện của trình phân loại rừng ngẫu nhiên. Đoạn mã sau sẽ hoàn thành nhiệm vụ đó: >>>> từ nhập khẩu ký sinh_ qua_validation >>>> X_train, X_test, y_train, y_test =
cross_validation. train_test_split (dữ liệu iris,
iris, mục tiêu, test_size = 0.10, random_state = 111) >>>> rf = rf. fit (X_train, y_train)
Dòng 1 nhập thư viện cho phép bạn tách bộ dữ liệu thành hai phần.
Dòng 2 gọi hàm từ thư viện chia tách bộ dữ liệu thành hai phần và gán các bộ dữ liệu đã chia cho hai cặp các biến.
Dòng 3 lấy ví dụ của phân loại rừng ngẫu nhiên mà bạn vừa tạo ra, sau đó gọi phương thức phù hợp để huấn luyện mô hình với tập dữ liệu huấn luyện.
Chạy dữ liệu thử nghiệm
Trong đoạn mã sau đây, dòng đầu tiên nạp dữ liệu thử nghiệm cho mô hình, sau đó dòng thứ ba hiển thị đầu ra: >>>> predicted = rf. dự đoán >>>> dự đoán
mảng ([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 0, 1, 2, 2]) > Đánh giá mô hình
Bạn có thể tham khảo chéo sản lượng từ dự đoán đối với mảng
- y_test
- . Kết quả là, bạn có thể thấy rằng nó dự đoán hai điểm dữ liệu thử nghiệm không chính xác. Vì vậy tính chính xác của mô hình rừng ngẫu nhiên là 86. 67 phần trăm.
- Đây là mã: >>>> từ các chỉ số nhập khẩu của sklearn >>>> dự đoán
mảng ([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 1, 2, 2, 2]) >>>> y_test
mảng ([0, 0, 2, 1, 2, 0, 2, 2, 2]) >>>> số liệu. accuracy_score (y_test, predicted)
0. 8666666666666667 # 1. 0 chính xác 100% >>>> dự đoán == y_test
mảng ([True, True, True, True, True, True, True, True, True, True, True, True, False, True,
True, dtype = bool)
Mô hình rừng ngẫu nhiên thực hiện như thế nào nếu bạn thay đổi tham số
n_estimators
thành 150? Dường như nó sẽ không tạo ra sự khác biệt cho số liệu nhỏ này. Nó tạo kết quả tương tự: >>>> rf = RandomForestClassifier (n_estimators = 150,
random_state = 111) >>>> rf = rf. phù hợp (X_train, y_train) >>>> dự đoán = rf. dự đoán >>>> dự đoán
mảng ([0, 0, 2, 2, 2, 0, 0, 2, 2, 1, 2, 0, 1, 2, 2]) >