Video: Suspense: Stand-In / Dead of Night / Phobia 2025
Bạn muốn tạo mô hình phân tích tiên đoán mà bạn có thể đánh giá bằng cách sử dụng các kết quả đã biết. Để làm điều đó, chúng tôi sẽ chia dữ liệu của chúng tôi thành hai bộ: một cho đào tạo mô hình và một để thử nghiệm mô hình. Một chia tách 70/30 giữa các tập dữ liệu huấn luyện và kiểm tra sẽ đủ. Hai dòng tiếp theo của mã tính toán và lưu trữ các kích cỡ của mỗi bộ: >> trainSize testSize <- nrow (autos) - trainSize
Để xuất các giá trị, gõ tên của biến được sử dụng để lưu trữ giá trị và bấm phím Enter. Đây là đầu ra:
Từ việc kiểm tra dữ liệu, bạn có thể thấy rằng hầu hết các ô tô nặng hơn, tám xi lanh, lớn hơn và mã lực lớn hơn nằm ở đầu bộ dữ liệu. Từ quan sát này, không cần phải chạy bất kỳ thuật toán nào trên dữ liệu, bạn đã có thể nói rằng các loại xe cũ hơn (nói chung là cho các dữ liệu này) so với các xe mới hơn như sau:
Có nặng hơnCó tám xi lanh
-
Có sự dịch chuyển lớn hơn
-
-
Có công suất lớn hơn
Được rồi, rõ ràng là nhiều người biết gì về xe ô tô, do đó bạn đoán được mối tương quan sẽ không bị quá tải sau khi bạn nhìn thấy dữ liệu. Người có nhiều kiến thức ô tô có thể đã biết điều này mà không cần nhìn vào dữ liệu. -
Đây chỉ là một ví dụ đơn giản về tên miền (ô tô) mà nhiều người có thể liên quan. Nếu đây là dữ liệu về bệnh ung thư, tuy nhiên, hầu hết mọi người sẽ không ngay lập tức hiểu những gì mỗi thuộc tính có ý nghĩa.
Đây là nơi mà một chuyên gia về tên miền và một người lập mô hình dữ liệu là nhân tố quan trọng cho quá trình lập mô hình. Chuyên gia về tên miền có thể có kiến thức tốt nhất về các thuộc tính có thể là quan trọng nhất (hoặc ít nhất) - và cách các thuộc tính tương quan với nhau.
Họ có thể đề xuất với người mô hình hóa dữ liệu mà các biến được thử nghiệm. Họ có thể cho trọng lượng lớn hơn các thuộc tính quan trọng hơn và / hoặc trọng lượng nhỏ hơn cho các thuộc tính ít quan trọng nhất (hoặc loại bỏ chúng hoàn toàn).
Vì vậy, bạn phải tạo một tập dữ liệu huấn luyện và một bộ dữ liệu thử nghiệm thực sự đại diện cho toàn bộ bộ. Một cách để làm như vậy là tạo tập huấn luyện từ một sự lựa chọn ngẫu nhiên của toàn bộ tập dữ liệu.Ngoài ra, bạn muốn thực hiện phép thử này để bạn có thể học hỏi từ cùng một ví dụ.
Do đó đặt hạt giống cho máy phát ngẫu nhiên vì vậy chúng ta sẽ có bộ tập huấn "ngẫu nhiên" giống nhau. Đoạn mã sau thực hiện nhiệm vụ: >> set. hạt nhân (123)> training_indices <- mẫu (seq_len (nrow (autos)), size = trainSize) trainSet testSet <- autos [-training_indices,]
Tập huấn luyện chứa 279 quan sát cùng với kết quả (mpg) của từng quan sát. Thuật toán hồi quy sử dụng kết quả để huấn luyện mô hình bằng cách nhìn vào các mối quan hệ giữa các biến dự đoán (bất kỳ trong bảy thuộc tính) và biến đáp ứng (mpg).
Bộ test chứa phần còn lại của dữ liệu (nghĩa là phần không có trong tập huấn luyện). Bạn nên chú ý rằng tập kiểm tra cũng bao gồm biến đáp ứng (mpg).Khi bạn sử dụng hàm dự đoán (từ mô hình) với tập kiểm tra, nó bỏ qua biến đáp ứng và chỉ sử dụng các biến dự báo miễn là các tên cột giống như trong tập huấn luyện.
Để tạo ra một mô hình hồi quy tuyến tính sử dụng thuộc tính mpg làm biến đáp ứng và tất cả các biến khác làm các biến dự báo, hãy gõ dòng sau: >> model