Video: The Vanishing of Flight 370 2025
Bạn phải lấy dữ liệu vào một dạng mà thuật toán có thể sử dụng để xây dựng một mô hình phân tích tiên đoán. Để làm như vậy, bạn phải mất một thời gian để hiểu được dữ liệu và để biết cấu trúc của dữ liệu. Nhập vào chức năng để tìm ra cấu trúc của dữ liệu. Lệnh và đầu ra của nó trông như sau: >> str (autos) 'dữ liệu. khung ': 398 obs. của 9 biến: $ V1: số 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: số 3504 3693 3436 3433 3449 … $ V6: số 12 11 5 11 12 10. 5 10 9 8 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 … $ V9: Yếu tố / 305 cấp độ "amc Ambassador Brougham", …:
50 37 232 15 162 142 55 224 242 2 …Từ nhìn vào cấu trúc, bạn có thể nói rằng có một số việc chuẩn bị và dọn dẹp dữ liệu để làm. Dưới đây là danh sách các công việc cần thiết:
-
Đây không phải là điều cần thiết, nhưng vì các mục đích của ví dụ này, nên sử dụng các tên cột mà bạn có thể hiểu và ghi nhớ.
Thay đổi kiểu dữ liệu của V4 (
-
mã lực ) sang kiểu dữ liệu số . Trong ví dụ này, mã lực là một giá trị số liên tục chứ không phải là kiểu dữ liệu ký tự.
Xử lý các giá trị còn thiếu.
-
Thay đổi các thuộc tính có giá trị rời rạc với các yếu tố.
-
Ở đây xi lanh, năm mô hình và nguồn gốc có các giá trị rời rạc.
Vứt bỏ thuộc tính V9 (
-
tên xe hơi ). Ở đây tên xe hơi không bổ sung giá trị cho mô hình mà bạn đang tạo. Nếu không đưa ra thuộc tính gốc, bạn có thể đã bắt nguồn gốc từ thuộc tính tên xe.
> colnames (autos) <-
c ("mpg", "cylinders", "displacement", "horsepower" "" carName ")
Tiếp theo, thay đổi kiểu dữ liệu mã lực thành số với mã sau: >> autos $ horsepower <-
Chương trình sẽ phàn nàn bởi vì không phải tất cả các giá trị trong mã lực là biểu diễn chuỗi số. Có một số giá trị bị thiếu đã được đại diện là "? " tính cách. Đó là tiền phạt bây giờ bởi vì R chuyển đổi mỗi trường hợp của? vào NA.Một cách phổ biến để xử lý các giá trị thiếu của các biến liên tục là để thay thế mỗi giá trị bị mất với ý nghĩa của toàn bộ cột. Dòng mã sau đây: >> autos $ horsepower [is.na (autos $ horsepower)] <- mean (autos $ horsepower, na. rm = TRUE)
Điều quan trọng là phải có na. rm-TRUE trong hàm ý. Nó nói với các chức năng không sử dụng các cột với các giá trị null trong tính toán của nó. Không có nó, chức năng sẽ trở lại.
Tiếp theo, thay đổi các thuộc tính với các giá trị rời rạc thành các yếu tố. Ba thuộc tính đã được xác định là rời rạc. Ba dòng mã sau thay đổi các thuộc tính. >> autos $ origin autos $ modelYear autos $ cylinders <- factor (autos $ cylinders)
Cuối cùng, xóa thuộc tính khỏi khung dữ liệu với dòng mã sau:
autos $ carName <- nULL < Tại thời điểm này, bạn đã hoàn tất việc chuẩn bị dữ liệu cho quá trình lập mô hình. Sau đây là một khung nhìn về cấu trúc sau quá trình chuẩn bị dữ liệu: dữ liệu >> str (autos) '. khung ': 398 obs. của 8 biến: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ xi lanh: Yếu tố với 5 cấp độ "3", "4", "5", "6", …:
5 5 5 5 5 5 5 5 5 5 … $ di dời: số 307 350 318 304 302 429 454 440 455 390 … $ mã lực: số 130 165 150 150 140 198 220 215 225 190 … $ trọng lượng: số 3504 3693 3436 3433 3449 … $ tăng tốc: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelYear: Yếu tố với 13 cấp độ "70", "71", "72", …:
1 1 1 1 1 1 1 1 1 … $ Xuất xứ: Yếu tố w / 3 mức "1", "2", "3":
1 1 1 1 1 1 1 1 1 …