Video: Danh Mục Đầu Tư 2025
Để chạy phân tích tiên đoán, bạn phải lấy dữ liệu vào một dạng mà thuật toán có thể sử dụng để xây dựng mô hình. Để làm được điều này, bạn phải mất một ít thời gian để hiểu được dữ liệu và biết cấu trúc của nó. Nhập vào chức năng để tìm ra cấu trúc của dữ liệu. Dưới đây là những gì có vẻ như: >> str (seed) 'dữ liệu. khung ': 210 obs. của 8 biến: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: số 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0.903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: số 3 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1
Từ nhìn vào cấu trúc, bạn có thể cho biết dữ liệu cần một bước tiền chế biến và một bước tiện lợi:
-
Đây không phải là điều cần thiết, nhưng vì những mục đích của ví dụ này, nên sử dụng các tên cột mà bạn có thể hiểu và nhớ. Thay đổi thuộc tính với các giá trị phân loại thành một yếu tố.
-
Nhãn có ba loại có thể. Để đổi tên các cột, hãy nhập mã sau: >> colnames (seeds) <-
c ("vùng", "chu vi", "compactness", "chiều dài", "width", " asymmetry "," length2 "," seedType ")
Tiếp theo, thay đổi thuộc tính có các giá trị phân loại thành một thừa số. Đoạn mã sau thay đổi kiểu dữ liệu thành một thừa số:
>> seed $ seedType <- factor (seed $ seedType)
Lệnh này kết thúc việc chuẩn bị dữ liệu cho quá trình làm mẫu. Sau đây là một cái nhìn về cấu trúc sau quá trình chuẩn bị dữ liệu: dữ liệu >> str (cỏ dại). khung ': 210 obs. của 8 biến: $ vùng: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ chu vi: số 14. 8 14. 6 14. 1 13. 9 15 … $ compactness: num 0. 871 0 881 0. 905 0. 895 0.903 … $ length: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ width: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetry: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ length2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Factor w / 3 levels "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …