Video: Bài 08: Nhập Dữ Liệu Dạng Bảng Trong R - TLU Maths 2025
Bước đầu tiên hướng tới mô hình tiên đoán là liên quan đến các biến với nhau. Một công cụ đơn giản, đáng chú ý cho đó là scatterplot. Nó được sử dụng để liên quan một trong những biện pháp liên tục khác. Thợ mỏ dữ liệu đôi khi cũng kéo dài các quy tắc và sử dụng nó với các biến số phân loại.
Trục ngang ( x ) của ô tiêu biểu cho các giá trị của một biến; trục đứng ( y ) đại diện cho một biến thứ hai. Bạn có thể không có một cảm giác mà biến là độc lập và đó là phụ thuộc cho mỗi cặp biến.
Nếu bạn làm vậy, biến độc lập nên nằm trên trục ngang. Mỗi điểm trên đồ thị đại diện cho tọa độ, cặp giá trị cho hai biến trong một trường hợp. (Đôi đôi này đôi khi được gọi là cặp xy ).
Tìm công cụ scatterplot của bạn và thiết lập một công cụ scatterplot cơ bản bằng cách chọn hai biến để sử dụng. Hình dưới đây cho thấy công cụ này trong trình đơn của Orange; vị trí của công cụ thay đổi theo sản phẩm.
Ví dụ trong hình tiếp theo hiển thị một màn hình tương tác; các scatterpotot xuất hiện ngay lập tức. Trong công cụ khác, bạn có thể cần các bước bổ sung để thực hiện và tạo biểu đồ.
Ví dụ về chênh lệch liên quan đến độ dài tự động cho công suất động cơ. Công suất thấp có liên quan đến mức cao, và công suất càng cao, thì càng thấp mileage. Bạn có thể dễ dàng nhìn thấy mẫu này trong dữ liệu. Bạn có thể nhận thấy một hình dạng, không tuyến tính nhưng hơi cong. Điều này có thể cung cấp gợi ý về loại mô hình để thử sau.
Các ứng dụng khai thác dữ liệu thường có một số tính năng tương tác trong các màn hình biểu đồ. Ví dụ: hình tiếp theo cho thấy di chuột qua một điểm cho thấy giá trị chính xác của hai biến cho điểm đó. Điều này dễ hơn là cố gắng đọc các giá trị từ các trục!