Video: Cách đọc bản vẽ xây dựng - Bài 1 - Các loại bản vẽ trong xây dựng 2025
Các thợ mỏ khai thác dữ liệu thường tận dụng các tính năng đặc biệt để thu thập thêm thông tin vào các biểu đồ đơn giản. Nhãn, lớp phủ và lựa chọn tương tác là dấu hiệu của các ứng dụng khai thác dữ liệu, các tính năng đặc biệt cho phép bạn làm việc hiệu quả hơn.
Mileage giảm khi mã lực tăng lên, như thể hiện trong hình dưới đây.
Mileage tăng lên theo thời gian, như bạn thấy, một điểm phân tán của mileage so với model year. Sẽ rất hữu ích khi đưa hai ý tưởng này vào một biểu đồ.
Cách tiếp cận khai thác dữ liệu thông thường để tích hợp nhiều hơn hai biến trong một đồ thị bao gồm nhãn
-
Nhãn: Nhãn là giá trị của một chuỗi hoặc biến phân loại đã được chồng lên bảng phân tán. Hình dưới đây cho thấy một scatterplot gắn với năm mô hình của chiếc xe.
Các bộ dữ liệu với nhiều điểm hoặc các nhãn dài có thể khiến các biểu đồ này không thể đọc được! Giải pháp là chỉ sử dụng một mẫu dữ liệu. Thiết lập cho loại mẫu này được hiển thị trong hình dưới đây.
-
Lớp phủ: Với lớp phủ, giá trị của biến phân loại xác định điểm hoặc màu sắc của điểm. Hình dưới đây cho thấy thiết lập cho một scatterplot để phủ lên mô hình năm trên dặm phân chia mileage-versus.
Lớp phủ xuất xuất xuất hiện trong hình dưới đây. Bạn có thể dễ dàng đọc các lớp phủ màu hơn các lớp phủ điểm. Việc thiết lập thường rất giống nhau.
Một điều nữa cần ghi nhớ với những điểm phân tán: Bạn có thể có nhiều điểm rơi vào cùng một chỗ! Nếu có, bạn có thể không cho biết một điểm cho một trường hợp từ một điểm cho 100 trường hợp. Phương pháp khắc phục là để kiểm tra một tùy chọn để làm cho nhiều trường hợp nhìn thấy được. Hãy tìm kích thước điểm hoặc jitter (di chuyển điểm hơi lệch khỏi vị trí thực của chúng để làm cho tất cả chúng hiển thị) tùy chọn.
Các trình phát tán tương tác là những trình tiết kiệm thời gian tuyệt vời cho các thợ mỏ dữ liệu.
Nói rằng bạn thấy một nhóm trường hợp thú vị trong biểu đồ và bạn muốn điều tra thêm những trường hợp đó. Nếu bạn chỉ nhìn vào một hoặc hai điểm, bạn có thể nhận được thông tin bạn muốn bằng cách lơ lửng, nhưng điều này không thỏa đáng khi bạn quan tâm nhiều hơn một vài điểm.
Công cụ lựa chọn dữ liệu trong các trình phát tán tương tác cung cấp cho bạn nhiều quyền lực hơn để chọn dữ liệu. Hình dưới đây cho thấy thiết lập biểu đồ tương tự, nhưng với một nhóm các điểm được chọn bằng cách nhấp và kéo chuột xung quanh chúng. Đây không chỉ là một tính năng trực quan.
Bạn có thể xuất các điểm đã chọn làm tập dữ liệu mới. Điều này rất tiện dụng và nhanh chóng!
Nếu các điểm bạn cần không phù hợp với một lựa chọn hình chữ nhật, bạn có các tùy chọn khác. Tham khảo khu vực Zoom / Select. Bạn có thể thấy nút có hình chữ nhật để lựa chọn hình chữ nhật và một nút khác có hình tròn để chọn dạng tự do.
Dưới đây là một ví dụ lựa chọn biểu mẫu miễn phí sử dụng dữ liệu về hàm lượng nicotin của thuốc lá bán ở các nơi khác nhau trên thế giới. Bản đồ phân tán này cho biết số nicotin trên mỗi điếu thuốc đối với các mẫu từ sáu vùng của Liên hợp quốc. Người khai thác dữ liệu thường sử dụng các công cụ truyền thống theo những cách không truyền thống)
Các điểm trong một vùng không nằm trong một đường thẳng hoàn hảo. Sự thay đổi nhỏ (jitter) sang trái và phải được thực hiện chỉ để dễ đọc và chỉ xuất hiện. Một ít thuốc lá có nồng độ nicotine cao đặc biệt, và bạn muốn chọn những trường hợp đó.
Trình đơn thả xuống cung cấp các tùy chọn lựa chọn. Lựa chọn đa giác cho phép bạn đánh dấu một vùng biểu mẫu tự do trên mảnh scatterplot.
Để đánh dấu, nhấp chuột vào đồ thị để tạo ra một điểm khởi đầu, và sau đó nhấp lại lần nữa và xung quanh nhóm các điểm mà bạn muốn cho đến khi bạn đã làm hình dạng bạn cần.
Nhấp chuột phải cho biết bạn đã hoàn thành việc lựa chọn; điều này có thể nhìn thấy từ các điểm nổi bật trên đồ thị.