Mục lục:
Video: Shape-shifting tech will change work as we know it | Sean Follmer 2024
Khi bạn khai thác dữ liệu, đôi khi bạn sẽ có nhiều dữ liệu hơn bạn cần cho một dự án nhất định. Đây là cách để giảm xuống chỉ cần những gì bạn cần.
Thu hẹp các trường
Khi bạn có nhiều biến trong tập dữ liệu, có thể khó tìm hoặc thấy những điểm mà bạn quan tâm. Và nếu tập dữ liệu của bạn lớn và bạn không cần tất cả các biến số, việc giữ các tính năng bổ sung làm tăng tài nguyên không cần thiết. Vì vậy, đôi khi bạn cần giữ một số biến và thả những người khác. Hình này cho thấy một ví dụ trong KNIME, ở đó đúng công cụ được gọi là Bộ lọc Cột.
Một thiết lập ví dụ cho công cụ này được hiển thị trong hình dưới đây.
Để thu hẹp các trường, hãy tìm một công cụ lựa chọn có thể thay đổi trong ứng dụng khai thác dữ liệu của bạn; chúng được tìm thấy với các công cụ khác để thao tác dữ liệu. Giống như các công cụ khai thác dữ liệu khác, tên khác nhau giữa các sản phẩm. Tìm các biến thể trên từ cột, biến, hoặc lĩnh vực, và lựa chọn hoặc lọc.
Chọn trường hợp có liên quan
Các trường hợp có dữ liệu chưa đầy đủ có thể được lọc ra trước khi xây dựng mô hình. Xóa trường hợp không đầy đủ là một ví dụ phổ biến về chọn dữ liệu hoặc lọc.
Nhưng bạn chọn những trường hợp thích hợp cho từng phân đoạn mà bạn quan tâm như thế nào? Bạn muốn sử dụng công cụ chọn dữ liệu.
Hình dưới đây cho thấy một công cụ lựa chọn dữ liệu trong một ứng dụng khai thác dữ liệu khác.
Hình tiếp theo cho thấy cách bạn thiết lập công cụ đó cho một loại lựa chọn khác, điều này dựa trên giá trị của một biến.
Thông thường, bạn sử dụng kiểu lựa chọn dữ liệu này và một số ứng dụng cung cấp tất cả các loại chức năng được cài sẵn để giúp bạn xác định chính xác các trường hợp bạn muốn. Điều này có một số tính năng đặc biệt; nó sẽ hiển thị thống kê tóm tắt cho biến và cho bạn biết chính xác bao nhiêu trường hợp đáp ứng các tiêu chí lựa chọn.
Hầu hết các ứng dụng khai thác dữ liệu đều có các công cụ để lựa chọn các trường hợp bạn cần. Tìm trong menu (hoặc tìm kiếm) cho chọn bộ lọc hoặc .
Lấy mẫu
Một quan niệm phổ biến hiện nay là dữ liệu nhiều hơn là dữ liệu tốt hơn. Đây không phải là một ý kiến mới. Các ứng dụng khai thác dữ liệu luôn được phát triển để làm việc với số lượng lớn dữ liệu. Ngay cả tên "khai thác dữ liệu" cho thấy số lượng lớn. Nhưng thường xuyên, làm việc với một mẫu dữ liệu của bạn sẽ cung cấp cho bạn thông tin hữu ích, làm cho công việc của bạn dễ dàng hơn, và tiết kiệm thời gian và nguồn lực của bạn.
Lấy mẫu đóng vai trò quan trọng trong việc khai thác dữ liệu. Nếu dữ liệu được cân bằng có nghĩa là mô hình sử dụng số trường hợp tương đương nhau trong mỗi nhóm được so sánh (trong ví dụ đó, nhóm là tài sản thay đổi tay và tài sản không có), mặc dù một nhóm có nhiều trường hợp hơn khác trong dữ liệu ban đầu.
Sau đó, dữ liệu được chia nhỏ, chia thành một tập con để sử dụng cho việc đào tạo mô hình và một cho thử nghiệm. Chỉ sử dụng một mẫu dữ liệu trong một mảng tọa độ song song có thể làm cho nó dễ dàng hơn để xem và giải thích. (Scatterplots với hàng ngàn điểm có thể khó đọc được!) Có lẽ điều quan trọng nhất là việc lấy mẫu chỉ làm giảm lượng dữ liệu, vì vậy mọi thứ chạy nhanh hơn.