Video: Lọc dữ liệu trùng nhau, không trùng nhau giữa 2 sheet 2025
Trong lĩnh vực thống kê, có thể phân biệt giữa các biến số các loại khác nhau là rất quan trọng. Loại dữ liệu rất thường xác định loại phân tích có thể được thực hiện. Kết quả là, R cung cấp khả năng phân loại dữ liệu một cách rõ ràng như sau:
-
Dữ liệu danh nghĩa: Loại dữ liệu này, bạn đại diện trong các yếu tố sử dụng R, phân biệt giữa các loại, nhưng không có lệnh ngụ ý giữa các loại. Ví dụ về dữ liệu danh nghĩa là màu sắc (màu đỏ, xanh lục, xanh lam), giới tính (nam, nữ) và quốc tịch (Anh, Pháp, Nhật).
-
Dữ liệu thứ cấp được phân biệt bởi thực tế là có một loại trật tự tự nhiên giữa các phần tử nhưng không có dấu hiệu của sự khác biệt kích thước tương đối. Bất kỳ loại dữ liệu nào có thể xếp hạng theo thứ tự nhưng không đưa ra giá trị chính xác là thứ tự. Ví dụ: thấp trung bình cao mô tả dữ liệu được yêu cầu với ba cấp độ. Trong nghiên cứu thị trường, rất phổ biến sử dụng thang điểm năm điểm để đánh giá nhận thức:
rất không đồng ý
Một ví dụ khác là sử dụng các tên của màu sắc để chỉ ra thứ tự, chẳng hạn nhưmàu đỏ
thứ tự các yếu tố để mô tả dữ liệu thứ tự. Dữ liệu số:
-
Bạn có dữ liệu số khi bạn có thể mô tả dữ liệu bằng số (ví dụ: chiều dài, cân nặng hoặc số lượng). Dữ liệu số có hai loại con. Dữ liệu được thu nhỏ theo khoảng cách:
-
Bạn có khoảng dữ liệu thu được từ khoảng cách giữa các đơn vị lân cận của phép đo là như nhau, nhưng điểm zero là tùy ý. Một ví dụ hàng ngày của dữ liệu khoảng cách khoảng là hệ thống lịch của chúng tôi. Mỗi năm có cùng độ dài, nhưng điểm zero là tùy tiện. Nói cách khác, thời gian đã không bắt đầu trong năm không - chỉ cần sử dụng một năm thuận tiện để bắt đầu đếm. Điều này có nghĩa là bạn có thể thêm và trừ ngày tháng (và tất cả các loại dữ liệu thu nhỏ khoảng cách khác), nhưng bạn không thể chia các ngày một cách có ý nghĩa. Các ví dụ khác bao gồm kinh độ, cũng như bất cứ điều gì khác mà có thể có bất đồng về điểm xuất phát ở đâu.
Trong R, bạn có thể sử dụng các đối tượng
số nguyên hoặc số để biểu diễn dữ liệu được thu nhỏ theo khoảng cách. Dữ liệu được chia tỷ lệ:
-
Đây là dữ liệu cho phép tất cả các phép toán được phép, đặc biệt là khả năng nhân và chia (nói cách khác là lấy tỉ số).Hầu hết dữ liệu trong các khoa học vật lý đều có tỷ lệ thu nhỏ - ví dụ: chiều dài, khối lượng và tốc độ. Trong R, bạn sử dụng các đối tượng số để biểu diễn dữ liệu có tỷ lệ thu được.
-