Mục lục:
- Hộp lô
- Histograms
- Các lô phân tán
- được sử dụng để xem các phần tử của một tập dữ liệu chặt chẽ như thế nào theo phân phối chuẩn. phổ biến trong nhiều lĩnh vực Ví dụ, nó thường được giả định trong tài chính và kinh tế rằng r eturns đến cổ phiếu thường phân phối. Giả thiết về tính bình thường rất thuận lợi, và nhiều bài kiểm tra thống kê dựa trên giả định này.
Video: Người mẫu khỏa thân Kim Phượng kể về nghi án họa sĩ hiếp dâm 2025
EDA được dựa rất nhiều vào kỹ thuật đồ họa. Bạn có thể sử dụng các kỹ thuật đồ họa để xác định các thuộc tính quan trọng nhất của một tập dữ liệu. Dưới đây là một số kỹ thuật đồ họa được sử dụng rộng rãi hơn:
-
Biểu đồ lô
-
Biểu đồ
-
Phép xác suất bình thường
-
Các lô đất phân tán
Hộp lô
Bạn sử dụng ô vuông để hiển thị một số các tính năng của tập dữ liệu, chẳng hạn như sau:
-
Giá trị tối thiểu
-
Giá trị lớn nhất
-
Phần tư
Các phần tư tách một tập dữ liệu thành bốn phần bằng nhau. Phần tư thứ nhất (Q 1 ) là một giá trị như sau:
25 phần trăm các quan sát trong một bộ dữ liệu nhỏ hơn phần tư thứ nhất.
75 phần trăm số quan sát lớn hơn quartile đầu tiên.
Phần tư thứ hai (Q 2 ) là một giá trị sao cho
50 phần trăm các quan sát trong một bộ dữ liệu nhỏ hơn phần tư thứ hai.
50 phần trăm các quan sát lớn hơn quartile thứ hai.
Phần tư thứ hai còn được gọi là trung vị .
Phần tư thứ ba (Q 3 ) là một giá trị như vậy
75 phần trăm các quan sát trong một bộ dữ liệu nhỏ hơn phần tư thứ ba.
25 phần trăm các quan sát lớn hơn phần tư thứ ba.
Bạn cũng có thể sử dụng hộp lô để xác định ngoại lệ. Đây là các giá trị khác biệt đáng kể so với phần còn lại của bộ dữ liệu. Các ngoại lệ có thể gây ra vấn đề cho các thử nghiệm thống kê truyền thống, vì vậy điều quan trọng là phải xác định chúng trước khi thực hiện bất kỳ loại phân tích thống kê nào.
Histograms
Bạn sử dụng biểu đồ để hiểu sâu hơn về sự phân bố xác suất mà một tập dữ liệu sau. Với biểu đồ tần suất, tập dữ liệu được tổ chức thành một loạt các giá trị hoặc phạm vi giá trị riêng lẻ, mỗi giá trị được biểu thị bằng thanh dọc. Chiều cao của thanh hiển thị tần suất giá trị hoặc dải giá trị xảy ra. Với một biểu đồ, bạn sẽ dễ dàng thấy được dữ liệu được phân phối như thế nào.
Các lô phân tán
Một đồ thị phân tán là một loạt các điểm cho thấy hai biến có liên quan với nhau như thế nào. Một điểm tán xạ ngẫu nhiên cho thấy hai biến không liên quan hoặc mối quan hệ giữa chúng rất yếu. Nếu các điểm gần giống như một đường thẳng, điều này cho thấy mối quan hệ giữa hai biến là khoảng tuyến tính.
Hai biến có liên quan tuyến tính nếu chúng có thể được mô tả bằng phương trình Y = mX + b .
X là biến độc lập, và Y là biến phụ thuộc. m là độ dốc, thể hiện sự thay đổi Y do một sự thay đổi nhất định X . b là chặn , thể hiện giá trị Y khi X bằng không.
Hình vẽ cho thấy một điểm phân tán giữa hai biến, trong đó mối quan hệ dường như là tuyến tính.
Phân tán lô của một mối quan hệ tuyến tính.Các điểm trên đồ thị phân tán gần như tạo thành một đường thẳng. Nó uốn cong một chút về phía bên trái và uốn cong một chút về bên phải, nhưng nó gần thẳng. Điều này cho thấy rằng mối quan hệ là tuyến tính, với một độ dốc tích cực.
Hình dưới đây cho thấy một lô phân tán giữa hai biến, trong đó Y dường như tăng nhanh hơn X.
Sự phân tán lô của một mối quan hệ phi tuyến.Xem đường cong? Mối quan hệ này rõ ràng là không tuyến tính. Trên thực tế, đó là một mối quan hệ bậc hai. Quan hệ bậc hai có dạng Y = aX 2 + b X + c .
Hình dưới đây cho thấy sơ đồ phân tán trong đó dường như không có bất kỳ mối quan hệ nào giữa X và Y .
X và Y. "width =" 535 "> Mô hình phân tán không có mối quan hệ giữa các biến X và YCác biến trong sơ đồ phân tán được hiển thị là không liên quan < hoặc độc lập, bạn có thể thấy điều này bằng cách thiếu bất kỳ khuôn mẫu nào trong dữ liệu. Ngoài việc hiển thị mối quan hệ giữa hai biến, một lô phân tán cũng có thể chỉ ra sự có mặt của các ngoại lệ. Hình dưới đây cho thấy một bộ dữ liệu với một quan sát khác biệt đáng kể so với các quan sát khác.
Xuyên tán với một điểm ngoài
Điểm ngoài mong muốn cần được điều tra thêm để xác định xem đó là kết quả của lỗi hay các vấn đề khác. Có thể là bên ngoài cần phải được loại bỏ khỏi dữ liệu Các đồ thị xác suất bình thườngCác đồ thị xác suất bình thường
được sử dụng để xem các phần tử của một tập dữ liệu chặt chẽ như thế nào theo phân phối chuẩn. phổ biến trong nhiều lĩnh vực Ví dụ, nó thường được giả định trong tài chính và kinh tế rằng r eturns đến cổ phiếu thường phân phối. Giả thiết về tính bình thường rất thuận lợi, và nhiều bài kiểm tra thống kê dựa trên giả định này.
Việc áp dụng các bài kiểm tra thống kê giả sử tính bình thường đối với bộ số liệu không bình thường
sẽ cho kết quả rất đáng ngờ. Do đó, điều quan trọng là xác định liệu dữ liệu có được phân phối bình thường hay không trước khi thực hiện bất kỳ kiểm tra thống kê nào.