Mục lục:
- Kiểm tra định dạng dữ liệu
- Xác minh loại dữ liệu
- Biểu đồ dữ liệu của bạn
- Xác minh độ chính xác của dữ liệu
- Xác định ngoại đối
- Xử lý các giá trị còn thiếu
- Kiểm tra các giả định của bạn về cách thức phân phối dữ liệu
- Sao lưu và ghi lại tất cả mọi thứ bạn làm
Video: Sau khi mua Galaxy Note 8, đây là những mẹo vặt cực chất bạn không thể bỏ qua! 2025
Các gói phần mềm thống kê rất mạnh mẽ trong những ngày này, nhưng họ không thể vượt qua dữ liệu chất lượng kém. Sau đây là danh sách kiểm tra những điều bạn cần làm trước khi bạn xây dựng các mô hình thống kê.
Kiểm tra định dạng dữ liệu
Phân tích của bạn luôn bắt đầu bằng một tệp dữ liệu thô. Các tệp dữ liệu thô có nhiều hình dạng và kích cỡ khác nhau. Dữ liệu máy tính Mainframe khác với dữ liệu PC, dữ liệu bảng tính được định dạng khác với dữ liệu web, v.v … Và trong thời đại dữ liệu lớn, bạn chắc chắn sẽ phải đối mặt với dữ liệu từ nhiều nguồn khác nhau. Bước đầu tiên của bạn trong việc phân tích dữ liệu của bạn là đảm bảo rằng bạn có thể đọc được các tệp bạn đang nhận.
Bạn cần thực sự nhìn vào những gì từng lĩnh vực có. Ví dụ, không khôn ngoan khi tin rằng chỉ vì một trường được liệt kê như một trường ký tự, nó thực sự chứa dữ liệu ký tự.
Xác minh loại dữ liệu
Tất cả dữ liệu thuộc một trong bốn loại ảnh hưởng đến những loại thống kê bạn có thể áp dụng phù hợp với nó:
-
Dữ liệu danh nghĩa về bản chất chỉ là tên hoặc số nhận dạng.
-
Dữ liệu thứ bậc đưa các hồ sơ theo thứ tự từ thấp đến cao.
-
Dữ liệu khoảng thời gian thể hiện các giá trị mà sự khác nhau giữa chúng là tương đương nhau.
-
Dữ liệu tỷ lệ giống như dữ liệu khoảng thời gian, ngoại trừ việc nó cũng cho phép có giá trị là 0.
Điều quan trọng là phải hiểu loại dữ liệu của bạn rơi vào trước khi đưa nó vào phần mềm thống kê. Nếu không, bạn có nguy cơ kết thúc với hoàn hảo hợp lý nhìn sai ngữ pháp.
Biểu đồ dữ liệu của bạn
Nhận được cảm giác phân phối dữ liệu của bạn là quan trọng. Bạn có thể chạy các thủ tục thống kê cho đến khi bạn nhìn vào mặt, nhưng không ai trong số họ sẽ cho bạn nhiều hiểu biết về dữ liệu của bạn trông như một biểu đồ đơn giản.
Xác minh độ chính xác của dữ liệu
Một khi bạn cảm thấy thoải mái khi dữ liệu được định dạng theo cách bạn muốn, bạn vẫn cần đảm bảo tính chính xác của dữ liệu và điều đó có ý nghĩa. Bước này đòi hỏi bạn phải có kiến thức về lĩnh vực chủ đề mà bạn đang làm việc.
Không thực sự là một phương pháp cắt và khô để kiểm tra tính chính xác của dữ liệu. Ý tưởng cơ bản là xây dựng một số thuộc tính mà bạn nghĩ rằng dữ liệu nên trình bày và kiểm tra dữ liệu để xem các thuộc tính này có được giữ lại hay không. Giá cổ phiếu luôn luôn dương? Tất cả mã sản phẩm có phù hợp với danh sách các mã hợp lệ không? Về cơ bản, bạn đang cố gắng tìm ra liệu dữ liệu thực sự là những gì bạn đã được nói với nó.
Xác định ngoại đối
Điểm ngoại công là các điểm dữ liệu không còn tác động với phần còn lại của dữ liệu. Đó là các giá trị rất lớn hoặc rất nhỏ so với phần còn lại của bộ dữ liệu.
Các ngoại lệ là vấn đề vì chúng có thể thỏa hiệp nghiêm trọng các thống kê và thủ tục thống kê. Một ngoại lệ duy nhất có thể có một tác động rất lớn đến giá trị của trung bình. Bởi vì nghĩa là nghĩa vụ phải đại diện cho trung tâm của dữ liệu, trong một nghĩa nào đó, điều này dẫn đến sự vô nghĩa.
Khi phải đối mặt với các ngoại lệ, chiến lược phổ biến nhất là xóa chúng. Trong một số trường hợp, tuy nhiên, bạn có thể muốn đưa chúng vào tài khoản. Trong những trường hợp này, thường cần làm phân tích của bạn hai lần - một lần với ngoại lệ bao gồm và một lần với những ngoại lệ bị loại trừ. Điều này cho phép bạn đánh giá phương pháp nào cho kết quả hữu ích hơn.
Xử lý các giá trị còn thiếu
Thiếu các giá trị là một trong những vấn đề dữ liệu phổ biến nhất (và gây phiền nhiễu) bạn sẽ gặp phải. Động lực đầu tiên của bạn có thể là giảm các bản ghi với các giá trị còn thiếu trong phân tích của bạn. Vấn đề với điều này là thiếu các giá trị thường không chỉ ngẫu nhiên ít dữ liệu ổn định.
Kiểm tra các giả định của bạn về cách thức phân phối dữ liệu
Nhiều thủ tục thống kê phụ thuộc vào giả định rằng dữ liệu được phân phối theo một cách nào đó. Nếu giả thuyết đó không thành công, tính chính xác của các dự đoán của bạn sẽ bị ảnh hưởng.
Giả thiết phổ biến nhất cho các kỹ thuật mô hình thảo luận trong cuốn sách này là dữ liệu thường được phân phối.
Hay không. Trong trường hợp dữ liệu không được phân phối như bạn cần thì tất cả không nhất thiết phải mất. Có nhiều cách chuyển đổi dữ liệu để phân phối thành hình dạng bạn cần.
Một trong những cách tốt nhất để xác minh tính chính xác của một mô hình thống kê là thực sự kiểm tra nó đối với dữ liệu khi nó được xây dựng. Một cách để làm điều đó là chia ngẫu nhiên tập dữ liệu của bạn thành hai tệp. Bạn có thể gọi các tệp này là Phân tích và Kiểm tra, tương ứng.
Bạn cần chia nhỏ dữ liệu một cách ngẫu nhiên để có hiệu quả. Bạn không thể chỉ đơn giản phân chia bộ dữ liệu vào nửa trên cùng và nửa dưới, ví dụ. Hầu như tất cả các tệp dữ liệu được sắp xếp theo cách nào đó theo ngày nếu không có gì khác. Điều này giới thiệu các mô hình hệ thống sẽ đưa ra các phần khác nhau của tệp các thuộc tính thống kê khác nhau. Khi bạn tách tệp tin một cách ngẫu nhiên, bạn cho mỗi bản ghi một cơ hội bình đẳng để được ở trong một trong hai tệp. Nói một cách tượng trưng, bạn đang lật một đồng xu cho mỗi bản ghi để quyết định tập tin đó sẽ đi vào đâu. Tính ngẫu nhiên cho cả hai tệp tin cùng một thuộc tính thống kê với dữ liệu ban đầu.
Khi bạn đã chia bộ dữ liệu, hãy dành tệp Thử nghiệm. Sau đó tiến hành xây dựng mô hình tiên đoán của bạn bằng cách sử dụng tệp Phân tích. Một khi mô hình được xây dựng, áp dụng nó vào tập tin Test và xem nó như thế nào.
Các mô hình kiểm tra theo cách này sẽ giúp bảo vệ chống lại hiện tượng được biết là quá áp . Về cơ bản, có thể các thủ tục thống kê để ghi nhớ các tập tin dữ liệu hơn là phát hiện mối quan hệ có ý nghĩa giữa các biến. Nếu over-fitting xảy ra, mô hình sẽ thử nghiệm khá kém so với các tập tin Test.
Sao lưu và ghi lại tất cả mọi thứ bạn làm
Vì phần mềm thống kê đang trở nên đơn giản nên sử dụng, đó là một miếng bánh để bắt đầu tạo các báo cáo và biểu đồ, không kể đến các tệp dữ liệu.Bạn có thể chạy thủ tục theo nghĩa đen chỉ bằng một nút. Bạn có thể tạo ra một vài chục đồ thị dựa trên sự biến đổi dữ liệu khác nhau chỉ trong vài phút. Điều đó làm cho bạn dễ dàng bị mất theo dõi những gì bạn đã làm và tại sao.
Điều quan trọng là phải đảm bảo bạn ghi lại những gì bạn đang làm. Các đồ thị nên được gắn nhãn với tên (và phiên bản) của dữ liệu đã được sử dụng để tạo chúng. Thủ tục thống kê mà bạn xây dựng cần phải được lưu và tài liệu.
Việc sao lưu các tệp dữ liệu của bạn cũng quan trọng. Trong quá trình phân tích của bạn, có thể bạn sẽ tạo ra một số phiên bản dữ liệu phản ánh các sửa đổi và biến đổi khác nhau. Bạn nên lưu các thủ tục tạo ra các phiên bản này. Chúng cũng nên được ghi lại theo cách mô tả những biến đổi bạn đã thực hiện và tại sao.
Tài liệu không phải là công việc yêu thích của bất kỳ ai nhưng chúng tôi nói theo kinh nghiệm khi chúng tôi khuyến khích bạn không dựa vào bộ nhớ của bạn khi nói đến các dự án phân tích của bạn.
Bằng cách làm việc qua các bước vừa được mô tả, bạn sẽ tối đa hóa độ tin cậy của các mô hình thống kê của mình. Trong nhiều trường hợp, công việc chuẩn bị thực sự tốn nhiều thời gian hơn so với việc xây dựng mô hình thực sự. Nhưng nó là cần thiết. Và cuối cùng bạn sẽ cảm ơn vì đã làm việc một cách có phương pháp.