Mục lục:
- Kiểm tra nguồn của bạn
- Như đã đề cập ở phần trước của chương này, một trong những điều mà siêu dữ liệu của bạn sẽ cung cấp cho bạn là một số dấu hiệu cho thấy dữ liệu được định dạng như thế nào. Theo
- Một trong những bước quan trọng nhất trong việc thực hiện phân tích thống kê là đảm bảo rằng dữ liệu của bạn chính xác. Thủ tục thống kê sẽ không thay đổi nếu bạn không cung cấp cho họ thông tin hợp lệ về các định dạng dữ liệu. Nhưng các thủ tục này phần lớn là mù quáng với các vấn đề với tính hợp lệ của dữ liệu.
Video: Điều gì sẽ xảy ra nếu bạn ăn trứng hết hạn? 2025
Hầu hết các bộ dữ liệu đi kèm với một số loại siêu dữ liệu, đó là bản mô tả của dữ liệu trong tập tin. Siêu dữ liệu thường bao gồm các mô tả về định dạng, một số dấu hiệu cho thấy giá trị trong mỗi trường dữ liệu và những giá trị này có ý nghĩa gì.
Khi bạn phải đối mặt với một tập dữ liệu mới, đừng bao giờ lấy siêu dữ liệu theo giá trị. Bản chất của dữ liệu lớn đòi hỏi rằng các hệ thống tạo ra nó được giữ và chạy càng nhiều càng tốt. Vì lý do này, việc cập nhật siêu dữ liệu cho các hệ thống này khi các thay đổi được thực hiện không phải lúc nào cũng là ưu tiên hàng đầu. Bạn cần phải xác nhận rằng dữ liệu thực sự là như các yêu cầu siêu dữ liệu.
Kiểm tra nguồn của bạn
Như bạn thấy rõ ràng, điều quan trọng là bạn tin tưởng vào nơi dữ liệu của bạn đến từ đâu. Điều này đặc biệt quan trọng khi bạn mua dữ liệu. Hàng ngàn nhà cung cấp ở ngoài cung cấp mọi loại dữ liệu tưởng tượng. Và họ không phải tất cả đều đáng tin cậy như nhau.
Trước khi mua dữ liệu, hãy cố gắng hiểu chính xác nơi và cách mà nhà cung cấp đang thu thập dữ liệu đó. Sự huyền bí và sự mơ hồ là những lá cờ đỏ.
Không nên đưa nhà cung cấp theo lời của họ. Không chỉ dựa vào các bài đăng về sự hài lòng của khách hàng trên trang web hoặc tài liệu tham khảo của khách hàng mà nhà cung cấp cung cấp. Nếu có thể, hãy thử theo dõi những người đang sử dụng hoặc đã sử dụng dữ liệu.
Nếu dữ liệu của bạn đến từ các hệ thống nội bộ, vẫn cần phải đánh giá các nguồn. Các hệ thống khác nhau có các mục đích khác nhau và do đó tập trung vào các dữ liệu khác nhau. Họ cũng có thể thu thập dữ liệu ở những thời điểm khác nhau.
Bây giờ, giả sử bạn đang phân tích doanh thu khách sạn theo thành phố. Điều quan trọng hơn là bạn biết rằng dữ liệu giá phòng của bạn được lấy từ hệ thống bàn làm việc chứ không phải là hệ thống đặt phòng. Nhưng nếu bạn đang cố gắng để phân tích số lượng đặt phòng đã được tạo ra bởi thương mại Super Bowl của công ty bạn? Trong trường hợp này, bạn muốn xem dữ liệu từ hệ thống đặt phòng.Ví dụ khách sạn minh hoạ rằng ngay cả dữ liệu nội bộ sạch cũng có thể là vấn đề. Ngay cả khi dữ liệu là chính xác và chính xác những gì nó mang ý nghĩa, thời gian có thể là một vấn đề.Dữ liệu thay đổi theo thời gian.
Xác minh các định dạng
Như đã đề cập ở phần trước của chương này, một trong những điều mà siêu dữ liệu của bạn sẽ cung cấp cho bạn là một số dấu hiệu cho thấy dữ liệu được định dạng như thế nào. Theo
định dạng, nghĩa là mỗi phần tử dữ liệu cụ thể trông như thế nào. Là "Mã sản phẩm" một ký tự hoặc số? Là "Ngày bắt đầu" một ngày hoặc là nó thực sự là một tem thời datetime? Các loại dữ liệu rất quan trọng trong phân tích thống kê vì chúng cho biết số liệu thống kê và thủ tục thống kê có thể được áp dụng cho các yếu tố dữ liệu nào. Nếu bạn cố gắng lấy giá trị trung bình của trường ký tự như "Tên", bạn sẽ nhận được thông báo lỗi mỗi lần.
Thông thường, loại siêu dữ liệu này khá chính xác. Nó thường được lưu trữ bởi hệ thống chứa dữ liệu và có thể được tạo ra tự động. Xác minh các định dạng nói chung khá đơn giản. Xác minh như vậy về cơ bản là một sản phẩm phụ của việc xác nhận các dãy dữ liệu thảo luận trong phần sau. Nhưng có những trường hợp mà nó có thể được một chút khó khăn hơn.
Chúng tôi đã nhìn thấy một kịch bản như vậy nhiều lần hơn chúng tôi muốn thu hồi. Đôi khi xảy ra khi một hệ thống được thiết kế lần đầu tiên, nhóm phát triển cố gắng đưa một số tính linh hoạt vào các cấu trúc dữ liệu để có thể cải tiến trong tương lai. Đôi khi họ chỉ cần thêm một bó cột dữ liệu alpha-rỗng (và rộng) vào cuối mỗi bản ghi. Các cột phụ này ban đầu không được sử dụng cho bất cứ thứ gì.
Các nhà phân tích sẽ luôn luôn nhầm lẫn khi yêu cầu dữ liệu nhiều hơn chứ không phải là ít hơn - thường xuyên, tất cả dữ liệu thay vì một số. Sự kiện này, kết hợp với sự cần thiết phải lấy dữ liệu nhanh, đôi khi dẫn đến kết quả là một bãi chứa dữ liệu . bãi chứa này thường bao gồm các cột phụ. Trong những trường hợp này, siêu dữ liệu cho bạn biết một cái gì đó như "Trường 1-11" được định dạng là "200 ký tự chữ và số. " Thông tin như vậy là vô ích. Để hiểu được lĩnh vực dữ liệu như thế này, bạn phải làm cho bàn tay của bạn bẩn. Không có nhiều bạn có thể làm ngoại trừ trang thông qua một vài chục hồ sơ và cố gắng làm cho một đoán biết về những gì thực sự trong lĩnh vực này. Trong hầu hết các trường hợp, những trường này có xu hướng trống rỗng. Nhưng không phải luôn luôn. Tin vui là nếu lĩnh vực này thực sự đang được sử dụng, bạn sẽ có thể tìm thấy một lập trình viên ở đâu đó những người hiểu biết những gì nó đang được sử dụng cho.
Kiểu dữ liệu của bạn
Một trong những bước quan trọng nhất trong việc thực hiện phân tích thống kê là đảm bảo rằng dữ liệu của bạn chính xác. Thủ tục thống kê sẽ không thay đổi nếu bạn không cung cấp cho họ thông tin hợp lệ về các định dạng dữ liệu. Nhưng các thủ tục này phần lớn là mù quáng với các vấn đề với tính hợp lệ của dữ liệu.
Hiểu cách lĩnh vực dữ liệu được định dạng là không đủ. Trước khi chuyển một tập dữ liệu sang thủ tục thống kê, bạn cần phải hiểu dữ liệu thực sự ở trong từng lĩnh vực bạn đang sử dụng.
Hầu hết dữ liệu thuộc một trong bốn loại: danh nghĩa, thứ tự, khoảng, và tỷ lệ.Kiểu dữ liệu xác định loại thống kê và thủ tục thống kê nào có thể được áp dụng cho các trường dữ liệu cụ thể. Ví dụ: bạn không thể lấy trung bình một trường như "Họ".
Các loại dữ liệu nhầm lẫn với các định dạng dữ liệu rất dễ (và quá phổ biến). Hiểu biết liệu một trường dữ liệu là một nhân vật, số nguyên hoặc liên tục không cho bạn biết loại dữ liệu.
Các trường ký tự đôi khi được sử dụng làm trình giữ chỗ cho dữ liệu có thể bị bắt trong các bản phát hành trong tương lai của hệ thống. Không có gì để ngăn chặn một lĩnh vực như vậy được sử dụng để nắm bắt dữ liệu tiền tệ hoặc dữ liệu số khác.
Sai số dữ liệu phổ biến nhất liên quan đến việc giả định trường số, đặc biệt là trường có giá trị số nguyên, thực sự chứa dữ liệu số
thứ bậc . Rất phổ biến đối với các công ty sử dụng mã số ( danh nghĩa dữ liệu) để đại diện cho sản phẩm, khu vực, cửa hàng và các thực thể khác. Mã chuyến bay của hãng hàng không là một ví dụ. Các khu vực điều tra dân số khác. Ngay cả thẻ tín dụng và số an sinh xã hội thường được lưu trữ dưới dạng số nguyên. Nhưng tất cả các thực thể này chỉ đơn thuần là các định danh. Đó là các biến
danh nghĩa . Số thẻ tín dụng trung bình trong danh mục của ngân hàng là một thống kê vô nghĩa.