Trang Chủ Tài chính Cá nhân Dữ liệu của bạn có đúng hay không? - núm vú

Dữ liệu của bạn có đúng hay không? - núm vú

Mục lục:

Video: Điều gì sẽ xảy ra nếu bạn ăn trứng hết hạn? 2025

Video: Điều gì sẽ xảy ra nếu bạn ăn trứng hết hạn? 2025
Anonim

Hầu hết các bộ dữ liệu đi kèm với một số loại siêu dữ liệu, đó là bản mô tả của dữ liệu trong tập tin. Siêu dữ liệu thường bao gồm các mô tả về định dạng, một số dấu hiệu cho thấy giá trị trong mỗi trường dữ liệu và những giá trị này có ý nghĩa gì.

Khi bạn phải đối mặt với một tập dữ liệu mới, đừng bao giờ lấy siêu dữ liệu theo giá trị. Bản chất của dữ liệu lớn đòi hỏi rằng các hệ thống tạo ra nó được giữ và chạy càng nhiều càng tốt. Vì lý do này, việc cập nhật siêu dữ liệu cho các hệ thống này khi các thay đổi được thực hiện không phải lúc nào cũng là ưu tiên hàng đầu. Bạn cần phải xác nhận rằng dữ liệu thực sự là như các yêu cầu siêu dữ liệu.

Kiểm tra nguồn của bạn

Như bạn thấy rõ ràng, điều quan trọng là bạn tin tưởng vào nơi dữ liệu của bạn đến từ đâu. Điều này đặc biệt quan trọng khi bạn mua dữ liệu. Hàng ngàn nhà cung cấp ở ngoài cung cấp mọi loại dữ liệu tưởng tượng. Và họ không phải tất cả đều đáng tin cậy như nhau.

Trước khi mua dữ liệu, hãy cố gắng hiểu chính xác nơi và cách mà nhà cung cấp đang thu thập dữ liệu đó. Sự huyền bí và sự mơ hồ là những lá cờ đỏ.

Không nên đưa nhà cung cấp theo lời của họ. Không chỉ dựa vào các bài đăng về sự hài lòng của khách hàng trên trang web hoặc tài liệu tham khảo của khách hàng mà nhà cung cấp cung cấp. Nếu có thể, hãy thử theo dõi những người đang sử dụng hoặc đã sử dụng dữ liệu.

Nếu dữ liệu của bạn đến từ các hệ thống nội bộ, vẫn cần phải đánh giá các nguồn. Các hệ thống khác nhau có các mục đích khác nhau và do đó tập trung vào các dữ liệu khác nhau. Họ cũng có thể thu thập dữ liệu ở những thời điểm khác nhau.

Bây giờ, giả sử bạn đang phân tích doanh thu khách sạn theo thành phố. Điều quan trọng hơn là bạn biết rằng dữ liệu giá phòng của bạn được lấy từ hệ thống bàn làm việc chứ không phải là hệ thống đặt phòng. Nhưng nếu bạn đang cố gắng để phân tích số lượng đặt phòng đã được tạo ra bởi thương mại Super Bowl của công ty bạn? Trong trường hợp này, bạn muốn xem dữ liệu từ hệ thống đặt phòng.

Ví dụ khách sạn minh hoạ rằng ngay cả dữ liệu nội bộ sạch cũng có thể là vấn đề. Ngay cả khi dữ liệu là chính xác và chính xác những gì nó mang ý nghĩa, thời gian có thể là một vấn đề.Dữ liệu thay đổi theo thời gian.

Xác minh các định dạng

Như đã đề cập ở phần trước của chương này, một trong những điều mà siêu dữ liệu của bạn sẽ cung cấp cho bạn là một số dấu hiệu cho thấy dữ liệu được định dạng như thế nào. Theo

định dạng, nghĩa là mỗi phần tử dữ liệu cụ thể trông như thế nào. Là "Mã sản phẩm" một ký tự hoặc số? Là "Ngày bắt đầu" một ngày hoặc là nó thực sự là một tem thời datetime? Các loại dữ liệu rất quan trọng trong phân tích thống kê vì chúng cho biết số liệu thống kê và thủ tục thống kê có thể được áp dụng cho các yếu tố dữ liệu nào. Nếu bạn cố gắng lấy giá trị trung bình của trường ký tự như "Tên", bạn sẽ nhận được thông báo lỗi mỗi lần.

Thông thường, loại siêu dữ liệu này khá chính xác. Nó thường được lưu trữ bởi hệ thống chứa dữ liệu và có thể được tạo ra tự động. Xác minh các định dạng nói chung khá đơn giản. Xác minh như vậy về cơ bản là một sản phẩm phụ của việc xác nhận các dãy dữ liệu thảo luận trong phần sau. Nhưng có những trường hợp mà nó có thể được một chút khó khăn hơn.

Chúng tôi đã nhìn thấy một kịch bản như vậy nhiều lần hơn chúng tôi muốn thu hồi. Đôi khi xảy ra khi một hệ thống được thiết kế lần đầu tiên, nhóm phát triển cố gắng đưa một số tính linh hoạt vào các cấu trúc dữ liệu để có thể cải tiến trong tương lai. Đôi khi họ chỉ cần thêm một bó cột dữ liệu alpha-rỗng (và rộng) vào cuối mỗi bản ghi. Các cột phụ này ban đầu không được sử dụng cho bất cứ thứ gì.

Các nhà phân tích sẽ luôn luôn nhầm lẫn khi yêu cầu dữ liệu nhiều hơn chứ không phải là ít hơn - thường xuyên, tất cả dữ liệu thay vì một số. Sự kiện này, kết hợp với sự cần thiết phải lấy dữ liệu nhanh, đôi khi dẫn đến kết quả là một bãi chứa dữ liệu . bãi chứa này thường bao gồm các cột phụ. Trong những trường hợp này, siêu dữ liệu cho bạn biết một cái gì đó như "Trường 1-11" được định dạng là "200 ký tự chữ và số. " Thông tin như vậy là vô ích. Để hiểu được lĩnh vực dữ liệu như thế này, bạn phải làm cho bàn tay của bạn bẩn. Không có nhiều bạn có thể làm ngoại trừ trang thông qua một vài chục hồ sơ và cố gắng làm cho một đoán biết về những gì thực sự trong lĩnh vực này. Trong hầu hết các trường hợp, những trường này có xu hướng trống rỗng. Nhưng không phải luôn luôn. Tin vui là nếu lĩnh vực này thực sự đang được sử dụng, bạn sẽ có thể tìm thấy một lập trình viên ở đâu đó những người hiểu biết những gì nó đang được sử dụng cho.

Kiểu dữ liệu của bạn

Một trong những bước quan trọng nhất trong việc thực hiện phân tích thống kê là đảm bảo rằng dữ liệu của bạn chính xác. Thủ tục thống kê sẽ không thay đổi nếu bạn không cung cấp cho họ thông tin hợp lệ về các định dạng dữ liệu. Nhưng các thủ tục này phần lớn là mù quáng với các vấn đề với tính hợp lệ của dữ liệu.

Hiểu cách lĩnh vực dữ liệu được định dạng là không đủ. Trước khi chuyển một tập dữ liệu sang thủ tục thống kê, bạn cần phải hiểu dữ liệu thực sự ở trong từng lĩnh vực bạn đang sử dụng.

Hầu hết dữ liệu thuộc một trong bốn loại: danh nghĩa, thứ tự, khoảng, và tỷ lệ.Kiểu dữ liệu xác định loại thống kê và thủ tục thống kê nào có thể được áp dụng cho các trường dữ liệu cụ thể. Ví dụ: bạn không thể lấy trung bình một trường như "Họ".

Các loại dữ liệu nhầm lẫn với các định dạng dữ liệu rất dễ (và quá phổ biến). Hiểu biết liệu một trường dữ liệu là một nhân vật, số nguyên hoặc liên tục không cho bạn biết loại dữ liệu.

Các trường ký tự đôi khi được sử dụng làm trình giữ chỗ cho dữ liệu có thể bị bắt trong các bản phát hành trong tương lai của hệ thống. Không có gì để ngăn chặn một lĩnh vực như vậy được sử dụng để nắm bắt dữ liệu tiền tệ hoặc dữ liệu số khác.

Sai số dữ liệu phổ biến nhất liên quan đến việc giả định trường số, đặc biệt là trường có giá trị số nguyên, thực sự chứa dữ liệu số

thứ bậc . Rất phổ biến đối với các công ty sử dụng mã số ( danh nghĩa dữ liệu) để đại diện cho sản phẩm, khu vực, cửa hàng và các thực thể khác. Mã chuyến bay của hãng hàng không là một ví dụ. Các khu vực điều tra dân số khác. Ngay cả thẻ tín dụng và số an sinh xã hội thường được lưu trữ dưới dạng số nguyên. Nhưng tất cả các thực thể này chỉ đơn thuần là các định danh. Đó là các biến

danh nghĩa . Số thẻ tín dụng trung bình trong danh mục của ngân hàng là một thống kê vô nghĩa.

Dữ liệu của bạn có đúng hay không? - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...