Trang Chủ Tài chính Cá nhân 8 Thực tiễn tốt nhất trong Chuẩn bị Dữ liệu - núm vú

8 Thực tiễn tốt nhất trong Chuẩn bị Dữ liệu - núm vú

Mục lục:

Video: Sau khi mua Galaxy Note 8, đây là những mẹo vặt cực chất bạn không thể bỏ qua! 2025

Video: Sau khi mua Galaxy Note 8, đây là những mẹo vặt cực chất bạn không thể bỏ qua! 2025
Anonim

Các gói phần mềm thống kê rất mạnh mẽ trong những ngày này, nhưng họ không thể vượt qua dữ liệu chất lượng kém. Sau đây là danh sách kiểm tra những điều bạn cần làm trước khi bạn xây dựng các mô hình thống kê.

Kiểm tra định dạng dữ liệu

Phân tích của bạn luôn bắt đầu bằng một tệp dữ liệu thô. Các tệp dữ liệu thô có nhiều hình dạng và kích cỡ khác nhau. Dữ liệu máy tính Mainframe khác với dữ liệu PC, dữ liệu bảng tính được định dạng khác với dữ liệu web, v.v … Và trong thời đại dữ liệu lớn, bạn chắc chắn sẽ phải đối mặt với dữ liệu từ nhiều nguồn khác nhau. Bước đầu tiên của bạn trong việc phân tích dữ liệu của bạn là đảm bảo rằng bạn có thể đọc được các tệp bạn đang nhận.

Bạn cần thực sự nhìn vào những gì từng lĩnh vực có. Ví dụ, không khôn ngoan khi tin rằng chỉ vì một trường được liệt kê như một trường ký tự, nó thực sự chứa dữ liệu ký tự.

Xác minh loại dữ liệu

Tất cả dữ liệu thuộc một trong bốn loại ảnh hưởng đến những loại thống kê bạn có thể áp dụng phù hợp với nó:

  • Dữ liệu danh nghĩa về bản chất chỉ là tên hoặc số nhận dạng.

  • Dữ liệu thứ bậc đưa các hồ sơ theo thứ tự từ thấp đến cao.

  • Dữ liệu khoảng thời gian thể hiện các giá trị mà sự khác nhau giữa chúng là tương đương nhau.

  • Dữ liệu tỷ lệ giống như dữ liệu khoảng thời gian, ngoại trừ việc nó cũng cho phép có giá trị là 0.

Điều quan trọng là phải hiểu loại dữ liệu của bạn rơi vào trước khi đưa nó vào phần mềm thống kê. Nếu không, bạn có nguy cơ kết thúc với hoàn hảo hợp lý nhìn sai ngữ pháp.

Biểu đồ dữ liệu của bạn

Nhận được cảm giác phân phối dữ liệu của bạn là quan trọng. Bạn có thể chạy các thủ tục thống kê cho đến khi bạn nhìn vào mặt, nhưng không ai trong số họ sẽ cho bạn nhiều hiểu biết về dữ liệu của bạn trông như một biểu đồ đơn giản.

Xác minh độ chính xác của dữ liệu

Một khi bạn cảm thấy thoải mái khi dữ liệu được định dạng theo cách bạn muốn, bạn vẫn cần đảm bảo tính chính xác của dữ liệu và điều đó có ý nghĩa. Bước này đòi hỏi bạn phải có kiến ​​thức về lĩnh vực chủ đề mà bạn đang làm việc.

Không thực sự là một phương pháp cắt và khô để kiểm tra tính chính xác của dữ liệu. Ý tưởng cơ bản là xây dựng một số thuộc tính mà bạn nghĩ rằng dữ liệu nên trình bày và kiểm tra dữ liệu để xem các thuộc tính này có được giữ lại hay không. Giá cổ phiếu luôn luôn dương? Tất cả mã sản phẩm có phù hợp với danh sách các mã hợp lệ không? Về cơ bản, bạn đang cố gắng tìm ra liệu dữ liệu thực sự là những gì bạn đã được nói với nó.

Xác định ngoại đối

Điểm ngoại công là các điểm dữ liệu không còn tác động với phần còn lại của dữ liệu. Đó là các giá trị rất lớn hoặc rất nhỏ so với phần còn lại của bộ dữ liệu.

Các ngoại lệ là vấn đề vì chúng có thể thỏa hiệp nghiêm trọng các thống kê và thủ tục thống kê. Một ngoại lệ duy nhất có thể có một tác động rất lớn đến giá trị của trung bình. Bởi vì nghĩa là nghĩa vụ phải đại diện cho trung tâm của dữ liệu, trong một nghĩa nào đó, điều này dẫn đến sự vô nghĩa.

Khi phải đối mặt với các ngoại lệ, chiến lược phổ biến nhất là xóa chúng. Trong một số trường hợp, tuy nhiên, bạn có thể muốn đưa chúng vào tài khoản. Trong những trường hợp này, thường cần làm phân tích của bạn hai lần - một lần với ngoại lệ bao gồm và một lần với những ngoại lệ bị loại trừ. Điều này cho phép bạn đánh giá phương pháp nào cho kết quả hữu ích hơn.

Xử lý các giá trị còn thiếu

Thiếu các giá trị là một trong những vấn đề dữ liệu phổ biến nhất (và gây phiền nhiễu) bạn sẽ gặp phải. Động lực đầu tiên của bạn có thể là giảm các bản ghi với các giá trị còn thiếu trong phân tích của bạn. Vấn đề với điều này là thiếu các giá trị thường không chỉ ngẫu nhiên ít dữ liệu ổn định.

Kiểm tra các giả định của bạn về cách thức phân phối dữ liệu

Nhiều thủ tục thống kê phụ thuộc vào giả định rằng dữ liệu được phân phối theo một cách nào đó. Nếu giả thuyết đó không thành công, tính chính xác của các dự đoán của bạn sẽ bị ảnh hưởng.

Giả thiết phổ biến nhất cho các kỹ thuật mô hình thảo luận trong cuốn sách này là dữ liệu thường được phân phối.

Hay không. Trong trường hợp dữ liệu không được phân phối như bạn cần thì tất cả không nhất thiết phải mất. Có nhiều cách chuyển đổi dữ liệu để phân phối thành hình dạng bạn cần.

Một trong những cách tốt nhất để xác minh tính chính xác của một mô hình thống kê là thực sự kiểm tra nó đối với dữ liệu khi nó được xây dựng. Một cách để làm điều đó là chia ngẫu nhiên tập dữ liệu của bạn thành hai tệp. Bạn có thể gọi các tệp này là Phân tích và Kiểm tra, tương ứng.

Bạn cần chia nhỏ dữ liệu một cách ngẫu nhiên để có hiệu quả. Bạn không thể chỉ đơn giản phân chia bộ dữ liệu vào nửa trên cùng và nửa dưới, ví dụ. Hầu như tất cả các tệp dữ liệu được sắp xếp theo cách nào đó theo ngày nếu không có gì khác. Điều này giới thiệu các mô hình hệ thống sẽ đưa ra các phần khác nhau của tệp các thuộc tính thống kê khác nhau. Khi bạn tách tệp tin một cách ngẫu nhiên, bạn cho mỗi bản ghi một cơ hội bình đẳng để được ở trong một trong hai tệp. Nói một cách tượng trưng, ​​bạn đang lật một đồng xu cho mỗi bản ghi để quyết định tập tin đó sẽ đi vào đâu. Tính ngẫu nhiên cho cả hai tệp tin cùng một thuộc tính thống kê với dữ liệu ban đầu.

Khi bạn đã chia bộ dữ liệu, hãy dành tệp Thử nghiệm. Sau đó tiến hành xây dựng mô hình tiên đoán của bạn bằng cách sử dụng tệp Phân tích. Một khi mô hình được xây dựng, áp dụng nó vào tập tin Test và xem nó như thế nào.

Các mô hình kiểm tra theo cách này sẽ giúp bảo vệ chống lại hiện tượng được biết là quá áp . Về cơ bản, có thể các thủ tục thống kê để ghi nhớ các tập tin dữ liệu hơn là phát hiện mối quan hệ có ý nghĩa giữa các biến. Nếu over-fitting xảy ra, mô hình sẽ thử nghiệm khá kém so với các tập tin Test.

Sao lưu và ghi lại tất cả mọi thứ bạn làm

Vì phần mềm thống kê đang trở nên đơn giản nên sử dụng, đó là một miếng bánh để bắt đầu tạo các báo cáo và biểu đồ, không kể đến các tệp dữ liệu.Bạn có thể chạy thủ tục theo nghĩa đen chỉ bằng một nút. Bạn có thể tạo ra một vài chục đồ thị dựa trên sự biến đổi dữ liệu khác nhau chỉ trong vài phút. Điều đó làm cho bạn dễ dàng bị mất theo dõi những gì bạn đã làm và tại sao.

Điều quan trọng là phải đảm bảo bạn ghi lại những gì bạn đang làm. Các đồ thị nên được gắn nhãn với tên (và phiên bản) của dữ liệu đã được sử dụng để tạo chúng. Thủ tục thống kê mà bạn xây dựng cần phải được lưu và tài liệu.

Việc sao lưu các tệp dữ liệu của bạn cũng quan trọng. Trong quá trình phân tích của bạn, có thể bạn sẽ tạo ra một số phiên bản dữ liệu phản ánh các sửa đổi và biến đổi khác nhau. Bạn nên lưu các thủ tục tạo ra các phiên bản này. Chúng cũng nên được ghi lại theo cách mô tả những biến đổi bạn đã thực hiện và tại sao.

Tài liệu không phải là công việc yêu thích của bất kỳ ai nhưng chúng tôi nói theo kinh nghiệm khi chúng tôi khuyến khích bạn không dựa vào bộ nhớ của bạn khi nói đến các dự án phân tích của bạn.

Bằng cách làm việc qua các bước vừa được mô tả, bạn sẽ tối đa hóa độ tin cậy của các mô hình thống kê của mình. Trong nhiều trường hợp, công việc chuẩn bị thực sự tốn nhiều thời gian hơn so với việc xây dựng mô hình thực sự. Nhưng nó là cần thiết. Và cuối cùng bạn sẽ cảm ơn vì đã làm việc một cách có phương pháp.

8 Thực tiễn tốt nhất trong Chuẩn bị Dữ liệu - núm vú

Lựa chọn của người biên tập

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Một Infographic tốt có thể trực quan kể một câu chuyện hoặc làm một số trừu tượng hoặc điểm số dễ hiểu, nhưng không có điều này xảy ra mà không có một cơ sở dữ liệu tốt. Các chính phủ thế giới và các tổ chức liên chính phủ duy trì các cơ sở dữ liệu về tất cả các loại thống kê. Dữ liệu về nhân khẩu học, kinh tế, sức khoẻ và văn hoá của vô số nước có sẵn trực tuyến cho ...

Tương lai của Infographics cho Giáo dục - núm vú

Tương lai của Infographics cho Giáo dục - núm vú

Sinh viên ngày nay có dây từ khi sinh ra, và khi họ đến trường tuổi, họ đã quen với các bài thuyết trình đầy màu sắc, đồ họa và giải trí. Nhập thông tin đồ họa. Có thể có một vài cách mà các biểu đồ chữ ký sẽ đóng vai trò mạnh mẽ hơn trong giáo dục trong thập kỷ tới và hơn thế nữa: Giải thích các khái niệm phức tạp: Chúng ta đã phải vật lộn qua một thứ gì đó trong trường học. ...

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Bạn có thể đã nghe nói rằng " đặt nó ", mà không thể được truer khi nói đến thêm văn bản để hình dung dữ liệu. Văn bản bị đặt sai trái có thể dẫn đến hiểu sai về dữ liệu. Bạn nên thực hiện theo hai phương pháp hay nhất để đưa văn bản vào hình dung dữ liệu của bạn: Giữ toàn bộ văn bản theo chiều ngang. Nonhorizontal ...

Lựa chọn của người biên tập

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

Câu hỏi Hoàn thành văn bản trên GRE bao gồm một câu hoặc đoạn văn với một, hai hoặc ba không gian trống cho một từ hoặc từ bị thiếu. Công việc của bạn là chọn từ hoặc từ thích hợp nhất để điền vào chỗ trống trong câu. Đây là một số ví dụ để bạn thử. Mẫu ...

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Khi bạn phải dịch một vấn đề từ vào toán học trên GRE, biết đâu để bắt đầu thường là thách thức khó khăn nhất. Điều quan trọng là bắt đầu với những gì bạn biết và làm việc theo những gì bạn không biết. Bạn có thể giải quyết hầu hết các vấn đề từ bằng cách tiếp cận theo từng bước: Đọc toàn bộ ...

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Viết luận văn (và ghi điểm) trên GRE là chủ quan đến một mức độ nào. Không có câu trả lời đúng hay sai, và mỗi bài luận hơi khác nhau, dựa trên quan điểm, kiến ​​thức, kinh nghiệm, cách viết của người thử nghiệm, v.v ... Tuy nhiên, những người đánh giá, có một danh sách các tiêu chuẩn cụ thể để phân loại bài luận của bạn. Để thực hiện tốt, hãy chắc chắn làm ...

Lựa chọn của người biên tập

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Ribbon trong PowerPoint 2011 cho Mac cho phép bạn thêm nội dung bằng các tùy chọn trên tab Trang chủ, trong nhóm Chèn. Mỗi lần bạn thêm một nội dung nào đó vào trang trình chiếu, nó được đặt trong một lớp trên đầu của tất cả các đối tượng hiện có trên trang trình bày. Chèn nội dung văn bản vào trang trình bày PowerPoint Nhấp vào tab Trang chủ của Ribbon và ...

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Tăng cường PowerPoint 2011 của bạn cho Mac trình bày với các đoạn âm thanh. Sử dụng âm thanh và âm nhạc là một cách hay để thu hút khán giả của bạn. Trong PowerPoint 2011 dành cho Mac, bạn có thể chọn một trong hai cách để kích hoạt hộp thoại Insert Audio: Từ Media Browser: Sử dụng tab Audio và kéo từ trình duyệt sang PowerPoint. ...

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Bao gồm cả phương tiện truyền thông trong trình tự hoạt hình của bạn là một ý tưởng tuyệt vời. Trong PowerPoint 2011 dành cho máy Mac, bạn không còn bị hạn chế khi xem phim trên đầu. Phim bây giờ hoạt động độc đáo trong lớp của riêng mình và có thể hoạt ảnh giống như bất kỳ đối tượng khác. Phim thậm chí có thể chồng chéo và theo dõi các đường dẫn chuyển động khi chúng chơi. Chỉ cần nhớ ...