Trang Chủ Tài chính Cá nhân ÁP dụng Phân tích Hợp phần Chính cho Các Phân tích Tiên đoán- nồng độ

ÁP dụng Phân tích Hợp phần Chính cho Các Phân tích Tiên đoán- nồng độ

Video: Phân tích 8 câu đầu bài thơ Việt Bắc - thầy Nhật dạy văn 2025

Video: Phân tích 8 câu đầu bài thơ Việt Bắc - thầy Nhật dạy văn 2025
Anonim

Phân tích thành phần chính (PCA) là một kỹ thuật có giá trị được sử dụng rộng rãi trong phân tích tiên đoán và khoa học dữ liệu. Nó nghiên cứu một tập dữ liệu để tìm hiểu các biến có liên quan nhất chịu trách nhiệm cho biến thể cao nhất trong tập dữ liệu đó. PCA hầu hết được sử dụng như một kỹ thuật giảm dữ liệu.

Trong khi xây dựng mô hình dự đoán, bạn có thể cần giảm số lượng các tính năng mô tả tập dữ liệu của mình. Rất hữu ích để giảm chiều cao của dữ liệu thông qua kỹ thuật xấp xỉ, tại đó PCA trội hơn. Dữ liệu xấp xỉ tóm tắt tất cả các biến thể quan trọng của dữ liệu ban đầu.

Việc tìm ra những biến số tiên đoán quan trọng nhất là cốt lõi của việc xây dựng mô hình tiên đoán. Cách nhiều người đã làm là sử dụng một phương pháp tiếp cận vũ lực. Ý tưởng là bắt đầu bằng nhiều biến liên quan nhất có thể và sau đó sử dụng phương pháp tiếp cận kênh để loại bỏ các tính năng không ảnh hưởng hoặc không có giá trị tiên đoán.

Để giúp quá trình này, các nhà khoa học dữ liệu sử dụng nhiều công cụ phân tích tiên đoán giúp cho việc chạy nhiều hoán vị và phân tích trên một tập dữ liệu dễ dàng hơn và nhanh hơn để đo lường tác động của mỗi biến trên tập dữ liệu đó.

Biết rằng có nhiều dữ liệu để làm việc, bạn có thể sử dụng PCA để được giúp đỡ.

Giảm số lượng các biến bạn xem là lý do đủ để sử dụng PCA. Ngoài ra, bằng cách sử dụng PCA, bạn sẽ tự động bảo vệ bản thân khỏi việc sử dụng mô hình.

Chắc chắn, bạn có thể tìm thấy mối tương quan giữa dữ liệu thời tiết ở một quốc gia và hiệu suất của thị trường chứng khoán. Hoặc với màu sắc của đôi giày của một người và tuyến đường mà cô ấy hoặc cô ấy mang đến văn phòng và việc thực hiện danh mục đầu tư cho ngày đó. Tuy nhiên, bao gồm cả những biến số trong một mô hình dự báo không chỉ là quá mức, điều này gây hiểu nhầm và dẫn đến các dự đoán sai.

PCA sử dụng cách tiếp cận có tính toán học để xác định tập hợp con của tập dữ liệu của bạn bao gồm các tính năng quan trọng nhất; trong việc xây dựng mô hình của bạn trên số liệu nhỏ hơn đó, bạn sẽ có một mô hình có giá trị tiên đoán cho tổng thể, tập dữ liệu lớn hơn mà bạn đang làm việc. Nói tóm lại, PCA sẽ giúp bạn hiểu được các biến của bạn bằng cách xác định tập con của các biến chịu trách nhiệm về biến thể nhiều nhất với tập dữ liệu ban đầu của bạn. Nó giúp bạn phát hiện sự dư thừa. Nó giúp bạn tìm ra rằng hai (hoặc nhiều biến hơn) đang nói cho bạn cùng một điều.

Hơn nữa, các phân tích thành phần chính lấy tập dữ liệu đa chiều của bạn và tạo ra một tập dữ liệu mới có các biến đại diện cho tính tuyến tính của các biến trong tập dữ liệu ban đầu. Ngoài ra, tập dữ liệu đầu ra có các biến không tương quan cá nhân, và phương sai của chúng được sắp xếp theo các thành phần chính của chúng trong đó phần đầu tiên là lớn nhất, v.v. Về vấn đề này, PCA cũng có thể được coi là một kỹ thuật để xây dựng các tính năng.

Trong khi sử dụng PCA hoặc các kỹ thuật tương tự khác giúp giảm chiều kích của bộ dữ liệu mà bạn đang xử lý, bạn phải luôn thận trọng để không làm ảnh hưởng tiêu cực đến hiệu suất của mô hình. Việc giảm kích thước của dữ liệu không nên gây ảnh hưởng tiêu cực đến hiệu suất (độ chính xác của mô hình tiên đoán). Giữ an toàn và quản lý tập dữ liệu một cách an toàn.

Sự phức tạp tăng lên của một mô hình không chuyển thành chất lượng cao hơn trong kết quả.

Để bảo vệ hiệu suất của mô hình, bạn có thể cần phải đánh giá cẩn thận hiệu quả của mỗi biến, đo tính hữu ích của nó trong việc định hình mô hình cuối cùng.

Biết rằng PCA có thể đặc biệt hữu ích khi các biến có độ tương quan cao trong một bộ dữ liệu nhất định, sau đó có một bộ dữ liệu với các biến số dự báo không tương quan chỉ có thể làm phức tạp nhiệm vụ giảm dimensionality của dữ liệu đa biến. Nhiều kỹ thuật khác có thể được sử dụng ở đây ngoài PCA, chẳng hạn như lựa chọn tính năng chuyển tiếp và loại bỏ tính năng lạc hậu.

PCA không phải là viên đạn ma thuật sẽ giải quyết tất cả các vấn đề với dữ liệu đa chiều. Thành công của nó là rất phụ thuộc vào dữ liệu bạn đang làm việc với. Sự sai số thống kê có thể không phù hợp với các biến với các giá trị tiên đoán nhất, mặc dù nó an toàn để làm việc với các phép xấp xỉ như vậy.

ÁP dụng Phân tích Hợp phần Chính cho Các Phân tích Tiên đoán- nồng độ

Lựa chọn của người biên tập

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Tìm kiếm Cơ sở dữ liệu của Chính phủ cho dữ liệu Infographics của bạn - núm vú

Một Infographic tốt có thể trực quan kể một câu chuyện hoặc làm một số trừu tượng hoặc điểm số dễ hiểu, nhưng không có điều này xảy ra mà không có một cơ sở dữ liệu tốt. Các chính phủ thế giới và các tổ chức liên chính phủ duy trì các cơ sở dữ liệu về tất cả các loại thống kê. Dữ liệu về nhân khẩu học, kinh tế, sức khoẻ và văn hoá của vô số nước có sẵn trực tuyến cho ...

Tương lai của Infographics cho Giáo dục - núm vú

Tương lai của Infographics cho Giáo dục - núm vú

Sinh viên ngày nay có dây từ khi sinh ra, và khi họ đến trường tuổi, họ đã quen với các bài thuyết trình đầy màu sắc, đồ họa và giải trí. Nhập thông tin đồ họa. Có thể có một vài cách mà các biểu đồ chữ ký sẽ đóng vai trò mạnh mẽ hơn trong giáo dục trong thập kỷ tới và hơn thế nữa: Giải thích các khái niệm phức tạp: Chúng ta đã phải vật lộn qua một thứ gì đó trong trường học. ...

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Lời khuyên cho việc định vị văn bản trên các hình ảnh hoá dữ liệu - núm vú

Bạn có thể đã nghe nói rằng " đặt nó ", mà không thể được truer khi nói đến thêm văn bản để hình dung dữ liệu. Văn bản bị đặt sai trái có thể dẫn đến hiểu sai về dữ liệu. Bạn nên thực hiện theo hai phương pháp hay nhất để đưa văn bản vào hình dung dữ liệu của bạn: Giữ toàn bộ văn bản theo chiều ngang. Nonhorizontal ...

Lựa chọn của người biên tập

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

GRE Câu hỏi mẫu: Hoàn thành văn bản - những con vú

Câu hỏi Hoàn thành văn bản trên GRE bao gồm một câu hoặc đoạn văn với một, hai hoặc ba không gian trống cho một từ hoặc từ bị thiếu. Công việc của bạn là chọn từ hoặc từ thích hợp nhất để điền vào chỗ trống trong câu. Đây là một số ví dụ để bạn thử. Mẫu ...

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Làm thế nào để giải quyết vấn đề về toán học trên GRE - núm vú

Khi bạn phải dịch một vấn đề từ vào toán học trên GRE, biết đâu để bắt đầu thường là thách thức khó khăn nhất. Điều quan trọng là bắt đầu với những gì bạn biết và làm việc theo những gì bạn không biết. Bạn có thể giải quyết hầu hết các vấn đề từ bằng cách tiếp cận theo từng bước: Đọc toàn bộ ...

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Làm thế nào để Tối đa hóa điểm TOE GRE của bạn - núm vú

Viết luận văn (và ghi điểm) trên GRE là chủ quan đến một mức độ nào. Không có câu trả lời đúng hay sai, và mỗi bài luận hơi khác nhau, dựa trên quan điểm, kiến ​​thức, kinh nghiệm, cách viết của người thử nghiệm, v.v ... Tuy nhiên, những người đánh giá, có một danh sách các tiêu chuẩn cụ thể để phân loại bài luận của bạn. Để thực hiện tốt, hãy chắc chắn làm ...

Lựa chọn của người biên tập

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Chèn nội dung vào một slide PowerPoint trong Office 2011 for Mac - núm vú

Ribbon trong PowerPoint 2011 cho Mac cho phép bạn thêm nội dung bằng các tùy chọn trên tab Trang chủ, trong nhóm Chèn. Mỗi lần bạn thêm một nội dung nào đó vào trang trình chiếu, nó được đặt trong một lớp trên đầu của tất cả các đối tượng hiện có trên trang trình bày. Chèn nội dung văn bản vào trang trình bày PowerPoint Nhấp vào tab Trang chủ của Ribbon và ...

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Văn phòng 2011 dành cho Mac: Thêm đoạn nhạc vào bài trình chiếu PowerPoint - núm vú

Tăng cường PowerPoint 2011 của bạn cho Mac trình bày với các đoạn âm thanh. Sử dụng âm thanh và âm nhạc là một cách hay để thu hút khán giả của bạn. Trong PowerPoint 2011 dành cho Mac, bạn có thể chọn một trong hai cách để kích hoạt hộp thoại Insert Audio: Từ Media Browser: Sử dụng tab Audio và kéo từ trình duyệt sang PowerPoint. ...

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Office 2011 dành cho Mac: Khởi động Đoạn hoặc Phim Tạp chí trên Các trang trình bày của PowerPoint - những đầu

Bao gồm cả phương tiện truyền thông trong trình tự hoạt hình của bạn là một ý tưởng tuyệt vời. Trong PowerPoint 2011 dành cho máy Mac, bạn không còn bị hạn chế khi xem phim trên đầu. Phim bây giờ hoạt động độc đáo trong lớp của riêng mình và có thể hoạt ảnh giống như bất kỳ đối tượng khác. Phim thậm chí có thể chồng chéo và theo dõi các đường dẫn chuyển động khi chúng chơi. Chỉ cần nhớ ...