Trang Chủ Tài chính Cá nhân Dữ liệu Khoa học: Sử dụng Python để Thực hiện Yếu tố và Phân tích Hợp phần chính - các núm vú

Dữ liệu Khoa học: Sử dụng Python để Thực hiện Yếu tố và Phân tích Hợp phần chính - các núm vú

Mục lục:

Video: Khoa học dữ liệu (Data Science) ứng dụng thực tế ra sao? 2025

Video: Khoa học dữ liệu (Data Science) ứng dụng thực tế ra sao? 2025
Anonim

Dữ liệu các nhà khoa học có thể sử dụng Python để thực hiện các yếu tố và phân tích các thành phần chính. SVD hoạt động trực tiếp trên các giá trị số trong dữ liệu, nhưng bạn cũng có thể thể hiện dữ liệu như một mối quan hệ giữa các biến. Mỗi tính năng có một biến thể nhất định. Bạn có thể tính biến đổi như là phương pháp đo lường sự sai lệch xung quanh mức trung bình. Sự khác biệt nhiều hơn, càng có nhiều thông tin chứa bên trong biến.

Ngoài ra, nếu bạn đặt biến vào một tập hợp, bạn có thể so sánh phương sai của hai biến để xác định chúng tương quan, đó là thước đo mức độ chúng có giá trị tương tự như thế nào.

Độ lệch duy nhất:

  • Một số khác biệt là duy nhất các biến được kiểm tra. Nó không thể được liên kết với những gì xảy ra với bất kỳ biến khác. Phản biến được chia sẻ:

  • Một số phương sai được chia sẻ với một hoặc nhiều biến khác, tạo sự dư thừa trong dữ liệu. Sự dư thừa hàm ý rằng bạn có thể tìm thấy cùng một thông tin, với các giá trị hơi khác nhau, trong các tính năng khác nhau và qua nhiều quan sát.

    Tất nhiên, bước tiếp theo là xác định lý do cho sự khác biệt chia sẻ. Cố gắng trả lời một câu hỏi như vậy, cũng như xác định làm thế nào để đối phó với sự khác biệt duy nhất và chia sẻ, dẫn đến việc tạo ra các yếu tố và phân tích thành phần chính.

Xét mô hình tâm lý

Trước khi có nhiều thuật toán học máy tính,

psychometrics , kỷ luật tâm lý liên quan đến phép đo tâm lý, cố gắng tìm ra một giải pháp thống kê để đo kích thước một cách có hiệu quả trong tính cách. Nhân cách của con người, cũng như các khía cạnh khác của con người, không thể đo lường trực tiếp. Ví dụ, không thể đo lường được chính xác số người đang sống nội tâm hay thông minh. Bảng câu hỏi và các bài kiểm tra tâm lý chỉ gợi ý ở các giá trị này.

Các nhà tâm lý học biết về SVD và cố gắng áp dụng nó vào vấn đề. Sự khác biệt chia sẻ thu hút sự chú ý của họ: Nếu một số biến gần như giống nhau, chúng nên có nguyên nhân gốc rễ, họ nghĩ. Các nhà tâm lý học đã tạo ra nhân tố phân tích để thực hiện nhiệm vụ này! Thay vì áp dụng SVD trực tiếp vào dữ liệu, họ áp dụng nó vào một ma trận mới được tạo ra theo biến số chung, với hy vọng cô đọng tất cả các thông tin và khôi phục những tính năng hữu ích mới gọi là . Tìm kiếm các yếu tố ẩn Một cách hay để chỉ ra cách sử dụng phân tích nhân tố là bắt đầu với bộ dữ liệu Iris. từ người lùn. bộ dữ liệu nhập khẩu load_iris từ sklearn. phân hủy nhập khẩu FactorAnalysis iris = load_iris () X, y = Iris. dữ liệu, iris. yếu tố đích = FactorAnalysis (n_components = 4, random_state = 101). (X) Sau khi tải dữ liệu và lưu trữ tất cả các tính năng tiên đoán, lớp FactorAnalysis được khởi tạo cùng với yêu cầu tìm kiếm bốn yếu tố. Dữ liệu sau đó được lắp. Bạn có thể khám phá các kết quả bằng cách quan sát các thuộc tính components_, nó trả về một mảng chứa các phép đo mối quan hệ giữa các yếu tố vừa được tạo ra, được đặt trong hàng và các tính năng ban đầu, được đặt trong các cột.

Tại giao điểm của mỗi yếu tố và tính năng, một số dương cho thấy có một tỷ lệ tích cực tồn tại giữa hai; một số âm, thay vào đó, chỉ ra rằng chúng khác nhau và một là trái ngược lại.

Bạn sẽ phải kiểm tra các giá trị khác nhau của các thành phần n_ vì không thể biết được có bao nhiêu yếu tố trong dữ liệu. Nếu thuật toán được yêu cầu cho nhiều yếu tố hơn tồn tại, nó sẽ tạo ra các yếu tố có giá trị thấp trong mảng components_.

gấu trúc nhập như in pd pd. Khung dữ liệu (yếu tố. Components_, cột = tính năng.) Chiều dài thân cây (cm) chiều rộng bán kính (cm) chiều dài cánh hoa (cm) chiều rộng cánh hoa (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

Trong bài kiểm tra về bộ dữ liệu Iris, ví dụ, các yếu tố kết quả nên là tối đa là 2, không phải 4, bởi vì chỉ có hai yếu tố có kết nối đáng kể với các tính năng ban đầu. Bạn có thể sử dụng hai yếu tố này như là các biến số mới trong dự án của bạn bởi vì chúng phản ánh một tính năng không nhìn thấy nhưng quan trọng mà dữ liệu có sẵn trước đó chỉ được gợi ý.

Sử dụng các thành phần chứ không phải các yếu tố

Nếu một SVD có thể được áp dụng thành công với phương sai thông thường, bạn có thể tự hỏi tại sao bạn không thể áp dụng nó cho tất cả các sai lệch. Sử dụng ma trận bắt đầu thay đổi một chút, tất cả các mối quan hệ trong dữ liệu có thể được giảm và nén theo cách tương tự như cách SVD thực hiện nó.

Các kết quả của quá trình này, tương tự như SVD, được gọi là

các thành phần chính của phân tích

(PCA). Các tính năng mới được tạo ra có tên

thành phần

. Ngược lại với các yếu tố, các thành phần không được mô tả như là nguyên nhân gốc rễ của cấu trúc dữ liệu nhưng chỉ là dữ liệu được cơ cấu lại, vì vậy bạn có thể xem chúng dưới dạng một tổng hợp thông minh của các biến được chọn. Đối với các ứng dụng khoa học dữ liệu, PCA và SVD tương đối giống nhau. Tuy nhiên, PCA không bị ảnh hưởng bởi quy mô của các tính năng ban đầu (vì nó hoạt động trên các biện pháp tương quan được tất cả các ràng buộc giữa -1 và +1 giá trị) và PCA tập trung vào việc xây dựng lại mối quan hệ giữa các biến, do đó cung cấp các kết quả khác nhau từ SVD. Đạt chiều giảm Thủ tục để có được PCA tương tự như phân tích nhân tố.Sự khác biệt là bạn không chỉ rõ số lượng các thành phần cần trích xuất. Bạn quyết định sau bao nhiêu thành phần để giữ lại sau khi kiểm tra thuộc tính explain_variance_ratio_, cung cấp định lượng giá trị thông tin của mỗi thành phần trích ra. Ví dụ sau cho thấy làm thế nào để thực hiện nhiệm vụ này: từ sklearn. phân hủy nhập khẩu PCA nhập khẩu gấu trúc như pd pca = PCA (). fit (X) in 'Giải thích sự khác biệt theo thành phần:% s'% pca. explain_variance_ratio_ in pd. Khung dữ liệu (pca. Components_, columns = iris. Feature_names) Giải thích sự khác biệt theo thành phần: [0. 92461621 0. 05301557 0. 01718514 0. 00518309] chiều dài thân cây (cm) chiều rộng bán kính (cm) chiều dài cánh hoa (cm) chiều rộng cánh hoa (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121

Trong sự phân tách này của bộ dữ liệu Iris, mảng vector được cung cấp bởi explain_variance_ratio_ cho biết phần lớn thông tin được tập trung vào thành phần đầu tiên (92.5%). Do đó, có thể giảm toàn bộ tập dữ liệu chỉ thành hai thành phần, cung cấp giảm tiếng ồn và thông tin dự phòng từ bộ dữ liệu ban đầu.

Dữ liệu Khoa học: Sử dụng Python để Thực hiện Yếu tố và Phân tích Hợp phần chính - các núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...