Mục lục:
- Trước khi có nhiều thuật toán học máy tính,
- Tại giao điểm của mỗi yếu tố và tính năng, một số dương cho thấy có một tỷ lệ tích cực tồn tại giữa hai; một số âm, thay vào đó, chỉ ra rằng chúng khác nhau và một là trái ngược lại.
- (PCA). Các tính năng mới được tạo ra có tên
Video: Khoa học dữ liệu (Data Science) ứng dụng thực tế ra sao? 2025
Dữ liệu các nhà khoa học có thể sử dụng Python để thực hiện các yếu tố và phân tích các thành phần chính. SVD hoạt động trực tiếp trên các giá trị số trong dữ liệu, nhưng bạn cũng có thể thể hiện dữ liệu như một mối quan hệ giữa các biến. Mỗi tính năng có một biến thể nhất định. Bạn có thể tính biến đổi như là phương pháp đo lường sự sai lệch xung quanh mức trung bình. Sự khác biệt nhiều hơn, càng có nhiều thông tin chứa bên trong biến.
Ngoài ra, nếu bạn đặt biến vào một tập hợp, bạn có thể so sánh phương sai của hai biến để xác định chúng tương quan, đó là thước đo mức độ chúng có giá trị tương tự như thế nào.
Độ lệch duy nhất:-
Một số khác biệt là duy nhất các biến được kiểm tra. Nó không thể được liên kết với những gì xảy ra với bất kỳ biến khác. Phản biến được chia sẻ:
-
Một số phương sai được chia sẻ với một hoặc nhiều biến khác, tạo sự dư thừa trong dữ liệu. Sự dư thừa hàm ý rằng bạn có thể tìm thấy cùng một thông tin, với các giá trị hơi khác nhau, trong các tính năng khác nhau và qua nhiều quan sát.
Xét mô hình tâm lý
Trước khi có nhiều thuật toán học máy tính,
psychometrics , kỷ luật tâm lý liên quan đến phép đo tâm lý, cố gắng tìm ra một giải pháp thống kê để đo kích thước một cách có hiệu quả trong tính cách. Nhân cách của con người, cũng như các khía cạnh khác của con người, không thể đo lường trực tiếp. Ví dụ, không thể đo lường được chính xác số người đang sống nội tâm hay thông minh. Bảng câu hỏi và các bài kiểm tra tâm lý chỉ gợi ý ở các giá trị này.
Các nhà tâm lý học biết về SVD và cố gắng áp dụng nó vào vấn đề. Sự khác biệt chia sẻ thu hút sự chú ý của họ: Nếu một số biến gần như giống nhau, chúng nên có nguyên nhân gốc rễ, họ nghĩ. Các nhà tâm lý học đã tạo ra nhân tố phân tích để thực hiện nhiệm vụ này! Thay vì áp dụng SVD trực tiếp vào dữ liệu, họ áp dụng nó vào một ma trận mới được tạo ra theo biến số chung, với hy vọng cô đọng tất cả các thông tin và khôi phục những tính năng hữu ích mới gọi là . Tìm kiếm các yếu tố ẩn Một cách hay để chỉ ra cách sử dụng phân tích nhân tố là bắt đầu với bộ dữ liệu Iris. từ người lùn. bộ dữ liệu nhập khẩu load_iris từ sklearn. phân hủy nhập khẩu FactorAnalysis iris = load_iris () X, y = Iris. dữ liệu, iris. yếu tố đích = FactorAnalysis (n_components = 4, random_state = 101). (X) Sau khi tải dữ liệu và lưu trữ tất cả các tính năng tiên đoán, lớp FactorAnalysis được khởi tạo cùng với yêu cầu tìm kiếm bốn yếu tố. Dữ liệu sau đó được lắp. Bạn có thể khám phá các kết quả bằng cách quan sát các thuộc tính components_, nó trả về một mảng chứa các phép đo mối quan hệ giữa các yếu tố vừa được tạo ra, được đặt trong hàng và các tính năng ban đầu, được đặt trong các cột.
Tại giao điểm của mỗi yếu tố và tính năng, một số dương cho thấy có một tỷ lệ tích cực tồn tại giữa hai; một số âm, thay vào đó, chỉ ra rằng chúng khác nhau và một là trái ngược lại.
Bạn sẽ phải kiểm tra các giá trị khác nhau của các thành phần n_ vì không thể biết được có bao nhiêu yếu tố trong dữ liệu. Nếu thuật toán được yêu cầu cho nhiều yếu tố hơn tồn tại, nó sẽ tạo ra các yếu tố có giá trị thấp trong mảng components_.
gấu trúc nhập như in pd pd. Khung dữ liệu (yếu tố. Components_, cột = tính năng.) Chiều dài thân cây (cm) chiều rộng bán kính (cm) chiều dài cánh hoa (cm) chiều rộng cánh hoa (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000
Trong bài kiểm tra về bộ dữ liệu Iris, ví dụ, các yếu tố kết quả nên là tối đa là 2, không phải 4, bởi vì chỉ có hai yếu tố có kết nối đáng kể với các tính năng ban đầu. Bạn có thể sử dụng hai yếu tố này như là các biến số mới trong dự án của bạn bởi vì chúng phản ánh một tính năng không nhìn thấy nhưng quan trọng mà dữ liệu có sẵn trước đó chỉ được gợi ý.
Sử dụng các thành phần chứ không phải các yếu tố
Nếu một SVD có thể được áp dụng thành công với phương sai thông thường, bạn có thể tự hỏi tại sao bạn không thể áp dụng nó cho tất cả các sai lệch. Sử dụng ma trận bắt đầu thay đổi một chút, tất cả các mối quan hệ trong dữ liệu có thể được giảm và nén theo cách tương tự như cách SVD thực hiện nó.
Các kết quả của quá trình này, tương tự như SVD, được gọi là
các thành phần chính của phân tích
(PCA). Các tính năng mới được tạo ra có tên
thành phần
. Ngược lại với các yếu tố, các thành phần không được mô tả như là nguyên nhân gốc rễ của cấu trúc dữ liệu nhưng chỉ là dữ liệu được cơ cấu lại, vì vậy bạn có thể xem chúng dưới dạng một tổng hợp thông minh của các biến được chọn. Đối với các ứng dụng khoa học dữ liệu, PCA và SVD tương đối giống nhau. Tuy nhiên, PCA không bị ảnh hưởng bởi quy mô của các tính năng ban đầu (vì nó hoạt động trên các biện pháp tương quan được tất cả các ràng buộc giữa -1 và +1 giá trị) và PCA tập trung vào việc xây dựng lại mối quan hệ giữa các biến, do đó cung cấp các kết quả khác nhau từ SVD. Đạt chiều giảm Thủ tục để có được PCA tương tự như phân tích nhân tố.Sự khác biệt là bạn không chỉ rõ số lượng các thành phần cần trích xuất. Bạn quyết định sau bao nhiêu thành phần để giữ lại sau khi kiểm tra thuộc tính explain_variance_ratio_, cung cấp định lượng giá trị thông tin của mỗi thành phần trích ra. Ví dụ sau cho thấy làm thế nào để thực hiện nhiệm vụ này: từ sklearn. phân hủy nhập khẩu PCA nhập khẩu gấu trúc như pd pca = PCA (). fit (X) in 'Giải thích sự khác biệt theo thành phần:% s'% pca. explain_variance_ratio_ in pd. Khung dữ liệu (pca. Components_, columns = iris. Feature_names) Giải thích sự khác biệt theo thành phần: [0. 92461621 0. 05301557 0. 01718514 0. 00518309] chiều dài thân cây (cm) chiều rộng bán kính (cm) chiều dài cánh hoa (cm) chiều rộng cánh hoa (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121
Trong sự phân tách này của bộ dữ liệu Iris, mảng vector được cung cấp bởi explain_variance_ratio_ cho biết phần lớn thông tin được tập trung vào thành phần đầu tiên (92.5%). Do đó, có thể giảm toàn bộ tập dữ liệu chỉ thành hai thành phần, cung cấp giảm tiếng ồn và thông tin dự phòng từ bộ dữ liệu ban đầu.