Xem xét các vấn đề cơ bản về thống kê, học máy, và các phương pháp toán học trong khoa học dữ liệu - những cái núm vú

Video: Học excel | Tạo bảng trong excel 2010 2025

Một phần của Dữ liệu Khoa học Đối với Người mới bắt đầu Cheat Sheet > Nếu số liệu thống kê đã được mô tả như là khoa học về việc thu thập thông tin chi tiết từ dữ liệu, thì sự khác biệt giữa nhà thống kê và nhà khoa học dữ liệu là gì? Câu hỏi hay! Mặc dù nhiều nhiệm vụ trong khoa học dữ liệu đòi hỏi phải có một chút thống kê về cách thức, phạm vi và bề rộng của kiến thức và cơ sở kỹ năng của một nhà nghiên cứu dữ liệu khác với phạm vi thống kê. Những điểm khác biệt cốt lõi được nêu ra dưới đây.

Ngược lại, các nhà thống kê thường có kiến thức sâu về các số liệu thống kê, nhưng rất ít chuyên môn trong các môn học mà họ áp dụng các phương pháp thống kê. Hầu hết thời gian, thống kê được yêu cầu tham khảo ý kiến với các chuyên gia bên ngoài để nắm bắt được tầm quan trọng của các phát hiện của họ và để có thể quyết định cách tốt nhất để tiến lên trong phân tích. Các nhà thống kê dựa chủ yếu vào các phương pháp và quy trình thống kê khi thu thập thông tin chi tiết từ dữ liệu. Ngược lại, các nhà khoa học dữ liệu được yêu cầu phải rút ra từ nhiều kỹ thuật để thu thập dữ liệu. Các phương pháp này bao gồm các phương pháp thống kê, nhưng cũng bao gồm các phương pháp không dựa vào số liệu thống kê - giống như các phương pháp tiếp cận toán học, phân lớp, và phương pháp học phi thống kê.
Nhìn thấy tầm quan trọng của bí quyết thống kê
Bạn không cần phải đi ra ngoài và lấy bằng thạc sỹ để thực hành khoa học dữ liệu, nhưng ít nhất bạn cũng nên làm quen với một số phương pháp cơ bản được sử dụng trong phân tích dữ liệu thống kê. Chúng bao gồm:
Hồi quy tuyến tính : hồi quy tuyến tính hữu ích cho việc mô hình các mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Mục đích của hồi quy tuyến tính là để phát hiện ra (và định lượng sức mạnh của) quan hệ quan trọng giữa các biến phụ thuộc và độc lập.

Phân tích chuỗi thời gian:

Phân tích chuỗi thời gian liên quan đến việc phân tích tập hợp các dữ liệu về các giá trị thuộc tính qua thời gian, để dự đoán các trường hợp tương lai của biện pháp dựa trên dữ liệu quan sát trong quá khứ.

Mô phỏng Monte Carlo: Phương pháp Monte Carlo là một kỹ thuật mô phỏng mà bạn có thể sử dụng để kiểm tra các giả thuyết, để tạo các ước lượng tham số, để dự đoán các kết quả kịch bản và để xác nhận các mô hình. Phương pháp này rất mạnh vì nó có thể được sử dụng để mô phỏng rất nhanh từ 1 đến 10 000 mô hình mô phỏng cho bất kỳ quy trình nào bạn đang cố đánh giá.
Thống kê dữ liệu không gian: Một đặc tính cơ bản và quan trọng của dữ liệu không gian là nó không ngẫu nhiên. Nó không thuộc về không gian và liên quan đến chính trị. Khi mô hình dữ liệu không gian, hãy tránh các phương pháp thống kê giả định dữ liệu của bạn là ngẫu nhiên. Kriging và krige là hai phương pháp thống kê mà bạn có thể sử dụng để mô hình dữ liệu không gian. Những phương pháp này cho phép bạn tạo ra bề mặt tiên đoán cho toàn bộ khu vực nghiên cứu dựa trên các tập hợp các điểm đã biết trong không gian địa lý.
Làm việc với cách phân cụm, phân loại, và máy học Học máy là việc áp dụng các thuật toán tính toán để học hỏi từ (hoặc deduce pattern in) các tập dữ liệu thô.
Clustering Clustering

là một loại máy học cụ thể -

máy tính không được giám sát chính xác, có nghĩa là các thuật toán phải học từ dữ liệu chưa được dán nhãn và do đó phải sử dụng các phương pháp inferential để khám phá tương quan. Phân loại, mặt khác, được gọi là học máy có giám sát, nghĩa là các thuật toán học từ các dữ liệu có nhãn. Bạn thường triển khai thuật toán k-means để phân chia các điểm dữ liệu của một tập dữ liệu thành các cụm dựa trên các giá trị trung bình gần nhất. Để xác định phân chia tối ưu dữ liệu của bạn thành các cụm, sao cho khoảng cách giữa các điểm trong mỗi cluster được giảm thiểu, bạn có thể sử dụng k-means clustering. Các thuật toán láng giềng gần nhất:

Mục đích của phân tích hàng xóm gần nhất là tìm kiếm và định vị điểm gần nhất trong không gian hoặc giá trị số gần nhất, tùy thuộc vào thuộc tính mà bạn sử dụng để so sánh. Ước lượng mật độ hạt nhân:

Một cách khác để xác định các cụm trong dữ liệu của bạn là sử dụng chức năng làm mịn mật độ. Ước lượng mật độ hạt nhân (KDE) làm việc bằng cách đặt một hạt nhân
một chức năng trọng số rất hữu ích cho việc định lượng mật độ - trên mỗi điểm dữ liệu trong tập dữ liệu và sau đó tổng hợp hạt nhân để tạo ra ước lượng mật độ hạt nhân cho tổng thể khu vực. Giữ các phương pháp toán học trong hỗn hợp
Nhiều bài báo về giá trị thống kê trong thực tiễn của khoa học dữ liệu, nhưng ít khi đề cập đến các phương pháp toán học. Để được thẳng thắn, toán học là cơ sở của tất cả các phân tích định lượng. Tầm quan trọng của nó không nên được understated. Hai phương pháp toán học sau đây đặc biệt hữu ích trong khoa học dữ liệu. Quyết định đa tiêu chí (MCDM): MCDM là một phương pháp tiếp cận mô hình toán học quyết định có thể sử dụng khi bạn có một số tiêu chí hoặc các lựa chọn thay thế mà bạn phải đồng thời đánh giá khi đưa ra quyết định. Chuỗi Markov là một phương pháp toán học kết hợp một loạt các biến ngẫu nhiên tạo ra đại diện cho trạng thái hiện tại để mô hình sự thay đổi của các biến trạng thái hiện tại ảnh hưởng đến các trạng thái trong tương lai như thế nào.