Video: Regression Features and Labels - Practical Machine Learning Tutorial with Python p.3 2025
Các thuật toán thống kê, khai phá dữ liệu và máy học khác nhau có sẵn để sử dụng trong mô hình phân tích tiên đoán của bạn. Bạn đang ở vị trí tốt hơn để chọn một thuật toán sau khi bạn đã xác định các mục tiêu của mô hình và chọn dữ liệu bạn sẽ làm việc. Một số thuật toán này đã được phát triển để giải quyết các vấn đề kinh doanh cụ thể, nâng cao các thuật toán hiện có hoặc cung cấp các khả năng mới - có thể khiến một số trong số chúng phù hợp hơn với mục đích của bạn so với những người khác. Bạn có thể chọn từ một loạt các thuật toán để giải quyết các mối quan tâm kinh doanh như sau:
- Để phân biệt khách hàng và / hoặc cộng đồng phát hiện trong lĩnh vực xã hội, ví dụ, bạn cần thuật toán phân cụm.
- Để giữ khách hàng hoặc để phát triển một hệ thống tư vấn, bạn nên sử dụng thuật toán phân loại.
- Để ghi điểm tín dụng hoặc dự đoán kết quả tiếp theo của các sự kiện theo thời gian, bạn sẽ sử dụng thuật toán hồi quy.
Vì thời gian và tài nguyên cho phép, nên chạy càng nhiều thuật toán của loại thích hợp càng tốt. So sánh các lần chạy khác nhau của các thuật toán khác nhau có thể mang lại những phát hiện đáng ngạc nhiên về dữ liệu hoặc thông tin kinh doanh được nhúng trong dữ liệu. Làm như vậy sẽ mang lại cho bạn thông tin chi tiết hơn về vấn đề kinh doanh và giúp bạn xác định những biến nào trong dữ liệu của bạn có quyền lực dự đoán.
Một số dự án phân tích dự báo thành công tốt nhất bằng cách xây dựng mô hình toàn bộ, một nhóm các mô hình hoạt động trên cùng một dữ liệu. Một mô hình tổng thể sử dụng một cơ chế được xác định trước để thu thập kết quả từ tất cả các mô hình thành phần của nó và cung cấp một kết quả cuối cùng cho người sử dụng.
Các mô hình có thể có các hình thức khác nhau - truy vấn, tập hợp các kịch bản, cây quyết định hoặc phân tích toán học tiên tiến. Ngoài ra, một số mô hình làm việc tốt nhất cho dữ liệu và phân tích nhất định. Bạn có thể (ví dụ) sử dụng các thuật toán phân loại sử dụng các quy tắc quyết định để quyết định kết quả của một kịch bản hoặc giao dịch nhất định, giải quyết các câu hỏi như sau:
- Khách hàng này có khả năng đáp ứng chiến dịch tiếp thị của chúng tôi không?
- Việc chuyển tiền có phải là một phần của kế hoạch rửa tiền không?
- Có phải đơn xin vay vốn này có khả năng vỡ nợ không?
Bạn có thể sử dụng các thuật toán phân cụm không được giám sát để tìm ra những mối quan hệ tồn tại trong bộ dữ liệu của bạn. Bạn có thể sử dụng các thuật toán này để tìm các nhóm khác nhau giữa các khách hàng của bạn, xác định những dịch vụ nào có thể được nhóm lại với nhau hoặc quyết định ví dụ sản phẩm nào có thể được tăng lên.
Các thuật toán hồi quy có thể được sử dụng để dự đoán dữ liệu liên tục, chẳng hạn như dự đoán xu hướng của một đợt chuyển động cổ phiếu với giá đã qua.
Cây quyết định, máy vector hỗ trợ, mạng nơ-ron, các thuật toán hậu cần và tuyến tính là một số thuật toán phổ biến nhất. Mặc dù sự triển khai toán học của họ khác nhau, nhưng các mô hình tiên đoán này tạo ra các kết quả có thể so sánh được. Cây quyết định phổ biến hơn, bởi vì chúng dễ hiểu; bạn có thể làm theo con đường dẫn đến một quyết định nhất định.
Thuật toán phân loại rất tuyệt vời cho loại phân tích khi mục tiêu được biết đến (chẳng hạn như xác định email spam). Mặt khác, khi biến mục tiêu không được biết, các thuật toán phân cụm là đặt cược tốt nhất của bạn. Chúng cho phép bạn nhóm hoặc nhóm dữ liệu của bạn vào các nhóm có ý nghĩa dựa trên sự giống nhau giữa các thành viên trong nhóm.
Các thuật toán này phổ biến rộng rãi. Có rất nhiều công cụ, cả thương mại và nguồn mở, mà thực hiện chúng. Với sự tích lũy dữ liệu phát triển và tăng tốc (nghĩa là dữ liệu lớn) và các phần cứng và nền tảng hiệu quả về chi phí (như điện toán đám mây và Hadoop), các công cụ phân tích dự đoán đang trải qua sự bùng nổ.
Mục tiêu kinh doanh và dữ liệu không phải là yếu tố duy nhất bạn cần cân nhắc khi chọn một thuật toán. Chuyên môn của các nhà khoa học dữ liệu của bạn có giá trị to lớn vào thời điểm này; việc chọn một thuật toán để thực hiện công việc thường là sự kết hợp khôn lanh giữa khoa học và nghệ thuật. Phần nghệ thuật xuất phát từ kinh nghiệm và sự thành thạo trong lĩnh vực kinh doanh, cũng đóng vai trò quan trọng trong việc xác định mô hình có thể phục vụ chính xác các mục tiêu kinh doanh.