Mục lục:
- Luật thứ nhất: Mục tiêu kinh doanh
- Pháp luật thứ 2: Kiến thức kinh doanh
- Luật thứ 3: Chuẩn bị dữ liệu
- Pháp luật thứ tư: Mô hình đúng
- Luật thứ 5: Mô hình
- Luật thứ 6: Sự khuếch đại
- Luật thứ 7: Dự đoán
- Luật thứ 8: Giá trị
- Luật thứ 9: Thay đổi
Video: Truyền hình VOA 11/9/19: Cựu Thủ tướng Nguyễn Tấn Dũng bị kiện ra tòa trọng tài quốc tế 2025
Mỗi nghề đều có nguyên tắc chỉ đạo, ý tưởng cung cấp cấu trúc và hướng dẫn trong công việc hàng ngày. Khai thác dữ liệu không phải là ngoại lệ. Sau đây là chín ý tưởng cơ bản để hướng dẫn bạn khi bạn xuống làm việc và trở thành một người khai thác dữ liệu. Đây là 9 Luật khai khoáng dữ liệu, theo nguyên văn của nhà khai thác dữ liệu tiên phong Thomas Khabaza.
Luật thứ nhất: Mục tiêu kinh doanh
Đây là Luật về Khai thác Dữ liệu thứ nhất, hoặc "Luật Mục tiêu Doanh nghiệp": Mục tiêu kinh doanh là nguồn gốc của mọi giải pháp khai thác dữ liệu.
Bạn khám phá dữ liệu để tìm thông tin giúp bạn điều hành kinh doanh tốt hơn. Nên không phải là thần chú của tất cả các phân tích dữ liệu kinh doanh? Tất nhiên nó phải! Tuy nhiên, những người khai thác dữ liệu mới làm quen thường tập trung vào công nghệ và các chi tiết khác mà có thể thú vị, nhưng không phù hợp với nhu cầu và mục tiêu của các nhà ra quyết định hành pháp.
Bạn phải phát triển thói quen xác định các mục tiêu kinh doanh trước khi làm bất cứ điều gì khác, và tập trung vào những mục tiêu đó ở mọi bước trong quá trình khai thác dữ liệu. Điều quan trọng là luật này được đưa ra trước tiên. Mọi người nên hiểu rằng khai thác dữ liệu là một quá trình với một mục đích.
Pháp luật thứ 2: Kiến thức kinh doanh
Đây là Luật về Khai thác Dữ liệu thứ 2, hoặc "Luật Kiến thức Doanh nghiệp": Kiến thức kinh doanh là trọng tâm của mọi bước trong quá trình khai thác dữ liệu.
Khai thác dữ liệu mang lại sức mạnh cho người - doanh nhân - những người sử dụng kiến thức kinh doanh, kinh nghiệm và hiểu biết của họ, cùng với các phương pháp khai thác dữ liệu, để tìm ra ý nghĩa trong dữ liệu.
Bạn không cần phải là một nhà thống kê kỳ diệu để khai thác dữ liệu, nhưng bạn phải biết gì về những gì dữ liệu có ý nghĩa và hoạt động của doanh nghiệp. Chỉ khi bạn hiểu được dữ liệu và vấn đề mà bạn cần phải giải quyết, quá trình khai thác dữ liệu sẽ giúp bạn khám phá thông tin hữu ích và đưa nó vào sử dụng.
Luật thứ 3: Chuẩn bị dữ liệu
Đây là Luật về Khai phá Dữ liệu Thứ 3, hoặc "Luật Chuẩn bị Dữ liệu": Chuẩn bị dữ liệu là quá một nửa của mỗi quá trình khai thác dữ liệu.
Các nhà thống kê truyền thống thường có cơ hội thu thập dữ liệu mới để giải quyết các câu hỏi nghiên cứu cụ thể. Họ có thể sử dụng các quy trình khắt khe để lập kế hoạch các cuộc thử nghiệm, các câu hỏi nghiên cứu khảo sát thiết kế hoặc thu thập các dữ liệu có chất lượng cao được nhắm tới mục tiêu nghiên cứu cụ thể. Tuy nhiên sau tất cả những điều đó, họ vẫn dành rất nhiều thời gian để làm sạch và chuẩn bị dữ liệu để phân tích.
Mặt khác, người khai thác dữ liệu hầu như luôn luôn phải làm việc với bất kỳ dữ liệu nào có sẵn. Họ sử dụng hồ sơ kinh doanh hiện có, dữ liệu công khai hoặc dữ liệu họ có thể mua.Cơ hội là, tất cả dữ liệu được thu thập cho một số mục đích khác ngoài khai thác dữ liệu và không có kế hoạch nghiêm ngặt nào hoặc quá trình thu thập dữ liệu cẩn thận. Vì vậy, thợ mỏ dữ liệu dành nhiều thời gian để chuẩn bị dữ liệu.
Pháp luật thứ tư: Mô hình đúng
Đây là Luật khai phá dữ liệu thứ 4, hoặc "NFL-DM": Mô hình đúng cho một ứng dụng nhất định chỉ có thể được phát hiện bằng thử nghiệm.
Luật này cũng được biết đến bằng chữ viết tắt NFL-DM, có nghĩa là không có Ăn trưa miễn phí cho người khai thác dữ liệu.
Trước tiên, mô hình là gì? Đó là một phương trình đại diện cho một mẫu được quan sát trong dữ liệu. Ít nhất, nó đại diện cho mô hình một cách thô. Các mô hình toán học của các vật thực không bao giờ hoàn hảo! Đây là một thực tế của cuộc sống, và nó cũng đúng đối với các nhà vật lý hạt nhân vì nó là cho các thợ mỏ dữ liệu.
Trong khai thác dữ liệu, các mô hình được lựa chọn thông qua thử nghiệm và sai sót. Bạn sẽ thử nghiệm với các loại mô hình khác nhau.
Luật thứ 5: Mô hình
Đây là Luật khai thác dữ liệu thứ 5: Luôn có các mẫu.
Là người khai thác dữ liệu, bạn sẽ khám phá dữ liệu để tìm các mẫu hữu ích. Nói cách khác, bạn sẽ tìm kiếm các mối quan hệ có ý nghĩa giữa các biến trong dữ liệu. Hiểu được những mối quan hệ này cung cấp sự hiểu biết tốt hơn về doanh nghiệp và dự đoán tốt hơn về những gì sẽ xảy ra trong tương lai. Quan trọng nhất là việc hiểu các mẫu trong dữ liệu cho phép bạn ảnh hưởng đến những gì sẽ xảy ra trong tương lai.
Bạn luôn tìm thấy các mẫu. Dữ liệu luôn có điều gì đó để nói với bạn. Đôi khi, nó khẳng định rằng những gì bạn đã làm là đúng. Điều đó không có vẻ thú vị, nhưng ít nhất nó cho bạn biết rằng bạn đã đi đúng hướng. Những ngày khác, dữ liệu có thể cho bạn biết rằng các thực tiễn kinh doanh hiện tại của bạn không hoạt động. Đó là thú vị, và mặc dù nó có thể không được dễ chịu trong ngắn hạn, biết sự thật là một bước quan trọng để cải thiện.
Luật thứ 6: Sự khuếch đại
Đây là Luật về Khai phá Dữ liệu thứ 6, hoặc "Luật Insight": Khai thác dữ liệu làm tăng nhận thức trong lĩnh vực kinh doanh.
Các phương pháp khai thác dữ liệu cho phép bạn hiểu được doanh nghiệp của bạn tốt hơn bạn có thể làm mà không có chúng. Phương pháp khai thác dữ liệu giúp bạn giống như kính lúp hoặc kính hiển vi, cho phép phát hiện ra các hiệu ứng sẽ khó hoặc không thể phát hiện thông qua báo cáo thông thường.
Khai thác dữ liệu không phải là tức thời.
Khám phá và học tập thông qua khai thác dữ liệu là một quá trình tương tác. Bạn sẽ khám phá ra, tìm ra một chút từ mỗi người trong số họ, và sử dụng những gì bạn đã khám phá để hành động. Kết quả của mỗi hành động mà bạn cố gắng sẽ tạo ra nhiều dữ liệu hơn, và dữ liệu đó cho phép bạn hiểu thêm một điều gì đó. Đó là một chu trình khám phá và chu kỳ sẽ tiếp tục miễn là bạn tiếp tục khám phá và thử nghiệm.
Luật thứ 7: Dự đoán
Đây là Luật về Khai phá Dữ liệu thứ 7, hoặc "Luật Dự đoán": Dự đoán tăng thông tin tại địa phương bằng khái quát hoá.
Khai thác dữ liệu giúp bạn sử dụng những gì bạn biết để dự đoán tốt hơn (hoặc ước lượng) những điều bạn không biết. Khai thác dữ liệu sử dụng dữ liệu và phương pháp lập mô hình để thay thế kỳ vọng không chính thức của bạn bằng các ước tính dựa trên dữ liệu, thống nhất và chính xác hơn.
Luật thứ 8: Giá trị
Đây là Luật khai phá dữ liệu thứ 8, hoặc "Luật giá trị": Giá trị của kết quả khai thác dữ liệu không được xác định bởi tính chính xác hoặc tính ổn định của các mô hình tiên đoán.
Các thợ mỏ dữ liệu không phải lo lắng về lý thuyết. Là một người khai thác dữ liệu, bạn thậm chí không thể biết lý thuyết đằng sau các mô hình thống kê mà bạn sử dụng. Có thể cũng tốt, bởi vì trong khai thác dữ liệu, bạn sẽ sử dụng các mô hình này theo những cách không nhất thiết phải phù hợp với lý thuyết đằng sau chúng.
Bạn sẽ tìm kiếm các mô hình tạo ra các dự đoán chính xác (và bạn sẽ sử dụng thử nghiệm chứ không phải là lý thuyết thống kê để đánh giá). Nhưng bạn có thể quan tâm nhiều hơn đến các vấn đề khác, chẳng hạn như liệu mô hình có làm cho kinh doanh có ý nghĩa, soi sáng cho bạn về các yếu tố tiên đoán không mong muốn hay thực tế để sử dụng ở nơi làm việc của bạn không?
Luật thứ 9: Thay đổi
Đây là Luật khai phá dữ liệu lần thứ 9 hoặc "Luật thay đổi": Tất cả các mẫu có thể thay đổi.
Thế giới luôn thay đổi. Mô hình cung cấp cho bạn dự đoán tuyệt vời ngày hôm nay có thể là vô ích vào ngày mai. Đây là một thực tế của cuộc sống cho tất cả các nhà phân tích dữ liệu, không chỉ các thợ mỏ dữ liệu.