Mục lục:
- Tập trung vào kinh doanh khai thác dữ liệu
- Các bước của quá trình CRISP-DM là
- Một báo cáo có thể cho bạn biết rằng doanh số bán hàng giảm. Nó có thể phá vỡ doanh thu theo khu vực, sản phẩm và kênh để bạn biết doanh số bán hàng bị từ chối và liệu những sự suy giảm này có phổ biến hoặc chỉ ảnh hưởng đến một số khu vực nhất định. Nhưng họ không cung cấp cho bạn bất kỳ manh mối về
- Một mô hình toán học là, đồng bằng và đơn giản, một phương trình, hoặc một tập hợp các phương trình, mô tả một mối quan hệ giữa hai hay nhiều thứ. Các phương trình như vậy là viết tắt cho các lý thuyết về hoạt động của tự nhiên và xã hội. Lý thuyết có thể được hỗ trợ bởi một cơ thể đáng kể bằng chứng hoặc nó có thể chỉ là một đoán hoang dã. Ngôn ngữ của toán học là như nhau trong cả hai trường hợp.
- Kết hợp các dự đoán vào một báo cáo hoặc bài thuyết trình được sử dụng để đưa ra quyết định cụ thể.
Video: Khoa học dữ liệu (Data Science) ứng dụng thực tế ra sao? 2025
Nếu bạn nghĩ dữ liệu là nguyên vật liệu và thông tin bạn có thể nhận được từ dữ liệu như là một thứ có giá trị và tương đối tinh vi thì quá trình trích xuất thông tin có thể là so với việc chiết xuất kim loại từ quặng hoặc đá quý từ bụi bẩn. Đó là cách khai thác dữ liệu có nguồn gốc.
Tập trung vào kinh doanh khai thác dữ liệu
Các thợ mỏ dữ liệu không chỉ suy nghĩ dữ liệu một cách vô ích, hy vọng tìm thấy một cái gì đó thú vị. Mỗi dự án khai thác dữ liệu bắt đầu với một vấn đề kinh doanh cụ thể và mục tiêu để kết hợp.
Là một người khai thác dữ liệu, có thể bạn sẽ không có quyền đưa ra các quyết định kinh doanh cuối cùng, vì vậy điều quan trọng là bạn sắp xếp công việc của bạn với nhu cầu của người ra quyết định. Bạn phải hiểu những vấn đề, nhu cầu và sở thích của họ và tập trung nỗ lực của bạn vào việc cung cấp thông tin hỗ trợ các quyết định kinh doanh tốt.
Kiến thức kinh doanh của bạn rất quan trọng. Các nhà quản lý sẽ không ngồi cạnh bạn trong khi bạn làm việc, cung cấp phản hồi về sự liên quan của những khám phá của bạn với mối quan tâm của họ. Bạn phải sử dụng kinh nghiệm và sự nhạy bén của mình để đánh giá chính mình khi bạn làm việc.
Làm quen với quá trình khai thác dữ liệu
Quy trình làm việc tốt giúp bạn tận dụng tối đa thời gian, dữ liệu và tất cả các tài nguyên khác của bạn. Trong cuốn sách này, bạn sẽ khám phá ra quá trình khai thác dữ liệu phổ biến nhất, CRISP-DM. Đó là một chu kỳ sáu giai đoạn của khám phá và hành động được tạo ra bởi một tập đoàn các thợ mỏ dữ liệu từ nhiều ngành công nghiệp và một tiêu chuẩn mở mà bất cứ ai cũng có thể sử dụng.Các bước của quá trình CRISP-DM là
Hiểu Doanh nghiệp
Hiểu Dữ liệu
-
Chuẩn bị Dữ liệu
-
Lập mô hình
-
Đánh giá
-
Triển khai (sử dụng mô hình trong kinh doanh hàng ngày)
-
Mỗi giai đoạn mang trọng lượng bình đẳng trong tầm quan trọng đến chất lượng của kết quả và giá trị cho doanh nghiệp. Nhưng xét về thời gian cần thiết, việc chuẩn bị dữ liệu thống trị. Chuẩn bị dữ liệu thường mất nhiều thời gian hơn tất cả các giai đoạn khác của quá trình khai thác dữ liệu kết hợp.
-
Làm mô hình
Khi mục tiêu được hiểu, dữ liệu được làm sạch và sẵn sàng sử dụng, bạn có thể chuyển sự chú ý của bạn để xây dựng các mô hình tiên đoán.Mô hình làm những gì báo cáo có thể không; họ cung cấp cho bạn thông tin hỗ trợ hành động.
Một báo cáo có thể cho bạn biết rằng doanh số bán hàng giảm. Nó có thể phá vỡ doanh thu theo khu vực, sản phẩm và kênh để bạn biết doanh số bán hàng bị từ chối và liệu những sự suy giảm này có phổ biến hoặc chỉ ảnh hưởng đến một số khu vực nhất định. Nhưng họ không cung cấp cho bạn bất kỳ manh mối về
tại sao
doanh số bán hàng bị từ chối hoặc hành động nào có thể giúp khôi phục lại doanh nghiệp. Các mô hình giúp bạn hiểu được các yếu tố ảnh hưởng đến doanh số bán hàng, các hoạt động có xu hướng tăng hoặc giảm doanh số bán hàng và các chiến lược và chiến thuật giúp doanh nghiệp của bạn hoạt động trơn tru. Đó là thú vị, phải không? Có lẽ đó là lý do tại sao hầu hết các thợ mỏ dữ liệu coi mô hình là phần thú vị của công việc. Hiểu các mô hình toán học
Các mô hình toán học là trung tâm khai thác dữ liệu, nhưng chúng là gì? Họ làm gì, làm việc như thế nào, và chúng được tạo ra như thế nào?
Một mô hình toán học là, đồng bằng và đơn giản, một phương trình, hoặc một tập hợp các phương trình, mô tả một mối quan hệ giữa hai hay nhiều thứ. Các phương trình như vậy là viết tắt cho các lý thuyết về hoạt động của tự nhiên và xã hội. Lý thuyết có thể được hỗ trợ bởi một cơ thể đáng kể bằng chứng hoặc nó có thể chỉ là một đoán hoang dã. Ngôn ngữ của toán học là như nhau trong cả hai trường hợp.
Các thuật ngữ như
mô hình tiên đoán, mô hình thống kê, hoặc mô hình tuyến tính đề cập đến các loại mô hình toán học cụ thể, tên phản ánh mục đích sử dụng, mẫu hoặc phương pháp phát sinh một mô hình cụ thể. Ba ví dụ này chỉ là một vài trong số nhiều thuật ngữ như vậy. Khi mô hình được đề cập trong cài đặt doanh nghiệp, rất có thể mô hình được sử dụng để đưa ra dự đoán. Các mô hình được sử dụng để dự đoán giá cổ phiếu, doanh số bán hàng, và tỷ lệ thất nghiệp, trong số nhiều thứ khác. Các dự đoán này có thể hoặc không chính xác, nhưng đối với bất kỳ tập hợp các giá trị nhất định (các yếu tố được biết đến như thế được gọi là
biến độc lập
hoặc đầu vào ) được bao gồm trong mô hình, bạn sẽ tìm một dự đoán được xác định rõ ràng (còn được gọi là phụ thuộc biến, đầu ra, hoặc kết quả ). Các mô hình toán học cũng được sử dụng cho các mục đích khác trong kinh doanh, chẳng hạn như mô tả các cơ chế làm việc hướng một quá trình cụ thể. Trong khai thác dữ liệu, bạn tạo các mô hình bằng cách tìm các mẫu trong dữ liệu sử dụng máy học hoặc các phương pháp thống kê. Người khai thác dữ liệu không theo cùng một cách tiếp cận chặt chẽ mà các nhà thống kê cổ điển làm, nhưng tất cả các mô hình đều bắt nguồn từ dữ liệu thực tế và các kỹ thuật mô hình toán học nhất quán. Tất cả các mô hình khai thác dữ liệu được hỗ trợ bởi một cơ thể bằng chứng. Tại sao phải sử dụng các mô hình toán học? Không thể mô tả các mối quan hệ như nhau bằng cách sử dụng các từ? Đó là có thể, nhưng bạn thấy lợi thế nhất định để sử dụng các phương trình. Bao gồm
Thuận tiện:
So với các mô tả tương đương được viết ra trong câu, các phương trình ngắn gọn. Biểu tượng toán học đã phát triển đặc biệt cho mục đích đại diện cho các mối quan hệ toán học; các ngôn ngữ như tiếng Anh thì không.
-
Độ tinh khiết: Các phương trình truyền tải những ý tưởng ngắn gọn và không mơ hồ.Chúng không phụ thuộc vào sự diễn giải khác nhau dựa trên văn hoá, và biểu tượng của toán học là một loại ngôn ngữ thông dụng được sử dụng rộng rãi trên toàn cầu.
-
Tính nhất quán: Bởi vì các biểu diễn toán học không rõ ràng, các hàm ý của bất kỳ tình huống cụ thể nào được xác định rõ ràng bởi một mô hình toán học.
-
Đưa thông tin vào hành động Một mô hình chỉ mang lại giá trị khi bạn sử dụng nó trong kinh doanh. Các dự đoán của mô hình có thể hỗ trợ quá trình ra quyết định bằng nhiều cách khác nhau. Bạn có thể
Kết hợp các dự đoán vào một báo cáo hoặc bài thuyết trình được sử dụng để đưa ra quyết định cụ thể.
Tích hợp mô hình vào một hệ thống hoạt động (như một hệ thống dịch vụ khách hàng) để cung cấp dự đoán thời gian thực cho việc sử dụng hàng ngày. (Ví dụ: bạn có thể đặt cược yêu cầu bồi thường bảo hiểm cho thanh toán ngay lập tức, từ chối ngay lập tức hoặc điều tra thêm)
-
Sử dụng mô hình dự đoán lô. (Ví dụ: bạn có thể ghi lại danh sách khách hàng trong nhà để quyết định khách hàng nào sẽ nhận được một đề nghị cụ thể.)