Video: BIG DATA for Management - Dữ liệu lớn trong quản trị doanh nghiệp - Đào tạo Tập Đoàn Trí Việt 2025
Khối lượng giao dịch thật lớn khiến khó phát hiện gian lận vì khối lượng dữ liệu, trớ trêu thay, cùng một thách thức này có thể giúp tạo ra các mô hình dự đoán gian lận tốt hơn - một khu vực mà Hadoop tỏa sáng.
Trong thế giới kết nối ngày nay, khối lượng tuyệt đối và sự phức tạp của giao dịch làm cho việc tìm kiếm gian lận trở nên khó khăn hơn bao giờ hết. Cái được gọi là "tìm kim ở đống cỏ khô" đã trở thành nhiệm vụ "tìm kim đặc biệt trong đống kim. "
Cách tiếp cận truyền thống để phòng ngừa gian lận không hiệu quả lắm. Ví dụ, việc quản lý các khoản thanh toán không phù hợp thường được quản lý bởi các nhà phân tích kiểm tra số tiền yêu cầu bồi thường rất nhỏ kết hợp với yêu cầu tài liệu y tế từ các người gửi đích. Thuật ngữ ngành của mô hình này là trả tiền và đuổi theo: Các yêu cầu bồi thường được chấp nhận và thanh toán và các quá trình tìm kiếm các khoản thanh toán quá mức cố ý hoặc không chủ ý bằng cách xem xét lại sau khi thanh toán cho những khiếu nại đó.
Vì vậy, làm thế nào là gian lận phát hiện được thực hiện ngay bây giờ? Do những hạn chế của công nghệ truyền thống, mô hình gian lận được xây dựng bằng cách lấy mẫu dữ liệu và sử dụng mẫu để xây dựng một bộ mô hình dự báo gian lận và kiểm tra. Khi bạn đối chiếu mô hình này với bộ phận gian lận dựa trên Hadoop, sử dụng bộ dữ liệu đầy đủ - không lấy mẫu - để xây dựng mô hình, bạn có thể thấy sự khác biệt.
Chủ đề thường xuyên phổ biến nhất mà bạn thấy trong hầu hết các trường hợp sử dụng Hadoop là nó hỗ trợ doanh nghiệp vượt qua mức trần thủy tinh về khối lượng và nhiều dữ liệu có thể được đưa vào phân tích quyết định. Bạn càng có nhiều dữ liệu (và bạn lưu trữ nhiều lịch sử hơn nữa) thì mô hình của bạn càng tốt.
Việc trộn các hình thức dữ liệu phi truyền thống với tập hợp các giao dịch lịch sử có thể làm cho mô hình gian lận của bạn trở nên mạnh mẽ hơn. Ví dụ, nếu một công nhân bồi thường thiệt hại cho người lao động về hậu quả xấu do sự cố trượt và ngã, có hàng triệu trường hợp kết cục bệnh nhân điều trị chi tiết và thời gian hồi phục giúp tạo ra một mẫu phát hiện gian lận.
Là một ví dụ về làm thế nào mà mô hình này có thể hoạt động được, hãy thử tưởng tượng xem liệu những bệnh nhân ở nông thôn có phục hồi chậm hơn so với những người ở khu vực thành thị hay không. Bạn có thể bắt đầu bằng cách kiểm tra sự gần gũi với các dịch vụ vật lý trị liệu. Có sự tương quan giữa thời gian phục hồi và vị trí địa lý không?
Nếu cơ quan gian lận của bạn xác định rằng một thương tích nào đó sẽ mất ba tuần hồi phục nhưng người nông dân có cùng chẩn đoán sống cách bác sĩ vật lý trị liệu một giờ đồng hồ và nhân viên văn phòng có một người thực hành trong văn phòng của cô, đó là một biến khác để thêm vào gian lận mẫu khám phá.
Khi bạn thu thập dữ liệu về mạng xã hội cho người yêu cầu bồi thường và tìm một bệnh nhân có khiếu nại về chứng sổ xích tự hào về việc hoàn thành một loạt các sự kiện về sức chịu đựng được gọi là Tough Mudder, đây là một ví dụ về việc trộn các loại dữ liệu mới với các mẫu dữ liệu truyền thống để phát hiện gian lận.
Nếu bạn muốn kích hoạt nỗ lực phát hiện gian lận của mình thành thiết bị cao hơn, tổ chức của bạn có thể làm việc để tách khỏi mô hình phân khúc thị trường và chuyển sang mô hình giao dịch ở mức giao dịch hoặc theo người.
Rất đơn giản, việc đưa ra dự báo dựa trên một phân đoạn là hữu ích, nhưng việc đưa ra quyết định dựa trên thông tin cụ thể về một giao dịch cá nhân rõ ràng là tốt hơn. Để làm điều này, bạn phải làm việc với một bộ dữ liệu lớn hơn so với thông thường là có thể trong cách tiếp cận truyền thống. Chỉ có thể sử dụng (tối đa) 30 phần trăm thông tin hiện có có thể hữu ích cho mô hình gian lận.
Để tạo các mô hình phát hiện gian lận, Hadoop rất phù hợp với
-
Khối lượng xử lý: Điều đó có nghĩa là xử lý bộ dữ liệu đầy đủ - không lấy mẫu dữ liệu.
-
Quản lý các kiểu dữ liệu mới: Ví dụ bao gồm các dịch vụ chăm sóc gần nhau để chăm sóc và các vòng kết nối xã hội để trang trí cho mô hình gian lận.
-
Duy trì môi trường nhanh: Cho phép phân tích và thay đổi các mô hình hiện có.
Người lập mô hình gian lận có thể thêm và kiểm tra các biến mới cho mô hình mà không cần đưa ra đề xuất cho nhóm quản trị cơ sở dữ liệu của bạn và sau đó đợi vài tuần để phê duyệt một thay đổi giản đồ và đặt nó vào môi trường của họ.
Quy trình này rất quan trọng đối với việc phát hiện gian lận vì các môi trường năng động thường có các mẫu gian lận theo chu kỳ đến và đi theo giờ, ngày hoặc tuần. Nếu dữ liệu được sử dụng để xác định hoặc tăng cường mô hình phát hiện gian lận mới là không có sẵn tại một thời điểm thông báo, do thời gian bạn khám phá những mô hình mới, có thể là quá muộn để ngăn ngừa thiệt hại.
Đánh giá lợi ích cho doanh nghiệp của bạn không chỉ bằng cách xây dựng các mô hình toàn diện hơn với nhiều loại dữ liệu hơn mà còn có thể làm mới và nâng cao những mô hình đó nhanh hơn bao giờ hết. Công ty có thể làm mới và nâng cao các mô hình hàng ngày sẽ tốt hơn giá trị hàng tháng.
Bạn có thể tin rằng vấn đề này có một câu trả lời đơn giản - chỉ cần yêu cầu CIO cho chi phí hoạt động (OPEX) và phê duyệt chi tiêu vốn (CAPEX) để chứa nhiều dữ liệu hơn để làm mô hình tốt hơn và tải 70 phần trăm khác của dữ liệu vào mô hình quyết định.
Bạn thậm chí có thể tin rằng đầu tư này sẽ trả tiền cho chính nó với sự phát hiện gian lận tốt hơn; tuy nhiên, vấn đề với cách tiếp cận này là chi phí cao phía trước cần được chìm vào dữ liệu chưa biết , nơi bạn không biết liệu nó có bất kỳ cái nhìn sâu sắc thực sự có giá trị nào.
Chắc chắn, gấp ba lần kích thước kho dữ liệu của bạn, sẽ cho phép bạn truy cập nhiều hơn vào dữ liệu lịch sử có cấu trúc để tinh chỉnh mô hình của bạn nhưng họ không thể chấp nhận các vụ xáo trộn trên phương tiện truyền thông xã hội. Các công nghệ truyền thống cũng không nhanh bằng. Hadoop giúp bạn dễ dàng đưa ra các biến số mới vào mô hình và nếu họ không thực hiện cải tiến mô hình, bạn chỉ cần hủy dữ liệu và tiếp tục.