Video: Geoffrey West: The surprising math of cities and corporations 2025
Khoảng năm 1995, các nhà cung cấp bắt đầu định vị phần mềm của họ như các công cụ lưu trữ dữ liệu ảo. Nguyên lý cơ bản là đôi khi nó không có ý nghĩa để sao chép và thao tác một bó dữ liệu, chỉ trong trường hợp ai đó cần nó. Tại sao không truy cập dữ liệu trực tiếp từ nguồn trên cơ sở khi cần thiết?
Tuy nhiên, truy cập dữ liệu qua mạng tại nguồn của nó đã chứng tỏ là ít khó khăn nhất trong các vấn đề trong việc cố gắng cung cấp một loại kho dữ liệu tại chỗ. Những thách thức tương tự trong bất kỳ môi trường lưu trữ dữ liệu nào (ví dụ như xử lý chất lượng dữ liệu, quyết định loại biến đổi nào phải xảy ra và lựa chọn cách xử lý các biến đổi khi các nguồn khác nhau không nhất quán) vẫn còn tồn tại.
Chỉ vì bạn có thể truy cập dữ liệu tại nguồn của nó (hầu như ở bất kỳ cơ sở dữ liệu hoặc cấu trúc tập tin nào) không có nghĩa là dữ liệu cung cấp thông tin kinh doanh cần thiết khi nó nằm trong tay bạn.
Để giải quyết các vấn đề về chất lượng dữ liệu, nhiều kiến trúc sư dữ liệu đã bắt đầu thực hiện xây dựng dữ liệu từ dưới lên để phát triển kho dữ liệu dựa trên thành phần. Thay vì có một cơ sở dữ liệu duy nhất mà bạn cấp dữ liệu cho tất cả dữ liệu (tạo kho dữ liệu của bạn), một loạt các thành phần sẽ xử lý một bộ các chức năng cụ thể (như trả lời các câu hỏi kinh doanh cụ thể) hoặc các chủ đề nhất định. Cùng nhau, các marts dữ liệu (hoặc các thành phần) bao gồm một môi trường kho dữ liệu.
Enterprise Information Integration (EII) nào đang chào bán ra thị trường. Con số này cho thấy một môi trường trong đó các thành phần riêng lẻ được tạo ra trong môi trường lưu trữ dữ liệu theo cách từ dưới lên. Thay vì kết hợp các thành phần vào một cơ sở dữ liệu lớn (và sao chép tất cả dữ liệu lại), EII tạo ra một môi trường lưu trữ dữ liệu, trong đó người dùng có thể truy cập nội dung của từng thành phần từ một công cụ thông minh kinh doanh như tất cả chúng được lưu trữ cùng nhau, mặc dù chúng không.
Khi bạn truy cập vào các trang web khác nhau, bạn không truy cập quảng cáo cho ổ bánh xe bốn bánh mới nhất mà bạn đã thưởng, điểm số thể thao, phim hoạt hình Dilbert hoặc bất cứ điều gì khác mà bạn làm trên Internet.Bạn đang mang lại các dữ liệu sau đó được kết hợp và gửi lại trình duyệt của bạn. Đó là kho dữ liệu ảo - nó giống như Internet!
Không nên tạo một môi trường lưu trữ dữ liệu ảo để truy cập dữ liệu nguồn trực tiếp, ở định dạng gốc của nó. Thách thức của bạn không phải là cách để kết hợp các cơ sở dữ liệu nền tảng (ví dụ như kết hợp dữ liệu IMS với dữ liệu DB2) và xử lý các kiểu chuyển đổi cấp hệ thống này, đảm bảo chất lượng dữ liệu cao và không yêu cầu người dùng tự làm sạch dữ liệu.
Mỗi ứng dụng nên được kho lưu trữ và chứa một nhà xuất bản dữ liệu chịu trách nhiệm cho tất cả các dịch vụ trung gian (như khai thác và đảm bảo chất lượng), như được quy định trong các quy tắc kinh doanh của môi trường.
Nhà xuất bản dữ liệu có thể hoạt động gần như trong chế độ thời gian thực, giống như nó sẽ phải làm trong kho lưu trữ dữ liệu hoạt động, hoặc nó có thể hoạt động ở chế độ định kỳ (theo lô) nếu cập nhật không bắt buộc. Trong trường hợp này, nhà xuất bản dữ liệu là một sản phẩm phần mềm trung gian được nhúng trong ứng dụng (hoặc dịch vụ truy cập bởi ứng dụng).
Khi bạn nghĩ đến kho dữ liệu ảo, hãy thay thế câu hỏi "Tôi có thể lấy dữ liệu không? "Với câu hỏi" Tôi có thể nhận được để dữ liệu sử dụng được? "Nhà xuất bản dữ liệu đóng một vai trò quan trọng, và không nên bỏ qua.
Bạn cũng không thể bỏ bê kiến trúc dữ liệu. Chỉ vì bạn đang phát triển các thành phần theo cách từ dưới lên và chúng đang được truy cập tại chỗ thay vì được sao chép vào cơ sở dữ liệu kho dữ liệu lớn hơn không có nghĩa là bạn có thể bỏ qua chức năng này.
Nói rằng một thành phần lưu trữ ID khách hàng dưới dạng số năm chữ số sau khi chuyển đổi xảy ra và chỉ chứa khách hàng mua hàng trong vòng sáu tháng qua. Và một thành phần khác, chứa tất cả khách hàng đã từng mua sản phẩm của công ty bạn, sử dụng các ký hiệu nhận dạng chữ số bảy ký tự. Trong tình huống này, bạn có thể có cùng một loại dữ liệu không phù hợp vấn đề bạn sẽ nếu bạn đang truy cập dữ liệu trực tiếp từ các nguồn.
Mặc dù EII cho phép sự khác biệt giữa nội dung thành phần, bạn phải hiểu và quản lý sự khác biệt để bạn không làm gián đoạn sứ mệnh kinh doanh thông minh.