Video: Calculation Model (lite version) for Global Management Challenge 2025
Một kho dữ liệu lite là một no-frills, xương ngựa, cách tiếp cận công nghệ thấp để cung cấp dữ liệu có thể giúp với một số việc ra quyết định kinh doanh của bạn. Không khoe khoang có nghĩa là bạn đã cùng nhau, khi có thể, các khả năng đã được kiểm chứng và các công cụ đã có trong tổ chức của bạn để xây dựng hệ thống của bạn.
Các lĩnh vực chủ đề và nội dung dữ liệu của kho dữ liệu lite
Kho dữ liệu chỉ tập trung vào việc báo cáo hoặc phân tích chỉ một hoặc có thể là hai lĩnh vực. Giả sử trong công việc của bạn tại một bộ phận không dây của một công ty điện thoại, bạn phân tích doanh số bán hàng của dịch vụ như phút trong mạng, phút ngoài mạng lưới, tin nhắn văn bản, truy cập Internet và các ứng dụng di động khác cho các hộ gia đình tiêu dùng.
Nếu bạn xây dựng kho dữ liệu độc quyền cho mục đích này, bạn có tất cả các thông tin cần thiết để hỗ trợ phân tích và báo cáo cho thị trường tiêu dùng. Tuy nhiên, bạn không có bất kỳ thông tin nào về người dùng doanh nghiệp và lịch sử thanh toán bởi vì thông tin đó là một phần của một khu vực chủ đề khác, như thể hiện trong hình này.
Bạn phải lựa chọn cẩn thận, do đó, trong số các tập hợp tất cả các phần tử dữ liệu có thể và chọn một tập hợp con có thể quản lý được - các yếu tố mà không nghi ngờ gì là quan trọng. Quá trình này giống nhau cho bất kỳ triển khai kho dữ liệu nào, ngoại trừ bạn phải có kỷ luật cực kỳ khi bạn quyết định nội dung cần đưa vào.
Nguồn dữ liệu
Kho dữ liệu của một kho dữ liệu có một số nguồn dữ liệu giới hạn - điển hình, từ một đến một số ít. Ví dụ như một phần của môi trường ứng dụng chung chung, kho kho dữ liệu đóng vai trò là đại lý tái cơ cấu cho dữ liệu của ứng dụng để làm cho nó thêm truy vấn và báo cáo thân thiện.
Phương pháp phổ biến nhất để tái cấu trúc dữ liệu của một ứng dụng duy nhất là denormalize nội dung của các bảng cơ sở dữ liệu quan hệ của ứng dụng để loại bỏ được
các hoạt động kết nối quan hệ (quá trình thu thập dữ liệu từ nhiều bảng cơ sở dữ liệu) càng tốt khi người dùng chạy các báo cáo hoặc truy vấn đơn giản. Denormalization là ngược lại với khái niệm cơ sở dữ liệu quan hệ về bình thường hóa, một bộ hướng dẫn khá phức tạp cho bạn biết các yếu tố dữ liệu nào nên được đặt trong bảng nào trong cơ sở dữ liệu.
Khi bạn
denormalize một cơ sở dữ liệu, bạn không phải lo lắng về dữ liệu trùng lặp; bạn cố gắng tạo các hàng dữ liệu trong một bảng duy nhất có thể phản ánh các báo cáo và truy vấn mà người dùng chạy. Con số này cho thấy một ví dụ về một kho chứa dữ liệu đơn lẻ được xây dựng trên sự không đồng bộ hóa. Mặc dù bạn có thể sử dụng dữ liệu được cung cấp bên ngoài trong triển khai lite của kho dữ liệu, dữ liệu bạn sử dụng hiếm khi được mua lại. Bạn có nhiều khả năng kết hợp dữ liệu mà bạn đã sử dụng để phân tích (có thể theo cách độc lập).
Các công cụ tình báo kinh doanh
Người sử dụng kho dữ liệu thường đặt câu hỏi và tạo các báo cáo phản ánh quan điểm "Nói cho tôi biết điều gì đã xảy ra". Bởi vì những người dùng không thực hiện nhiều công việc phân tích nặng, nên các sản phẩm họ sử dụng để truy cập vào kho dữ liệu sẽ dễ dàng cho họ sử dụng.
Khai thác dữ liệu, di chuyển, và tải
Đơn giản là tên của trò chơi trong một kho dữ liệu lite. Do đó, làm cho quá trình trích xuất dữ liệu từ các nguồn và thực hiện tất cả các chức năng cần thiết để chuẩn bị dữ liệu để tải như đơn giản nhất có thể bằng cách sử dụng hai yếu tố này:
Trích xuất tập tin đơn giản từ các hệ thống chạy kinh doanh và chuyển tập tin đó cho phép bạn di chuyển dữ liệu từ các nguồn của nó đến kho dữ liệu lite
-
mã tùy chỉnh thẳng (hoặc có lẽ là một công cụ dễ sử dụng) có thể trích xuất và di chuyển dữ liệu
-
Nếu nguồn dữ liệu cho lite kho dữ liệu của bạn là được xây dựng trên một cơ sở dữ liệu quan hệ và bạn đang có kế hoạch sử dụng cùng một sản phẩm cơ sở dữ liệu cho kho dữ liệu của bạn, sử dụng SQL để dễ dàng khai thác dữ liệu và chuyển động. Tất nhiên, các bước này - như thể hiện trong hình - cung cấp một quy trình chuẩn cho quá trình này:
Trên hệ thống chứa kho của bạn, sử dụng SQL CREATE TABLE để tạo ra định nghĩa cho mỗi bảng trong kho kho dữ liệu của bạn.
-
Sao lưu
-
Cơ sở dữ liệu có chứa bản sao của tất cả các bảng từ nguồn cung cấp dữ liệu cho kho, và sau đó tải lại các bảng đó vào một khu vực dàn trên hệ thống nơi bạn định định vị kho dữ liệu của bạn. Bạn nên đảm bảo rằng băng thông mạng và thời gian là đủ để sao chép tất cả các bảng nguồn vào hệ thống bằng cách sử dụng một chương trình chuyển file.
Sử dụng câu lệnh SQL INSERT, với câu lệnh SELECT lồng nhau xác định các bảng mã nguồn và các cột tương ứng của chúng sẽ đưa vào bảng kho dữ liệu (và cách các bảng sẽ được nối), để tải dữ liệu vào kho dữ liệu của bạn.
-
Chạy hàng loạt các thủ tục đảm bảo chất lượng (QA) để xác minh rằng tất cả dữ liệu đã được nạp đúng cách.
-
Kiểm tra số lượng hàng, tổng số, và bất cứ điều gì bạn có thể.
Kiến trúc
Kiến trúc của kho dữ liệu lite bao gồm cơ sở dữ liệu được sử dụng để lưu trữ dữ liệu, các công cụ kinh doanh thông minh đầu cuối được sử dụng để truy cập dữ liệu, cách dữ liệu được di chuyển và số lượng đối tượng khu vực.Mật khẩu của môi trường này là tối giản: không có chuông, không còi, không có gì ưa thích - chỉ cần công nghệ áp dụng cho môi trường để cung cấp cho người dùng truy cập vào dữ liệu họ cần.
Kiến trúc của một kho dữ liệu lite, như thể hiện trong hình này, chứa các loại thành phần chính này:
Một cơ sở dữ liệu duy nhất chứa dữ liệu kho.
-
Cơ sở dữ liệu được cung cấp trực tiếp từ mỗi nguồn cung cấp dữ liệu cho nhà kho.
-
Người dùng truy cập dữ liệu trực tiếp từ nhà kho.