Video: How Does the Power Grid Work? 2025
Triển khai kho dữ liệu kho cao cấp là lớn và ngày càng lớn hơn. Các triển khai sử dụng hàng trăm gigabyte (một gigabyte bằng 1 tỷ byte) và thậm chí là terabyte (1 nghìn tỉ byte) ngày càng phổ biến. Để quản lý khối lượng dữ liệu và quyền truy cập của người dùng, bạn cần một máy chủ và cơ sở dữ liệu rất mạnh.
Chuẩn bị cho thử thách! Với kho dữ liệu lite, bạn thường có thể xử lý lưu lượng dữ liệu từ kho lưu trữ tới các kho dữ liệu một cách đơn giản và công nghệ thấp nhưng với kho dữ liệu thì bạn đang bước vào Khung Khó, nơi nhiều dự án kho dữ liệu đáp ứng được Waterloo.
Bạn có thể gặp khó khăn trong lĩnh vực này vì một số lý do:
-
Bạn đang xử lý nhiều nguồn dữ liệu khác nhau, một số có thể chứa dữ liệu chồng chéo. Chẳng hạn, thông tin của nhà cung cấp có thể đến từ hai hệ thống thu mua khác nhau, và một số nhà cung cấp của bạn có mục trong cả hai hệ thống.
Có lẽ bạn sẽ chạy vào các bộ nhận dạng khác nhau mà bạn phải hội tụ (ví dụ: sáu ký tự chữ và số được xác định là SUPPLIER_ID trong một trong các hệ thống và một số nguyên duy nhất được gọi là SUP_NUM ở khác).
-
Nếu kho dữ liệu của bạn lớn (khoảng hơn 250 gigabyte), bạn có thể gặp khó khăn trong việc chiết xuất, di chuyển, và tải các cửa sổ lô. Cửa sổ lô , khung thời gian cập nhật kho hàng, phức tạp bởi số lượng các nguồn dữ liệu mà bạn phải xử lý.
-
Cơ hội bị khai thác, di chuyển, chuyển đổi, và quá trình tải đang rối tung lên theo cấp số nhân với số lượng các phần tử dữ liệu được nạp vào kho dữ liệu.
Nếu bạn có thể chỉ định một số yếu tố khó khăn (ví dụ như số nguyên) cho quá trình nhận dữ liệu vào kho, các biện pháp sau đây sẽ đúng: Bạn có n dữ liệu các yếu tố mà bạn muốn đưa vào kho dữ liệu với một yếu tố khó khăn là x. Nếu bây giờ bạn có 2 n dữ liệu yếu tố, yếu tố khó khăn của bạn không phải là 2 x; thay vào đó, x bình phương.
Để dễ hiểu hơn, chỉ định một số con số n và x. Nói rằng kho dữ liệu của bạn có 100 phần tử (n) và yếu tố khó khăn (x) là 5. Nếu bạn tăng gấp đôi số phần tử ( n > = 200), yếu tố khó khăn của bạn là 25 (5 bình phương), không phải là 10 (5 x 2). Quá trình xử lý rất nhiều nguồn dữ liệu, tất cả đều hướng đến một nơi (kho dữ liệu của bạn sang trọng), có tất cả các yếu tố của quá nhiều đầu bếp trong nhà bếp, hoặc bất cứ điều gì mà nói.
-
Để thực hiện việc khai thác, di chuyển, chuyển đổi, và quá trình tải thông suốt, bạn có thể phải đối phó với nhiều chủ sở hữu ứng dụng khác nhau, người giữ chính thức của cơ sở dữ liệu, và những người khác từ nhiều tổ chức khác nhau, tất cả đều phải hợp tác giống như họ là một phần của dàn nhạc giao hưởng chuyên nghiệp.
Tuy nhiên, thực tế là họ thực hiện giống như một nhóm học sinh mẫu giáo mỗi người chọn một nhạc cụ từ thùng đồ chơi và được nói, "Bây giờ hãy chơi cái gì đó! "Mặc dù quá trình này không nhất thiết phải thất bại, mong đợi một số lặp đi lặp lại cho đến khi bạn có thể có được kho dữ liệu kho cao cấp chỉ cần tải.
Kho dữ liệu kho cao cấp có thể có ba tầng (như kho dữ liệu lite), ngoại trừ có nhiều nguồn dữ liệu và có lẽ nhiều hơn một loại công cụ người dùng truy cập kho. Tuy nhiên, kiến trúc cho kho dữ liệu có vẻ như giống với những gì được hiển thị trong hình này, với nhiều điểm thu thập dữ liệu khác nhau.
Ngoài các trạm khác "cần thiết" cho môi trường cụ thể của bạn, môi trường của bạn có thể có các yếu tố sau:
Data mart:
-
Nhận các tập hợp con từ thông tin kho cao cấp và phục vụ như là điểm truy cập chính cho người dùng. Trạm biến đổi tạm thời:
-
Một khu vực trong đó bộ dữ liệu trích ra từ một số nguồn phải trải qua một số quá trình chuyển đổi trước khi di chuyển đường ống tới cơ sở dữ liệu kho. Trạm đảm bảo chất lượng:
-
Một khu vực mà các nhóm dữ liệu trải qua kiểm tra chất lượng chuyên sâu sẽ kiểm tra trước khi bạn đưa chúng vào kho dữ liệu.