Mục lục:
- Bảo đảm chất lượng dữ liệu: phần I
- Sau khi hoàn thành quá trình chuyển đổi, dữ liệu phải được QA'd - một lần nữa. Bạn không bao giờ biết loại lỗi hoặc sự khác biệt mà quá trình chuyển đổi có thể đã đưa vào dữ liệu. Sau khi thay đổi đã xảy ra, bất kỳ quá trình kiểm tra chất lượng trước đó không còn giá trị.
Video: The future of gaming at Google 2025
Bạn nên thiết lập hai dịch vụ đảm bảo chất lượng khác nhau trong dịch vụ middleware. Bạn phải thực hiện các tác vụ QA đầu tiên đối với trích từ nguồn dữ liệu trước khi bạn thực hiện thêm bất kỳ dịch vụ trung gian nào.
Bảo đảm chất lượng dữ liệu: phần I
Cố gắng tìm và sửa lỗi và các vấn đề sớm nhất trong quá trình xử lý. Việc di chuyển dữ liệu xuống đường ống dẫn đến kho dữ liệu là vô nghĩa nếu những vấn đề quá đáng kể hoặc họ cần nhiều nỗ lực hơn nữa để sửa lỗi trong quá trình xử lý hoặc không thể sửa chữa được.
Vì vậy, bạn nên tìm những loại vấn đề gì? Dưới đây là một số ví dụ:
-
Giá trị trong các phần tử dữ liệu vượt quá phạm vi hợp lý: Một khách hàng đã gửi 150 triệu đơn đặt hàng trong tháng vừa qua, hoặc nhân viên đã làm việc với công ty trong 4 năm 297, theo cơ sở dữ liệu nhân viên và ngày thuê được lưu trữ.
-
Giá trị trong các phần tử dữ liệu không phù hợp với danh sách chính thức và đầy đủ các giá trị cho phép: Một giá trị có thể có mã A, ví dụ, khi giá trị cho phép duy nhất cho trường đó là M và F. (Nếu lĩnh vực đó đã được dán nhãn GENDER, A có thể đứng cho androgynous!)
-
Không nhất quán giữa các bảng: Đối với các mục nhập trong bảng CUSTOMER_ORDER, không có mục nhập tương ứng nào (như được xác định bởi CUSTOMER_ID) trong CUSTOMER_MASTER_TABLE.
-
Sự không nhất quán giữa các trường: Các hồ sơ có tiểu bang hoặc mã vùng không chính xác cho thành phố được chỉ định.
-
Thiếu giá trị: Các bản ghi có giá trị thiếu trong các trường nhất định mà chúng cần có nội dung.
-
Ví dụ: bảng nguồn phải bao gồm một dãy dữ liệu bao gồm tổng số đơn vị bán ra và bán hàng cho mỗi tháng trong hai năm qua. Tuy nhiên, đối với một số lượng lớn khách hàng, không có hàng tồn tại trong ít nhất một trong những tháng đó. Dữ liệu chưa đầy đủ:
-
Nếu thông tin về mọi sản phẩm mà công ty bán được cho là có sẵn, ví dụ như tất cả các sản phẩm có trong chiết xuất? Vi phạm các quy tắc kinh doanh:
-
Nếu quy tắc kinh doanh chỉ ra rằng chỉ có một người bán sỉ có thể bán sản phẩm cho bất kỳ khách hàng nào của công ty, bạn nên kiểm tra xem liệu bất kỳ hồ sơ khách hàng nào có ghi nhận doanh số bán hàng thông qua nhiều người bán sỉ, có thể chỉ ra dữ liệu không chính xác trong nguồn. Tham nhũng dữ liệu từ trích xuất cuối:
-
Nếu khai thác xảy ra hàng tháng, ví dụ: bạn nên theo dõi các giá trị dữ liệu hoặc các khoản tiền phải là không đổi, chẳng hạn như BÁN HÀNG TRONG MỘT THÁNG.Nếu trong một tháng tiếp theo, giá trị BÁN HÀNG cho mỗi khách hàng thay đổi cho một khách hàng nhất định trong một tháng trước, dữ liệu cơ bản có thể đã bị hỏng. Sự mâu thuẫn chính tả:
-
Tên của khách hàng được đánh vần theo nhiều cách khác nhau. Bạn làm gì khi gặp vấn đề? Bạn có thể thử một trong các kỹ thuật sau:
Áp dụng quy tắc hiệu chỉnh tự động.
-
Khi bạn tìm kiếm chính tả không nhất quán, hãy thực hiện tìm kiếm trong bảng tổng thể về sửa đổi chính tả trước đó và tự động thực hiện thay đổi dữ liệu. Dành riêng hồ sơ cho một thành viên nhóm để phân tích và hiệu chỉnh sau.
-
Trong trường hợp này, bạn có thể thực hiện phần nhân lực của QA cùng với việc điều chỉnh tự động. Chẳng hạn, nếu có thể, sửa chữa tự động được thực hiện và báo cáo về các vấn đề khác được đưa vào một tệp tin riêng và được gửi đến người bảo đảm chất lượng. Khi người QA thực hiện tất cả các chỉnh sửa bằng tay, bạn kết hợp các sự chỉnh sửa lại thành dữ liệu đã trải qua quá trình kiểm tra chất lượng tự động.
Làm mát máy bay phản lực của bạn.
-
Nếu bạn phát hiện ra đủ các vấn đề nghiêm trọng hoặc đòi hỏi một lượng nghiên cứu không xác định, hãy cân nhắc việc tạm dừng toàn bộ quá trình cho đến khi bạn tìm và khắc phục sự cố. Bạn có thể làm cho quy trình kiểm định chất lượng hiệu quả hơn nhiều và ít gặp vấn đề hơn nếu bạn thực hiện phân tích hệ thống nguồn toàn diện. Nếu bạn có một ý tưởng khá rõ về loại sự cố dữ liệu bạn có thể tìm thấy trong mỗi nguồn dữ liệu, bạn có thể lập trình lại quy trình kiểm tra chất lượng để phát hiện và (hy vọng) khắc phục những vấn đề đó trước khi tiếp tục.
Về mặt lịch sử, các tổ chức xử lý quy trình QA của kho dữ liệu như là một luồng một chiều. Các vấn đề được sửa chữa trước khi dữ liệu được di chuyển sâu hơn vào luồng các quá trình trung gian nhưng không bao giờ được sửa chữa trong các nguồn dữ liệu. Hầu hết các kho dữ liệu mới đều có vòng lặp thông tin phản hồi tích hợp từ quy trình kiểm soát chất lượng nhằm sửa chữa các vấn đề chất lượng dữ liệu trong dữ liệu nguồn.
Bảo đảm chất lượng dữ liệu: phần II
Sau khi hoàn thành quá trình chuyển đổi, dữ liệu phải được QA'd - một lần nữa. Bạn không bao giờ biết loại lỗi hoặc sự khác biệt mà quá trình chuyển đổi có thể đã đưa vào dữ liệu. Sau khi thay đổi đã xảy ra, bất kỳ quá trình kiểm tra chất lượng trước đó không còn giá trị.
Chạy dữ liệu hợp nhất và chuyển đổi thông qua cùng một loại các bước QA được thảo luận ở đây. Mặc dù có thể bạn không tìm thấy lỗi thô sơ nhiều (chẳng hạn như lỗi chính tả hoặc các giá trị nằm ngoài phạm vi) nếu bạn đã làm một công việc kỹ lưỡng về Cấp QA cấp một, bạn vẫn muốn đảm bảo. Hơn nữa, đảm bảo rằng mã hoặc các tập lệnh được sử dụng cho việc chuyển đổi dữ liệu không vô tình gây ra các lỗi mới. Creep.
Mục tiêu của QA cấp hai này là đảm bảo rằng dữ liệu hợp nhất và chuyển đổi của bạn đã sẵn sàng để nạp vào kho dữ liệu - ngay khi có một bước nữa xảy ra, nếu cần thiết.