Mục lục:
- Quản lý các loại dữ liệu khác nhau cho dữ liệu lớn
- Tích hợp các kiểu dữ liệu vào môi trường dữ liệu lớn
Video: Đặt viên đá lạnh lên gáy và cảm nhận những điều kì diệu 2025
Bạn sẽ biết cách kết hợp tất cả các dữ liệu với nhau như thế nào? Với một dự án dữ liệu lớn, bạn muốn làm gì với dữ liệu có cấu trúc và không có cấu trúc của bạn cho biết lý do tại sao bạn có thể chọn một công nghệ hơn một công nghệ khác. Nó cũng xác định sự cần thiết phải hiểu cấu trúc dữ liệu gửi đến để đưa dữ liệu này vào đúng nơi.
Quản lý các loại dữ liệu khác nhau cho dữ liệu lớn
Bạn sẽ cần xem xét một số đặc điểm của dữ liệu lớn và các loại hệ thống quản lý dữ liệu mà bạn có thể muốn sử dụng để giải quyết từng vấn đề.
Tích hợp các kiểu dữ liệu vào môi trường dữ liệu lớn
Một khía cạnh quan trọng khác của dữ liệu lớn là bạn thường không cần sở hữu tất cả dữ liệu mà bạn sẽ sử dụng. Nhiều ví dụ làm cho điểm. Bạn có thể sử dụng dữ liệu truyền thông xã hội, dữ liệu đến từ số liệu thống kê của bên thứ ba hoặc thậm chí dữ liệu đến từ vệ tinh. Chỉ cần suy nghĩ về phương tiện truyền thông xã hội và bạn sẽ hiểu.
Thỉnh thoảng, cần phải tích hợp nhiều nguồn khác nhau. Dữ liệu này có thể đến từ tất cả các hệ thống nội bộ, từ cả nguồn nội bộ lẫn bên ngoài, hoặc từ các nguồn hoàn toàn bên ngoài. Phần lớn các dữ liệu này có thể đã được siled trước.
Dữ liệu không cần đến bạn trong thời gian thực. Bạn chỉ có thể có rất nhiều và nó là khác nhau trong tự nhiên. Điều này vẫn có thể đủ điều kiện như là một vấn đề lớn về dữ liệu. Tất nhiên, bạn cũng có thể phải đối mặt với một kịch bản mà bạn đang thấy khối lượng dữ liệu khổng lồ, ở tốc độ cao, và nó là khác nhau trong tự nhiên.
Vấn đề là bạn sẽ không nhận được giá trị kinh doanh nếu bạn đối phó với nhiều nguồn dữ liệu như là một tập hợp các thông tin bị ngắt kết nối.
Các thành phần bạn cần bao gồm các kết nối và siêu dữ liệu.
Kết nối
Bạn muốn có một số kết nối cho phép bạn kéo dữ liệu từ nhiều nguồn dữ liệu khác nhau. Có thể bạn muốn có một kết nối Twitter hoặc Facebook một. Có lẽ bạn cần phải tích hợp từ kho dữ liệu của mình với một nguồn dữ liệu lớn nằm ngoài cơ sở của bạn để bạn có thể phân tích cả hai nguồn dữ liệu này với nhau.
Siêu dữ liệu
Một thành phần quan trọng để tích hợp tất cả dữ liệu này là siêu dữ liệu. Siêu dữ liệu là định nghĩa, ánh xạ và các đặc điểm khác được sử dụng để mô tả cách tìm, truy cập và sử dụng các thành phần dữ liệu của công ty (và phần mềm). Một ví dụ về siêu dữ liệu là dữ liệu về một số tài khoản. Điều này có thể bao gồm số lượng, mô tả, loại dữ liệu, tên, địa chỉ, số điện thoại, và cấp độ riêng tư.
Siêu dữ liệu có thể được sử dụng để giúp bạn tổ chức các kho lưu trữ dữ liệu và xử lý các nguồn dữ liệu mới và đang thay đổi. Mặc dù ý tưởng về siêu dữ liệu không phải là mới, nó đang thay đổi và phát triển trong bối cảnh dữ liệu lớn.Trong thế giới siêu dữ liệu truyền thống, điều quan trọng là phải có một danh mục cung cấp một cái nhìn duy nhất về tất cả các nguồn dữ liệu.
Nhưng danh mục này sẽ phải khác nếu bạn không kiểm soát tất cả các nguồn dữ liệu này. Bạn có thể cần một công cụ phân tích sẽ giúp bạn hiểu siêu dữ liệu cơ bản.