Mục lục:
- Tính hợp lệ của dữ liệu lớn
- Nếu bạn có dữ liệu hợp lệ và có thể chứng minh tính xác thực của kết quả, dữ liệu cần "sống" trong bao lâu để đáp ứng nhu cầu của bạn? Trong cài đặt dữ liệu chuẩn, bạn có thể giữ dữ liệu trong nhiều thập kỷ bởi vì theo thời gian, bạn đã hiểu được dữ liệu nào quan trọng đối với những gì bạn làm với nó.Bạn đã thiết lập các quy tắc cho đơn vị tiền tệ dữ liệu và tính sẵn có để lập bản đồ cho quy trình làm việc của bạn.
Video: Đồng vị phóng xạ và các ứng dụng 2025
Khối lượng cao, đa dạng cao và vận tốc cao là những đặc điểm cơ bản của dữ liệu lớn. Nhưng các đặc tính khác của dữ liệu lớn cũng quan trọng không kém, đặc biệt là khi bạn áp dụng dữ liệu lớn cho các quy trình hoạt động. Tập hợp thứ hai của các đặc tính "V" là chìa khóa để vận hành dữ liệu lớn bao gồm
-
Hiệu lực: Dữ liệu có chính xác và chính xác cho mục đích sử dụng không?
-
Độ tin cậy: Các kết quả có ý nghĩa cho không gian vấn đề đã cho không?
-
Biến động: Bạn cần lưu trữ dữ liệu bao lâu?
Tính hợp lệ của dữ liệu lớn
Bạn muốn có kết quả chính xác. Tuy nhiên, trong các giai đoạn ban đầu của việc phân tích petabyte dữ liệu, rất có thể bạn sẽ không phải lo lắng về việc mỗi phần tử dữ liệu có giá trị như thế nào. Dòng đầu tiên của dữ liệu lớn có thể thực sự là dơ bẩn. Trong các giai đoạn ban đầu, quan trọng hơn là xem liệu có mối quan hệ nào tồn tại giữa các phần tử bên trong nguồn dữ liệu khổng lồ này hay không để đảm bảo rằng tất cả các phần tử là hợp lệ.
Hãy tưởng tượng rằng vệ tinh thời tiết chỉ ra rằng một cơn bão đang bắt đầu ở một phần của thế giới. Bão ảnh hưởng đến cá nhân như thế nào? Với khoảng nửa tỷ người dùng, có thể phân tích luồng Twitter để xác định tác động của cơn bão đối với người dân địa phương. Do đó, sử dụng Twitter kết hợp với dữ liệu từ vệ tinh thời tiết có thể giúp các nhà nghiên cứu hiểu được tính xác thực của dự báo thời tiết.
Biến động dữ liệu lớn
Nếu bạn có dữ liệu hợp lệ và có thể chứng minh tính xác thực của kết quả, dữ liệu cần "sống" trong bao lâu để đáp ứng nhu cầu của bạn? Trong cài đặt dữ liệu chuẩn, bạn có thể giữ dữ liệu trong nhiều thập kỷ bởi vì theo thời gian, bạn đã hiểu được dữ liệu nào quan trọng đối với những gì bạn làm với nó.Bạn đã thiết lập các quy tắc cho đơn vị tiền tệ dữ liệu và tính sẵn có để lập bản đồ cho quy trình làm việc của bạn.
Ví dụ: một số tổ chức chỉ có thể giữ dữ liệu khách hàng và giao dịch của họ trong năm gần đây nhất trong các hệ thống kinh doanh của họ. Điều này sẽ đảm bảo thu hồi nhanh chóng thông tin này khi được yêu cầu. Nếu họ cần phải xem xét một năm trước, nhóm CNTT có thể cần khôi phục dữ liệu từ bộ nhớ ngoại tuyến để đáp ứng yêu cầu. Với dữ liệu lớn, vấn đề này được phóng to.
Nếu dung lượng lưu trữ bị giới hạn, hãy nhìn vào các nguồn dữ liệu lớn để xác định xem bạn cần thu thập những gì và khoảng bao lâu để giữ nó. Với một số nguồn dữ liệu lớn, bạn chỉ cần thu thập dữ liệu để phân tích nhanh.
Sau đó bạn có thể lưu trữ thông tin cục bộ để xử lý tiếp. Nếu bạn không có đủ dung lượng lưu trữ cho tất cả dữ liệu này, bạn có thể xử lý dữ liệu "trực tuyến" và chỉ giữ các thông tin liên quan ở địa phương. Bao lâu bạn lưu trữ dữ liệu lớn phụ thuộc vào một số yếu tố:
Bao nhiêu dữ liệu được giữ ở nguồn?
-
Bạn có cần phải xử lý dữ liệu nhiều lần không?
-
Bạn có cần phải xử lý dữ liệu, thu thập dữ liệu bổ sung và xử lý nhiều hơn không?
-
Bạn có quy tắc hoặc quy định yêu cầu lưu trữ dữ liệu không?
-
Khách hàng của bạn có phụ thuộc vào dữ liệu của bạn cho công việc của họ không?
-
Dữ liệu có còn giá trị hay không còn liên quan nữa?
-
Do khối lượng, sự đa dạng, và vận tốc của dữ liệu lớn, bạn cần phải hiểu sự biến động. Đối với một số nguồn, dữ liệu sẽ luôn ở đó; đối với những người khác, đây không phải là trường hợp. Hiểu được dữ liệu ở đâu và trong bao lâu có thể giúp bạn xác định yêu cầu lưu giữ và các chính sách cho dữ liệu lớn.
Là người tiêu dùng, dữ liệu lớn sẽ giúp xác định hồ sơ tốt hơn về cách thức và khi bạn mua hàng hoá và dịch vụ. Với tư cách là một bệnh nhân, dữ liệu lớn sẽ giúp xác định cách tiếp cận được điều chỉnh và điều trị tốt hơn. Là một chuyên gia, dữ liệu lớn sẽ giúp bạn xác định cách tốt hơn để thiết kế và cung cấp sản phẩm và dịch vụ của bạn.
Điều này sẽ chỉ xảy ra khi dữ liệu lớn được tích hợp vào quá trình vận hành của các công ty và tổ chức.