Con người hiện nay đang ở trong một giao lộ không thể tin được của dữ liệu chưa từng thấy, được tạo ra bởi phần cứng ngày càng nhỏ gọn và mạnh mẽ hơn, và phân tích bằng các thuật toán quá trình giúp phát triển. Nó không chỉ đơn giản là vấn đề thể tích mà bản thân nó là một thách thức khó khăn.
Như đã được chính thức hóa bởi công ty nghiên cứu Gartner năm 2001 và sau đó được các công ty khác hoãn lại và mở rộng, như IBM, dữ liệu lớn có thể được tóm tắt bởi bốn V thể hiện các đặc điểm chính của nó:
Số lượng dữ liệu Vận tốc:
Tốc độ tạo ra dữ liệu Đa dạng:
Số lượng và loại nguồn dữ liệu Độ tin cậy:
Chất lượng và tiếng nói có thẩm quyền của dữ liệu (số lượng lỗi, dữ liệu xấu, tiếng ồn trộn lẫn với tín hiệu), một thước đo sự không chắc chắn của dữ liệu Mỗi đặc tính dữ liệu lớn tạo ra một thách thức và cơ hội. Ví dụ, khối lượng xem xét số lượng dữ liệu hữu ích. Những gì một tổ chức xem dữ liệu lớn có thể là dữ liệu nhỏ cho một số khác. Không có khả năng xử lý dữ liệu trên một máy duy nhất không làm cho dữ liệu lớn. Điều phân biệt dữ liệu lớn từ dữ liệu kinh doanh như bình thường là nó buộc một tổ chức phải sửa đổi các phương pháp và giải pháp phổ biến của nó và đẩy các công nghệ hiện tại và các thuật toán nhìn về phía trước.
Các loại khác nhau cho phép sử dụng các dữ liệu lớn để thách thức phương pháp khoa học, như được giải thích bởi mốc quan trọng này và bài báo thảo luận nhiều của Chris Anderson, tổng biên tập của Wired
vào thời điểm đó, về việc số lượng dữ liệu lớn có thể giúp khám phá khoa học ra sao ngoài phương pháp khoa học. Tác giả dựa vào ví dụ của Google trong lĩnh vực kinh doanh quảng cáo và dịch thuật, nơi mà công ty có thể nổi bật mà không sử dụng các mô hình hoặc lý thuyết cụ thể, nhưng bằng cách áp dụng các thuật toán để học hỏi từ dữ liệu. Cũng giống như quảng cáo, dữ liệu khoa học (vật lý, sinh học) có thể hỗ trợ sự đổi mới cho phép các nhà khoa học tiếp cận các vấn đề mà không có các giả thiết nhưng bằng cách xem xét các biến thể tìm thấy trong số lượng lớn dữ liệu và bằng các thuật toán phát hiện.
Đặc tính tính xác thực giúp tự dân chủ hoá dữ liệu. Trong quá khứ, các tổ chức tích trữ dữ liệu vì nó rất quý và khó có được. Tại thời điểm này, nhiều nguồn tạo ra dữ liệu với số lượng ngày càng tăng mà tích trữ nó là vô nghĩa (90 phần trăm dữ liệu của thế giới đã được tạo ra trong hai năm qua), vì vậy không có lý do để hạn chế truy cập. Dữ liệu đang chuyển thành một hàng hoá như vậy có rất nhiều chương trình dữ liệu mở đang được đưa ra khắp thế giới.(Hoa Kỳ có truyền thống truy cập mở, các chương trình dữ liệu mở đầu tiên bắt đầu từ những năm 1970 khi Cục Quản lý Đại dương và Khí quyển Quốc gia, NOAA, bắt đầu phát hành dữ liệu thời tiết một cách tự do cho công chúng.) Tuy nhiên, vì dữ liệu đã trở thành hàng hoá, sự không chắc chắn của dữ liệu đó đã trở thành một vấn đề. Bạn không còn biết liệu dữ liệu có hoàn toàn đúng bởi vì bạn thậm chí không biết nguồn gốc của nó.
Dữ liệu đã trở nên phổ biến đến mức giá trị của nó không còn trong thông tin thực tế (như dữ liệu được lưu trữ trong cơ sở dữ liệu của công ty). Giá trị của dữ liệu tồn tại trong cách bạn sử dụng nó. Ở đây các thuật toán đi vào chơi và thay đổi các trò chơi. Một công ty như Google tự nạp dữ liệu từ các dữ liệu sẵn có tự do, chẳng hạn như nội dung của các trang web hoặc văn bản tìm thấy trong các sách và sách có sẵn công khai. Tuy nhiên, giá trị mà Google chiết xuất từ dữ liệu chủ yếu xuất phát từ các thuật toán của nó. Ví dụ: giá trị dữ liệu nằm trong thuật toán PageRank (minh hoạ trong Chương 11), đây là nền tảng cho việc kinh doanh của Google. Giá trị của các thuật toán cũng đúng đối với các công ty khác. Công cụ khuyến nghị của Amazon góp phần đáng kể doanh thu của công ty. Nhiều công ty tài chính sử dụng thuật toán kinh doanh và tư vấn robo, tận dụng dữ liệu cổ phiếu sẵn có và thông tin kinh tế để đầu tư.