Mục lục:
Video: Dữ liệu lớn - Intel Big Data 101 - How Big Data Makes Big Impacts 2025
Thuật ngữ dữ liệu lớn được sử dụng thường xuyên trong thế giới công nghệ đám mây lai vì sự cần thiết liên tục gia tăng số lượng dữ liệu. Thực tế quan trọng về dữ liệu lớn là nó tồn tại ở điểm đầu của những giải pháp mà các tổ chức đã đưa ra trong lịch sử để quản lý khối lượng lớn các dữ liệu phức tạp. Công nghệ dữ liệu lớn cho phép mọi người phân tích và sử dụng dữ liệu một cách hiệu quả.
Khối lượng:
Dữ liệu lớn có khối lượng lớn. Nó thường đề cập đến ít nhất nhiều terabyte dữ liệu. Nhiều triển khai dữ liệu lớn đang tìm kiếm để phân tích petabyte thông tin.
-
Giá trị Byte
10 0 Gigabyte 10 9 byte Terabyte 10 12 > bytes Petabyte 10 15 byte Exabyte 10 18 byte Đa dạng: Dữ liệu lớn có các hình dạng và kích thước khác nhau. Dữ liệu có cấu trúc là dữ liệu điển hình mà các nhà phân tích sử dụng để xử lý. Nó bao gồm doanh thu và số lượng bán hàng - loại dữ liệu bạn nghĩ bao gồm trong cơ sở dữ liệu. Dữ liệu có cấu trúc cũng đang được sản xuất theo những cách mới trong các sản phẩm như cảm biến và thẻ RFID. -
có một số cấu trúc nhưng không theo cách bạn nghĩ về các bảng trong cơ sở dữ liệu. Nó bao gồm các định dạng EDI và XML. Dữ liệu phi cấu trúc
-
bao gồm văn bản, hình ảnh và âm thanh, bao gồm bất kỳ tài liệu, e-mail, tweet, hoặc blog nội bộ cho một công ty hoặc trên Internet. Dữ liệu phi cấu trúc chiếm khoảng 80% tổng số dữ liệu. Vận tốc:
Đây là tốc độ di chuyển dữ liệu. Hãy suy nghĩ về cảm biến bắt dữ liệu mỗi mili giây hoặc dữ liệu dòng sản lượng từ các thiết bị y tế. Dữ liệu lớn thường xuất hiện ở bạn trong một luồng, vì vậy nó có một tính chất thời gian thực được liên kết với nó. -
Đám mây là nơi lý tưởng cho các dữ liệu lớn vì khả năng mở rộng lưu trữ, sức mạnh tính toán và các tài nguyên co giãn. Mô hình đám mây có quy mô lớn; máy tính phân tán và một số khuôn khổ và công nghệ đã xuất hiện để hỗ trợ mô hình này, bao gồm Apache Hadoop:
-
Một nền tảng điện toán phân tán nguồn mở được viết bằng Java. Đây là một thư viện phần mềm cho phép xử lý phân tán qua các nhóm máy tính. Nó thực sự là một hệ thống tập tin phân phối. Nó tạo ra một hồ bơi máy tính, mỗi hệ thống có một hệ thống tệp tin Hadoop. Hadoop được thiết kế để giải quyết một lượng lớn dữ liệu phức tạp.Dữ liệu có thể được cấu trúc, không có cấu trúc, hoặc cấu trúc một phần. Hadoop có thể chạy trên rất nhiều máy chủ không chia sẻ bộ nhớ hoặc đĩa. Xem Hadoop để biết thêm thông tin. MapReduce:
-
-
Một khuôn khổ phần mềm được giới thiệu bởi Google để hỗ trợ tính toán phân tán trên các tập hợp dữ liệu lớn. Đó là trọng tâm của những gì Hadoop đang làm với dữ liệu lớn và phân tích dữ liệu lớn. Nó được thiết kế để tận dụng tài nguyên đám mây. Tính toán này được thực hiện trên nhiều máy tính, được gọi là cụm
, và mỗi cụm được gọi là một nút
-
. MapReduce có thể giải quyết cả dữ liệu được cấu trúc và không có cấu trúc. Người dùng chỉ định một hàm bản đồ để xử lý một cặp khóa / giá trị để tạo ra một cặp cặp trung gian và một hàm giảm đi hợp nhất các cặp này.
-
Cơ sở dữ liệu lớn Một sự hấp dẫn quan trọng của Hadoop là nó có thể xử lý các loại dữ liệu khác nhau. Các hệ thống quản lý cơ sở dữ liệu song song đã có mặt trên thị trường trong nhiều thập kỷ. Họ có thể hỗ trợ thực thi song song vì hầu hết các bảng được phân chia qua các nút trong một cụm và họ có thể dịch các lệnh SQL thành một kế hoạch được chia ra giữa các nút trong cluster. Tuy nhiên, chúng chủ yếu là đối phó với dữ liệu có cấu trúc bởi vì rất khó để phù hợp với dữ liệu phi cấu trúc, tự do vào các cột và hàng trong một mô hình quan hệ. Hadoop đã bắt đầu một phong trào trong cái được gọi là NoSQL, có nghĩa là không chỉ SQL. Thuật ngữ này đề cập đến một bộ công nghệ khác với các hệ thống cơ sở dữ liệu quan hệ. Một điểm khác biệt chính là họ không sử dụng SQL. Chúng cũng được thiết kế cho các kho dữ liệu phân tán. NoSQL không có nghĩa là mọi người không nên sử dụng SQL. Thay vào đó, ý tưởng là, tùy thuộc vào vấn đề của bạn là gì, cơ sở dữ liệu quan hệ và cơ sở dữ liệu NoSQL có thể cùng tồn tại trong một tổ chức. Có rất nhiều ví dụ về các loại cơ sở dữ liệu này, bao gồm:
Apache Cassandra:
Một hệ thống quản lý dữ liệu phân tán nguồn mở được phát triển bởi Facebook. Nó không có yêu cầu cấu trúc nghiêm ngặt, vì vậy nó có thể xử lý tất cả các loại dữ liệu khác nhau. Các chuyên gia cho rằng nó xuất sắc trong việc xử lý giao dịch thời gian thực với khối lượng lớn. Các cơ sở dữ liệu mã nguồn mở khác bao gồm MongoDB, Apache CouchDB và Apache HBase.
Amazon Simple DB: Amazon so sánh cơ sở dữ liệu này với một bảng tính trong đó có các cột và hàng có các thuộc tính và các mục được lưu trữ trong mỗi. Tuy nhiên, không giống như bảng tính, mỗi ô có thể có nhiều giá trị, và mỗi mục có thể có các thuộc tính liên quan. Amazon sau đó tự động lập chỉ mục dữ liệu. Gần đây, Amazon đã công bố Amazon Dynamo DB như là một cách để mang lại dữ liệu lớn NoSQL cho đám mây. Google BigTable:
Giống lai này giống như một cái bàn lớn. Bởi vì các bảng có thể lớn, chúng được phân chia tại hàng ranh giới thành các bảng, có thể là hàng trăm megabyte. MapReduce thường được sử dụng để tạo và sửa đổi dữ liệu được lưu trữ trong BigTable.