Video: Lưu trữ đám mây - Cloud Storage S3 là gì? (Eng-sub) | IT Share - VNETWORK 2025
Đối với hầu hết lịch sử của Hadoop, MapReduce là trò chơi duy nhất trong thị trấn khi xử lý dữ liệu. Tính sẵn có của MapReduce là lý do cho sự thành công của Hadoop và đồng thời là yếu tố chính trong việc hạn chế tiếp nhận.
MapReduce cho phép các lập trình lành nghề viết các ứng dụng phân tán mà không phải lo lắng về cơ sở hạ tầng tính toán phân tán bên dưới. Đây là một việc rất lớn: Hadoop và framework MapReduce xử lý tất cả các loại phức tạp mà các nhà phát triển ứng dụng không cần phải xử lý.
Mặt khác của đồng xu ở đây là mặc dù MapReduce che giấu một lượng lớn phức tạp, bạn không thể quên được nó là gì: một giao diện cho lập trình song song. Đây là một kỹ năng tiên tiến - và là một rào cản cho việc nhận con nuôi rộng rãi hơn. Có rất ít người lập trình MapReduce, và không phải ai cũng có kỹ năng để làm chủ nó.
Tóm lại, điều này có nghĩa là MapReduce bây giờ chỉ là một trong nhiều khuôn khổ ứng dụng mà bạn có thể sử dụng để phát triển và chạy các ứng dụng trên Hadoop. Mặc dù nó chắc chắn có thể chạy các ứng dụng sử dụng các khuôn khổ khác trên Hadoop, điều đó không có nghĩa là chúng ta có thể bắt đầu quên MapReduce.
Không có tranh chấp: MapReduce là khuôn khổ trưởng thành nhất của Hadoop để xử lý dữ liệu. Ngoài ra, một số lượng đáng kể của mã MapReduce hiện đang được sử dụng mà không có khả năng để đi bất cứ nơi nào sớm. Câu chuyện dài ngắn: MapReduce là một phần quan trọng của câu chuyện Hadoop.
Các dự án Apache Hive và Apache Pig rất phổ biến vì chúng là các điểm vào dễ dàng hơn cho việc xử lý dữ liệu trên Hadoop. Đối với nhiều vấn đề, đặc biệt là các loại mà bạn có thể giải quyết với SQL, Hive và Pig là những công cụ xuất sắc.Nhưng đối với một công việc rộng lớn hơn như xử lý thống kê hoặc trích xuất văn bản, và đặc biệt là để xử lý dữ liệu phi cấu trúc, bạn cần phải sử dụng MapReduce.