Trang Chủ Tài chính Cá nhân Nén dữ liệu trong Hadoop - núm vú

Nén dữ liệu trong Hadoop - núm vú

Video: Spark Bài 12: Cài đặt Spark Cluster 2025

Video: Spark Bài 12: Cài đặt Spark Cluster 2025
Anonim

Khối lượng dữ liệu khổng lồ là thực tế trong một triển khai Hadoop điển hình làm cho nén một sự cần thiết. Việc nén dữ liệu chắc chắn sẽ giúp bạn tiết kiệm được rất nhiều không gian lưu trữ và chắc chắn sẽ tăng tốc độ di chuyển dữ liệu đó trong toàn bộ cluster của bạn. Không có gì đáng ngạc nhiên, một số chương trình nén có sẵn, được gọi là codec, được đưa ra cho bạn để xem xét.

Trong triển khai Hadoop, bạn đang xử lý (có thể) với một số lượng lớn các nút nô lệ cá nhân, mỗi cái đều có một số ổ đĩa lớn. Không hiếm khi một nút nô lệ riêng lẻ có trên 45TB không gian lưu trữ thô có sẵn cho HDFS.

Trước tiên, một số thuật ngữ cơ bản: A

codec, là dạng rút gọn của máy nén o mpressor / dec , là công nghệ (phần mềm hoặc phần cứng, hoặc cả hai) để nén và giải nén dữ liệu; đó là việc thực hiện một thuật giải nén / giải mã. Độ nén có thể nén

là một khái niệm quan trọng trong ngữ cảnh Hadoop. Cách Hadoop hoạt động là các tệp tin được chia ra nếu chúng lớn hơn cài đặt kích thước khối của tệp và chia tách tệp riêng lẻ có thể được xử lý song song bằng các trình ánh xạ khác nhau.

Khả năng nén nén chỉ là một yếu tố cho các tập tin văn bản. Đối với các tệp nhị phân, codec nén Hadoop nén dữ liệu trong một bộ chứa mã nhị phân, tùy thuộc vào loại tệp (ví dụ: tệp Trình tự dạng, Avro hoặc ProtocolBuffer).

Phát biểu về hiệu suất, có chi phí (về xử lý tài nguyên và thời gian) liên quan đến nén dữ liệu đang được ghi vào cụm Hadoop của bạn.

Với máy tính, cũng như cuộc sống, không có gì là miễn phí. Khi nén dữ liệu, bạn đang trao đổi các chu trình xử lý cho không gian đĩa. Và khi dữ liệu đó đang được đọc, có một chi phí liên quan đến giải nén dữ liệu là tốt. Hãy chắc chắn cân nhắc những ưu điểm của việc tiết kiệm lưu trữ so với hiệu suất bổ sung trên không.

Nếu tệp tin đầu vào cho một công việc MapReduce chứa dữ liệu nén, thời gian cần để đọc dữ liệu đó từ HDFS sẽ giảm và hiệu năng công việc được tăng cường. Dữ liệu đầu vào được giải nén tự động khi nó được đọc bởi MapReduce.

Phần mở rộng tên tệp đầu vào xác định codec được hỗ trợ được sử dụng để tự động giải nén dữ liệu. Ví dụ, a. phần mở rộng gz xác định tệp là tệp gzip nén.

Cũng có thể hữu ích để nén đầu ra trung gian của giai đoạn bản đồ trong dòng xử lý MapReduce. Bởi vì đầu ra chức năng của bản đồ được ghi vào đĩa và được vận chuyển qua mạng tới các tác vụ giảm, nén dữ liệu đầu ra có thể dẫn đến cải tiến hiệu suất đáng kể.

Và nếu bạn muốn lưu trữ sản lượng MapReduce làm tệp lịch sử để sử dụng trong tương lai, nén dữ liệu này có thể làm giảm đáng kể lượng không gian cần thiết trong HDFS.

Có rất nhiều thuật toán và công cụ nén khác nhau, và đặc điểm và điểm mạnh của chúng khác nhau. Thu nhập thương mại phổ biến nhất là giữa các tỷ số nén (mức độ nén tập tin) và tốc độ nén / giải nén. Khuôn khổ Hadoop hỗ trợ một số codec. Khung này minh bạch nén và giải nén hầu hết các định dạng tập tin đầu vào và đầu ra.

Danh sách sau đây xác định một số codec phổ biến được hỗ trợ bởi khung Hadoop. Hãy chắc chắn chọn codec phù hợp nhất với nhu cầu của trường hợp sử dụng cụ thể của bạn (ví dụ với khối lượng công việc mà tốc độ xử lý là quan trọng, chọn codec có tốc độ giải nén cao):

Gzip:

tiện ích đã được thông qua bởi dự án GNU, Gzip (viết tắt của GNU zip) tạo các tệp nén có tệp. gz mở rộng. Bạn có thể sử dụng lệnh gunzip để giải nén các tệp đã được tạo ra bởi một số tiện ích nén, bao gồm Gzip.

Bzip2:

  • Từ quan điểm sử dụng, Bzip2 và Gzip tương tự. Bzip2 tạo ra một tỷ lệ nén tốt hơn Gzip, nhưng nó chậm hơn nhiều. Trong thực tế, trong tất cả các codec nén có sẵn trong Hadoop, Bzip2 là do chậm nhất. Nếu bạn đang thiết lập một kho lưu trữ mà bạn hiếm khi cần phải truy vấn và không gian có phí bảo hiểm cao thì có lẽ Bzip2 sẽ đáng để xem xét.

  • Snappy: Codec Snappy từ Google cung cấp tỉ lệ nén vừa phải, nhưng tốc độ nén và giải nén nhanh. (Trong thực tế, nó có tốc độ giải nén nhanh nhất, làm cho nó rất mong muốn cho các bộ dữ liệu có thể được truy vấn thường xuyên.)

    Codec Snappy được tích hợp vào Hadoop Common, một tập hợp các tiện ích phổ biến hỗ trợ các tiểu dự án khác của Hadoop. Bạn có thể sử dụng Snappy như một add-on cho các phiên bản mới hơn của Hadoop mà vẫn chưa hỗ trợ codec Snappy.

  • LZO: Tương tự như Snappy, LZO (viết tắt của Lempel-Ziv-Oberhumer, bộ ba của các nhà khoa học máy tính đã đưa ra thuật toán) cung cấp tỉ lệ nén khiêm tốn nhưng tốc độ nén và giải nén nhanh. LZO được cấp phép theo Giấy phép Công cộng GNU (GPL).

    LZO hỗ trợ khả năng nén có thể chèn được, cho phép xử lý song song các tập tin nén được chia nhỏ bởi các công việc MapReduce của bạn. LZO cần phải tạo ra một chỉ mục khi nén một tệp tin, bởi vì với các khối nén có độ dài biến, một chỉ mục được yêu cầu phải nói với người lập bản đồ nơi nó có thể chia tệp nén một cách an toàn. LZO chỉ thực sự là mong muốn nếu bạn cần phải nén các tập tin văn bản.

  • Bộ mã hoá Hadoop Codec Codec

    Tệp mở rộng

Có thể tách được?

Nén dữ liệu trong Hadoop - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...

Mức độ nén Tốc độ nén Gzip . gz Không
Trung bình Trung bình Bzip2 . bz2
Cao Chậm Snappy . nhanh Không
Trung bình Nhanh LZO . lso Không, trừ khi được lập chỉ mục
Trung bình Nhanh Tất cả các thuật toán nén phải tạo ra sự cân bằng giữa mức độ nén và tốc độ nén mà chúng có thể đạt được. Các codec được liệt kê cung cấp cho bạn một số kiểm soát những gì cân bằng giữa tỷ lệ nén và tốc độ nên được ở thời gian nén. Ví dụ: Gzip cho phép bạn điều chỉnh tốc độ nén bằng cách chỉ định số nguyên âm (hoặc từ khóa), trong đó -1 cho biết mức nén nhanh nhất, và -9 cho biết mức nén thấp nhất. Mức nén mặc định là -6.