Trang Chủ Tài chính Cá nhân Quản lý các tệp tin với các Hadoop File Commands - núm vú

Quản lý các tệp tin với các Hadoop File Commands - núm vú

Video: Hadoop là gì 2025

Video: Hadoop là gì 2025
Anonim

HDFS là một trong hai thành phần chính của khung công tác Hadoop; khác là mô hình tính toán được gọi là MapReduce. Hệ thống tệp phân phối là một hệ thống tập tin quản lý lưu trữ trên một nhóm các máy tính nối mạng.

HDFS lưu trữ dữ liệu trong khối , các đơn vị có kích thước mặc định là 64MB. Các tệp bạn muốn lưu trữ trong HDFS cần phải được chia thành các khối kích thước khối mà sau đó được lưu trữ độc lập trong toàn bộ cụm. Bạn có thể sử dụng lệnh dòng fsck để liệt kê các khối tạo nên mỗi tệp trong HDFS như sau:

% hadoop fsck / -files -blocks

Bởi vì Hadoop được viết bằng Java, tất cả các tương tác với HDFS được quản lý qua Java API. Tuy nhiên, lưu ý rằng bạn không cần phải là một guru Java để làm việc với các tệp trong HDFS. Một số giao diện Hadoop được xây dựng trên đầu trang của Java API hiện đang được sử dụng phổ biến (và ẩn Java), nhưng một trong những cách đơn giản nhất là giao diện dòng lệnh; sử dụng dòng lệnh để tương tác với HDFS trong các ví dụ được cung cấp.

Bạn truy cập vỏ hệ thống Hadoop bằng cách chạy một lệnh của hadoop. Tất cả các lệnh hadoop được gọi bởi tập lệnh bin / hadoop. (Để lấy lại mô tả của tất cả các lệnh hadoop, chạy tập lệnh hadoop mà không cần xác định bất kỳ đối số nào.) Lệnh hadoop có cú pháp

hadoop [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]

The - config confdir option ghi đè lên thư mục cấu hình mặc định ($ HADOOP_HOME / conf), vì vậy bạn có thể dễ dàng tùy chỉnh cấu hình môi trường Hadoop của bạn. Các tùy chọn chung chung và các tùy chọn lệnh là một tập hợp các tùy chọn phổ biến được hỗ trợ bởi một số lệnh.

Các lệnh hệ vỏ của hệ thống Hadoop (đối với các giao diện dòng lệnh) lấy các định danh tài nguyên thống nhất (URIs) làm đối số. A URI là một chuỗi ký tự được sử dụng để xác định tên hoặc tài nguyên web.

Chuỗi có thể bao gồm một tên lược đồ - một vòng loại cho tính chất của nguồn dữ liệu. Đối với HDFS, tên lược đồ là hdfs, và đối với hệ thống tệp cục bộ, tên lược đồ là tệp. Nếu bạn không chỉ định một tên đề án, mặc định là tên lược đồ được xác định trong tệp cấu hình. Một tập tin hoặc thư mục trong HDFS có thể được chỉ định theo cách đầy đủ, chẳng hạn như trong ví dụ này:

hdfs: // namenodehost / parent / child

Hoặc nó có thể đơn giản là / parent / child nếu các điểm tập tin cấu hình để hdfs: / / namenodehost.

Các lệnh hệ vỏ của Hadoop tương tự lệnh của Linux, có cú pháp tổng quát sau:

Người đọc với một số kinh nghiệm trước của Hadoop có thể hỏi, "Nhưng những gì về lệnh hadoop fs?"Lệnh fs bị phản đối trong loạt bản phát hành Hadoop 0. 2, nhưng nó vẫn hoạt động trong Hadoop 2. Thay vào đó, sử dụng các tệp tin ddfs hdfs. Như bạn mong đợi, bạn sử dụng lệnh mkdir để tạo một thư mục trong HDFS, giống như bạn làm trên Linux hoặc trên các hệ điều hành dựa trên Unix. Mặc dù HDFS có thư mục làm việc mặc định, / user / $ USER, nơi

$ USER

là tên đăng nhập của bạn, bạn cần tự tạo nó bằng cú pháp $ hadoop hdfs dfs -mkdir / user / login_user_name

Ví dụ: để tạo thư mục có tên là "joanna", chạy lệnh mkdir này: $ hadoop hdfs dfs -mkdir / user / joanna

Sử dụng lệnh Hadoop put để sao chép một tệp từ hệ thống tập tin địa phương của bạn để HDFS:

$ hadoop hdfs dfs -put

file_name

/ user / login_user_name Ví dụ, để sao chép một tập tin có tên dữ liệu. txt vào thư mục mới này, chạy lệnh put sau: $ hadoop hdfs dfs -put data. txt / user / joanna

Chạy lệnh ls để lấy danh sách file HDFS:

$ hadoop hdfs dfs -ls. Tìm thấy 2 mục Drwxr-xr-x - joanna supergroup 0 2013-06-30 12: 25 / người dùng / joanna-rw-r-r-- 1 joanna supergroup 118 2013-06-30 12: 15 / người dùng / joanna / dữ liệu. txt

Tệp liệt kê tệp tin bị hỏng như được mô tả trong danh sách này:

Cột 1 cho thấy

chế độ tệp

  • ("d" cho thư mục và "-" cho tệp bình thường, theo sau là các quyền). Ba kiểu cho phép - đọc (r), viết (w) và thực hiện (x) - giống như bạn tìm thấy trên các hệ thống dựa trên Linux và Unix. Quyền thực thi cho một tệp bị bỏ qua vì bạn không thể thực hiện một tệp trên HDFS. Các quyền được nhóm bởi chủ sở hữu, nhóm và công cộng (mọi người khác). Cột 2 cho thấy nhân tố nhân rộng cho các tệp. (Khái niệm sao chép không áp dụng cho thư mục.) Các khối tạo nên một tệp trong HDFS được sao chép để đảm bảo khả năng chịu lỗi. Hệ số nhân bản

  • , hoặc hoặc số bản sao được giữ cho một tệp tin cụ thể, có thể được cấu hình. Bạn có thể chỉ định nhân tố sao chép khi tệp được tạo ra hoặc sau đó, thông qua ứng dụng của bạn. Các cột 3 và 4 hiển thị tệp chủ sở hữu

  • và nhóm . Supergroup là tên của nhóm superusers, và superuser là người dùng có cùng đặc tính như quá trình NameNode. Nếu bạn bắt đầu NameNode, bây giờ bạn là superuser. Đây là một nhóm đặc biệt - người dùng thường xuyên sẽ có userids của họ thuộc một nhóm không có đặc điểm đặc biệt - một nhóm được đơn giản chỉ định bởi một quản trị viên Hadoop. Cột 5 cho thấy kích thước của tệp, theo byte, hoặc 0 nếu đó là một thư mục. Các cột 6 và 7 cho biết ngày và giờ của lần sửa đổi cuối cùng tương ứng.

  • Cột 8 cho thấy tên không đủ tiêu chuẩn (có nghĩa là tên lược đồ không được chỉ định) của tệp hoặc thư mục.

  • Sử dụng lệnh Hadoop get để sao chép một tệp tin từ HDFS vào hệ thống tệp tin cục bộ của bạn:

  • $ hadoop hdfs dfs -get

file_name

/ user / login_user_name Sử dụng Hadoop rm lệnh để xóa một tập tin hoặc một thư mục rỗng: $ hadoop hdfs dfs -rm

file_name

/ user / login_user_name Sử dụng hadoop hdfs dfs -help lệnh để được trợ giúp chi tiết cho mọi Tùy chọn. 

Quản lý các tệp tin với các Hadoop File Commands - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...