Chạy các ứng dụng trước Hadoop 2 - núm vú
Bởi vì nhiều triển khai Hadoop hiện tại vẫn chưa sử dụng Nhà thương thuyết tài nguyên YARN), hãy xem cách Hadoop quản lý quá trình xử lý dữ liệu của nó trước những ngày của Hadoop 2. Tập trung vào vai trò mà các conemon của JobTracker và TaskMaster trong khi xử lý MapReduce. Toàn bộ hệ thống phân phối ...
Nguy cơ Mô hình hoá với mô hình hóa Hadoop - núm vú
Là một trường hợp sử dụng chủ yếu khác được kích hoạt bởi Hadoop. Bạn sẽ thấy rằng nó phù hợp với trường hợp sử dụng của phát hiện gian lận trong đó nó là một kỷ luật dựa trên mô hình. Bạn càng có nhiều dữ liệu và bạn càng "kết nối các dấu chấm" thì kết quả của bạn càng thường xuyên sẽ cho ra những mô hình dự báo rủi ro tốt hơn. Từ toàn bộ ...
Các nút chủ trong Hadoop Clusters - núm vú
Các nút chủ trong các cụm Hadoop được phân phối chủ trì các dịch vụ quản lý lưu trữ và xử lý khác nhau, được mô tả trong danh sách này, cho toàn bộ cụm Hadoop. Dự phòng là rất quan trọng để tránh những điểm thất bại duy nhất, do đó bạn thấy hai công tắc và ba nút chủ. NameNode: Quản lý lưu trữ HDFS. Để đảm bảo tính sẵn sàng cao, bạn có cả hai hoạt động ...
Chạy các mô hình thống kê trong các bản đồ của Hadoop - những con voi
Việc chuyển đổi mô hình thống kê để chạy song song là một nhiệm vụ đầy thử thách. Trong mô hình truyền thống cho lập trình song song, truy cập bộ nhớ được quy định thông qua việc sử dụng các tiểu trình-quy trình phụ tạo ra bởi hệ điều hành để phân phối một bộ nhớ chia sẻ duy nhất qua nhiều bộ vi xử lý. Các yếu tố như điều kiện chủng tộc giữa các chủ đề cạnh tranh - khi hai hoặc <
Lên kế hoạch và điều phối luồng công việc của Oozie trong Hadoop - núm vú
Sau khi bạn đã tạo ra một bộ quy trình công việc, sử dụng một loạt các công việc của điều phối viên Oozie để lên lịch khi chúng được thực hiện. Bạn có hai lựa chọn lập kế hoạch để thực hiện: một thời gian cụ thể và tính sẵn sàng của dữ liệu kết hợp với một thời gian nhất định. Lập kế hoạch dựa trên thời gian cho công việc điều phối viên Oozie Các công việc điều phối Oozie có thể được lên kế hoạch để ...
Kịch bản với Pig Latin trong Hadoop - núm vú
Hadoop là một hệ sinh thái phong phú và nhanh chóng phát triển với một bộ mới đang phát triển các ứng dụng. Thay vì cố gắng theo kịp mọi yêu cầu về khả năng mới, Pig được thiết kế để mở rộng thông qua các chức năng do người dùng định nghĩa, còn gọi là UDF. UDF có thể được viết bằng một số ngôn ngữ lập trình, bao gồm Java, Python và ...
Nô lệ và Đĩa Thất bại trong HDFS - những núm vú
Như tử vong và thuế, thất bại của đĩa (và có đủ thời gian , thậm chí thất bại của nút hoặc không gian) là không thể tránh khỏi trong Hệ thống tệp phân phối Hadoop (HDFS). Trong ví dụ được hiển thị, ngay cả khi một rack bị hỏng, cluster có thể tiếp tục hoạt động. Hiệu suất sẽ bị ảnh hưởng bởi vì bạn đã mất một nửa tài nguyên xử lý, nhưng hệ thống vẫn trực tuyến ...
Sizing của bạn Hadoop Cluster - núm vú
Sizing bất kỳ hệ thống xử lý dữ liệu là khoa học như nhiều như nó là một nghệ thuật. Với Hadoop, bạn sẽ xem xét thông tin tương tự như với cơ sở dữ liệu quan hệ. Điều đáng lưu ý nhất là bạn cần biết số lượng dữ liệu bạn có, ước tính tốc độ tăng trưởng dự kiến và thiết lập một chính sách lưu trữ (bao lâu ...
Thiết lập môi trường Hadoop với Apache Bigtop - núm vú
Nếu bạn cảm thấy thoải mái khi làm việc với máy ảo và Linux , cảm thấy tự do để cài đặt Bigtop trên một máy ảo khác với những gì được khuyến khích. Nếu bạn thực sự đậm và có phần cứng, hãy tiếp tục và thử cài đặt Bigtop trên một nhóm máy ở chế độ phân phối đầy đủ! Bước 1: Tải xuống VM Hadoop chạy trên tất cả Linux phổ biến
SQL Truy cập và Apache Hive - núm vú
Apache Hive là giao diện truy vấn dữ liệu phổ biến nhất trong cộng đồng Hadoop. Ban đầu, mục tiêu thiết kế cho Hive không phải là tính tương thích SQL đầy đủ và hiệu suất cao, nhưng cung cấp một giao diện dễ hiểu và quen thuộc đối với các nhà phát triển cần phải đưa ra các truy vấn theo lô đối với Hadoop. Cách tiếp cận này không còn hiệu quả nữa, vì vậy ...
Nô lệ Nô lệ trong Hadoop Clusters - núm vú
Trong vũ trụ Hadoop, các nút nô lệ là nơi lưu dữ liệu Hadoop và nơi dữ liệu chế biến diễn ra. Các dịch vụ sau đây cho phép các nút nô lệ lưu trữ và xử lý dữ liệu: NodeManager: Tọa độ các nguồn lực cho một nút nô lệ cá nhân và báo cáo lại cho Resource Manager. ApplicationMaster: Theo dõi tiến trình của tất cả các nhiệm vụ đang chạy trên
Các nút Nô lệ trong Haloop Distributed File System (HDFS)
Trong một cụm Hadoop , mỗi nút dữ liệu (còn gọi là nút nô lệ) chạy một quá trình nền tên là DataNode. Quá trình nền (còn được gọi là daemon) theo dõi các lát dữ liệu mà hệ thống lưu trữ trên máy tính. Nó thường xuyên nói chuyện với máy chủ chính cho HDFS (gọi là NameNode) đến ...
Mức độ quan trọng của sQL đối với Hadoop - núm vú
Có những lý do thuyết phục rằng SQL đã chứng tỏ khả năng phục hồi. Ngành công nghệ thông tin đã có 40 năm kinh nghiệm với SQL, vì nó được IBM phát triển lần đầu tiên vào đầu những năm 1970. Với sự gia tăng áp dụng các cơ sở dữ liệu quan hệ trong những năm 1980, SQL đã trở thành một kỹ năng tiêu chuẩn cho hầu hết các IT ...
Sqoop 2. 0 Xem trước
Với tất cả thành công xung quanh Sqoop 1. x sau khi tốt nghiệp từ vườn ươm Apache , Sqoop có đà! Vì vậy, như bạn có thể mong đợi, Sqoop 2. 0 là trong các công trình với các tính năng mới thú vị trên đường đi. Bạn có thể thấy rằng Sqoop 1. 99. 3 được tải về, hoàn chỉnh với tài liệu. Bạn có thể tự hỏi có bao nhiêu 1.99. x bản phát hành sẽ được ...
Các Kết nối và Trình điều khiển Khớp nối - Trình điều khiển
Các bộ ghép nối sqoop thường đi kèm với trình điều khiển JDBC. Sqoop không bó các trình điều khiển JDBC bởi vì chúng thường là độc quyền và được cấp phép bởi nhà cung cấp RDBMS hoặc DW. Vì vậy, có ba kịch bản có thể cho Sqoop, tùy thuộc vào loại hệ thống quản lý dữ liệu (RDBMS, DW, hoặc NoSQL) bạn đang cố gắng ...
Sqoop Xuất khẩu Sử dụng Cập nhật và Cập nhật Chèn Phương pháp - núm vú
Với chế độ chèn, các bản ghi xuất bởi Sqoop được nối vào cuối bảng mục tiêu. Sqoop cũng cung cấp một chế độ cập nhật mà bạn có thể sử dụng bằng cách cung cấp đối số dòng lệnh -update-key . Tác vụ này gây ra Sqoop để tạo ra câu lệnh SQL UPDATE để chạy trên RDBMS hoặc kho dữ liệu. Giả sử bạn ...
SQuirreL như Hive Client với Trình điều khiển JDBC - núm vú
SQuirreL SQL là một công cụ mã nguồn mở hoạt động như một khách hàng của Hive. Bạn có thể tải xuống ứng dụng SQL phổ cập này từ trang web SourceForge. Nó cung cấp một giao diện người dùng cho Hive và đơn giản hóa các nhiệm vụ truy vấn các bảng lớn và phân tích dữ liệu với Apache Hive. Hình minh họa cách kiến trúc Hive sẽ hoạt động khi ...
Phân tích tình cảm xã hội với Hadoop - núm vú
Phân tích tình cảm xã hội dễ dàng bị overhyped nhất trong việc sử dụng Hadoop, không có gì đáng ngạc nhiên, cho rằng thế giới liên tục được kết nối và dân số biểu hiện hiện tại. Trường hợp sử dụng này thúc đẩy nội dung từ các diễn đàn, blog và các nguồn thông tin xã hội khác để phát triển ý thức về những gì mọi người đang làm (ví dụ như các sự kiện trong cuộc sống) ...
Hoc Apache Hadoop Ecosystem
Hadoop nhiều hơn MapReduce và HDFS (Hadoop Distributed File System): Đó cũng là một gia đình các dự án liên quan (một hệ sinh thái, thực sự) cho máy tính phân tán và xử lý dữ liệu quy mô lớn. Hầu hết (nhưng không phải tất cả) các dự án này được tổ chức bởi Tổ chức Phần mềm Apache. Bảng liệt kê một số dự án này. Các dự án liên quan đến Hadoop Tên dự án Mô tả ...
Hadoop dfsadmin Command Options - núm vú
Các công cụ dfsadmin là một bộ công cụ cụ thể được thiết kế để giúp bạn gỡ rễ thông tin về hệ thống tệp phân phối Hadoop của bạn (HDFS). Là một phần thưởng thêm, bạn có thể sử dụng chúng để thực hiện một số thao tác quản trị trên HDFS. Tùy chọn Nó làm gì - Báo cáo thông tin về hệ thống tập tin cơ bản và số liệu thống kê. -safemode nhập | ...
Lấy HBase để chạy thử - núm vú
Ở đâY, bạn tìm hiểu cách tải và triển khai HBase ở chế độ độc lập . Thật ngạc nhiên đơn giản để cài đặt HBase và bắt đầu sử dụng công nghệ. Chỉ cần ghi nhớ rằng HBase thường được triển khai trên một nhóm các máy chủ hàng hóa, mặc dù bạn cũng có thể dễ dàng triển khai HBase trong một cấu hình độc lập để học tập hoặc trình diễn ...
Tùy chọn Chuẩn dữ liệu Hybrid trong Hadoop - núm vú
Ngoài việc phải lưu trữ lượng dữ liệu lạnh lớn hơn, một áp lực mà bạn thấy trong các kho dữ liệu truyền thống là việc gia tăng số lượng các tài nguyên đang được sử dụng cho việc chuyển đổi (ELT). Ý tưởng đằng sau sử dụng Hadoop như một công cụ tiền xử lý để xử lý chuyển đổi dữ liệu có nghĩa là chu kỳ chế biến quý giá được giải phóng, cho phép ...
Kiến trúc của Hive Apache - núm vú
Khi bạn kiểm tra các thành phần của Apache Hive được hiển thị, bạn có thể xem ở cuối rằng Hive nằm trên hệ thống Hatalogop Distributed File System (HDFS) và MapReduce. Trong trường hợp của MapReduce, các hình ảnh thể hiện cả Hadoop 1 và Hadoop 2 thành phần. Với Hadoop 1, truy vấn Hive được chuyển đổi sang mã MapReduce ...
Hingop-Based Landing Zone - núm vú
Khi bạn cố gắng phân biệt môi trường phân tích có thể trông như thế nào tương lai, bạn vấp ngã qua mô hình của vùng đích dựa trên Hadoop dựa trên thời gian và thời gian một lần nữa. Trên thực tế, nó không còn là một cuộc thảo luận theo hướng tương lai bởi vì đích đến đã trở thành cách mà các công ty hướng tới tương lai đang cố gắng tiết kiệm công nghệ thông tin ...
Hạn chế Lấy mẫu ở Hadoop - núm vú
Phân tích thống kê không phải là một đứa trẻ mới vào khối, và nó chắc chắn là tin cũ rằng nó phụ thuộc vào xử lý số lượng lớn dữ liệu để có được cái nhìn sâu sắc mới. Tuy nhiên, số lượng dữ liệu được truyền thống xử lý bởi các hệ thống này nằm trong khoảng từ 10 đến 100 (hoặc hàng trăm) gigabyte - ...
Các phím để thành công trong việc áp dụng Hadoop - núm vú
Trong bất kỳ dự án Hadoop nào nghiêm trọng, bạn nên bắt đầu bằng việc hợp tác CNTT với doanh nghiệp các nhà lãnh đạo từ các phó chủ tịch xuống để giúp giải quyết các điểm đau của doanh nghiệp của bạn - những vấn đề (thực tế hoặc cảm nhận) nảy sinh trong tâm trí mọi người. Các doanh nghiệp muốn thấy giá trị từ đầu tư CNTT của họ, và với Hadoop nó có thể đến trong một loạt ...
Khách hàng Hive CLI - đầu gối
Khách hàng Hive đầu tiên là giao diện dòng lệnh Hive (CLI). Để nắm vững các điểm tốt hơn của khách hàng CLI Hive, có thể giúp xem xét kiến trúc Hive (hơi bận rộn). Trong hình thứ hai, kiến trúc được tinh giản để chỉ tập trung vào các thành phần được yêu cầu khi chạy CLI. Đây là các thành phần ...
Tầm quan trọng của MapReduce trong Hadoop - núm vú
Phần lớn lịch sử của Hadoop, MapReduce là trò chơi duy nhất trong thị trấn khi nói đến xử lý dữ liệu. Tính sẵn có của MapReduce là lý do cho sự thành công của Hadoop và đồng thời là yếu tố chính trong việc hạn chế tiếp nhận. MapReduce cho phép các lập trình viên có tay nghề viết các ứng dụng phân tán mà không phải lo lắng về ...
Các thuộc tính của HBase-Bê tông
HBase (Hadoop Database) là một ứng dụng Java của BigTable của Google. Google định nghĩa BigTable là một bản đồ được sắp xếp theo nhiều chiều, thưa thớt, phân tán, liên tục. "Đó là một định nghĩa khá súc tích, nhưng bạn cũng đồng ý rằng đó là một chút về mặt phức tạp. Để phá vỡ sự phức tạp của BigTable một chút, sau đây là một cuộc thảo luận về từng thuộc tính. Hbase là thưa thớt ...
Sự xuất xứ và Thiết kế của Hadoop - núm vú
Sao Hadoop? Trong cốt lõi của nó, Hadoop là một khuôn khổ để lưu trữ dữ liệu về các nhóm lớn các phần cứng máy tính hàng ngày - giá cả phải chăng và dễ dàng có sẵn - và chạy các ứng dụng chống lại dữ liệu đó. Một nhóm là một nhóm các máy tính kết nối với nhau (được gọi là ...
Kiến trúc heo trong Hadoop - núm vú
"đơN giản" thường có nghĩa là "thanh lịch" khi nói đến các bản vẽ kiến trúc thung lũng Silicon mới mà bạn đã lên kế hoạch khi nào tiền bắt đầu lăn xuống sau khi bạn triển khai Hadoop. Nguyên tắc tương tự áp dụng cho kiến trúc phần mềm. Con heo được tạo thành từ hai (thành phần 'em, hai): Bản thân ngôn ngữ: Là bằng chứng cho thấy các lập trình viên ...
Các nguyên tắc thiết kế trang thiết bị - núm vú
Khi nói đến Sqoop, một bức tranh thường trị giá một nghìn chữ, do đó kiểm tra các con số, trong đó cung cấp cho bạn một cái nhìn bird's mắt của kiến trúc Sqoop. Ý tưởng đằng sau Sqoop là nó thúc đẩy nhiệm vụ bản đồ - nhiệm vụ thực hiện nhập khẩu song song và xuất khẩu các bảng cơ sở dữ liệu quan hệ - ngay từ bên trong ...
Giai đoạn Giảm của Sơ đồ Quy trình Ứng dụng MapReduce của Hadoop - núm vú
Giai đoạn Giảm sẽ xử lý các khoá và danh sách cá nhân của họ của các giá trị sao cho những gì thường được trả về ứng dụng khách hàng là một tập các cặp khóa / giá trị. Đây là thổi qua cho đến nay: Một bộ dữ liệu lớn đã được chia thành các phần nhỏ hơn, được gọi là phân chia đầu vào, và các trường hợp cá nhân của các tác vụ lập bản đồ đã xử lý mỗi ...
Trình duyệt Web như khách hàng Hive - núm vú
Bằng cách sử dụng Hive CLI chỉ cần một lệnh để bắt đầu trình bao Hive, nhưng khi bạn muốn truy cập vào Hive bằng cách sử dụng một trình duyệt web, trước tiên bạn cần phải bắt đầu Server HWI và sau đó trỏ trình duyệt của bạn tới cổng mà máy chủ đang lắng nghe. Hình minh hoạ dưới đây cho thấy loại máy khách Hive này ...
Giai đoạn Bản đồ của Ứng dụng MapReduce của Hadoop - núm vú
Một ứng dụng MapReduce xử lý dữ liệu trong các đầu vào phân chia một bản ghi-by-ghi lại cơ sở và mỗi bản ghi được hiểu bởi MapReduce là một cặp khóa / giá trị. Sau khi đã tính toán phân chia đầu vào, các tác vụ lập bản đồ có thể bắt đầu xử lý chúng - tức là ngay sau khi cơ sở lập lịch trình của Resource Manager phân bổ cho họ các tài nguyên xử lý của chúng. ...
Kiến trúc sợi trong lớp vỏ nệm Hadoop
, đốI với những người vừa đến bên cụ thể này, là viết tắt của Yet Another Resource Negotiator, một công cụ cho phép các khuôn khổ xử lý dữ liệu khác chạy trên Hadoop. Vinh quang của YARN là nó trình bày Hadoop với một giải pháp tao nhã cho một số thách thức lâu đời. YARN có nghĩa là cung cấp hiệu quả hơn và ...
SQL truy cập thực sự có nghĩa là gì - đầu
Một số công ty đang đầu tư rất nhiều cho các dự án mã nguồn mở và giải pháp độc quyền SQL truy cập dữ liệu Hadoop. Khi bạn nghe thuật ngữ truy cập SQL, bạn nên biết rằng bạn đang dựa vào một vài giả định cơ bản: Tiêu chuẩn ngôn ngữ: Tiêu chuẩn quan trọng nhất, tất nhiên, đòi hỏi ngôn ngữ riêng của mình. Nhiều giải pháp "giống như SQL" tồn tại, ...
ỨNg dụng của yARN trong Hadoop - núm vú
Không giống như các thành phần YARN (Còn Một Tài nguyên khác), không có thành phần nào trong Hadoop 1 bản đồ trực tiếp đến ứng dụng Master. Về bản chất, đây là công việc mà JobTracker đã làm cho mọi ứng dụng, nhưng việc thực hiện hoàn toàn khác. Mỗi ứng dụng chạy trên cụm Hadoop đều có một ví dụ riêng dành riêng cho Application Master, thực sự chạy trong ...
Giai đoạn ngẫu nhiên của ứng dụng MapReduce của Hadoop - núm vú
Sau giai đoạn Bản đồ và trước khi bắt đầu Giảm pha là một quá trình giao nhận, được gọi là xáo trộn và sắp xếp. Ở đây, dữ liệu từ các tác vụ lập bản đồ được chuẩn bị và chuyển đến các nút mà các tác vụ giảm tốc sẽ được chạy. Khi nhiệm vụ lập bản đồ hoàn thành, kết quả được sắp xếp theo trọng số, phân vùng nếu ...