Các yếu tố hình thức triển khai thay thế cho Hadoop
Mặc dù Hadoop hoạt động tốt nhất khi nó được cài đặt trên máy tính vật lý, chế biến có truy cập trực tiếp vào lưu trữ dành riêng và mạng, Hadoop có các triển khai thay thế. Và mặc dù chúng kém hiệu quả hơn so với phần cứng chuyên dụng, trong một số trường hợp các lựa chọn thay thế là những lựa chọn đáng giá. Các máy chủ Ảo hóa Xu hướng chính trong các trung tâm CNTT trong thập kỷ qua ...
ACID so với các cửa hàng dữ liệu BASE - núm vú
Một dấu hiệu của các hệ thống cơ sở dữ liệu quan hệ là cái gì đó được gọi là tuân thủ ACID. Như bạn có thể đoán ra, ACID là một từ viết tắt - các chữ cái riêng lẻ, có nghĩa là để mô tả một đặc tính của các giao dịch cơ sở dữ liệu cá nhân, có thể được mở rộng như mô tả trong danh sách này: Nguyên tử: Các giao dịch cơ sở dữ liệu phải hoàn toàn thành công hoặc hoàn toàn thất bại. Một phần thành công là ...
10 Hadoop Tài nguyên Đạt được một Bookmark - núm vú
Sau mười nguồn lực tuyệt vời Hadoop xứng đáng đánh dấu trong trình duyệt của bạn. Những tài nguyên này giúp bạn tạo ra một kế hoạch học tập suốt đời cho Hadoop. Hệ thần kinh trung ương: Apache. org Tổ chức Phần mềm Apache (ASF) là cộng đồng trung tâm cho các dự án phần mềm mã nguồn mở. Không chỉ bất kỳ dự án nào có thể là một dự án của Apache ...
Dữ liệu Chuyển đổi trong Hadoop - núm vú
Ý Tưởng về động cơ ETL lấy cảm hứng từ Hadoop đã thu được rất nhiều lực kéo trong những năm gần đây. Sau cùng, Hadoop là một nền lưu trữ và xử lý dữ liệu linh hoạt có thể hỗ trợ số lượng lớn dữ liệu và hoạt động trên dữ liệu đó. Đồng thời, nó là lỗi khoan dung, và nó cung cấp cơ hội cho vốn và chi phí phần mềm ...
Khối dữ liệu trong Hệ thống tệp phân phối Hadoop (HDFS) - núm vú
Khi bạn lưu trữ tập tin trong HDFS, hệ thống sẽ chia nhỏ nó thành một tập hợp các khối riêng biệt và chứa các khối này trong các nút nô lệ khác nhau trong cụm Hadoop. Đây là một điều hoàn toàn bình thường để làm, vì tất cả các hệ thống tập tin chia các tệp xuống thành các khối trước khi lưu trữ chúng vào đĩa. HDFS không có ...
Data Warehouse Hiện đại hóa với Hadoop - núm vú
Các kho dữ liệu hiện đang bị căng thẳng, cố gắng để đối phó với nhu cầu ngày càng tăng về hạn hán của họ tài nguyên. Hadoop có thể cung cấp cứu trợ đáng kể trong tình huống kho dữ liệu này. Sự gia tăng nhanh chóng số lượng dữ liệu được tạo ra trên thế giới cũng ảnh hưởng đến kho dữ liệu vì số lượng dữ liệu mà họ quản lý đang tăng lên - một phần là do ...
Dữ liệu Phát hiện và Sandboxes trong Hadoop - núm vú
Phát hiện dữ liệu đang trở thành hoạt động ngày càng quan trọng đối với các tổ chức dựa vào dữ liệu là một sự khác biệt. Ngày nay, mô tả hầu hết các doanh nghiệp, vì khả năng nhìn thấy xu hướng và trích xuất ý nghĩa từ các bộ dữ liệu có sẵn áp dụng cho hầu hết các ngành công nghiệp. Điều này đòi hỏi phải có hai thành phần quan trọng: các nhà phân tích với sự sáng tạo để suy nghĩ ...
So sánh phân phối Hadoop - núm vú
Bạn sẽ thấy rằng hệ sinh thái Hadoop có nhiều thành phần, tất cả đều tồn tại như của riêng họ Dự án Apache. Vì Hadoop đã phát triển đáng kể và phải đối mặt với một số thay đổi quan trọng hơn, các phiên bản khác nhau của các thành phần cộng đồng nguồn mở này có thể không tương thích hoàn toàn với các thành phần khác. Điều này đặt ra khó khăn đáng kể cho những người đang tìm kiếm để có được ...
Các yếu tố làm tăng quy mô phân tích thống kê trong các Hadoop - núm vú
Lý do người dân lấy mẫu dữ liệu trước khi chạy phân tích thống kê trong Hadoop là loại phân tích này thường đòi hỏi nguồn tài nguyên máy tính đáng kể. Điều này không đơn giản chỉ là về khối lượng dữ liệu: có năm yếu tố chính ảnh hưởng đến quy mô phân tích thống kê: Điều này rất dễ, nhưng chúng ta phải đề cập đến nó: lượng dữ liệu trên ...
Nén dữ liệu trong Hadoop - núm vú
Khối lượng dữ liệu khổng lồ là thực tế trong triển khai Hadoop điển hình làm cho nén trở nên cần thiết. Việc nén dữ liệu chắc chắn sẽ giúp bạn tiết kiệm được rất nhiều không gian lưu trữ và chắc chắn sẽ tăng tốc độ di chuyển dữ liệu đó trong toàn bộ cụm của bạn. Không có gì đáng ngạc nhiên, một số chương trình nén có sẵn, được gọi là codecs, được đưa ra cho ...
Google Dremel và Hadoop - những người có đầu
ĐốI với hầu hết mọi người, thuật ngữ Dremel mang lại cho bạn một tiện ích tốc độ cao, công cụ mô men xoắn hoạt động tốt cho nhiều công việc xung quanh nhà. Nhưng bạn có biết rằng Google đã tạo ra một Dremel? Thay vì tạo ra một công cụ cơ khí cầm tay khác, Google đã chọn một công cụ phần mềm nhanh để phân tích tương tác dữ liệu lớn. ...
Các nút cạnh trong Hadoop Clusters - núm vú
Nút cạnh là giao diện giữa cụm Hadoop và mạng bên ngoài. Vì lý do này, chúng đôi khi được gọi là các nút cổng. Thông thường, các nút cạnh được sử dụng để chạy ứng dụng khách và các công cụ quản lý cụm. Chúng cũng thường được sử dụng làm vùng dàn cho dữ liệu được chuyển vào cụm Hadoop. Như vậy, Oozie, ...
Gian lận Phát hiện với Hadoop - núm vú
Khối lượng tuyệt đối của các giao dịch làm cho khó có thể phát hiện gian lận vì khối lượng dữ liệu, Trớ trêu thay, thách thức này cũng có thể giúp tạo ra các mô hình dự đoán gian lận tốt hơn - một khu vực mà Hadoop tỏa sáng. Trong thế giới kết nối ngày nay, khối lượng tuyệt đối và sự phức tạp của giao dịch làm cho việc tìm kiếm gian lận trở nên khó khăn hơn bao giờ hết. Những gì đã được sử dụng ...
Đồ Hoạ Trong Hadoop - núm vú
Một trong những công nghệ NoSQL đang nổi lên thú vị liên quan đến việc lưu trữ và xử lý dữ liệu đồ thị. Bạn có thể nghĩ rằng tuyên bố này là tin cũ vì các nhà khoa học máy tính đã được phát triển các kỹ thuật phân tích đồ thị trong nhiều thập kỷ. Những gì bạn nói có thể là đúng, nhưng có gì mới là bằng cách sử dụng Hadoop, bạn có thể làm đồ thị
Hadoop như là một máy xử lý dữ liệu - những con vú
Một trong những trường hợp sử dụng sớm nhất cho Hadoop trong doanh nghiệp là như công cụ chuyển đổi chương trình được sử dụng để xử lý dữ liệu trước cho một kho dữ liệu. Về cơ bản, trường hợp sử dụng này thúc đẩy sức mạnh của hệ sinh thái Hadoop để thao tác và áp dụng các phép biến đổi dữ liệu trước khi nó được tải vào kho dữ liệu. Mặc dù sự chuyển đổi thực tế ...
Hadoop như một kho lưu trữ truy vấn dữ liệu kho lạnh - núm vú
Một số nghiên cứu cho thấy hầu hết dữ liệu trong kho dữ liệu doanh nghiệp hiếm khi được truy vấn. Các nhà cung cấp cơ sở dữ liệu đã phản hồi những quan sát như vậy bằng cách thực hiện các phương pháp riêng của họ để phân loại dữ liệu được đặt ở đâu. Một phương pháp đặt hàng vũ trụ dữ liệu vào các tên gọi nóng, ấm hoặc lạnh, nơi dữ liệu nóng (đôi khi được gọi là hoạt động ...
Hadoop như là một Dữ liệu lưu trữ Điểm đến - núm vú
Chi phí lưu trữ không đắt cho Hadoop cộng với khả năng truy vấn dữ liệu Hadoop với SQL làm cho Hadoop đích chính cho dữ liệu lưu trữ. Trường hợp sử dụng này có tác động thấp đến tổ chức của bạn bởi vì bạn có thể bắt đầu xây dựng bộ kỹ năng Hadoop của bạn dựa trên dữ liệu không được lưu trữ trên các hệ thống nhiệm vụ quan trọng. Hơn nữa, bạn không ...
Hadoop Các lệnh quản trị - đầu gối
Bất kỳ quản trị viên nào của Hadoop có giá trị muối của mình phải nắm vững được toàn bộ các lệnh cho quản lý cụm. Danh sách dưới đây tóm tắt các lệnh quan trọng nhất, cho biết lệnh gì cũng như cú pháp và ví dụ. Biết họ, và bạn sẽ tiến một chặng đường dài dọc theo con đường để Hadoop trí tuệ. balancer: Chạy tiện ích cân bằng cụm. ...
Hadoop Hệ thống tệp phân phối (HDFS) cho Dự án Dữ liệu Lớn - những cái đầu
Tệp phân phối Hadoop Hệ thống là một cách tiếp cận đa năng, linh hoạt, tập hợp để quản lý các tệp trong môi trường dữ liệu lớn. HDFS không phải là đích cuối cùng cho các tệp. Thay vào đó, nó là một dịch vụ dữ liệu cung cấp một bộ các tính năng độc đáo cần thiết khi lượng dữ liệu và vận tốc cao. Bởi vì dữ liệu được viết một lần và ...
Hadoop MapReduce cho Big Data - núm vú
Để Hiểu đầy đủ các khả năng của Hadoop MapReduce, điều quan trọng là phải phân biệt giữa MapReduce ( thuật toán) và thực hiện MapReduce. Hadoop MapReduce là một triển khai các thuật toán được phát triển và duy trì bởi dự án Apache Hadoop. Sẽ rất hữu ích để suy nghĩ về việc triển khai này như là một công cụ MapReduce, bởi vì đó là chính xác nó ...
Hadoop Tích hợp với R - Dummies
Ngay từ đầu, các dữ liệu lớn và R không phải là những người bạn tự nhiên. R yêu cầu tất cả các đối tượng được nạp vào bộ nhớ chính của một máy đơn. Những hạn chế của kiến trúc này được nhanh chóng nhận ra khi dữ liệu lớn trở thành một phần của phương trình. Ngược lại, các hệ thống tập tin phân tán như Hadoop đang thiếu mạnh ...
Làm thế nào để Nhận Apache Oozie Thiết lập trong Hadoop - núm vú
Apache Oozie được bao gồm trong mỗi Hadoop lớn phân phối, bao gồm Apache Bigtop. Trong cluster Hadoop của bạn, cài đặt máy chủ Oozie trên một nút cạnh, nơi bạn cũng sẽ chạy ứng dụng khách khác với dữ liệu của cụm sao, như được hiển thị. Các nút cạnh được thiết kế để trở thành một cửa ngõ cho mạng bên ngoài tới cụm Hadoop. Điều này ...
Nhập dữ liệu với Sqoop - núm vú
Sẵn sàng lặn vào nhập dữ liệu với Sqoop? Bắt đầu bằng cách xem hình, minh hoạ các bước trong một hoạt động nhập khẩu Sqoop điển hình từ một RDBMS hoặc một hệ thống kho dữ liệu. Không có gì quá phức tạp ở đây - chỉ là một bảng dữ liệu sản phẩm điển hình của một công ty hư cấu điển hình được nhập khẩu vào một điển hình ...
Image Phân loại với phân loại hình ảnh Hadoop - núm vú
ĐòI hỏi một lượng đáng kể tài nguyên xử lý dữ liệu, tuy nhiên, đã hạn chế quy mô triển khai. Phân loại hình ảnh là một chủ đề nóng trong thế giới Hadoop bởi vì không có công nghệ chủ đạo nào có khả năng - cho đến khi Hadoop đến - mở cửa cho loại chế biến đắt tiền này trên diện rộng và hiệu quả ...
Các chế độ địa phương và phân tán chạy các kịch bản lợn trong Hadoop - núm vú
Trước khi bạn có thể chạy Chữ heo trong Hadoop, bạn cần phải có một xử lý về cách các chương trình Lợn có thể được đóng gói với máy chủ Pig. Pig có hai chế độ chạy các kịch bản: Chế độ Địa phương: Tất cả các tập lệnh được chạy trên một máy duy nhất mà không yêu cầu Hadoop MapReduce và HDFS. Điều này có thể hữu ích cho ...
Sự phân chia đầu vào của Hadoop MapReduce - núm vú
Cách HDFS đã được thiết lập, nó phá vỡ các tệp lớn thành lớn khối (ví dụ, đo 128MB), và lưu trữ ba bản sao của các khối trên các nút khác nhau trong cụm. HDFS không nhận thức được nội dung của các tệp này. Trong YARN, khi một công việc MapReduce được bắt đầu, Resource Manager (the ...
Quản lý Nguồn dữ liệu lớn và Ứng dụng với Hadoop YARN - núm vú
Lập lịch trình và theo dõi công việc cho dữ liệu lớn là một phần không thể tách rời của Hadoop MapReduce và có thể được sử dụng để quản lý tài nguyên và ứng dụng. Các phiên bản đầu của Hadoop hỗ trợ một công việc thô sơ và hệ thống theo dõi nhiệm vụ, nhưng khi sự kết hợp của công việc được hỗ trợ bởi Hadoop thay đổi, lập lịch không thể theo kịp. Đặc biệt, cũ ...
Mạng và Hadoop Clusters - núm vú
Như với bất kỳ hệ thống phân tán nào, mạng có thể tạo hoặc phá vỡ một cụm Hadoop: Không "Đi rẻ. "Rất nhiều cuộc trò chuyện diễn ra giữa các nút chủ và nút nô lệ trong một cụm Hadoop, điều thiết yếu trong việc giữ cho cụm đang chạy, vì vậy các thiết bị chuyển mạch cấp doanh nghiệp được khuyến khích sử dụng. Đối với mỗi rack trong cụm của bạn, bạn ...
Log Dữ liệu Phân tích với Hadoop - núm vú
Log phân tích là một trường hợp sử dụng phổ biến cho một dự án khai thác Hadoop. Thật vậy, việc sử dụng sớm nhất của Hadoop là để phân tích các bản ghi kích chuột trên diện rộng - nhật ký ghi dữ liệu về các trang web mà mọi người truy cập và theo thứ tự họ ghé thăm. Tất cả các bản ghi dữ liệu được tạo ra bởi cơ sở hạ tầng CNTT của bạn ...
ĐăNg nhập Dữ liệu với Flume trong HDFS - núm vú
Một số dữ liệu kết thúc trong Hadoop Distributed File System HDFS) có thể tải xuống qua các hoạt động tải cơ sở dữ liệu hoặc các loại quy trình theo lô khác, nhưng nếu bạn muốn nắm bắt dữ liệu đang chảy trong luồng dữ liệu thông lượng cao, chẳng hạn như dữ liệu đăng nhập ứng dụng? Apache Flume là cách tiêu chuẩn hiện tại để ...
Theo dõi các khối dữ liệu với NameNode trong HDFS - núm vú
NameNode đóng vai trò là sổ địa chỉ cho Hệ thống tệp phân phối Hadoop (HDFS) bởi vì nó không chỉ biết các khối tạo thành các tệp tin cá nhân mà còn là nơi mà mỗi khối và bản sao của chúng được lưu trữ. Khi người dùng lưu trữ một tệp tin trong HDFS, tệp tin được chia thành các khối dữ liệu và ba bản sao của
Heo con Latin trong Chương trình lợn của Hadoop - đầu
Lợn Latin là ngôn ngữ cho các chương trình lợn. Pig chuyển tập lệnh Pig Latin sang công việc MapReduce mà nó có thể được thực hiện trong cụm Hadoop. Khi đến với Pig Latin, nhóm phát triển đã tuân theo ba nguyên tắc thiết kế chính: Giữ nó đơn giản. Pig Latin cung cấp một phương pháp hợp lý để tương tác với Java MapReduce. Đó là một ...
Lưu trữ dữ liệu không có SQL với Hadoop - núm vú
Lưu trữ dữ liệu không có SQL đã đăng ký khái niệm "Just Say No to SQL" để diễn giải lại chiến dịch quảng cáo chống ma túy vào những năm 1980), và chúng là một phản ứng đối với các cơ sở dữ liệu quan hệ (SQL) dựa trên cơ sở dữ liệu quan hệ. Nó không phải là những người này ghét SQL, nhưng họ đã mệt mỏi vì buộc ép vuông vào các lỗ tròn bằng ...
Sao chép Khối dữ liệu trong Hệ thống tệp phân phối Hadoop - nồng của
Hadoop Distributed File System (HDFS) được thiết kế để lưu trữ dữ liệu về phần cứng không đắt và không đáng tin cậy. Chi phí thấp có một vòng tròn hấp dẫn, nhưng nó làm tăng mối quan tâm về độ tin cậy của hệ thống như một tổng thể, đặc biệt là để đảm bảo tính sẵn sàng cao của dữ liệu. Lập kế hoạch cho thảm họa, bộ não đằng sau HDFS được thực hiện ...
Quản lý các tệp tin với các Hadoop File Commands - núm vú
HDFS là một trong hai thành phần chính của Khung Hadoop; khác là mô hình tính toán được gọi là MapReduce. Một hệ thống tập tin phân tán là một hệ thống tập tin quản lý lưu trữ trên một cụm máy móc nối mạng. HDFS lưu trữ dữ liệu theo khối, đơn vị có kích thước mặc định là 64MB. Các tệp bạn muốn lưu trữ trong ...
R trên Hadoop và Ngôn ngữ R - núm vú
Kỷ luật máy học có một danh mục các kỹ thuật phong phú và phong phú . Mahout mang một loạt các công cụ thống kê và các thuật toán vào bảng, nhưng nó chỉ nắm bắt được một phần của những kỹ thuật và thuật toán, vì nhiệm vụ chuyển đổi các mô hình này sang một khuôn khổ MapReduce là một thách thức. Theo thời gian, Mahout chắc chắn ...
Vùng trong HBase
RegionServers là một điều, nhưng bạn cũng phải xem xét từng khu vực hoạt động như thế nào. Trong HBase, một bảng được lan truyền trên một số RegionServers cũng như được tạo thành từ các khu vực riêng lẻ. Khi các bảng được phân chia, sự chia tách trở thành các vùng. Các vùng lưu trữ một loạt các cặp khóa-giá trị, và mỗi ...
Máy Học với Mahout trong Hadoop - núm vú
Học máy là một nhánh các kỹ thuật trí tuệ nhân tạo cung cấp công cụ cho phép máy tính để cải thiện phân tích của họ dựa trên các sự kiện trước đó. Những hệ thống máy tính này tận dụng dữ liệu lịch sử từ các nỗ lực trước đó để giải quyết một nhiệm vụ để cải thiện hiệu suất của các nỗ lực tương lai trong các nhiệm vụ tương tự. Xét về kết quả dự kiến, học máy ...