Trang Chủ Tài chính Cá nhân Hadoop Tích hợp với R - Dummies

Hadoop Tích hợp với R - Dummies

Mục lục:

Video: BIG DATA for Management - Dữ liệu lớn trong quản trị doanh nghiệp - Đào tạo Tập Đoàn Trí Việt 2025

Video: BIG DATA for Management - Dữ liệu lớn trong quản trị doanh nghiệp - Đào tạo Tập Đoàn Trí Việt 2025
Anonim

Lúc đầu, những dữ liệu lớn và R không phải là những người bạn tự nhiên. R yêu cầu tất cả các đối tượng được nạp vào bộ nhớ chính của một máy đơn. Những hạn chế của kiến ​​trúc này được nhanh chóng nhận ra khi dữ liệu lớn trở thành một phần của phương trình.

Ngược lại, các hệ thống tệp phân phối chẳng hạn như Hadoop thiếu các kỹ thuật thống kê mạnh mẽ nhưng lý tưởng cho việc mở rộng các hoạt động phức tạp và các nhiệm vụ. Các giải pháp cân bằng dọc - yêu cầu đầu tư vào các phần cứng siêu đắt tiền - thường không thể cạnh tranh với giá trị trả về giá trị được cung cấp bởi các nhóm phần cứng phân phối, hàng hóa.

Điều này đã đạt được bằng cách sử dụng hệ thống thông báo và phân trang. Kỹ thuật này có thể tạo điều kiện cho các bộ dữ liệu quá lớn để lưu trữ trong bộ nhớ chính cùng một lúc; tuy nhiên, phương pháp lập trình cấp thấp của nó trình bày một đường cong học tập dốc cho những người không quen thuộc với các mô hình song song lập trình.

Đối với những người lập trình muốn lập trình các công việc MapReduce bằng các ngôn ngữ (kể cả R) khác với Java, một lựa chọn thứ hai là tận dụng API Streaming của Hadoop. Người sử dụng trình MapReduce trải qua quá trình chuyển đổi dữ liệu với sự trợ giúp của các dòng tiêu chuẩn UNIX và serialization, đảm bảo đầu vào tương thích với Java để Hadoop - bất kể ngôn ngữ ban đầu được nhập vào bởi các lập trình viên.

Các nhà phát triển tiếp tục khám phá các chiến lược khác nhau để thúc đẩy khả năng tính toán phân tán của MapReduce và khả năng lưu trữ gần như vô hạn của HDFS theo những cách có thể bị khai thác bởi R.

Việc tích hợp Hadoop với R đang được tiến hành, với các dịch vụ có sẵn từ IBM (Big R là một phần của BigInsights) và Revolution Analytics (Revolution R Enterprise). Các giải pháp bắc cầu kết hợp lập trình cấp cao và truy vấn các ngôn ngữ với Hadoop, chẳng hạn như RHive và RHadoop, cũng có sẵn.

Về cơ bản, mỗi hệ thống nhằm cung cấp các khả năng phân tích sâu của ngôn ngữ R sang các bộ dữ liệu lớn hơn.

RHive

Khung RHive là cầu nối giữa ngôn ngữ R và Hive. RHive cung cấp các thư viện thống kê phong phú và các thuật toán của R cho dữ liệu được lưu trữ trong Hadoop bằng cách mở rộng ngôn ngữ truy vấn SQL giống như của Hive (HiveQL) với các chức năng R-specific. Thông qua các hàm RHive, bạn có thể sử dụng HiveQL để áp dụng các mô hình thống kê R vào dữ liệu trong cụm Hadoop của bạn mà bạn đã lập danh mục bằng Hive.

RHadoop

Một khuôn khổ mã nguồn mở khác sẵn có cho các lập trình R là RHadoop, một bộ sưu tập các gói nhằm giúp quản lý phân phối và phân tích dữ liệu với Hadoop. Ba gói của rmr2, rhdfs và rhbase - cung cấp hầu hết các chức năng của RHadoop:

rmr2:

Gói rmr2 hỗ trợ dịch ngôn ngữ R sang các công việc MapReduce phù hợp với Hadoop (tạo ra mã MapReduce hiệu quả thấp từ mã R cấp cao hơn).

  • rhdfs: Gói rhdfs cung cấp một API ngôn ngữ R để quản lý tập tin trên các cửa hàng HDFS. Sử dụng rhdfs, người dùng có thể đọc từ các cửa hàng HDFS đến một khung dữ liệu R (ma trận), và tương tự như vậy ghi dữ liệu từ các ma trận R trở lại vào lưu trữ HDFS.

  • rhbase: gói rhbase cung cấp một API ngôn ngữ R, nhưng mục tiêu của họ trong cuộc sống là để xử lý việc quản lý cơ sở dữ liệu cho các cửa hàng HBase chứ không phải các tệp HDFS. Cách mạng R 999 Revolution là một sản phẩm R thương mại với sự hỗ trợ tích hợp R trên các hệ thống phân phối Hadoop. Revolution R hứa hẹn mang lại hiệu suất hoạt động, tính năng và khả năng sử dụng cho R on Hadoop. Để cung cấp phân tích sâu như R, Cách mạng R sử dụng thư viện ScaleR của công ty - một bộ sưu tập các thuật toán phân tích thống kê được phát triển đặc biệt cho các bộ sưu tập dữ liệu lớn của doanh nghiệp.

  • ScaleR nhằm thực hiện nhanh chóng mã chương trình R trên các nhóm Hadoop, cho phép nhà phát triển R tập trung hoàn toàn vào các thuật toán thống kê của mình chứ không phải trên MapReduce. Hơn nữa, nó xử lý rất nhiều nhiệm vụ phân tích, chẳng hạn như chuẩn bị dữ liệu, hình dung, và kiểm tra thống kê. Big R cung cấp sự tích hợp đầu cuối giữa R và các sản phẩm Hadoop của IBM, BigInsights, cho phép các nhà phát triển R phân tích dữ liệu Hadoop. Mục đích là để khai thác cú pháp lập trình của R và các mô hình hóa mã hóa, đồng thời đảm bảo rằng dữ liệu hoạt động khi vẫn ở trong HDFS. R được sử dụng làm proxy cho các kho dữ liệu này, có nghĩa là các nhà phát triển R không cần phải nghĩ đến cấu trúc MapReduce cấp thấp hoặc bất kỳ ngôn ngữ lập trình cụ thể nào Hadoop (như Pig). BigInsights Công nghệ Big R hỗ trợ nhiều nguồn dữ liệu - bao gồm các tệp tin bằng phẳng, HBase và định dạng lưu trữ Hive - trong khi cung cấp việc thực hiện song song và phân vùng mã R trên toàn bộ cụm Hadoop. Nó che giấu nhiều phức tạp trong các khuôn khổ HDFS và MapReduce bên dưới, cho phép các chức năng của Big R thực hiện phân tích dữ liệu toàn diện - trên cả dữ liệu có cấu trúc và không có cấu trúc.

Cuối cùng, khả năng mở rộng của công cụ thống kê Big R cho phép các nhà phát triển R sử dụng cả hai kỹ thuật thống kê được xác định trước, cũng như các thuật toán tác giả mới.

Hadoop Tích hợp với R - Dummies

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...