Trang Chủ Tài chính Cá nhân Hadoop như là một Dữ liệu lưu trữ Điểm đến - núm vú

Hadoop như là một Dữ liệu lưu trữ Điểm đến - núm vú

Video: Big Data - Tim Smith 2025

Video: Big Data - Tim Smith 2025
Anonim

Chi phí lưu trữ thấp cho Hadoop cộng với khả năng truy vấn dữ liệu Hadoop với SQL làm cho Hadoop trở thành điểm đến hàng đầu cho dữ liệu lưu trữ. Trường hợp sử dụng này có tác động thấp đến tổ chức của bạn bởi vì bạn có thể bắt đầu xây dựng bộ kỹ năng Hadoop của mình dựa trên dữ liệu không được lưu trữ trên các hệ thống nhiệm vụ quan trọng.

Hơn nữa, bạn không phải làm việc chăm chỉ để có được dữ liệu. (Vì các dữ liệu lưu trữ thường được lưu trữ trên các hệ thống có mức sử dụng thấp, nên dễ dàng hơn so với dữ liệu nằm trong "sự quan trọng" đối với các hệ thống nhiệm vụ quan trọng như kho dữ liệu). Nếu bạn đã sử dụng Hadoop như một đích khu vực, bạn có nền tảng cho kho lưu trữ của bạn! Bạn chỉ cần giữ những gì bạn muốn lưu trữ và xóa những gì bạn không.

Nếu bạn nghĩ về khu đích của Hadoop, kho lưu trữ có thể truy vấn, thể hiện trong hình, mở rộng giá trị của Hadoop và bắt đầu tích hợp các phần có thể đã tồn tại trong doanh nghiệp của bạn. Đây là một ví dụ tuyệt vời về việc tìm kiếm các nền kinh tế về quy mô và cơ hội thu chi phí bằng cách sử dụng Hadoop.

Ở đây, thành phần lưu trữ kết nối hạ cánh và kho dữ liệu. Các dữ liệu được lưu trữ bắt nguồn từ kho và sau đó được lưu giữ trong cụm Hadoop, cũng là nơi cung cấp hạ cánh. Nói tóm lại, bạn có thể sử dụng cụm Hadoop tương tự để lưu trữ dữ liệu và hoạt động như vùng đích của bạn.

Công nghệ chính Hadoop bạn sử dụng để thực hiện việc lưu trữ là Sqoop, có thể di chuyển dữ liệu được lưu trữ từ kho dữ liệu vào Hadoop. Bạn sẽ cần phải xem xét các hình thức mà bạn muốn dữ liệu để có trong cụm Hadoop của bạn. Nói chung, tập tin nén Hive là một lựa chọn tốt.

Tất nhiên bạn có thể biến đổi dữ liệu từ các cấu trúc kho sang một dạng khác (ví dụ như một mẫu bình thường để giảm sự dư thừa), nhưng nói chung đây không phải là một ý tưởng hay. Giữ dữ liệu trong cấu trúc giống như trong kho sẽ làm cho việc thực hiện truy vấn toàn bộ dữ liệu dễ dàng hơn trên dữ liệu đã lưu trữ trong Hadoop và dữ liệu đang hoạt động trong kho.

Khái niệm truy vấn cả tập dữ liệu hoạt động và lưu trữ sẽ đưa ra một cân nhắc khác: bạn nên lưu trữ dữ liệu bao nhiêu? Thực sự có hai lựa chọn phổ biến: lưu trữ tất cả mọi thứ như dữ liệu được thêm vào và thay đổi trong kho dữ liệu hoặc chỉ lưu trữ dữ liệu bạn cho là lạnh.

Lưu trữ tất cả mọi thứ có lợi cho phép bạn dễ dàng phát hành các truy vấn từ một giao diện duy nhất trên toàn bộ bộ dữ liệu - không có lưu trữ đầy đủ, bạn cần phải tìm ra giải pháp truy vấn liên hợp, nơi bạn phải kết hợp các kết quả từ kho lưu trữ và kho dữ liệu đang hoạt động.

Nhưng nhược điểm ở đây là việc cập nhật thường xuyên dữ liệu nóng của kho dữ liệu của bạn sẽ gây ra nhức đầu cho kho lưu trữ dựa trên nền tảng Hadoop. Điều này là do bất kỳ thay đổi nào đối với dữ liệu trong các hàng và cột riêng lẻ sẽ yêu cầu xoá bán buôn và sắp xếp lại các bộ dữ liệu hiện có.

Giờ đây dữ liệu lưu trữ được lưu trữ trong đích đích của Hadoop (giả sử bạn đang sử dụng một tùy chọn như các tệp Hive đã nén trước đó), bạn có thể truy vấn dữ liệu đó. Đây là nơi mà SQL trên các giải pháp Hadoop có thể trở nên thú vị.

Một ví dụ tuyệt vời về những gì có thể là cho các công cụ phân tích (ở bên phải trong hình) để trực tiếp chạy báo cáo hoặc phân tích dữ liệu lưu trữ được lưu trữ trong Hadoop. Đây không phải là để thay thế kho dữ liệu - sau khi tất cả, Hadoop sẽ không thể phù hợp với đặc tính hiệu năng của kho để hỗ trợ hàng trăm hoặc nhiều người dùng đồng thời đặt câu hỏi phức tạp.

Vấn đề ở đây là bạn có thể sử dụng các công cụ báo cáo chống lại Hadoop để thử nghiệm và đưa ra các câu hỏi mới để trả lời trong một kho hàng hoặc siêu thị chuyên dụng.

Khi bạn bắt đầu dự án dựa trên Hadoop đầu tiên để lưu trữ dữ liệu kho, đừng phá vỡ các quy trình hiện tại cho đến khi bạn đã thử nghiệm đầy đủ về giải pháp Hadoop mới của mình. Nói cách khác, nếu chiến lược lưu trữ hiện tại của bạn là lưu trữ vào băng, hãy giữ lại quy trình đó và lưu trữ kép dữ liệu vào Hadoop và băng keo cho đến khi bạn hoàn toàn kiểm tra kịch bản (thường là khôi phục dữ liệu kho trong trường hợp của một thất bại nhà kho).

Mặc dù bạn đang duy trì (trong ngắn hạn) hai kho lưu trữ, bạn sẽ có một cơ sở hạ tầng mạnh mẽ tại chỗ và được thử nghiệm trước khi bạn ngừng hoạt động theo quy trình đã qua thử thách. Quá trình này có thể đảm bảo rằng bạn vẫn làm việc - với chủ nhân hiện tại của bạn.

Trường hợp sử dụng này đơn giản vì không có thay đổi đối với kho hiện tại. Mục tiêu kinh doanh vẫn như cũ: chi phí lưu trữ và chi phí giấy phép rẻ hơn bằng cách di chuyển dữ liệu hiếm khi sử dụng vào kho lưu trữ. Sự khác biệt trong trường hợp này là công nghệ đằng sau kho lưu trữ là Hadoop thay vì lưu trữ ngoại tuyến, như băng.

Ngoài ra, các nhà cung cấp lưu trữ khác nhau đã bắt đầu kết hợp Hadoop vào các giải pháp của họ (ví dụ như cho phép tệp lưu trữ sở hữu của họ nằm trên HDFS), do đó, mong đợi khả năng trong lĩnh vực này sẽ sớm mở rộng.

Khi bạn phát triển các kỹ năng của Hadoop (như trao đổi dữ liệu giữa Hadoop và các cơ sở dữ liệu quan hệ và truy vấn dữ liệu trong HDFS), bạn có thể sử dụng chúng để giải quyết các vấn đề lớn hơn, chẳng hạn như các dự án phân tích, có thể cung cấp thêm giá trị cho đầu tư Hadoop của tổ chức bạn.

Hadoop như là một Dữ liệu lưu trữ Điểm đến - núm vú

Lựa chọn của người biên tập

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Web Marketing: Loại bỏ đăng ký và đăng nhập để đảm bảo khả năng hiển thị - núm vú

Tiếp thị web, một cách để đảm bảo khả năng hiển thị là để loại bỏ đăng ký và các hình thức đăng nhập. Khách truy cập thường phải hoàn thành các biểu mẫu này trước khi họ có thể tải xuống một số loại nội dung cao cấp, chẳng hạn như giấy trắng hoặc trước khi họ có thể đọc một số bài viết trên trang web. Các công ty đã đưa chúng vào vị trí vì họ muốn dẫn ...

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Web Marketing: Làm thế nào để Tránh Duplicate Content - núm vú

Duplicate nội dung cần tránh trong web tiếp thị và Google cung cấp công cụ để phát hiện thông tin lặp lại. Không có gì gây tổn hại cho việc tìm kiếm nội dung có liên quan của công cụ tìm kiếm cũng như tìm ra chính xác những từ giống nhau trên hai trang khác nhau. Sao chép là xấu vì những lý do này: Sao chép được sử dụng để được một chiến thuật được sử dụng để đánh lừa ...

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Web Marketing: Làm thế nào để Deal với Broken Links - núm vú

Trong bài hát của họ. Là một nhà tiếp thị web, việc xử lý các liên kết hỏng này có thể giúp đảm bảo sự thành công của trang web của bạn. Nếu một công cụ tìm kiếm đạt đến một liên kết bị hỏng, nó không thể tìm thấy trang bạn dự định (rõ ràng) - nhưng nó cũng có thể bỏ trên trang web của bạn hoặc giảm sự liên quan ...

Lựa chọn của người biên tập

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Các kiểu dữ liệu điểm nổi trong Java - núm vú

Số dấu phẩy động là số có các phần phân đoạn (thường được thể hiện bằng dấu thập phân). Bạn nên sử dụng một kiểu điểm nổi trong các chương trình Java bất cứ khi nào bạn cần một số có số thập phân, như là 19. 95 hoặc 3. 1415. Java có hai kiểu nguyên thủy cho các số dấu phẩy: float: Sử dụng 4 byte gấp đôi: Sử dụng 8 bytes Trong hầu hết tất cả ...

Tải phiên bản mới nhất của Java - núm vú

Tải phiên bản mới nhất của Java - núm vú

Trước khi bạn có thể viết các chương trình Java cho các thiết bị Android, bạn cần một số phần mềm công cụ, bao gồm cả phiên bản mới nhất của Java. Bạn có thể có được phiên bản Java mới nhất và lớn nhất bằng cách truy cập vào trang web Java. Trang web cung cấp một số lựa chọn thay thế. (Được giới thiệu) Nhấp chuột vào nút Free Java Download trên trang chính của trang web. Đối với hầu hết các máy tính, ...

Thử nghiệm với JShell - núm vú

Thử nghiệm với JShell - núm vú

JShell là một công cụ Java 9 cho phép bạn khám phá về lập trình. JShell làm cho nó dễ dàng để chơi xung quanh mà không sợ hậu quả thảm khốc. Các chương trình Java thường sử dụng cùng kiểu cũ, lúng túng: public class SomethingOrOther {public static void main (String args []) {Một chương trình Java đòi hỏi sự giới thiệu này bởi vì trong Java ...

Lựa chọn của người biên tập

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Hẹn hò Sau 50: Tâm linh và Tôn giáo - những con voi

Bản quyền © 2014 AARP Tất cả các quyền được bảo lưu. Tâm linh và tôn giáo, tình dục, những trò vui nhộn nhịp, sự tham gia của gia đình, lối sống và tiền bạc - tất cả những điều này thường quan trọng đối với những người trên 50 tuổi, nhưng bạn có thể đặt một số cao hơn những người khác. Trong bất kỳ trường hợp nào, điều quan trọng là phải suy nghĩ về họ trước để bạn có thể thảo luận ...

Hẹn hò Sau 50: Nói về Monogami - vú

Hẹn hò Sau 50: Nói về Monogami - vú

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Một vợ một chồng là một vấn đề lớn cho dù bạn là người chưa sẵn sàng cho vợ chồng một vợ chồng và muốn hẹn hò xung quanh hay người chỉ có thể quan hệ tình dục với một người một lần. Đảm bảo đối tác hẹn hò của bạn biết bạn đang đứng ở đâu (hoặc nằm xuống) đối với vợ chồng một vợ chồng ...

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Hẹn hò Sau 50: Thảo luận về sức khoẻ cá nhân của bạn - những con voi

Bản quyền © 2014 AARP. Đã đăng ký Bản quyền. Nếu bạn bị bệnh mãn tính hoặc đe dọa đến mạng sống khi bạn còn nhỏ, bạn đã có kinh nghiệm về sức khoẻ của mình. Có thể bạn phải liên tục kể câu chuyện về vết sẹo ngực hoặc nẹp chân hoặc giải thích số ít các viên thuốc mà bạn phải dùng mỗi ngày. Nó không phải ...