Mục lục:
Video: Sửa laptop dell chập nguồn- Huy Hoàng 0908 28 28 57 2025
Các sản phẩm thông minh kinh doanh truyền thống không thực sự được thiết kế để xử lý dữ liệu lớn, do đó chúng có thể cần một số sửa đổi. Chúng được thiết kế để làm việc với các dữ liệu có cấu trúc cao và được hiểu rõ, thường được lưu trữ trong kho dữ liệu quan hệ và được hiển thị trên máy tính để bàn hoặc máy tính xách tay. Phân tích tình báo kinh doanh truyền thống thường được áp dụng cho ảnh chụp nhanh dữ liệu thay vì toàn bộ lượng dữ liệu có sẵn. Khác với phân tích dữ liệu khác là gì?
Dữ liệu lớn Dữ liệu
Dữ liệu lớn bao gồm các dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc. Bạn thường có rất nhiều, và nó có thể khá phức tạp. Khi bạn suy nghĩ về việc phân tích nó, bạn cần biết các đặc điểm tiềm năng của dữ liệu:
-
Nó có thể đến từ các nguồn không tin cậy. Phân tích dữ liệu lớn thường đòi hỏi phải tập hợp dữ liệu từ nhiều nguồn khác nhau. Các dữ liệu này có thể bao gồm cả nguồn dữ liệu bên trong và bên ngoài. Làm thế nào đáng tin cậy là những nguồn bên ngoài của thông tin? Ví dụ: làm thế nào đáng tin cậy là dữ liệu truyền thông xã hội như một tweet? Thông tin có thể đến từ một nguồn chưa được xác minh. Tính toàn vẹn của dữ liệu này cần được xem xét trong phân tích.
-
Có thể bẩn. Dữ liệu bẩn đề cập đến dữ liệu không chính xác, không đầy đủ hoặc sai. Điều này có thể bao gồm lỗi chính tả của từ; một cảm biến bị hỏng, không được định chuẩn đúng, hoặc bị hỏng một cách nào đó; hoặc thậm chí nhân đôi dữ liệu. Các nhà khoa học dữ liệu tranh luận về nơi để làm sạch dữ liệu - hoặc gần nguồn hoặc trong thời gian thực.
Dĩ nhiên, một trường phái tư tưởng nói rằng những dữ liệu bẩn không nên được làm sạch bởi vì nó có thể chứa những điều kỳ lạ thú vị. Chiến lược thanh lọc có thể sẽ phụ thuộc vào nguồn và loại dữ liệu và mục tiêu phân tích của bạn. Ví dụ: nếu bạn đang phát triển một bộ lọc spam, mục tiêu là phát hiện các yếu tố xấu trong dữ liệu, do đó bạn không muốn xóa nó.
-
Tỷ lệ tín hiệu-nhiễu có thể thấp. Nói cách khác, tín hiệu (thông tin có thể sử dụng) chỉ có thể là một phần nhỏ của dữ liệu; tiếng ồn là phần còn lại. Việc trích xuất một tín hiệu nhỏ từ dữ liệu ồn ào là một phần của lợi ích của việc phân tích dữ liệu lớn, nhưng bạn cần lưu ý rằng tín hiệu có thể thực sự nhỏ.
-
Có thể là thời gian thực. Trong nhiều trường hợp, bạn sẽ cố gắng phân tích luồng dữ liệu thời gian thực.
Quản trị dữ liệu lớn sẽ là một phần quan trọng của phương trình phân tích. Bên dưới phân tích doanh nghiệp, cần phải cải tiến các giải pháp quản trị nhằm đảm bảo tính xác thực đến từ các nguồn dữ liệu mới, đặc biệt là khi nó được kết hợp với các dữ liệu đáng tin cậy hiện có được lưu trữ trong kho.Giải pháp bảo mật dữ liệu và giải pháp bảo mật cũng cần phải được tăng cường để hỗ trợ quản lý / quản lý dữ liệu lớn được lưu trữ trong các công nghệ mới.
Các thuật toán dữ liệu phân tích lớn
Khi bạn xem xét phân tích dữ liệu lớn, bạn cần lưu ý rằng khi mở rộng ra ngoài máy tính để bàn, các thuật toán bạn sử dụng thường cần phải được tái cấu trúc, thay đổi mã nội bộ mà không ảnh hưởng đến chức năng bên ngoài. Vẻ đẹp của một cơ sở hạ tầng dữ liệu lớn là bạn có thể chạy một mô hình được sử dụng để mất giờ hoặc ngày trong vài phút.
Điều này cho phép bạn lặp lại mô hình hàng trăm lần. Tuy nhiên, nếu bạn đang chạy một hồi quy trên một tỷ hàng dữ liệu trong một môi trường phân tán, bạn cần phải xem xét các yêu cầu tài nguyên liên quan đến khối lượng dữ liệu và vị trí của nó trong cụm. Các thuật toán của bạn cần phải được nhận thức về dữ liệu.
Ngoài ra, các nhà cung cấp đang bắt đầu cung cấp phân tích mới được thiết kế để đặt gần các nguồn dữ liệu lớn để phân tích dữ liệu tại chỗ. Phương pháp tiếp cận phân tích chạy gần với nguồn dữ liệu sẽ giảm thiểu số lượng dữ liệu được lưu trữ bằng cách duy trì dữ liệu có giá trị cao. Nó cũng cho phép bạn phân tích dữ liệu sớm hơn, điều này rất quan trọng đối với việc ra quyết định theo thời gian thực.
Tất nhiên, phân tích sẽ tiếp tục phát triển. Ví dụ: bạn có thể cần khả năng hiển thị thời gian thực để hiển thị dữ liệu theo thời gian thực liên tục thay đổi. Làm thế nào để bạn thực tế âm mưu một tỷ điểm trên một đồ thị âm mưu? Hoặc, làm thế nào để bạn làm việc với các thuật toán dự đoán để họ thực hiện đủ nhanh và đủ sâu phân tích để sử dụng một bộ dữ liệu bao giờ mở rộng, phức tạp? Đây là lĩnh vực nghiên cứu đang hoạt động.
Hỗ trợ cơ sở hạ tầng dữ liệu lớn
Chỉ cần nói rằng nếu bạn đang tìm kiếm một nền tảng, nó cần đạt được những điều sau:
-
Tích hợp công nghệ: Cơ sở hạ tầng cần tích hợp các công nghệ dữ liệu mới với công nghệ truyền thống để có thể xử lý tất cả các loại dữ liệu lớn và làm cho nó tiêu hao bằng phân tích truyền thống.
-
Lưu trữ một lượng lớn dữ liệu khác nhau: Có thể cần có một hệ thống Hadoop đã được cứng hóa bởi doanh nghiệp có thể xử lý / lưu trữ / quản lý số lượng lớn dữ liệu khi nghỉ ngơi, cho dù nó có cấu trúc, bán cấu trúc hoặc không có cấu trúc.
-
Quá trình xử lý dữ liệu: Có thể cần đến khả năng tính toán dòng chảy để xử lý dữ liệu khi chuyển động liên tục do các bộ cảm biến, thiết bị thông minh, video, âm thanh và nhật ký tạo ra để hỗ trợ việc ra quyết định theo thời gian thực.
-
Dữ liệu kho: Bạn có thể cần một giải pháp được tối ưu hóa cho khối lượng công việc phân tích sâu hoặc hoạt động để lưu trữ và quản lý số lượng dữ liệu ngày càng tăng.
Và tất nhiên, bạn cần khả năng tích hợp dữ liệu bạn đã có tại chỗ cùng với kết quả của việc phân tích dữ liệu lớn.