Video: Phân tích mã độc Photo_9342.svg và video_3645.html trên facebook (bởi ZeroX) 2025
Phát hiện dữ liệu đang trở thành một hoạt động ngày càng quan trọng đối với các tổ chức dựa vào dữ liệu của họ là một sự khác biệt. Ngày nay, mô tả hầu hết các doanh nghiệp, vì khả năng nhìn thấy xu hướng và trích xuất ý nghĩa từ các bộ dữ liệu có sẵn áp dụng cho hầu hết các ngành công nghiệp.
Điều này đòi hỏi phải có hai thành phần quan trọng: các nhà phân tích với sự sáng tạo để nghĩ ra các cách phân tích dữ liệu mới để đặt câu hỏi mới (thường là các nhà phân tích được gọi là dữ liệu các nhà khoa học ); và cung cấp cho các nhà phân tích này quyền truy cập vào càng nhiều dữ liệu càng tốt.
Xem xét cách tiếp cận truyền thống để phân tích trong nền công nghệ thông tin hiện nay: Cộng đồng người dùng doanh nghiệp thường xác định các câu hỏi kinh doanh để yêu cầu - họ gửi một yêu cầu, và nhóm CNTT xây dựng một hệ thống trả lời các câu hỏi cụ thể. Từ khía cạnh kỹ thuật, bởi vì công việc này thường được thực hiện trong một cơ sở dữ liệu quan hệ, thì trách nhiệm của nhóm IT là xây dựng các lược đồ, loại bỏ sự sao chép dữ liệu, vân vân.
Họ đang đầu tư rất nhiều thời gian vào việc làm cho dữ liệu này có thể truy vấn được và để nhanh chóng trả lời các câu hỏi được lên kế hoạch mà đơn vị kinh doanh muốn được trả lời. Đó là lý do tại sao các cơ sở dữ liệu quan hệ thường được coi là lược đồ-vì-viết vì bạn phải làm rất nhiều công việc để viết thư cho cơ sở dữ liệu.
(Trong nhiều trường hợp, lượng công việc đáng đầu tư, tuy nhiên trong một thế giới dữ liệu lớn, giá trị và chất lượng của nhiều loại dữ liệu mới hơn mà bạn làm việc lại không được biết).
Phương pháp tiếp cận cơ sở dữ liệu quan hệ này phù hợp với nhiều quy trình kinh doanh phổ biến, chẳng hạn như giám sát bán hàng theo địa lý, sản phẩm hoặc kênh; thu thập thông tin chi tiết từ các cuộc khảo sát khách hàng, các phân tích về chi phí và lợi nhuận và nhiều thứ khác - về cơ bản, các câu hỏi được hỏi về thời gian và thời gian.
Dữ liệu thường có cấu trúc cao và rất có thể tin cậy cao trong môi trường này trong môi trường này; hoạt động này phân tích hướng dẫn .
Như một phép so sánh, nó giống như đứa trẻ 8 tuổi của bạn đang nghỉ giải lao tại trường. Phần lớn, cô có thể làm bất cứ điều gì cô muốn trong khuôn viên của trường - miễn là cô vẫn còn trong vòng rào; tuy nhiên, cô không thể nhảy qua hàng rào để khám phá những gì ở bên ngoài. Cụ thể, con của bạn có thể khám phá một khu vực được biết đến, được bảo vệ (trong phạm vi lược đồ) và phân tích bất cứ điều gì có thể được tìm thấy trong khu vực đó.
Bây giờ hãy tưởng tượng rằng môi trường phân tích của bạn có một vùng khám phá. Trong trường hợp này, CNTT cung cấp dữ liệu (rất có thể sẽ không được tin cậy hoàn toàn và có thể là "dơ bẩn") trên một nền tảng phát hiện linh hoạt cho người dùng doanh nghiệp để hỏi hầu như bất kỳ câu hỏi nào họ muốn.
Theo cách tương tự, con bạn được phép leo lên hàng rào sân trường (khu vực này không có giản đồ), mạo hiểm vào rừng, và trở lại với bất cứ thứ gì cô ấy phát hiện ra. (Tất nhiên, trong thế giới CNTT, bạn không phải lo lắng về việc người dùng doanh nghiệp bị mất hoặc bị nhiễm độc)
Nếu bạn nghĩ về nó, phát hiện dữ liệu phản ánh một số khía cạnh của sự tiến hóa của khai thác vàng. Trong những năm bội thu vàng, cuộc đình công bằng vàng sẽ kích thích nguồn tài nguyên đầu tư bởi vì ai đó đã phát hiện ra vàng - nó có thể nhìn thấy bằng mắt thường, nó có giá trị rõ ràng và do đó đảm bảo đầu tư.
50 năm trước, không ai có thể bỏ quặng thấp cho vàng vì không có công nghệ có hiệu quả về chi phí hoặc có khả năng (không có thiết bị di chuyển và xử lý lượng quặng khổng lồ) và quặng giàu vẫn có sẵn (so với ngày hôm nay, vàng đã được tương đối dễ dàng hơn để tìm). Rất đơn giản, nó không phải là chi phí có hiệu quả (hoặc thậm chí có thể) để làm việc thông qua các tiếng ồn (quặng cấp thấp) để tìm các tín hiệu (vàng).
Với Hadoop, các cửa hàng CNTT hiện có thiết bị vốn để xử lý hàng triệu tấn quặng (dữ liệu có giá trị thấp trên mỗi byte) để tìm vàng gần như không thể nhìn thấy bằng mắt thường (dữ liệu có giá trị cao trên mỗi byte). Và chính xác đó là khám phá.
Đó là về việc có một kho chứa linh hoạt chi phí thấp, nơi đầu tư tiếp theo không được làm để làm giàu cho dữ liệu cho đến khi khám phá được thực hiện. Sau khi khám phá được thực hiện, có thể hỏi thêm nhiều tài nguyên (để khai thác lỗ vàng) và chính thức hoá nó thành một quy trình phân tích có thể triển khai trong một kho dữ liệu hoặc một siêu dữ liệu chuyên biệt.
Khi những hiểu biết sâu sắc được thực hiện trong vùng khám phá, đó có thể là thời điểm tốt để liên hệ với bộ phận CNTT và chính thức hóa quy trình hoặc có những người đó giúp đỡ để phát hiện sâu hơn. Trên thực tế, mô hình mới này thậm chí có thể chuyển sang lĩnh vực phân tích hướng dẫn.
Vấn đề là CNTT đã cung cấp khu khám phá cho người dùng doanh nghiệp để hỏi và đưa ra các câu hỏi mà họ chưa từng nghĩ đến trước đây. Bởi vì khu vực đó nằm trong Hadoop, nó nhanh nhẹn và cho phép người dùng liên hệ vào màu xanh hoang dã.
Lưu ý rằng hình này có một vùng sandbox. Trong một số kiến trúc tham khảo, vùng này được kết hợp với vùng phát hiện. Giữ những vùng này riêng biệt bởi vì các khu vực này đang được sử dụng bởi các nhà phát triển ứng dụng và các cửa hàng IT để nghiên cứu, thử nghiệm và có thể chính thức hóa các kết luận và phát hiện trong Khu khám phá khi cần trợ giúp về CNTT sau khi phát hiện có tiềm năng.
Kiến trúc tham chiếu linh hoạt và có thể dễ dàng tinh chỉnh. Không có gì là đúc bằng đá: bạn có thể lấy những gì bạn cần, để lại những gì bạn không, và thêm các sắc thái riêng của bạn.
Chẳng hạn, một số tổ chức có thể chọn để cùng xác định tất cả các khu trong một cụm Hadoop; một số có thể chọn để thúc đẩy một cụm duy nhất được thiết kế cho nhiều mục đích; và những người khác có thể tách họ ra khỏi cơ thể.