Video: Joel Selanikio: The surprising seeds of a big-data revolution in healthcare 2025
Phân loại hình ảnh yêu cầu một lượng đáng kể các nguồn lực xử lý dữ liệu, tuy nhiên, đã hạn chế quy mô triển khai. Phân loại hình ảnh là một chủ đề nóng trong thế giới Hadoop bởi vì không có công nghệ chủ đạo nào có khả năng - cho đến khi Hadoop đi cùng - mở cửa cho loại chế biến đắt tiền trên quy mô lớn và hiệu quả như vậy.
Việc phân loại hình ảnh bắt đầu với ý tưởng bạn xây dựng một bộ tập huấn và các máy tính học để xác định và phân loại những gì họ đang xem xét. Tương tự như vậy, có nhiều dữ liệu giúp xây dựng các mô hình phát hiện và rủi ro tốt hơn, nó cũng giúp các hệ thống phân loại hình ảnh tốt hơn.
Trong trường hợp sử dụng này, dữ liệu được gọi là tập huấn luyện cũng như các mô hình là các phân loại. Các bộ phân loại nhận ra các tính năng hoặc mẫu trong âm thanh, hình ảnh hoặc video và phân loại chúng một cách hợp lý. Các nhà phân loại được xây dựng và lặp lại lặp đi lặp lại từ các bộ tập huấn để điểm chính xác của chúng (điểm đo chính xác) và điểm thu hồi (mức độ bao phủ) là cao.
Hadoop thích hợp để phân loại hình ảnh vì nó cung cấp một môi trường xử lý song song ồ ạt để không chỉ tạo ra các mô hình phân loại (iterating trên các bộ đào tạo) mà còn cung cấp khả năng mở rộng gần như vô hạn để xử lý và chạy những phân loại trên các tập dữ liệu phi cấu trúc.
Xem xét các nguồn đa phương tiện như YouTube, Facebook, Instagram và Flickr - tất cả đều là nguồn dữ liệu nhị phân không có cấu trúc. Hình này cho thấy một cách để bạn có thể sử dụng Hadoop để mở rộng quy mô xử lý số lượng lớn các hình ảnh lưu trữ và video để phân loại ngữ nghĩa đa phương tiện.
Bạn có thể xem tất cả các khái niệm liên quan đến khung xử lý Hadoop được áp dụng như thế nào đối với dữ liệu này. Lưu ý cách hình ảnh được tải vào HDFS. Các mô hình phân loại, được xây dựng theo thời gian, bây giờ được áp dụng cho các thành phần đặc trưng hình ảnh thêm trong pha Bản đồ của giải pháp này. Như bạn có thể nhìn thấy ở góc dưới bên phải, đầu ra của quá trình xử lý này bao gồm phân loại hình ảnh từ phim hoạt hình đến thể thao và địa điểm, trong số những thứ khác.
Hadoop cũng có thể được sử dụng cho phân tích âm thanh hoặc giọng nói. Một khách hàng trong ngành an ninh mà chúng tôi làm việc tạo ra một hệ thống phân loại âm thanh để phân loại âm thanh được nghe qua cáp quang được làm giàu bằng chất âm được đặt xung quanh chu vi lò phản ứng hạt nhân.
Ví dụ, hệ thống này biết làm thế nào để gần như ngay lập tức phân loại tiếng thầm của gió so với tiếng thầm của tiếng nói của con người hoặc để phân biệt âm thanh của con người bước chân chạy trong công viên chu vi từ động vật hoang dã.
Mô tả này có thể có cảm giác của Star Trek , nhưng bây giờ bạn có thể xem ví dụ trực tiếp. Trên thực tế, IBM làm cho công chúng trở thành một trong những hệ thống phân loại hình ảnh lớn nhất thế giới thông qua Hệ thống Phân tích và Truy xuất Đa phương tiện của IBM (IMARS).
Dưới đây là kết quả tìm kiếm IMARS cho từ trượt tuyết trên cao nguyên. Ở đầu hình, bạn có thể thấy kết quả của các trình phân loại được ánh xạ tới tập hợp hình ảnh đã được xử lý bởi Hadoop cùng với một đám mây từ khóa liên quan.
Lưu ý đến bộ phân loại phụ huynh đã được định nghĩa thô hơn, trái với chi tiết hơn. Trên thực tế, chú ý đến nhiều loại phân loại: cuộn thành, cuộn vào - tất cả được tạo ra tự động bởi mô hình phân loại, được xây dựng và ghi bằng Hadoop.
Không có ảnh nào trong số những ảnh này có bất kỳ siêu dữ liệu bổ sung nào. Không ai mở iPhoto và dán nhãn một hình ảnh như một môn thể thao mùa đông để làm cho nó xuất hiện trong phân loại này. Đó là nhà phân loại thể thao mùa đông được xây dựng để nhận ra các thuộc tính hình ảnh và đặc điểm của thể thao được chơi trong khung cảnh mùa đông.
Phân loại hình ảnh có nhiều ứng dụng, và có thể thực hiện phân loại này ở quy mô lớn bằng cách sử dụng Hadoop mở ra khả năng phân tích hơn vì các ứng dụng khác có thể sử dụng thông tin phân loại được tạo ra cho các hình ảnh.
Xem ví dụ này từ ngành y tế. Một cơ quan y tế lớn ở Châu Á đã tập trung vào việc cung cấp dịch vụ chăm sóc sức khoẻ qua các phòng khám di động đến một quần thể nông thôn phân bố trên một vùng đất rộng lớn. Một vấn đề quan trọng mà cơ quan phải đối mặt là thách thức hậu cần của việc phân tích các dữ liệu hình ảnh y tế đã được tạo ra trong phòng khám di động của nó.
Một nhà nghiên cứu X quang là một nguồn tài nguyên khan hiếm trong phần này của thế giới, do đó nó có ý nghĩa để truyền tải điện tử các hình ảnh y tế đến một điểm trung tâm và có một đội quân các bác sĩ kiểm tra chúng. Các bác sĩ kiểm tra các hình ảnh đã được nhanh chóng quá tải, tuy nhiên.
Cơ quan đang làm việc trên một hệ thống phân loại để giúp xác định các điều kiện có thể để có hiệu quả cung cấp các gợi ý để các bác sĩ xác minh. Thử nghiệm sớm đã cho thấy chiến lược này để giúp giảm số chẩn đoán bị mất hoặc không chính xác, tiết kiệm thời gian, tiền bạc, và - phần lớn trong cuộc sống.