Митько А.В. Президент Арктической общественной академии наук, доцент ВНИИМ имени Д.И. Менделеева, доцент СПбГУ, кандидат технических наук, доцент
Копьютерное зрение (КЗ) преобразует многие отрасли, предоставляя машинам возможность понимать то, что они «видят», и реагировать без вмешательства человека. В этом обзоре собраны последние достижения в области глубокого обучения (ГО), обработки изображений и компьютерного зрения (КЗ). Основное внимание уделяется применению этих технологий в реальных операционных условиях. Рассматривается основная методология, в том числе извлечение признаков, обнаружение объектов, сегментация изображений и распознавание образов.
Эти методы ускоряют инновации в ключевых секторах, включая здравоохранение, производство, автономные системы и безопасность. Особое внимание уделяется углублению интеграции искусственного интеллекта (ИИ) и машинного обучения (МО) в машинном зрении (МЗ). В частности, мы рассматриваем влияние сверточных нейронных сетей (CNN), генеративно-состязательных сетей (GAN) и трансформерных архитектур на эволюцию возможностей визуального распознавания.
Помимо обзора достижений, в этом обзоре также подробно рассматриваются постоянные препятствия в этой области, прежде всего, дефицит высококачественных размеченных данных, высокая вычислительная нагрузка современных моделей и жесткие временные ограничения, накладываемые приложениями компьютерного зрения в реальном времени.
Рассматриваются ряд новых решений: более эффективные алгоритмы, специализированное оборудование (например, блоки обработки изображений и нейроморфные чипы) и более интеллектуальные способы маркировки или синтеза данных, позволяющие избежать необходимости в масштабных ручных операциях.
Однако отличительной чертой этой статьи является акцент на будущем развитии машинного зрения. Мы освещаем новые направления, включая обработку на периферии сети, приближающую интеллект к сенсору, ранние исследования квантовых методов для визуальных задач и гибридные системы искусственного интеллекта, объединяющие символическое рассуждение с глубоким обучением, не как спекулятивные сценарии будущего, а как ощутимые пути развития, уже формирующиеся. В конечном итоге, цель состоит в том, чтобы связать передовые исследования с реальными сценариями внедрения, предложив обоснованное и практическое руководство для тех, кто сегодня работает на передовой машинного зрения.
1. Введение
Корни машинного зрения (МЗ) лежат в конце 1940-х и начале 1950-х годов, когда начались первые исследования в области искусственного интеллекта (ИИ) и анализа изображений. Большая часть этой фундаментальной работы была обусловлена военными целями США . Практическое применение начало появляться в 1960-х годах. Значительный прорыв произошел в 1970-х годах, когда исследователи Массачусетского технологического института (MIT) создали систему обработки изображений, способную управлять роботизированной рукой. К 1980-м годам повышение эффективности алгоритмов позволило впервые внедрить МЗ в промышленном масштабе
В эту эпоху также были внедрены ключевые методы, такие как фотостереоскопия, определение формы по затенению и определение формы по фокусу. Эти методы улучшили интерпретацию изображений, используя вариации освещения и информацию о глубине. 1990-е годы ознаменовались еще одним крупным прорывом с появлением технологии интегральных схем. Это нововведение позволило создать интеллектуальные камеры, способные самостоятельно выполнять обработку изображений
Одновременно с этим вычислительная теория зрения Дэвида Марра заложила основу для понимания преобразования визуальных входных данных в осмысленные представления посредством вычислений, алгоритмов и аппаратного обеспечения. В XXI веке достижения в области обнаружения границ, стереоскопического зрения и 3D-моделирования значительно повысили возможности систем визуального контроля, укрепив их роль в современном производстве, особенно для высокоточных задач, таких как контроль качества, выявление дефектов и автоматизированная визуальная проверка
Сегодня МВ выступает катализатором трансформации во многих областях, от промышленной автоматизации и здравоохранения до инфраструктуры безопасности и автономной мобильности Его сила заключается в преобразовании необработанных пикселей в значимые, действенные данные, тем самым повышая операционную эффективность, согласованность измерений и надежность решений в сложных реальных условиях (например, обеспечение судоходста в Арктическом бассейне)
Эта растущая зависимость обусловлена явным преимуществом МВ над человеческим зрением: оно не устает, не «дрейфует» (не становится размытым и не теряет резкости) и работает со скоростью и точностью, которые просто недостижимы вручную. Эти качества сделали его незаменимым в современном технологически развитом мире. В производстве и контроле качества МВ незаменим: автоматизированные системы контроля, интегрирующие камеры высокого разрешения с интеллектуальными алгоритмами, надежно выявляют дефекты, проверяют геометрические характеристики и поддерживают однородность продукции на уровнях, недостижимых ручными методами
В отличие от этого, человеческий контроль по своей природе подвержен усталости и изменчивости, тогда как системы MV работают непрерывно с незначительным дрейфом. Роботизированные сборочные линии дополнительно используют MV для пространственной обратной связи в реальном времени, повышая производительность и снижая эксплуатационные расходв
Сектор здравоохранения претерпел глубокие изменения благодаря интеграции машинного зрения в медицинскую визуализацию, диагностический скрининг и роботизированную хирургию Модели машинного зрения на основе глубокого обучения теперь регулярно интерпретируют рентгеновские снимки, МРТ и КТ-сканы, что позволяет проводить раннюю диагностику таких заболеваний, как рак и диабетическая ретинопатия
Благодаря автоматическому мониторингу гистопатологических рабочих процессов машинное зрение снижает диагностическую неопределенность и способствует улучшению клинических результатов. Хирургические роботы, в свою очередь, полагаются на системы машинного зрения в реальном времени для управления малоинвазивными вмешательствами с исключительной точностью
В автономном вождении MV служит основополагающим методом восприятия, позволяющим транспортным средствам надежно интерпретировать сложные условия окружающей сред Системы MV, дополненные такими датчиками, как LiDAR, инфракрасные камеры и радар, выполняют основные задачи, включая обнаружение объектов, отслеживание полосы движения, идентификацию пешеходов и предотвращение столкновений
В сочетании с алгоритмами глубокого обучения эти системы поддерживают мгновенные решения о вождении, способствуя более безопасной и эффективной мобильности. Одновременно с этим, возросшие требования к безопасности привели к быстрому внедрению MV в системах видеонаблюдения
Современные платформы безопасности на основе машинного зрения используют распознавание лиц, обнаружение аномалий и анализ поведения толпы для повышения общественной безопасности и поддержки правоохранительных органов
В приложениях безопасности системы машинного зрения на основе ИИ могут обнаруживать потенциальные угрозы по мере их развития, предлагая оповещения в режиме реального времени, которые помогают как в превентивных мерах, так и в криминалистическом анализе после инцидента. Однако, несмотря на весь этот прогресс, сохраняются значительные препятствия
Главным из них является сильная зависимость от огромных, размеченных вручную наборов данных для обучения моделей глубокого обучения. Это требование затрудняет масштабируемость и ограничивает возможности обобщения систем за пределами условий обучения. Кроме того, анализ изображений высокого разрешения в реальном времени требует значительной вычислительной мощности, что часто исключает развертывание на легковесных периферийных платформах. Не менее актуальной является необходимость повышения устойчивости: существующие модели остаются уязвимыми к враждебным воздействиям и могут давать сбои при повседневных изменениях освещения, погоды или композиции сцены
В отчете «MV для промышленности и автоматизации 2021» компания Yole Development оценила, что CMOS-датчики изображения (CIS) составляют более 86% рынка промышленных камер. Интеграция передовых методов визуализации, таких как трехмерная (3D) технология и мультиспектральная визуализация, расширила применение MV в различных отраслях промышленности. Эта технологическая диверсификация повышает точность производства в потребительской электронике и автомобильной промышленности, тем самым увеличивая спрос на решения MV. Более того, глобальные достижения в промышленности, включая инициативы «Индустрия 4.0», ускоряют процессы автоматизации и еще больше способствуют развитию технологий MV.
Разработка систем машинного зрения больше не ограничивается достижениями в алгоритмах компьютерного зрения или разработке программного обеспечения. Наиболее впечатляющие успехи достигаются на стыке машинного зрения с такими областями, как материаловедение, фотоника и робототехника. Например, исследователи сейчас используют метаповерхности (МП) и дифракционные оптические элементы (ДОЭ) для создания компактных, высокоспециализированных датчиков, способных реагировать на определенные длины волн света.
В то же время интеграция машинного зрения с мягкой робототехникой и микроэлектромеханическими системами (МЭМС) открывает новые возможности для разработки адаптивных и гибких систем машинного зрения. Такие системы могут надежно функционировать даже в непредсказуемой или неструктурированной среде
Эти междисциплинарные усилия могут привести к созданию интеллектуальных, реконфигурируемых платформ, способных корректировать свои оптические и вычислительные параметры в режиме реального времени. Такой возможности просто не существовало в предыдущих поколениях технологий машинного зрения. По мере роста промышленного спроса на более портативные, точные и универсальные решения в области машинного зрения, ожидается, что это направление исследований будет привлекать все больше внимания и инвестиций.
Один из наиболее перспективных путей развития машинного зрения заключается в его конвергенции с нейроморфными вычислениями, областью, смоделированной по архитектуре и функциям человеческого мозга. В отличие от традиционных цифровых процессоров, нейроморфные чипы, такие как Loihi от Intel и TrueNorth от IBM, используют импульсные нейронные сети (SNN), имитирующие поведение биологических нейронов.
Такой подход обеспечивает обработку визуальной информации, которая не только быстрее и адаптивнее, но и значительно энергоэффективнее. Такие возможности особенно ценны для приложений машинного зрения в условиях ограниченных ресурсов, включая периферийные устройства, автономную робототехнику и интеллектуальные системы видеонаблюдения. Нейроморфные датчики зрения, такие как камеры, работающие на основе событий, улучшают этот подход, регистрируя только динамические изменения в сцене, что снижает вычислительные затраты и повышает скорость отклика.
Слияние нейроморфных вычислений с машинным зрением не только улучшает анализ изображений с низким энергопотреблением и высокой скоростью, но и открывает путь для самообучающихся систем зрения, способных адаптироваться в реальном времени к непредсказуемым условиям. Это представляет собой важную веху для автоматизации следующего поколения на основе ИИ
В отличие от классических компьютеров, которые обрабатывают данные в бинарных состояниях (0 и 1), квантовые компьютеры используют квантовую суперпозицию и запутанность для выполнения сложных вычислений экспоненциально быстрее Этот сдвиг парадигмы может позволить МВ обрабатывать многомерные данные изображений в реальном времени, улучшая распознавание объектов, обнаружение образов и идентификацию аномалий сверх существующих возможностей.
Квантовые алгоритмы, такие как квантово-усиленные преобразования Фурье и поиск Гровера, обладают потенциалом для революционизации обнаружения границ и фильтрации шума в приложениях МВ, делая их более устойчивыми к искажениям и перекрытиям. Кроме того, квантовые датчики могут улучшить визуализацию в сложных условиях, таких как медицинская диагностика и автономная навигация в условиях низкой видимости. Хотя квантовые вычисления для МВ все еще находятся на ранних стадиях, их интеграция с моделями ИИ и глубокого обучения призвана изменить будущее визуального восприятия, обеспечивая более быстрые, эффективные и ранее недостижимые возможности МВ.
Траектория развития машинного зрения указывает на существенные достижения, обусловленные как быстрой технологической эволюцией, так и расширением его влияния в промышленных и научных областях. Одна из очевидных тенденций — более тесная связь ИИ и глубокого обучения с конвейерами обработки изображений, что позволяет системам решать сложные аналитические задачи, требуя при этом гораздо меньше размеченных данных, чем раньше. Это, в свою очередь, повышает их гибкость и эффективность.
В то же время, трехмерное зрение набирает обороты, отчасти потому, что оборудование для стереоскопического зрения стало значительно доступнее; эти возможности позволяют машинам воспринимать глубину и пространственное расположение с гораздо большей точностью, чем традиционные двухмерные подходы
Еще одним ключевым направлением является переход к обработке на периферии сети. Вместо отправки каждого кадра на удаленный сервер, все больше систем теперь обрабатывают анализ непосредственно там, где были получены изображения, например, на камерах, роботах или встроенных устройствах. Это не только значительно сокращает задержку, но и снижает нагрузку на пропускную способность сети и повышает безопасность данных.
Практические результаты уже видны: например, в автомобильной промышленности диагностические инструменты на базе микроволн теперь могут обнаруживать множество механических или электрических неисправностей за считанные секунды, превращая трудоемкую ручную проверку в практически мгновенную автоматизированную оценку.
В клинической практике такие инновации, как цифровые хирургические лупы, обеспечивают хирургам улучшенную четкость изображения наряду с видеосъемкой в реальном времени, повышая как точность во время операции, так и качество обучения после процедуры. В совокупности эти достижения подчеркивают растущую роль микроволн как ключевой технологии. Она постоянно расширяет границы того, что машины могут воспринимать, интерпретировать и обрабатывать в широком спектре применений.
Интеграция ИИ в визуальную визуализацию значительно повысила точность и надежность анализа визуальных данных Для достижения этой цели системы визуальной визуализации используют разнообразные алгоритмы, каждый из которых предназначен для извлечения определенных типов информации из изображений. Например, методы обнаружения границ, такие как Кэнни и Собеля, необходимы для идентификации границ объектов.
Распознавание образов и сопоставление шаблонов обычно используются для обнаружения и классификации определенных форм или объектов. Методы извлечения признаков, такие как масштабно-инвариантное преобразование признаков (SIFT) и ускоренные надежные признаки (SURF), позволяют системам определять местоположение отличительных ключевых точек даже при изменяющихся условиях освещения или изменении точки обзора. Между тем, алгоритмы оптического потока анализируют движение между последовательными кадрами, поддерживая критически важные функции, такие как отслеживание объектов и навигация в автономных системах.
Алгоритмы глубокого обучения (DL), в частности сверточные нейронные сети (CNN), произвели революцию в визуальной визуализации, обеспечив расширенную классификацию изображений, сегментацию и обнаружение аномалий с высокой точностью. Эти разнообразные алгоритмы в совокупности обеспечивают работу современных приложений визуальной визуализации в различных отраслях. Это слияние ИИ и МВ революционизирует автоматизацию и расширяет границы возможного в визуальном восприятии.
Релевантные публикации были выявлены в основных базах данных, включая Web of Science, Scopus, IEEE Xplore, PubMed и Google Scholar, за период с 2010 по 2025 год, при этом более ранние ключевые работы были включены там, где они имели историческое значение. Поисковые запросы объединяли такие термины, как «машинное зрение» ИЛИ «компьютерное зрение», с областями применения (производство, здравоохранение, автономные транспортные средства, сельское хозяйство, наблюдение) и вспомогательными технологиями (объяснимый ИИ, нейроморфный, импульсный, событийный, периферийный, встроенный, квантовый, эталонный, набор данных)
2. Основы MV
Компьютерное зрение (CV) представляет собой широкую область в рамках ИИ, которая позволяет машинам интерпретировать и анализировать визуальные данные в разнообразных и часто неструктурированных средах. Оно лежит в основе широкого спектра приложений, от распознавания лиц и дополненной реальности до медицинской визуализации
Микровизуальное моделирование (MV), напротив, является специализированной ветвью CV, адаптированной для контролируемых, специфичных для конкретных задач условий, особенно в промышленной автоматизации. В этих условиях интегрированные системы объединяют камеры, датчики, освещение и специально разработанные алгоритмы для достижения стабильных, высокоточных результатов
По сути, CV обеспечивает теоретическую и алгоритмическую основу, тогда как MV преобразует эти возможности в надежные, реальные реализации. Система MV, часто называемая автоматизированной системой контроля, состоит из нескольких взаимозависимых компонентов, которые в совокупности выполняют ее операционные задачи. Твердое понимание этих основополагающих элементов имеет решающее значение для эффективного внедрения и оптимизации технологий MV.
2.1. Основные компоненты MV
Типичная система визуального мониторинга включает четыре основных элемента: камеры, датчики, освещение и программное обеспечение, каждый из которых играет свою роль в определении общей производительности системы. Камеры получают изображения высокого разрешения. Датчики предоставляют дополнительные данные, необходимые для контекстной интерпретации. Освещение проектируется таким образом, чтобы максимизировать контрастность и видимость объектов. Наконец, программное обеспечение выполняет анализ и интерпретацию визуальных данных для поддержки точного автоматизированного принятия решений. Эти компоненты и их взаимодействие подробно описаны в дальнейшем обсуждении.
2.1.1. Камеры
Камеры служат глазами системы, захватывая изображения объектов или окружающей среды с высоким разрешением. В отличие от потребительских камер, камеры MV созданы для точности, скорости и долговечности. Они выпускаются в различных типах, таких как монохромные, цветные, инфракрасные и 3D-камеры, выбор которых зависит от потребностей приложения, например, обнаружения дефектов, считывания штрих-кодов или распознавания объектов. Традиционные цифровые камеры ограничены своей зависимостью от форматов изображений и видео, унаследованных от пленочной технологии, что ограничивает их способность фиксировать быстрые изменения освещения.
Чтобы преодолеть это, Хуанг и др. представили vform, массив битовых последовательностей, в котором каждый бит указывает, достигло ли накопление фотонов порогового значения. Этот метод позволил точно записывать и восстанавливать яркость сцены в любой момент времени. Используя стандартные комплементарные металл-оксидные полупроводниковые (CMOS) датчики и интегральные схемы, они разработали импульсную камеру, которая работает почти в 1000 раз быстрее, чем обычные покадровые камеры. По сравнению с традиционными CMOS/CCD-устройствами, которые обычно ограничены несколькими тысячами кадров в секунду, импульсная камера достигает временного разрешения на уровне микросекунд, фиксируя изменения, которые в противном случае были бы потеряны при частоте кадров в миллисекундном масштабе.
Интерпретируя vform как последовательности импульсов, подобные тем, что встречаются в биологическом зрении, исследователи создали систему MV на основе импульсной нейронной сети (SNN). Эта интеграция объединила вычислительную скорость с механизмами, вдохновленными биологией, что позволило сверхбыстро обнаруживать и отслеживать объекты со скоростью, превышающей скорость человеческого зрения. Хуанг и др. назвали эту интегрированную структуру «системой сверхзрения», подчеркнув ее способность объединять высокоскоростную визуализацию с обработкой, вдохновленной нейронными сетями.
Потенциал этой технологии был продемонстрирован в двух экспериментальных установках: вспомогательной системе судейства и высокоскоростной системе слежения за целью. В таких видах спорта, как теннис и бадминтон, точное отслеживание мяча имеет решающее значение. Традиционные системы Hawk-Eye оценивают точки удара на основе траектории, что может привести к спорам и является дорогостоящим. Используя теннисный мячомет, система непрерывной съемки на основе событий с помощью камеры Spike Camera зафиксировала точный момент удара, обеспечивая точные и надежные решенич
Последовательность приземления мяча на скорости 100 км/ч, показывающая 6 из 170 кадров с выделенным мячом и границей. ( c ) Настройка отслеживания цели: лазер попадает в определенный символ на вращающемся вентиляторе. ( d ) Вентилятор до и после попадания 64 лазерных импульсов в символ «К». ( e ) Тест распознавания SNN: нейрон правильной категории генерирует наибольшее количество импульсов. ( f ) Отслеживание нескольких объектов: ось y показывает полярный угол объектов относительно центра вентилятора, с масками SNN в реальном времени и ограничивающими рамками. ( g ) Оценка производительности: отслеживание высокоскоростного движения. 1 Маха = 340,3 м/с.
Второй эксперимент проверял высокоскоростное отслеживание цели с помощью вращающегося вентилятора со скоростью 2400 об/мин, на лопастях которого были прикреплены символы «P», «K» и «U». Задача заключалась в обнаружении и отслеживании движущихся объектов, распознавании и определении местоположения цели, а также прогнозировании ее движения для запуска лазера в нужный момент. Система суперзрения выполняла эту задачу в реальном времени, как показано на сравнении «до» и «после» работы вентилятор, выходных данных импульсной последовательности и результатах плавного отслеживания нескольких объектов
Оценка производительности продемонстрировала успешное отслеживание объектов, движущихся со скоростью 30 м/с, на расстоянии 0,75 м, самолета на скорости Маха 1 на расстоянии 10 м и даже гиперзвукового объекта на скорости Маха 100 на расстоянии 1 км ( рис. 4g ).
Эти результаты имеют глубокие последствия. В отличие от традиционных систем машинного зрения на основе кадров, которые восстанавливают движение посредством интерполяции или оценки траектории, импульсная камера записывает визуальные события напрямую с временной точностью порядка микросекунд. Этот подход переопределяет сами основы обработки изображений и видеосъемки, открывая двери для нового класса систем машинного зрения на основе SNN, способных оказать преобразующее воздействие в областях, начиная от высокоскоростной кинематографии и заканчивая профессиональной фотографией и иммерсивными визуальными медиа
Ян и др. представили систему 3D-реконструкции, которая объединяет бинокулярные и глубинные камеры для повышения точности измерения расстояния до объекта и 3D-реконструкции. Система состояла из двух одинаковых цветных камер, глубинной камеры с измерением времени пролета (TOF), блока обработки изображений, блока управления мобильным роботом и самого мобильного робота.
Глубинная камера TOF, хотя и полезна для измерения расстояний, имеет низкое разрешение, что делает ее непригодной для точного планирования траектории. С другой стороны, хотя бинокулярные стереокамеры обеспечивают высокое разрешение, они сталкиваются с проблемами стереосопоставления, особенно в условиях низкой текстуры, что влияет на их общую точность.
Для решения этих проблем система интегрировала данные глубинной камеры и методы стереосопоставления для повышения точности 3D-реконструкции. Кроме того, для повышения эффективности системы использовался двухпоточный подход к обработке. Экспериментальные результаты показали, что система повышает точность 3D-реконструкции, надежно измеряет расстояния и эффективно поддерживает планирование траектории
2.1.2. Датчики
Датчики дополняют камеры, обнаруживая наличие, положение и движение объекта. Они обеспечивают точное получение изображения, используя такие технологии, как датчики приближения, лазерные датчики и датчики времени пролета, для повышения точности данных Достижения в производстве печатных плат (PCB) привели к увеличению плотности компонентов поверхностного монтажа.
Следовательно, электронная промышленность активизировала усилия по совершенствованию протоколов контроля, все чаще прибегая к автоматизации на производственных линиях. В этом контексте машинное зрение стало краеугольным камнем обеспечения качества, напрямую поддерживая решения о прохождении/непрохождении контроля для компонентов, не соответствующих требуемым спецификациям.
Сильва и др. предложили гибридную интеллектуальную систему визуального контроля, которая объединяет методологию машинного зрения со специализированной технологией визуальных датчиков для одновременной оценки 24 дискретных компонентов и восьми резьбовых соединений
Разработанная специально для повышения надежности контроля в автомобильной сборке, эта система сочетает стандартную камеру с цветным CMOS-датчиком зрения для получения изображений сборочных приспособлений в реальном времени.
Подход обеспечил высокую точность даже в сложных условиях, типичных для промышленных цехов, подтверждая его применимость в реальных условиях. Система оказалась особенно эффективной в выявлении скрытых режимов отказов, при этом оптимальные результаты были получены при использовании Vision Builder для автоматизированной проверки. Кроме того, внедрение системы в рабочий процесс обеспечения качества привело к измеримым улучшениям в процессе FMEA, в частности, к явному снижению оценок приоритета действий
Сегодня решения MV используются в широком спектре отраслей промышленности, в основном для мониторинга и проверки согласованности производственных процессов. Хотя эти системы могут автоматически записывать состояния сборки и извлекать ключевые показатели производительности, их запуск и работа редко бывают простыми. Внедрение обычно включает длительные этапы настройки, включая тщательную калибровку, итеративную настройку и ручную конфигурацию. Эти шаги часто требуют глубоких знаний в предметной области.
В результате развертывание часто занимает недели или даже месяцы и остается в значительной степени зависимым от участия специалистов, что представляет собой реальное препятствие для небольших фирм или тех, кто имеет ограниченные технические ресурсы. Ситуацию усугубляет то, что большинство развертываний MV жестко привязаны к конкретным задачам, а это означает, что любое изменение в конструкции продукта, рабочей среде или параметрах процесса обычно запускает полный цикл переконфигурации или перепроектирования.
Чтобы смягчить эти узкие места, Гирекер и др. предложили цепочку процессов, основанную на моделировании, направленную на упрощение как настройки, так и ввода в эксплуатацию систем MV Предложенный метод объединил существующие алгоритмы планирования датчиков с инновационными методами генерации обучающих данных и проведения детального анализа, адаптированного к процессам сборки
Системы визуального мониторинга используют различные типы датчиков для точного сбора и обработки визуальных данных. Эти датчики играют решающую роль в повышении качества изображения, обнаружении объектов, измерении расстояний и анализе материалов. Выбор датчика зависит от конкретного применения, требуемой точности и условий окружающей среды. В таблице 1 приведены основные характеристики различных типов датчиков, используемых в системах визуального мониторинга.
2.1.3. Освещение
Освещение в MV имеет важное значение для повышения контрастности изображения, точности и обнаружения деталей. Эффективный выбор освещения зависит от исследуемого материала, характеристик источника света и геометрии системы. Для обеспечения стабильной работы предпочтительнее светодиодное освещение благодаря его энергоэффективности и длительному сроку службы.
Правильное направление света, интенсивность и длина волны имеют решающее значение для оптимизации четкости изображения и минимизации ошибок в анализе системы машинного зрения. Выбор правильного освещения предотвращает дефекты и повышает общую надежность системы машинного зрения. Кумар и др. исследовали влияние различных одноцветных светодиодов на MV для оценки шероховатости поверхности деталей, напечатанных на 3D-принтере
Для прогнозирования значений шероховатости на основе характеристик текстуры поверхности GLCM использовалась искусственная нейронная сеть (ИНС). Прогнозируемые значения шероховатости показали сильную корреляцию с обычными значениями Ra, особенно при использовании синего освещения. Это говорит о том, что интенсивность света разных цветов влияет на распределение уровней серого, влияя на анализ текстуры.
Эксперимент, проведенный в статических условиях с использованием одного светодиодного источника, показал, что сочетание нескольких цветов светодиодов может обеспечить более равномерный контраст по всей поверхности. Расширение этого подхода путем использования нескольких источников света с различными длинами волн может дать более глубокое понимание того, как спектральные свойства освещения влияют на измерения шероховатости поверхности. В исследовании четко подчеркивается, что выбор цвета освещения не случаен, а имеет центральное значение для достижения надежной количественной оценки текстуры в приложениях МВ
При проектировании систем машинного зрения освещение не является второстепенным вопросом. Это ключевой фактор, определяющий качество изображения. Различные стратегии освещения служат различным функциональным целям: одни повышают резкость краев, другие максимизируют контраст, а третьи обеспечивают равномерное освещение сложных геометрических форм.
Помимо выбора подходящего типа освещения, инженеры также должны учитывать направление света, интенсивность и спектральный состав относительно цвета объекта. Эти факторы напрямую влияют на качество изображения и определяют, насколько эффективно система машинного зрения может захватывать интересующие объекты
2.1.4. Программное обеспечение
Программное обеспечение обрабатывает захваченные изображения с использованием алгоритмов обработки изображений и методов ИИ. Оно извлекает релевантные признаки, применяет распознавание образов и принимает решения. Программное обеспечение MV включает инструменты для улучшения изображений, сегментации, обнаружения границ и классификации на основе D Достижения в области компьютерного распознавания изображений преобразили такие отрасли, как здравоохранение, безопасность и автономные системы.
Хуанг и др. сосредоточились на повышении точности и эффективности распознавания путем усовершенствования алгоритмов обработки изображений, в частности, с помощью методов регрессии. Были проанализированы различные методы регрессии и их применение в распознавании изображений, подкрепленные примерами, основанными на данных. Кроме того, в исследовании рассматривались проблемы обработки визуальных данных из неструктурированной среды на открытом воздухе.
Благодаря стандартизации гетерогенных шаблонов и извлечению релевантных признаков из объединенных данных производительность распознавания была значительно улучшена. Результаты моделирования подтвердили улучшенные возможности восприятия и идентификации в сложных условиях на открытом воздухе. Более того, автоматизированный визуальный контроль необходим в компьютерно-интегрированных производственных системах.
Хуанг и др. сравнили два подхода к разработке системы визуального контроля: традиционные алгоритмы обработки изображений и нейронные сети. Было проведено исследование для оценки их производительности . Традиционные методы имели преимущество в более быстрой настройке, но нейронные сети требовали значительных усилий в подготовке данных и обучении.
Несмотря на эти накладные расходы, они неизменно превосходили традиционные алгоритмы по точности, особенно в сценариях контроля, где важны тонкие визуальные различия. Это делает нейронные сети особенно подходящими для ответственных и высокоточных приложений.
2.2. Сравнение с человеческим зрением
МВ отличается от человеческого зрения несколькими фундаментальными способами, особенно в отношении скорости, точности, спектральной чувствительности и когнитивной обработки. Системы МВ могут обрабатывать визуальную информацию гораздо быстрее, чем люди, что делает их особенно эффективными для контроля качества в реальном времени. Они не испытывают усталости, что обеспечивает стабильную, повторяемую работу в течение длительных циклов эксплуатации. Кроме того, они могут обнаруживать чрезвычайно мелкие детали, которые часто незаметны для человеческого глаза. В сочетании с камерами высокого разрешения и сложной обработкой изображений системы МВ обычно достигают точности на уровне микрометров в таких приложениях, как обнаружение дефектов и метрология размеров.
Еще одно ключевое различие заключается в диапазоне обнаруживаемых длин волн. Человеческое зрение ограничено видимым спектром, тогда как системы МВ могут использовать инфракрасное, ультрафиолетовое и даже рентгеновское излучение для обнаружения особенностей, которые остаются скрытыми при обычном освещении. Эта расширенная спектральная возможность широко используется в медицинской диагностике, досмотре и неразрушающем контроле материалов.
При этом человеческое зрение обладает значительным преимуществом в контекстном понимании. Оно опирается на многолетний опыт, семантические знания и интуитивное мышление. Это возможности, которые современные системы МВ пока не могут воспроизвести. В отличие от них, системы МВ полагаются на предопределенные алгоритмы и модели ИИ, которые, хотя и мощные, лишены интуитивного понимания. Машины преуспевают в структурированных средах, но испытывают трудности в непредсказуемых сценариях, где необходима человеческая интуиция.
2.3. Роль ИИ и глубокого обучения в MV
Искусственный интеллект и глубокое обучение значительно расширили возможности визуального анализа, обеспечив сложный и адаптивный анализ. В отличие от традиционных подходов, основанных на правилах, модели, управляемые ИИ, обучаются и совершенствуются с течением времени
2.3.1. Извлечение признаков и классификация
Извлечение признаков и классификация являются основополагающими для многих задач компьютерного зрения (CV). Модели глубокого обучения (DL), особенно сверточные нейронные сети (CNN), преобразовали эти процессы. В прошлом извлечение признаков основывалось на ручной разработке: экспертам в предметной области приходилось выбирать релевантные визуальные атрибуты, такие как края, текстуры или формы, на основе их понимания проблемы. Этот подход был трудоемким, требовал специальных знаний и часто упускал из виду тонкие, но значимые закономерности в данных.
Сверточные нейронные сети преодолевают эти ограничения, автоматически обучаясь иерархическим представлениям непосредственно из исходных данны. По мере того, как изображение перемещается по сети, ранние слои обнаруживают базовые структуры, такие как края и градиенты. Более глубокие слои затем объединяют их в более сложные и абстрактные признаки, такие как части объекта, целые формы или контекст сцены, что обеспечивает надежное распознавание.
Это иерархическое обучение напрямую поддерживает такие приложения, как обнаружение стресса у растений, где незначительные изменения цвета или деформации краев, зафиксированные ранними слоями, превращаются в связанные со стрессом фенотипы в более глубоких слоях, и сортировка фруктов, где признаки текстуры поверхности, цвета и формы объединяются для классификации качества продукции. Связывая низкоуровневые признаки с высокоуровневыми, сверточные нейронные сети обеспечивают надежную работу в различных приложениях MV.
Автоматическое извлечение признаков особенно полезно в задачах, связанных с большими объемами визуальных данных, таких как обнаружение дефектов в производстве, системы распознавания лиц и классификация объектов в различных областях, например, в автономных транспортных средствах и здравоохранении. Например, при обнаружении дефектов сверточные нейронные сети (CNN) могут научиться распознавать едва заметные дефекты в продуктах, которые трудно обнаружить человеческим инспекторам
В распознавании лиц эти модели могут извлекать отличительные черты лица и сопоставлять их на разных изображениях с высокой точностью, даже в сложных условиях, таких как изменения освещения или угла Классификация объектов, будь то категоризация животных на фотографиях или идентификация товаров в розничной торговле, также значительно выигрывает от использования CNN, которые могут быстро и эффективно определять релевантные признаки для классификации. .Автоматизируя извлечение признаков и классификацию, модели глубокого обучения значительно повышают как скорость, так и надежность визуального анализа, что делает их незаменимыми в широком спектре промышленных приложений.
2.3.2. Распознавание образов и обнаружение аномалий
Системы машинного зрения на основе ИИ используют передовые методы машинного обучения, включая сверточные нейронные сети и другие архитектуры глубокого обучения, для распознавания образов в реальном времени и обнаружения аномалий.
Эти системы обрабатывают огромные объемы визуальных данных, обучаясь на типичных примерах, чтобы выявлять отклонения, которые могут сигнализировать о дефектах, нарушениях безопасности или сбоях в работе. В производстве, например, контроль качества на основе ИИ может оценивать тысячи изделий в минуту, обнаруживая дефекты размером менее миллиметра с исключительной точностью. Это снижает зависимость от ручной проверки, тем самым увеличивая производительность, сокращая затраты и минимизируя человеческие ошибки.
Применение обнаружения аномалий выходит далеко за рамки производственных линий: в финансах и кибербезопасности модели ИИ анализируют транзакционное или сетевое поведение для выявления мошеннической или вредоносной деятельности, как подробно описано в анализе выбросов Аггарвала . В здравоохранении диагностические инструменты с использованием ИИ позволяют радиологам выявлять ранние признаки патологий, таких как рак, на медицинских изображениях, что приводит к более раннему вмешательству и лучшим клиническим результатам [91, 92]. В совокупности эти примеры использования демонстрируют способность ИИ повышать точность, операционную эффективность и качество принятия решений в различных областях.
2.3.3. Автономное принятие решений
Слияние машинного обучения и искусственного интеллекта позволяет машинам принимать автономные решения в робототехнике и промышленной автоматизации. Такие системы могут воспринимать окружающую среду, интерпретировать визуальные данные и выполнять действия, соответствующие контексту, без участия человека. В производственных условиях промышленные роботы, оснащенные машинным обучением с использованием ИИ, перемещаются в динамичных рабочих пространствах, распознают детали с высокой точностью и корректируют свое поведение в режиме реального времени для учета изменений процесса Лидеры автомобильной промышленности, включая Tesla, Mercedes и BMW, используют автономные роботизированные манипуляторы, которые применяют машинное обучение для проверки узлов, выявления дефектов и выполнения корректировок в режиме реального времени во время производства .
В логистике такие компании, как Amazon и DHL, используют автономных мобильных роботов (AMR), которые полагаются на управляемые искусственным интеллектом мобильные роботы для навигации по складу, сортировки посылок и адаптивного планирования маршрутов.
Аналогично, в сельском хозяйстве автономные дроны сочетают в себе мобильные роботы и ИИ для оценки состояния урожая, обнаружения болезней растений и избирательного применения агрохимикатов, минимизируя воздействие на окружающую среду и повышая эффективность урожайности . Эти примеры подчеркивают, как интегрированные с ИИ мобильные роботы не только переосмысливают существующие промышленные практики, но и закладывают основу для следующего поколения автономных систем.
2.3.4. Адаптивное обучение
Системы визуального мониторинга на основе ИИ постоянно повышают свою точность, обучаясь на новых данных. Это особенно полезно в динамических приложениях, таких как мониторинг дорожного движения, медицинская диагностика и автономные транспортные средства. Системы визуального мониторинга требуют адаптивных механизмов для обработки изображений в условиях изменяющейся яркости, однако традиционные устройства визуальной адаптации ограничены низкой скоростью адаптации. Для решения этой проблемы Ли и др. предложили бионический двухмерный (2D) транзистор, использующий лавинную настройку в качестве механизма прямого подавления, обеспечивающий быструю и высокочастотную визуальную адаптацию [104]. Этот подход позволил достичь восприятия на уровне микросекунд, превзойдя скорость адаптации сетчатки человека и существующих бионических датчиков более чем в 10 000 раз.
Бионический транзистор динамически переключается между лавинным и фотопроводящим эффектами в ответ на изменения интенсивности света, регулируя чувствительность как по величине, так и по полярности (от 7,6 × 10⁴ до1 × 10³ А/Вт). Этот механизм обеспечил сверхбыструю адаптацию со скотопическим и фотопическим временем отклика 108 мкс и 268 мкс соответственно.
Благодаря интеграции этого настроенного на лавину бионического транзистора с CNN была разработана адаптивная система MV, способная к быстрой настройке на уровне микросекунд.
Эта система продемонстрировала исключительную производительность, достигнув точности распознавания изображений более 98% как в условиях слабого, так и яркого освещения.
Естественный интеллект функционирует в многомерном пространстве, при этом фундаментальными аспектами являются обучение в окружающей среде и адаптация к поведению. Зрение особенно важно для приматов, где биологические нейронные сети, состоящие из специализированных нейронов и синапсов, обрабатывают визуальную информацию, постоянно адаптируясь и обучаясь с исключительной энергоэффективностью. Забывание также играет жизненно важную роль в этом процессе, обеспечивая эффективное управление информацией.
Имитация этих адаптивных механизмов в зрении, обучении и забывании может ускорить развитие ИИ и сократить значительный энергетический разрыв между искусственным и биологическим интеллектом. Додда и др. представили биоинспирированную систему МВ на основе двумерного массива фототранзисторов, построенного из монослоя дисульфида молибдена (MoS₂) большой площади, в паре с аналоговым, энергонезависимым и программируемым стеком затворов памяти.
Эта архитектура обеспечила динамическое обучение и переобучение на основе визуальных стимулов, сохраняя при этом адаптивность к различным условиям освещения с минимальным энергопотреблением. В результате была создана «универсальная» платформа машинного зрения, объединяющая датчики, вычисления и память в одном устройстве, эффективно обходя узкое место фон Неймана, которое является проблемой традиционных CMOS-архитектур, и устраняя необходимость во внешних периферийных схемах или вспомогательных датчиках.
2.3.5. Периферийные вычисления и обработка в реальном времени
Периферийные вычисления коренным образом меняют работу систем обработки изображений, перемещая вычисления из удаленных центров обработки данных на локальное оборудование, расположенное рядом с местом захвата изображений. Такой подход напрямую решает две давние проблемы в архитектурах, зависящих от облачных вычислений: задержки связи и ограниченную пропускную способность.
Традиционные рабочие процессы обработки изображений часто предполагают передачу необработанных данных изображений за пределы локальной сети для анализа, что не только замедляет принятие решений, но и вызывает опасения по поводу раскрытия конфиденциального визуального контента. Периферийные вычисления обходят обе проблемы, обрабатывая данные непосредственно в источнике, будь то интеллектуальные камеры, датчики с поддержкой IoT или встроенные чипы ИИ.
Это позволяет мгновенно реагировать в приложениях, где каждая миллисекунда имеет значение, таких как беспилотные автомобили, медицинская диагностика в реальном времени, промышленная робототехника и интеллектуальное видеонаблюдение.
Этот переход обеспечивается моделями ИИ (в частности, сверточными нейронными сетями), которые были значительно оптимизированы для эффективной работы на специализированных ускорителях, таких как GPU, TPU и FPGA. Дальнейшее повышение эффективности достигается за счет легковесных механизмов вывода, таких как TensorFlow Lite и OpenVINO, которые позволяют сложным моделям работать на маломощных периферийных устройствах без ущерба для быстродействия.
Снижая зависимость от централизованной инфраструктуры, периферийная визуальная информационная обработка не только повышает отказоустойчивость системы и конфиденциальность данных, но и сохраняет функциональность в условиях ограниченной пропускной способности или в условиях отключения. Поскольку отрасли все чаще требуют мгновенного визуального анализа, синергия между периферийными вычислениями и визуальной информационной обработкой будет продолжать стимулировать инновации в критически важных с точки зрения безопасности системах автоматизации и операционной эффективности.
Мониторинг биомассы в ферментируемых жидких культурах грибов требует непрерывного анализа в реальном времени с минимальным участием оператора, что делает интеллектуальное автоматизированное визуальное восприятие крайне важным. Для удовлетворения этой потребности Ву и др. представили Edge CV, компактную систему визуального мониторинга, построенную на принципах граничных вычислений для неинвазивной оценки биомассы.
Система, построенная на платформе Jetson Nano (с 4 ГБ ОЗУ, 64 ГБ ПЗУ и 128-ядерным графическим процессором Maxwell), поддерживает выполнение алгоритмов визуального мониторинга в реальном времени. Встроенные камеры непрерывно передают данные изображений, обеспечивая полностью автоматизированный мониторинг без вмешательства оператора.
Для достижения точной оценки биомассы была разработана каскадная модель визуального мониторинга, состоящая из трех ключевых этапов: обнаружение объектов для определения окна наблюдения, сегментация для извлечения данных о штаммах в жидкости и морфологическая обработка изображений для вычисления индексов биомассы мицелия. Благодаря интеграции граничных вычислений с визуальным мониторингом, Edge CV повысила уровень автоматизации, снизив ручную нагрузку и улучшив эффективность и точность. Данное исследование продемонстрировало практический потенциал периферийного мониторинга биомассы в режиме реального времени во время ферментации
3. Применение МВ
Технология микровизуализации (МВ) меняет принципы работы отраслей промышленности, предоставляя машинам возможность «видеть» и действовать на основе увиденного. Сочетая сложные методы обработки изображений с искусственным интеллектом, системы МВ теперь поддерживают более интеллектуальную автоматизацию, более тщательный анализ и принятие более обоснованных решений. Результат очевиден: повышение эффективности, более надежные измерения и большая стабильность системы. Эти преимущества реализуются в таких разнообразных областях, как производство, здравоохранение, транспорт, безопасность и мониторинг окружающей среды.
3.1. Промышленная автоматизация и контроль качества
На современных заводах визуальная инспекция стала основной технологией для быстрой и точной проверки и контроля качества. Такие отрасли, как автомобильная, электронная и фармацевтическая, полагаются на нее для обнаружения дефектов поверхности или внутренних недостатков, подтверждения соответствия деталей точным размерным характеристикам и обеспечения стабильного выпуска продукции от одной производственной партии к другой. Объединяя камеры, датчики и алгоритмы на основе ИИ, эти системы выполняют оценку продукции в режиме реального времени, снижая вариативность, вызванную человеческим фактором, и повышая производительность
Роботизированные манипуляторы с визуальным управлением еще больше расширяют возможности автоматизации, выполняя сложные операции, такие как сборка компонентов, сортировка деталей и манипулирование объектами, непосредственно на производственном участке. Совокупный эффект заключается в повышении стабильности продукции, снижении эксплуатационных затрат и минимизации незапланированных простоев
Однако розничная логистика по-прежнему в значительной степени опирается на ручной труд для мониторинга полок и пополнения запасов. Этот процесс подвержен неэффективности, перегрузке персонала и неточностям в учете запасов. Чтобы противостоять этому, Гао и др. разработали автономного робота для пополнения запасов, построенного на основе возможностей MV
Оснащенный модулем машинного зрения OpenMV, робот самостоятельно распознавал отсутствие товаров на складе, определял положение товаров и препятствий, а также собирал важные показатели запасов. Специально разработанный на Python алгоритм планирования траектории позволял ему перемещаться по проходам магазина и выполнять задачи по пополнению запасов без участия человека. Автоматизируя мониторинг и пополнение запасов, эта система повысила точность учета запасов, снизила затраты на рабочую силу, оптимизировала размещение товаров и улучшила общую операционную эффективность и удовлетворенность клиентов.
Ян и др. сосредоточились на интеграции технологии визуального контроля в промышленные автоматизированные сборочные линии, уделяя особое внимание системе визуального контроля, основанной на алгоритме обнаружения краев.
Применяя обнаружение краев в обработке изображений, система точно определяла положение, геометрию и размеры заготовки, тем самым повышая как автоматизацию, так и эффективность работы. В исследовании была предложена полная структура визуального контроля, включающая получение изображений, предварительную обработку, извлечение признаков и алгоритмы обнаружения.
Обширные симуляции и экспериментальная проверка подтвердили высокую точность и надежность системы в реальных промышленных условиях, достигнув точности обнаружения 0,01 мм при общей погрешности системы ниже 0,5%. Полученные результаты способствовали развитию интеллектуальной промышленной автоматизации, предлагая надежную техническую основу для будущих разработок.
Али и др. предложили интеллектуальную систему контроля качества и обнаружения неисправностей в производственных системах, охватывающую как предпроизводственные, так и послепроизводственные этапы в рамках Индустрии 4.0.
На предпроизводственной стадии датчики вибрации, установленные на поверхности асинхронного двигателя, собирают данные с редуктора через вал двигателя. Затем эта информация передается через интернет-шлюзы в системы искусственного интеллекта, где модели глубокого обучения оценивают состояние редукторной системы двигателя. Состояние системы в реальном времени отображается на подключенном экране, а сервер базы данных непрерывно записывает исторические данные и случаи возникновения неисправностей.
Благодаря раннему обнаружению неисправностей, эта система позволила инженерам и операторам принимать упреждающие меры, снижая риск неожиданных поломок оборудования, использовалась система MV для проверки готовой продукции на конвейерной ленте производственной линии.
Оснащенная камерами и специализированной системой освещения, система получала высококачественные изображения продукции. Затем эти изображения анализировались механизмами искусственного интеллекта, обученными различать дефектные и недефектные изделия. Перед окончательной классификацией и прогнозированием неисправностей механизмы ИИ предварительно обрабатывали данные вибрации и изображения для повышения точности.
3.2. Медицинская визуализация и диагностика
MV трансформирует здравоохранение, особенно в том, как медицинские изображения интерпретируются и используются для принятия клинических решений. Она играет решающую роль в анализе рентгеновских снимков, МРТ, КТ и УЗИ для более точного выявления таких заболеваний, как рак, переломы и неврологические расстройства.
Системы MV на базе ИИ помогают радиологам, выявляя закономерности на медицинских изображениях, что приводит к более ранней и надежной диагностике. Кроме того, CV/MV используется в роботизированной хирургии, где наведение с помощью визуализации в реальном времени позволяет проводить точные, минимально инвазивные процедуры. Автоматизация лабораторий также выигрывает от MV, поскольку она ускоряет анализ образцов крови, гистологических препаратов и генетических данных, повышая эффективность диагностики.
В последние годы решения на основе компьютерного зрения, управляемые глубокими знаниями, разрабатывались для малоинвазивной хирургии как академическими исследователями, так и профессионалами отрасли. Эти приложения компьютерного зрения охватывают различные задачи, от анализа рабочих процессов до автоматической оценки производительности. Хотя аналогичные цифровые решения уже масштабированы и клинически внедрены для диагностического использования в таких областях, как гастроинтестинальная эндоскопия и радиология. использование компьютерного зрения в хирургии остается недостаточно развитым.
При малоинвазивной абдоминальной хирургии интраоперационное кровотечение является серьезным осложнением, часто возникающим в результате случайного повреждения артерий или вен. Навыки хирурга играют решающую роль в минимизации этого риска. Для повышения безопасности Пенза и др. разработали систему Enhanced Vision System for Robotic Surgery (EnViSoRS) ( Рисунок 8 ), которая включает в себя систему отслеживания заданного пользователем безопасного объема (SV) для снижения вероятности повреждения сосудов.
EnViSoRS расширяет возможности хирурга, предоставляя поддержку дополненной реальности (AR) во время роботизированных процедур. Ее структура состоит из трех ключевых компонентов: (i) трекера LT-SAT, гибридного алгоритма, обеспечивающего долговременный мониторинг заданной пользователем безопасной зоны (SA); (ii) алгоритма 3D-реконструкции плотных мягких тканей, необходимого для расчета SV; и (iii) функций AR, которые визуализируют защищенный SV и отображают графический индикатор, указывающий расстояние между хирургическими инструментами и реконструированной поверхностью.
Система была интегрирована с роботизированной хирургической платформой dVRK для тестирования и проверки. Для оценки точности, надежности, производительности и удобства использования использовалась имитация операции на печени на фантоме.
Полученные результаты подтвердили, что EnViSoRS достигла требуемой хирургической точности (<5 мм) и надежно вычисляла и идентифицировала SV с высокой точностью и полнотой.
Стратегия оптимизации повысила вычислительную эффективность, позволив обновлять функции дополненной реальности со скоростью до 4 кадров в секунду без нарушения визуализации стереоскопического эндоскопического видео в реальном времени. Тесты на удобство использования дополнительно продемонстрировали бесшовную интеграцию с коммерческими роботизированными хирургическими системами, подчеркнув ее потенциал для применения в реальных условиях.
3.3. Автономные транспортные средства и робототехника
Развитие автономных транспортных средств и роботизированных систем в значительной степени зависит от технологии MV. Самоуправляемые автомобили используют камеры, LiDAR и алгоритмы машинного зрения на основе ИИ для восприятия и интерпретации окружающей среды
Эти системы позволяют обнаруживать дорожные знаки, разметку полос, пешеходов и другие транспортные средства, обеспечивая безопасную навигацию и избегание препятствий. Аналогичным образом, MV расширяет возможности промышленных и сервисных роботов, предоставляя возможности распознавания объектов, отслеживания движения и навигации. В логистике складские роботы используют визуальное наведение для эффективной сортировки и транспортировки товаров, в то время как дроны используют системы машинного зрения для картографирования, наблюдения и поисково-спасательных операций
До и др. разработали всенаправленную систему машинного зрения для домашнего сервисного робота, сосредоточившись на экономической эффективности за счет использования легкодоступных компоне. Система, установленная на мобильном роботе, управляемом беспроводным способом через ПК, была разработана для двух основных функций: обнаружения вторжения и обнаружения пожара. Для обнаружения вторжения был применен адаптивный метод вычитания фона для анализа последовательностей изображений. Кроме того, был введен уникальный алгоритм обнаружения пожара, который обрабатывает изображения на трех различных этапах: на уровне пикселей, на уровне блоков и на глобальном уровне
Григореску и др. описали разработку архитектуры ROVIS MV для сервисной робототехники, уделяя особое внимание подходу Model Driven Development (MDD), используемому при проектировании и реализации системы машинного зрения .
Разработка следовала структурированному подходу, начиная с определения основных требований ROVIS, за которым следовали три ключевых этапа проектирования: анализ требований, функциональный анализ системы и архитектурное проектирование. Для моделирования потока информации между пользователем и системой машинного зрения использовалась структура совместного управления. Предложенная архитектура сыграла решающую роль в обеспечении возможностей визуального восприятия реабилитационного робота FRIEND.
Ван и др. представили подход к активному предотвращению столкновений в реальном времени в дополненной среде, объединив виртуальные 3D-модели роботов с видеопотоками операторов в реальном времени для обнаружения и мониторинга столкновений.
Была разработана и интегрирована с контроллерами роботов система прототипа, позволяющая осуществлять адаптивное управление без необходимости программирования пользователем. При обнаружении потенциального столкновения система могла предупредить оператора, остановить робота или изменить его траекторию, чтобы предотвратить столкновение. Исследование на примере подтвердило практическую эффективность системы в реальных условиях, особенно в совместной сборке человеком и роботом, где она значительно повысила безопасность оператора.
В последние годы сектор логистики холодовой цепи значительно вырос, однако автоматизация в этой области остается ограниченной. В частности, операции в холодильных складах требуют тщательного компромисса между безопасностью и операционной эффективностью. Этот баланс существующие алгоритмы обнаружения часто с трудом поддерживают. Для решения этой проблемы Вэй и др. предложили систему распознавания и захвата коробок для холодильных складов, построенную на основе YOLOv5
Система включала в себя человеко-машинный интерфейс, поддерживающий как дистанционное управление, так и полностью автономный захват в охлажденных условиях. В базовый алгоритм были внесены несколько улучшений: интеграция механизма внимания CA повысила точность, облегченный модуль Ghost заменил структуру CBS для повышения эффективности выполнения, а функция потерь Alpha-DIoU была использована для повышения точности обнаружения. Эти корректировки привели к увеличению средней точности (mAP) на 0,711% и увеличению количества кадров в секунду (FPS) на 0,7%, при этом сохранилась точность обнаружения.
Для оценки производительности системы была создана экспериментальная платформа. Главная машина была оснащена процессором AMD Ryzen 7 5800H, графическим процессором NVIDIA GeForce RTX 3060, 16 ГБ оперативной памяти и 6 ГБ видеопамяти. Для сбора данных использовалась камера ZED 2i (Stereolabs Inc., Париж, Франция) с поляризатором и объективом с фокусным расстоянием 4 мм. Система работала под управлением Windows 10 с CUDA 11.6.134, а разработка велась на Python 3.9 с использованием фреймворка PyTorch.
Всего было проанализировано 200 изображений, содержащих 1824 экземпляра, при этом были зафиксированы показатели ложноположительных и ложноотрицательных результатов. Экспериментальные результаты показали, что механизм внимания CA улучшил точность на 2,32%, модуль Ghost сократил время отклика на 13,89%, а функция потерь Alpha-DIoU повысила точность позиционирования на 7,14%. Эти оптимизации в совокупности привели к уменьшению времени отклика на 2,16%, увеличению точности позиционирования на 4,67% и общему улучшению производительности процесса.
3.4. Безопасность и наблюдение
Видеокамеры широко используются в системах безопасности и видеонаблюдения для повышения уровня безопасности, обнаружения угроз и предотвращения преступлений. Системы распознавания лиц на базе видеокамер позволяют проверять личность в зонах повышенной безопасности, таких как аэропорты, правительственные здания и финансовые учреждения.
Видеоаналитика на основе ИИ может отслеживать видеопоток в режиме реального времени, обнаруживая подозрительную активность, несанкционированные вторжения или бесхозные объекты. В управлении дорожным движением системы видеокамер анализируют движение транспортных средств, выявляют нарушения правил дорожного движения и оптимизируют безопасность дорожного движения. Кроме того, технологии ночного видения и тепловизионной съемки расширяют возможности наблюдения в условиях низкой освещенности или неблагоприятных погодных условий, повышая эффективность обеспечения безопасности в различных средах.
Нигам и др. разработали и внедрили систему видеонаблюдения MV Surveillance System AI (MaViSS-AI) для обеспечения соблюдения правил COVID-19 с использованием платформы Jetson Nano. Разработанная с учетом экономической эффективности, точности, результативности и безопасности, система контролировала соблюдение правил с помощью двух ключевых функций: отслеживания и подсчета людей для оценки социального дистанцирования и обнаружения лицевых масок с использованием методов обнаружения объектов.
Для обнаружения и подсчета людей использовался алгоритм YOLO (You Only Look Once), обеспечивающий мониторинг и контроль в режиме реального времени. Для обеспечения социального дистанцирования система рассчитывала расстояние между центроидами людей, отмечая любые нарушения при превышении порогового значения. Обнаружение масок осуществлялось с помощью модели YOLO V4 DL. Кроме того, система была способна выдавать оповещения о подозрительных событиях, позволяя сотрудникам службы безопасности оперативно реагировать
Условия дорожного движения формируются не только инфраструктурой, такой как светофоры и схема дорог, но и поведением водителей, которое часто упускается из виду. Традиционные системы управления дорожным движением испытывают трудности с такими задачами, как регулирование времени зеленого света или выявление транспортных средств, совершающих незаконные повороты.
Для решения этой проблемы Хан и др. разработали самоадаптивную систему реального времени, которая сочетает обработку изображений с машинным обучением для улучшения транспортного потока на перекрестках. Их подход применил модель YOLOv3 для обнаружения транспортных средств и использовал нейронные сети для мониторинга дорожной активности..
Система отслеживала центроиды транспортных средств (центры масс) для восстановления индивидуальных траекторий и выявления тех, кто выезжает за пределы разрешенных полос или совершает незаконные повороты. В ходе оценки она достигла точности 88,43% в обнаружении транспортных средств и 90,45% в выявлении запрещенных маневров и неосторожного вождения. Добавление сверточной нейронной сети еще больше повысило ее производительность на плотных многополосных перекрестках, помогая уменьшить заторы и повысить безопасность дорожного движения.
Быстрое расширение городов, обусловленное экономическим ростом и технологическими изменениями, привело к резкому увеличению объемов строительства во всем мире. Однако частые несчастные случаи на строительных площадках указывают на более глубокие проблемы: неадекватное распознавание опасностей, непоследовательный надзор и плохое соблюдение протоколов безопасности.
Для решения этой проблемы Чжан и др. разработали систему безопасности на основе ИИ, которая использует MV для круглосуточного мониторинга строительных площадок в режиме реального времени. Объединяя обнаружение объектов на основе ИИ с анализом пространственного взаимодействия, система интерпретирует динамические условия на площадке и выявляет повторяющиеся закономерности несчастных случаев.
Была разработана специальная платформа мониторинга и раннего предупреждения для автоматического обнаружения опасных сценариев и запуска превентивных оповещений до того, как произойдут инциденты. Тесты показали, что этот подход значительно улучшил управление безопасностью на строительных площадках, обеспечив повышение эффективности управления на 97,4%, а также повышение стандартов соблюдения требований и защиты работников.
На основе этих данных создаются и сохраняются на интеллектуальных устройствах модели для распознавания поведения и отслеживания активности, что обеспечивает непрерывный и адаптивный мониторинг безопасности на протяжении всего жизненного цикла проекта. Второй этап посвящен применению и внедрению, где встроенный в систему блок распознавания обрабатывает сигналы активности рабочих и классифицирует их как «безопасные» или «небезопасные». На основе этой оценки при обнаружении небезопасного поведения сотрудникам и центру управления отправляются оповещения или уведомления.
Сотрудники получают корректирующие указания, а руководители проводят оценку рисков безопасности на основе поведения (BBS) на месте и внедряют целевые стратегии управления безопасностью. Заключительный этап включает в себя непрерывное совершенствование модели, где новые данные, полученные на этапе внедрения, используются для повышения точности.
Неправильно классифицированные или пограничные случаи, выявленные во время работы, регистрируются как стандартные ошибки и включаются в обучающую базу данных, что позволяет системе итеративно совершенствовать свои модели классификации. Эта обратная связь поддерживает постоянное улучшение надежности обнаружения, в конечном итоге повышая как показатели безопасности, так и эффективность работы на месте
3.5. Сельское хозяйство и мониторинг окружающей среды
МВ играет все большую роль в развитии точного земледелия и защите окружающей среды. В растениеводстве дроны и автономные наземные платформы, оснащенные мультиспектральными и гиперспектральными датчиками, теперь регулярно используются для оценки свойств почвы, отслеживания жизнеспособности растений и обнаружения ранних признаков заражения вредителями или болезнями.
Эти возможности позволяют более рационально использовать воду, точно доставлять питательные вещества и минимизировать использование химикатов. Они представляют собой ключевые столпы устойчивой сельскохозяйственной практики. В животноводстве МВ поддерживает индивидуальную идентификацию животных, непрерывный мониторинг здоровья и анализ поведенческих моделей. Приложения также включают мониторинг окружающей среды, где спутниковые снимки помогают отслеживать вырубку лесов, оценивать качество воздуха и воды и наблюдать за показателями изменения климата. Вместе эти возможности укрепляют устойчивое управление ресурсами и способствуют сохранению экосистем
MV (мониторинг) стал высокоэффективным средством выявления стресса растений, такого как дефицит воды, нарушения питания и вспышки вредителей или болезней. Этот подход основан на использовании камер и датчиков для получения визуальных данных, которые затем анализируются с помощью специализированного оборудования и программного обеспечения для получения практических выводов.
Его применение охватывает широкий спектр сельскохозяйственных функций, включая обнаружение присутствия, позиционирование объектов, идентификацию видов или сортов, характеристику дефектов и измерение размеров. В теплицах повышенная влажность и температура воздуха создают условия, благоприятные для размножения вредителей и распространения болезней, что представляет значительные экономические риски, если не будет обнаружено и устранено на ранней стадии.
Традиционный ручной мониторинг в теплицах отнимает много времени, требует больших трудозатрат и подвержен субъективной интерпретации уровня заражения. Ранние симптомы вредителей и болезней часто незаметны для человеческого глаза, что приводит к обширному повреждению урожая до обнаружения.
В нескольких исследованиях изучались различные подходы к обнаружению стресса у растений с использованием МВ. Фуше и др. разработали метод, использующий перцептрон с одним скрытым слоем и анализ изображений. Преобразовав изображения растений в бинарный формат, где растения отображались черным цветом на белом фоне, они проанализировали параметры формы для определения уровня стресса. Их метод оценивал стресс растений на основе моментных инвариантов, фрактальных размерностей и средней длины концевых ветвей.
В другом исследовании Чанг и др. исследовали потенциал коммерческих смартфонов для мониторинга состояния растений. Они обнаружили, что смартфоны могут служить экономически эффективной альтернативой традиционным ближнеинфракрасным (БИК) спектрофотометрам и БИК-камерам, делая обнаружение стресса у растений более доступным.
Между тем, Госал и др. продемонстрировали эффективность глубокого обучения в МВ для идентификации и классификации различных типов стресса у растений сои. Их модель, обученная на больших наборах данных, достигла впечатляющей точности в 94,13%, что подтверждено матрицей ошибок. Эти результаты подчеркивают потенциал обнаружения стресса растений в режиме реального времени с помощью мобильных приложений, предлагая практическое решение для современного точного земледелия.
Была разработана полностью автоматизированная система обнаружения стресса у растений, призванная предоставить фермерам простое в использовании решение для мониторинга состояния урожая. Система захватывала изображения листьев непосредственно с поля с помощью камеры и применяет методы машинного обучения для классификации их как здоровых или нездоровых. Алгоритм машины опорных векторов (SVM) был обучен с использованием извлеченных признаков листьев, что обеспечивало точную классификацию.
Вместо передачи целых изображений в облако отправлялись только извлеченные признаки для эффективной обработки. На принимающей стороне сельскохозяйственные консультанты анализируют эти признаки для выявления стресса у растений с помощью методов классификации. В системе использовались текстуры матрицы совместной встречаемости уровней серого (GLCM) для различения здоровых и подверженных стрессу листьев.
Производительность системы оценивалась на основе точности классификации и эффективности обнаружения стресса, что обеспечивало надежные результаты для точного земледелия . MV получила широкое распространение в сортировке фруктов, способствуя автоматизации в пищевой промышленности. В исследованиях использовались SVM и искусственные нейронные сети (ANN) для оценки зрелости и качества фруктов. Эффективность этих методов зависит от наличия больших, надежных наборов данных для обучения.
4. Будущие тенденции и направления исследований
Продолжающаяся эволюция MV формируется благодаря трансформационным технологиям, включая объяснимый ИИ (XAI), квантовые вычисления и нейроморфные вычисления, которые потенциально могут переосмыслить эту область. Эти инновации направлены на решение основных проблем современных систем MV за счет улучшения интерпретируемости, вычислительной эффективности и адаптивных возможностей, тем самым преодолевая существующие узкие места и обеспечивая новые возможности внедрения в реальном мире.
Траектория развития MV будет тесно связана с прогрессом в XA, квантовых вычислениях и нейроморфных архитектурах, поскольку эти парадигмы в совокупности повышают прозрачность модели, ускоряют обработку и поддерживают более динамичное визуальное мышление. Чтобы прояснить этот прогноз, новые разработки можно разделить на краткосрочные, среднесрочные и долгосрочные горизонты, каждый из которых основан на конкретных методологических прорывах и стандартизированных системах оценки.
4.1. Краткосрочная перспектива, объяснимость и устойчивость.
Современные системы MV, основанные на DL, часто работают как «черные ящики», предоставляя мало информации о том, как принимаются решения. Эта непрозрачность особенно проблематична в приложениях с высокими ставками, таких как автономное вождение, медицинская диагностика [86] и промышленная автоматизация, где проверяемые рассуждения и подотчетность системы не подлежат обсуждению. XAI появился для решения этой проблемы с целью создания прогнозов, которые пользователи-люди могут понимать, анализировать и которым могут доверять
Текущие и ближайшие исследования в области XAI для MV, вероятно, будут отдавать приоритет разработке изначально интерпретируемых архитектур моделей, таких как модули на основе внимания и методы атрибуции признаков, которые явно определяют области изображения, наиболее влияющие на данный результат. Дополнительные стратегии могут включать гибридные структуры, которые интегрируют DL с основанным на правилах или символическим ИИ, тем самым повышая прозрачность при сохранении прогнозной производительности. Повышая доверие и подотчетность в системах MV, XAI будет способствовать более широкому внедрению в отраслях, требующих строгой проверки и соответствия нормативным стандартам.
В краткосрочной перспективе также крайне важно разработать стандартизированные критерии оценки методов XAI в системах машинного обучения. Эти критерии обеспечат общую основу для оценки интерпретируемости, устойчивости и надежности в различных областях. Кроме того, приоритетной задачей останется решение проблем устойчивости, таких как атаки злоумышленников, изменчивость окружающей среды и количественная оценка неопределенности, что обеспечит надежное функционирование систем машинного обучения в различных реальных условиях.
4.2. Среднесрочная перспектива Нейроморфные вычисления и эффективное обучение
Нейроморфные вычисления, вдохновленные архитектурой человеческого мозга, представляют собой еще одно перспективное направление для развития машинного зрения. В отличие от традиционных вычислительных архитектур фон Неймана, нейроморфные системы используют импульсные нейронные сети (SNN), которые имитируют биологические нейроны и синапсы, что позволяет более энергоэффективно и в режиме реального времени обрабатывать визуальные данные.
Одним из ключевых преимуществ нейроморфных вычислений в машинном зрении является их способность обрабатывать потоковые данные с низкой задержкой и минимальным энергопотреблением. Это делает их идеальными для приложений периферийных вычислений, таких как автономные дроны, интеллектуальные камеры и носимые системы машинного зрения .
Исследования в этой области, как ожидается, будут сосредоточены на улучшении масштабируемости и адаптивности нейроморфных процессоров, что позволит им обрабатывать сложные задачи обработки изображений, такие как понимание сцены, распознавание жестов и прогнозная аналитика. Кроме того, интеграция нейроморфных вычислений с методами глубокого обучения может привести к созданию гибридных архитектур, сочетающих эффективность обработки, управляемой событиями, с надежностью глубоких сетей
Нейроморфная инженерия также включает разработку искусственных систем, которые воспроизводят механизмы обработки информации биологических нервных систем, в частности, с помощью электронных аналоговых схем. Хотя компьютеры превосходят человеческий мозг по скорости и точности, они испытывают трудности с задачами распознавания.
Тем не менее, ожидается, что прогресс в нейроморфных вычислениях, особенно в компьютерном зрении и обработке изображений, значительно улучшит то, как машины воспринимают визуальную информацию и рассуждают о ней. Субраманиам исследовал основные визуальные функции, такие как сегментация изображений, визуальное внимание и распознавание объектов.
Также была оценена роль нейроморфных датчиков зрения в искусственных системах, с особым вниманием к протоколам, управляющим асинхронной связью на основе событий. Были критически оценены два известных алгоритма для распознавания объектов и моделирования внимания. Центральной темой было включение энергонезависимых элементов памяти, особенно мемристоров, в аппаратное обеспечение зрения. Исследование завершилось тем, что была подчеркнута ключевая роль специализированных аппаратных ускорителей, и было высказано предположение, что достижения в технологиях энергонезависимой памяти могут служить катализатором для систем компьютерного зрения следующего поколения
Критическое сравнение традиционных сверточных нейронных сетей (CNN) и нейроморфных подходов подчеркивает их взаимодополняющие сильные и слабые стороны. Хотя CNN продолжают доминировать по точности в бенчмарках, они ограничены относительно высокой задержкой и энергопотреблением.
В отличие от них, нейроморфные модели предлагают сверхнизкую задержку и исключительную энергоэффективность, что делает их особенно подходящими для периферийных приложений, таких как дроны и носимые системы машинного зрения. Однако их производительность с точки зрения точности все еще ограничена, а специализированное оборудование остается дефицитным.
По этим причинам наиболее перспективные достижения в ближайшем будущем, вероятно, будут связаны с гибридными архитектурами, которые сочетают сверточные нейронные сети (CNN) со спайковыми нейронными сетями (SNN). Такие модели стремятся сохранить устойчивость глубокого обучения, одновременно используя преимущества вычислительной эффективности обработки, управляемой системой событий.
В среднесрочной перспективе также потребуется разработать наборы эталонных тестов для нейроморфных задач машинного обучения. Эти тесты будут направлять разработку стратегий совместного проектирования аппаратного и программного обеспечения, обеспечивая справедливую оценку нейроморфных систем и поддерживая их интеграцию в практические приложения.
4.3. Долгосрочная перспектива,
квантовые и гибридные парадигмы
Квантовые вычисления обладают потенциалом для значительного улучшения возможностей машинного обучения за счет ускорения сложных вычислений, которые в настоящее время невозможны с помощью классических вычислений. Квантовые алгоритмы, такие как квантово-улучшенное машинное обучение, могут значительно сократить время обучения моделей глубокого обучения и обеспечить более быструю обработку изображений для больших наборов данных.
Одним из перспективных направлений исследований является применение квантовых нейронных сетей (QNN) для распознавания и классификации изображений. QNN показали свою эффективность в задачах классификации, но сталкиваются с трудностями при классификации изображений с несколькими классами. Бай и др. представили квантовую нейронную сеть с улучшенной суперпозицией (SEQNN) для улучшения квантовой классификации.
SEQNN интегрирует суперпозицию изображений с квантовыми бинарными классификаторами (QBC) для решения двух ключевых задач. Во-первых, она преодолевает линейность квантовой эволюции, используя стратегию «один против всех» с QBC, что позволяет лучше справляться с нелинейностью в классификации. Во-вторых, для уменьшения дисбаланса данных в подзадачах «один против всех» SEQNN применяет суперпозицию изображений, вдохновленную методом смешивания. Были представлены два метода: суперпозиция квантовых состояний (QSS) и суперпозиция углов (AS). Эксперименты на наборах данных MNIST и Fashion-MNIST показали, что AS работает лучше, чем QSS, в многоклассовой классификации. С помощью AS SEQNN превзошла существующие модели, достигнув точности 87,56% на наборе данных MNIST.
Квантово-оптимизационные методы также перспективны для повышения эффективности обнаружения и отслеживания объектов в реальном времени, особенно в сценариях, где критически важны решения, принимаемые за доли секунды, например, в случае автономных роботов или наблюдения с высокими ставками. Тем не менее, их фактическое внедрение пока остается недостижимым, в основном потому, что современное квантовое оборудование все еще слишком примитивно. Эта реальность делает гибридные квантово-классические подходы не просто полезными, но и необходимыми в качестве прагматичного пути развития квантовых технологий.
В перспективе, для надлежащей оценки масштабируемости, производительности и устойчивости квантовых систем машинного зрения в реальных условиях потребуются стандартизированные критерии. Еще более спекулятивными, но потенциально революционными являются архитектуры, объединяющие квантовые вычисления с нейроморфными принципами. Сочетая теоретическое ускорение квантовых вычислений с эффективностью нейроморфной обработки, основанной на принципах, вдохновленных работой мозга, такие гибриды однажды смогут создать системы машинного зрения, значительно превосходящие возможности современных технологий.
4.4. Синтез
В совокупности эти траектории указывают на то, что системы на основе микропроцессоров будут переходить от экспериментальных прототипов к специализированным, готовым к серийному производству платформам. Объяснимые модели, вероятно, станут основополагающими в критически важных для безопасности областях, таких как автономное вождение и медицинская диагностика, где интерпретируемость напрямую влияет на принятие регулирующими органами и доверие пользователей.
Квантово-ускоренные подходы могут первоначально получить распространение в высокопроизводительной промышленной инспекции и аналитике в реальном времени, связанной с обороной, в то время как нейроморфные процессоры идеально подходят для условий с ограниченным энергопотреблением, включая дроны, носимые устройства и дистанционное зондирование.
Помимо отдельных технических прорывов, синергетическая интеграция этих парадигм приведет к созданию систем на основе микропроцессоров, которые будут не только более эффективными и адаптивными, но и по своей природе интерпретируемыми. Это ускорит их внедрение в здравоохранении, сельском хозяйстве, безопасности и промышленной автоматизации в ближайшее десятилетие.
Критическое сравнение традиционных сверточных нейронных сетей (CNN) и нейроморфных подходов еще раз подчеркивает эту тенденцию. Хотя CNN продолжают устанавливать самые современные стандарты, они страдают от высокой задержки и энергопотребления. Нейроморфные модели превосходят их по эффективности в реальном времени, но отстают по точности и доступности оборудования, что делает гибридные решения CNN–SNN привлекательным промежуточным шагом на пути к более широкому применению.
В то время как в предыдущих разделах представлены подробные результаты отдельных исследований, более высокий уровень обобщения помогает выявить более широкие закономерности в различных областях применения. С этой целью мы составили мета-резюме (см. дополнительная таблица S2), которое объединяет результаты по областям: здравоохранение, производство, автономные системы и наблюдение. В таблице описаны наиболее распространенные задачи, типичные методологические подходы, репрезентативные диапазоны производительности и новые тенденции. Эта консолидированная перспектива предлагает читателям краткий, междисциплинарный обзор современного состояния дел, выходящий за рамки отдельных тематических исследований.
5. Проблемы и ограничения
МВ добилась значительных успехов, во многом благодаря прорывам в области ИИ, глубокого обучения и изображений высокого разрешения . Несмотря на эти достижения, широкое внедрение и стабильная производительность по-прежнему сдерживаются рядом постоянных проблем, включая вычислительные ограничения, недостаточное количество обучающих данных, этические проблемы и меняющиеся нормативные требования. Эффективное решение этих проблем потребует постоянного сотрудничества между инженерными, политическими и социальными дисциплинами.
Эта эволюция также изменила характер основных ограничений данной области. Классические методы машинного обучения, такие как обнаружение границ на основе правил, пороговая обработка интенсивности и сопоставление шаблонов, имели явные преимущества: их было легко настроить, они работали на скромном оборудовании, а их решения легко отслеживались и понимались. Но они быстро выходили из строя за пределами контролируемых лабораторных условий, испытывая трудности с повседневными сложностями, такими как изменение освещения, шум датчика или объекты, частично скрытые от обзора.
Современные системы, основанные на глубоком обучении, напротив, обрабатывают сложные реальные сцены с гораздо большей точностью, но это имеет свою цену. Им требуются огромные размеченные наборы данных, значительные вычислительные мощности, и они работают как «черные ящики», предоставляя мало информации о том, как они приходят к выводам.
По сути, главная задача этой области сместилась: если ранние системы терпели неудачу из-за неспособности адаптироваться, то современные испытывают трудности из-за сложности обучения, развертывания и доверия к ним. Чтобы преодолеть этот разрыв, недавние инновации делают акцент на генерации синтетических данных, их передаче и обучении с малым количеством примеров для смягчения дефицита данных; аппаратных ускорителях и граничных вычислениях для обработки в реальном времени; а также фреймворки объяснимого искусственного интеллекта или гибридные подходы, основанные на правилах и глубоком обучении, для восстановления прозрачности и доверия.
Среди наиболее актуальных проблем — вычислительная нагрузка и зависимость от оборудования современных систем машинного обучения. Модели глубокого обучения, особенно сверточные нейронные сети, требуют значительных вычислительных ресурсов. В приложениях, чувствительных ко времени, таких как автономное вождение или промышленная автоматизация, где решения должны приниматься в течение миллисекунд, эта вычислительная нагрузка часто приводит к неприемлемой задержке.
Кроме того, многие системы машинного обучения развертываются в условиях ограниченных ресурсов, например, в дронах, мобильных роботах или встроенных датчиках, где энергоэффективность имеет первостепенное значение. Высокое энергопотребление стандартных моделей глубокого обучения ограничивает их применимость в таких условиях, что стимулирует интерес к специализированному оборудованию (например, нейроморфным чипам) и алгоритмической оптимизации, снижающей затраты на вывод результатов.
Тесно связан с этим стратегический вопрос о том, где выполнять вычисления: на устройстве (на периферии) или в облаке. Обработка на периферии минимизирует задержки и повышает конфиденциальность данных, но сталкивается с ограничениями в масштабируемости и вычислительной мощности. Облачные подходы предлагают большую гибкость и вычислительную мощность, но создают требования к пропускной способности, риски безопасности и задержки отклика.
Зависимость от данных остается серьезным узким местом. Передовые модели машинного обучения обычно опираются на обширные, тщательно размеченные наборы данных, однако такие данные дефицитны в узкоспециализированных областях, таких как медицинская визуализация или выявление редких производственных дефектов.
Создание этих меток не только трудоемко и дорого, но часто требует экспертных знаний, особенно когда тонкие визуальные различия определяют правильное решение. Исследователи обратились к таким обходным путям, как синтетические данные, полуконтролируемое обучение и адаптация предметной области, чтобы уменьшить нагрузку на разметку и расширить охват набора данных. Хотя эти методы многообещающи, они все еще не гарантируют стабильную и надежную работу моделей в условиях непредсказуемых изменений реального мира.
Различия в освещении, ракурсе, фоновом шуме или условиях съемки могут легко подорвать их эффективность. Модели, обученные в контролируемых средах, часто испытывают трудности при развертывании в различных условиях, поскольку они не могут эффективно обобщать данные из-за изменений в освещении, положении объектов и фоновых помех.
Исследователи активно изучают XAI для повышения прозрачности моделей ИИ типа «черный ящик», повышения доверия пользователей и улучшения понимания. Ключевой проблемой является баланс между соответствием модели и правдоподобием для пользователей. Лю и др. исследовали, может ли интеграция знаний о внимании человека в методы XAI на основе значимости для компьютерного зрения улучшить оба аспекта.
Они представили FullGrad-CAM и FullGrad-CAM++, две градиентные методики, адаптированные из классификации изображений для обнаружения объектов, генерирующие объяснения, специфичные для объектов. Оценки с использованием внимания человека в качестве меры правдоподобия показали улучшенную правдоподобность объяснений. Однако существующие методы XAI для обнаружения объектов часто создают карты значимости, которые менее точно соответствуют модели, чем карты внимания человека для той же задачи.
Для решения этой проблемы был разработан XAI, управляемый вниманием человека (HAG-XAI). Этот подход уточняет объяснения модели, обучаясь на основе внимания человека, включая обучаемые функции активации и сглаживающие ядра. Эксперименты на наборах данных BDD-100K, MS-COCO и ImageNet показали, что HAG-XAI превосходит существующие методы XAI в обнаружении объектов, повышая правдоподобие, точность и доверие пользователей. Для моделей классификации изображений он улучшил правдоподобие и доверие, хотя и с некоторыми компромиссами в точности.
Помимо технических проблем, системы машинного зрения также сталкиваются с вопросами надежности и безопасности. В отличие от человеческого зрения, которое динамически адаптируется к изменениям окружающей среды, модели машинного зрения могут быть очень чувствительны к изменениям входных данных. Небольшие изменения освещения, угла или перекрытия могут привести к значительному снижению точности.
Кроме того, серьезную опасность представляют атаки с участием злоумышленников, когда небольшие, незаметные изменения изображений могут обмануть модель и привести к неправильной классификации. Эта уязвимость особенно актуальна в критически важных для безопасности приложениях, таких как автономное вождение, медицинская диагностика и видеонаблюдение, где одна ошибка классификации может иметь серьезные последствия. Разработка более устойчивых моделей, способных обрабатывать реальные вариации и противостоять манипуляциям со стороны злоумышленников, остается актуальной задачей исследований.
Этические вопросы и вопросы конфиденциальности еще больше усложняют развертывание MV. Распространение распознавания лиц и интеллектуальной видеоаналитики усилило общественный и регуляторный контроль в отношении массового наблюдения и обработки персональных данных. Правовые рамки, такие как GDPR, налагают строгие ограничения на сбор, хранение и использование данных, что усложняет соблюдение требований для разработчиков. Вдобавок к этому, алгоритмическая предвзятость, особенно в системах распознавания лиц, как было показано, непропорционально влияет на недостаточно представленные демографические группы из-за искаженных обучающих данных, что вызывает серьезные опасения по поводу справедливости и равенства.
Стратегии смягчения теперь включают в себя противодействие устранению предвзятости, оптимизацию с учетом справедливости и целевое расширение данных, хотя достижение действительно справедливой производительности остается открытой проблемой. Методы противодействия устранению предвзятости вводят вспомогательные сети, которые удаляют конфиденциальную атрибутивную информацию из изучения.

