Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, почему модели компьютерного зрения дают сбои в производственной среде — от несоответствия данных до задержек — и как команды могут повысить эффективность моделей в реальных системах искусственного интеллекта для обработки изображений.
Масштабируйте свои проекты в области компьютерного зрения с Ultralytics
Компьютерное зрение сегодня является одной из ключевых технологий искусственного интеллекта, которая внедряется практически во всех отраслях промышленности и позволяет машинам интерпретировать и анализировать визуальные данные для решения самых разных задач. Эти системы находят широкое применение в реальных условиях — от медицинской визуализации и робототехники до автоматизации производства и розничной торговли.
Однако создание системы компьютерного зрения не всегда является простым делом. Обычно это предполагает разработку модели искусственного интеллекта для компьютерного зрения, которая обучается распознавать закономерности в изображениях и видеороликах для решения таких задач, как обнаружение и отслеживание объектов.
Рис. 1. Пример обнаружения и отслеживания объектов (Источник)
Несмотря на то что с годами модели компьютерного зрения становятся всё более совершенными, в процессе разработки они по-прежнему могут вести себя иначе, чем после развёртывания в реальных условиях. Это связано с тем, что развёртывание моделей за пределами контролируемой среды разработки сопряжено с новыми и зачастую неожиданными сложностями.
Такие факторы, как недостаточная разнообразие наборов данных, неэффективный мониторинг модели и ограничения инфраструктуры, могут привести к тому, что после внедрения одна и та же модель будет вести себя в реальных условиях иначе.
В этой статье мы рассмотрим пять распространенных причин, по которым модели компьютерного зрения могут не работать в производственной среде. Приступим!
Разрыв между обучением модели и производственной средой
Обучение модели обычно проходит в контролируемой среде. На этом этапе разработчики ИИ работают с тщательно подготовленными обучающими наборами данных.
Эти обширные наборы визуальных данных содержат четко структурированные аннотации, то есть метки, описывающие содержание каждого изображения. Обучение также проходит в стабильных условиях, что позволяет моделям искусственного интеллекта, занимающимся обработкой изображений, эффективно распознавать визуальные паттерны.
Чтобы обеспечить правильное усвоение этих закономерностей, модели можно систематически оценивать на этапе разработки с помощью стандартных метрик оценки и эталонных наборов данных. Как и обучающие наборы данных, эти эталонные наборы данных также тщательно подготавливаются.
Однако данные, с которыми сталкиваются реальные системы компьютерного зрения, могут значительно отличаться от данных, использовавшихся при обучении и оценке. После внедрения эти модели редко работают в контролируемых условиях.
Им приходится обрабатывать изображения и видео из непредсказуемых условий, где освещение постоянно меняется, ракурсы камеры сдвигаются, а фон со временем меняется. Например, модель искусственного интеллекта для визуального распознавания, обученная на задаче обнаружения транспортных средств, может испытывать трудности с detect в ночное время, если ее обучение и оценка проводились преимущественно на дневных изображениях.
Рис. 2. Даже после улучшения качества ночные изображения остаются сложными для интерпретации моделями, обученными на дневных изображениях. (Источник)
Это различие между процессом разработки и реальным внедрением и составляет так называемый «разрыв между обучением и производственной средой». Из-за этого разрыва многие сбои в работе моделей становятся заметны только после внедрения, поэтому раннее выявление проблем имеет решающее значение для создания более надёжных и устойчивых систем компьютерного зрения.
5 распространенных причин, по которым модели компьютерного зрения не работают в производственной среде
Далее давайте подробнее рассмотрим пять распространенных причин, по которым модели компьютерного зрения не справляются с задачами в производственной среде.
1. Некачественные обучающие наборы данных
Наборы данных играют ключевую роль в обучении моделей компьютерного зрения, поскольку именно они определяют, чему модель учится в процессе обучения и как она реагирует на реальные входные данные после развертывания. Это особенно важно при обучении с учителем, когда модели обучаются на основе помеченных примеров, которые показывают, что изображено на каждом снимке.
Многие модели глубокого обучения, в том числе сверточные нейронные сети (CNN), используют эти помеченные примеры для распознавания закономерностей в визуальных данных. Однако если обучающий набор данных не отражает реальных условий, модель может выучить закономерности, которые не в полной мере отражают то, как объекты выглядят за пределами обучающих данных.
Например, модель, обученная на наборе данных с крупными трещинами, может не detect редкий detect мелких трещин в реальных производственных процессах. Аналогичным образом, на поведение модели может влиять и качество аннотаций. Несогласованные метки или отсутствующие детали в аннотированных данных могут привести к тому, что модель усвоит неверную информацию в процессе обучения.
В целом, качество и разнообразие обучающих данных имеют решающее значение и могут определять эффективность работы модели в реальных условиях. Если наборы данных являются репрезентативными и точно маркированы, модель, как правило, будет работать более надежно после внедрения.
2. Переобучение и обобщаемость
Модели машинного обучения, такие как модели компьютерного зрения, выделяют закономерности на основе обучающих наборов данных. Однако иногда модель может слишком сильно полагаться на несколько таких закономерностей.
Вместо того чтобы осваивать более общие визуальные связи, модель может в итоге запомнить лишь ограниченное количество шаблонов из обучающих данных. Такое поведение называется переобучением.
Переобучение обычно возникает, когда обучающие наборы данных невелики или не обладают достаточным разнообразием. В таких случаях модель хорошо распознает изображения, с которыми она уже сталкивалась, но испытывает трудности с интерпретацией новых данных или незнакомых входных данных.
В связи с этим модель может демонстрировать хорошие результаты при обработке тестовых данных (поскольку они схожи с обучающими данными), но после развертывания может вести себя иначе в новых условиях. Именно поэтому концепция обобщения имеет решающее значение. Проще говоря, речь идет о том, насколько хорошо модели могут применять полученные в ходе обучения знания к новым сценариям.
Чтобы снизить риск переобучения, специалисты в области искусственного интеллекта часто обучают модели на более разнообразных наборах данных и применяют метод расширения данных, который заключается в незначительном изменении обучающих изображений с целью увеличения вариативности данных. Без учета этих факторов эффективность модели может резко снизиться, как только система начнет работать в реальных условиях.
Рис. 4. Расширение данных может помочь создать вариации одного и того же изображения в рамках набора данных. (Источник)
3. Скрытые крайние случаи в реальных условиях
Даже если модели компьютерного зрения хорошо обобщают новые данные, в реальных условиях все равно могут возникать непредвиденные крайние случаи. Это необычные ситуации, которые отличаются от типичных паттернов, которые модель усваивает в процессе обучения.
Многие из этих сценариев сложно учесть на этапе разработки, поскольку они возникают редко, их трудно воссоздать или сбор данных для обучения может потребовать значительных затрат. Например, объекты могут иметь необычную форму, двигаться непредсказуемо или частично скрываться за другими объектами.
Изменения в освещении, углах съёмки или условиях фона также могут приводить к ситуациям, затрудняющим распознавание. Такие крайние случаи часто становятся заметными только после внедрения системы в реальных условиях.
Например, в робототехнике и автоматизации производства предметы могут располагаться или ориентироваться иначе, чем ожидалось, что приводит к возникновению ситуаций, на которые модель не была рассчитана. В конечном итоге прогнозы, казавшиеся достоверными во время тестирования, могут оказаться менее точными, когда система начинает работать в реальных условиях.
4. Отсутствие мониторинга и отладки после развертывания
Помимо разработки модели искусственного интеллекта для обработки изображений, крайне важно отслеживать и улучшать её рабочие характеристики. Однако после запуска системы внимание часто сосредотачивается на том, чтобы просто поддерживать её работоспособность, а не тщательно отслеживать, как она работает с течением времени. В результате изменения в поведении модели могут остаться незамеченными.
В то же время такие факторы, как изменения в поступающих данных, настройках камеры или условиях эксплуатации, могут постепенно влиять на точность обнаружения или классификации объектов моделью. Эти изменения не всегда очевидны и могут оставаться незамеченными в ходе повседневной работы.
Отслеживание результатов моделирования и общего поведения системы помогает командам выявлять эти проблемы на более раннем этапе. Регулярные проверки, процедуры валидации и рабочие процессы отладки позволяют командам анализировать необычные результаты и выяснять их возможные причины.
Возьмем, к примеру, производственную сферу: после изменения настроек камеры модель может внезапно начать неправильно распознавать объекты на сборочной линии. track внедренной системы искусственного интеллекта track машинного зрения упрощает реагирование на такие изменения и позволяет поддерживать стабильную производительность в реальных условиях.
5. Ограничения инфраструктуры и задержки
Многие системы компьютерного зрения должны работать в режиме реального времени, что может создавать значительную нагрузку на аппаратное обеспечение, сети и конвейеры обработки данных. При ограниченности ресурсов могут возникать задержки в вычислениях или сетевые задержки, в результате чего прогнозы поступают слишком медленно, что сказывается на общей производительности системы.
В некоторых случаях современные модели глубокого обучения могут также создавать проблемы с инфраструктурой. Например, архитектуры на основе трансформеров предназначены для обработки больших объемов визуальных данных и распознавания сложных взаимосвязей в изображениях, но зачастую требуют значительных вычислительных ресурсов. Для работы таких моделей может потребоваться более мощное или дорогостоящее оборудование.
Без надлежащей оптимизации даже те модели, которые работают быстро на этапе тестирования, могут замедлиться или вести себя нестабильно после развертывания. Чтобы решить эту проблему, команды часто оптимизируют конвейеры, по возможности снижают сложность моделей и находят баланс между точностью и скоростью.
Это может включать сжатие больших моделей до более компактных версий, использование более эффективных архитектур или обработку изображений с меньшим разрешением, чтобы система работала без сбоев на имеющемся оборудовании. Во многих случаях команды также выбирают облегченные и более быстрые модели, такие как Ultralytics , чтобы справиться с ограничениями при развертывании.
Передовые методы предотвращения сбоев в работе моделей компьютерного зрения
Вот несколько рекомендаций, которые помогут снизить количество сбоев при внедрении моделей компьютерного зрения в производственную среду:
Используйте стратегии поэтапного внедрения: постепенно вводите модели в производственную среду, чтобы команды могли наблюдать за их поведением и при необходимости вносить корректировки.
Внедрите механизмы обратной связи: собирайте новые изображения и анализируйте неверные прогнозы, чтобы переобучать модели с использованием обновленных наборов данных и со временем повышать их эффективность.
Ограничения модели документации: четко опишите ситуации, в которых модель может столкнуться с трудностями, чтобы команды могли заранее предвидеть возможные проблемы при внедрении.
Проектирование с учетом реальных колебаний: заблаговременное планирование с учетом возможных изменений освещения, ракурсов камеры, расположения объектов или условий фона поможет обеспечить стабильность моделей в различных сценариях эксплуатации.
Основные выводы
Модели компьютерного зрения редко дают сбой из-за недостаточной эффективности самих алгоритмов. В большинстве случаев основная сложность заключается в условиях, в которых работают эти системы. Модели, демонстрирующие хорошие результаты на этапе обучения, часто сталкиваются с непредсказуемыми реальными условиями, которые могут повлиять на их поведение.
Именно поэтому для создания надёжных систем искусственного интеллекта для обработки изображений требуется нечто большее, чем просто обучение модели. Это также включает в себя тщательную подготовку наборов данных, мониторинг эффективности модели после внедрения и постоянную адаптацию систем к реальным условиям.