Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, как создание интеллектуальных продуктов с помощью YOLO26 и искусственного интеллекта для обработки изображений позволяет осуществлять обнаружение в реальном времени, интеллектуальную автоматизацию и обеспечивать масштабируемость и отзывчивость продуктов.
Масштабируйте свои проекты в области компьютерного зрения с Ultralytics
Каждый день тысячи часов видеозаписей фиксируются камерами, встроенными в устройства, машины и объекты общественной инфраструктуры. Большая часть этих записей хранится, просматривается или анализируется только в случае возникновения непредвиденных ситуаций.
Часто визуальные данные доступны, но отсутствует возможность их интерпретации в режиме реального времени. По мере того, как продукты становятся все более подключенными и ориентированными на данные, это ограничение становится все более заметным.
Пользователи ожидают, что системы будут делать больше, чем просто регистрировать события или выполнять фиксированные инструкции. Например, они ожидают, что интеллектуальные продукты будут распознавать происходящее и немедленно реагировать, не дожидаясь ручной проверки и не полагаясь на жесткие наборы правил.
Последние достижения в области искусственного интеллекта помогают сократить этот разрыв. В частности, компьютерное зрение позволяет машинам интерпретировать изображения и видео, благодаря чему системы могут анализировать сцены и реагировать в режиме реального времени.
Однако для внедрения этой функции в продукт требуются модели, которые будут одновременно быстрыми и надежными. Современные модели компьютерного зрения, такие как Ultralytics , созданы именно для этой цели и обеспечивают скорость и точность, необходимые для внедрения в режиме реального времени.
YOLO26 поддерживает основные задачи машинного зрения, такие как обнаружение объектов, сегментация экземпляров и отслеживание объектов, что позволяет продуктам интерпретировать визуальные данные и реагировать на них интеллектуально.
Рис. 1. Обнаружение объектов на изображении с помощью YOLO26 (Источник)
В этой статье мы рассмотрим, как компьютерное зрение и Ultralytics могут быть использованы для создания более интеллектуальных продуктов и поддержки интеллектуальной автоматизации в реальных приложениях. Приступим!
Пробелы в традиционной разработке продуктов
Прежде чем углубиться в то, как компьютерное зрение помогает создавать более интеллектуальные продукты, давайте внимательно рассмотрим проблемы, с которыми сталкиваются команды, полагаясь на традиционные системы, основанные на правилах, и устаревшие алгоритмы.
Вот некоторые из основных проблем традиционной разработки продуктов:
Жесткие системы, основанные на правилах: жестко запрограммированная логика может работать в контролируемой среде, но реальные условия редко бывают предсказуемыми. Незначительные изменения освещения, угла наклона камеры или внешнего вида объекта могут быстро нарушить заранее определенные правила и снизить точность.
Плохая адаптируемость к реальным изменениям: традиционные системы плохо приспосабливаются к новым или неожиданным сценариям. Обновления часто требуют ручной настройки и повторной оптимизации, что замедляет совершенствование продукта и увеличивает затраты на обслуживание.
Ограничения масштабируемости: по мере роста объема изображений и видеоданных старые конвейеры обработки изображений с трудом справляются с нагрузкой. Обработка замедляется, что затрудняет поддержание производительности в режиме реального времени для всех видеопотоков.
Высокая задержка в сценариях реального времени: многие традиционные подходы не могут достаточно быстро обрабатывать непрерывные визуальные потоки. Задержки в выводе результатов ослабляют автоматизацию и снижают общую скорость реагирования.
Дорогие вычислительные требования: для достижения приемлемой точности часто требуются значительные аппаратные ресурсы, в том числе выделенные графические процессоры (GPU), что увеличивает затраты на инфраструктуру.
Роль компьютерного зрения в создании более интеллектуальных продуктов
Далее давайте посмотрим, как компьютерное зрение может способствовать более интеллектуальному поведению продукта.
Большинство подключенных к сети продуктов сегодня уже собирают визуальные данные в рамках своих обычных рабочих процессов. Камеры встроены в различные устройства, установлены в физических пространствах и подключены через системы Интернета вещей (IoT).
В результате изображения и видео постоянно записываются в фоновом режиме. Сложность заключается не в сборе этих данных.
Сложность заключается в том, чтобы в режиме реального времени придать смысл собранным данным. Без визуального интеллекта видеозаписи просто хранятся и просматриваются позже, часто после того, как проблема уже возникла.
Компьютерное зрение меняет эту ситуацию. Используя нейронные сети, обученные распознавать шаблоны, системы могут анализировать изображения и видео в режиме реального времени. Вместо того, чтобы полагаться на фиксированные правила или ручные проверки, продукты могут интерпретировать то, что происходит в сцене, и реагировать на события по мере их возникновения.
Чтобы внедрить эту визуальную функцию в продукты, команды могут воспользоваться эффективными моделями компьютерного зрения, такими как Ultralytics . YOLO26 поддерживает ключевые задачи компьютерного зрения и может помочь продуктам достаточно быстро интерпретировать визуальную информацию, чтобы принимать решения в режиме реального времени.
Строительные блоки продуктов, основанных на зрении
Вот краткий обзор того, как задачи компьютерного зрения могут способствовать созданию более интеллектуальных продуктов:
Обнаружение объектов: эта задача позволяет идентифицировать и локализовать соответствующие объекты в каждом кадре с помощью ограничительной рамки и присвоить им оценку достоверности, что дает четкое представление о том, что присутствует на изображении.
Отслеживание объектов: может использоваться для отслеживания определенных объектов в нескольких кадрах, позволяя системе технического зрения понимать движение и изменения во времени.
Классификация изображений: эта задача присваивает метку всему изображению на основе его основного содержания. Она классифицирует сцены или идентифицирует определенные условия в кадре.
Сегментация экземпляров: она может точно очерчивать объекты на уровне пикселей, позволяя продуктам лучше интерпретировать формы, границы и пространственные отношения.
Оценка позы: эта задача позволяет обнаруживать ключевые точки на теле человека или других подвижных объектах. Она фиксирует позу, движения и физические взаимодействия в режиме реального времени.
Обнаружение ориентированных ограничительных рамок (OBB): позволяет detect с помощью повернутых ограничительных рамок вместо стандартных горизонтальных. Это повышает точность локализации, когда объекты появляются под углом или в плотно заполненной среде.
Когда эти возможности применяются к непрерывным визуальным данным, продукты могут реагировать быстрее, автоматизироваться более надежно и обеспечивать опыт, который воспринимается как осознанный, а не реактивный. Вместо того, чтобы ждать, пока события будут проанализированы позже, системы могут понимать и действовать в данный момент.
Как модели визуального восприятия в реальном времени обеспечивают интеллектуальное поведение продукта
По мере того, как вы узнаете больше о продуктах, основанных на зрении, вы, возможно, зададитесь вопросом, как система переходит от простой записи видео к фактическому реагированию в режиме реального времени.
Все начинается с распознавания того, что находится перед камерой. По мере поступления видеопотока модель зрительного восприятия анализирует каждый кадр и выделяет важные элементы, такие как конкретные объекты или люди. Вместо того чтобы реагировать на каждое движение, система фокусируется только на значимых сигналах.
Еще одним ключевым аспектом является скорость. Системы реального времени должны быстро и последовательно обрабатывать каждый кадр, обеспечивая обнаружение и принятие решений без заметной задержки.
Например, семейство моделей Ultralytics YOLO You Only Look Once) было создано для обработки визуальных данных в режиме реального времени. Модели, такие как Ultralytics , основаны на более ранних версиях, таких как Ultralytics YOLOv5, Ultralytics YOLOv8и Ultralytics YOLO11, включающие усовершенствования архитектуры, оптимизацию производительности и повышение эффективности. Результатом является повышение скорости и точности даже в сложных реальных условиях.
При интеграции в продукт эти модели работают непрерывно в фоновом режиме, анализируя каждый кадр по мере его поступления. Система проверяет заранее определенные условия и, как только они выполняются, может мгновенно сработать сигнал тревоги, обновить рабочий процесс или инициировать действие.
Это делает системы, основанные на зрительном восприятии, более отзывчивыми, масштабируемыми и практичными для интеграции в различные среды, от робототехники и автономных транспортных средств до умных домов и систем безопасности. Для руководителей предприятий это означает более быстрое реагирование, меньшее количество ручных проверок и автоматизацию, которая вызывает доверие, а не является просто реакцией на события.
Использование YOLO26 для обеспечения визуального интеллекта в реальном времени в продуктах
YOLO Ultralytics YOLO , включая YOLO26, доступны в готовом виде в качестве предварительно обученных моделей. Это означает, что они уже обучены на больших, широко используемых наборах данных, таких как COCO .
Благодаря этой предварительной подготовке YOLO26 может сразу распознавать распространенные объекты реального мира. Это дает командам разработчиков продуктов практическую отправную точку, позволяя им создавать визуальные функции без необходимости обучения модели с нуля.
Для более специфических потребностей продукта эти предварительно обученные модели можно дополнительно настроить с помощью данных конкретной области с высококачественными аннотациями.
Например, рассмотрим ресторан, оборудованный потолочными камерами. Специально обученная модель искусственного интеллекта для обработки изображений, такая как YOLO26, может detect человек находится в помещении. Она может идентифицировать, какие столы заняты, а какие стулья пусты.
Рис. 2. YOLO26 позволяет в режиме реального времени обнаруживать людей, открытые пространства и кассы с персоналом в розничных магазинах. (Источник)
В таком сценарии YOLO26 действует как визуальный движок, постоянно работающий в фоновом режиме. Команды также могут развертывать такие модели на периферийных устройствах в зависимости от требований к производительности и целей по энергоэффективности.
Реальные применения YOLO в интеллектуальных продуктах
Теперь, когда мы лучше понимаем, как работают модели реального времени, давайте посмотрим, какYOLO Ultralytics YOLO могут быть применены в интеллектуальных продуктах для различных случаев использования, чтобы сделать их более осведомленными, отзывчивыми и способными действовать в соответствии с тем, что они видят.
Информация о продуктах для здравоохранения с YOLO
Когда речь идет об обучении хирургическим навыкам в сфере здравоохранения, часы видеозаписей операций часто просматриваются вручную для оценки работы с инструментами и рабочего процесса. Этот процесс может быть трудоемким и в значительной степени зависеть от человеческого наблюдения.
Благодаря интегрированной в систему модели видеонаблюдения YOLO, видеопотоки могут анализироваться автоматически по мере выполнения процедур. Модель может detect инструменты в режиме реального времени и определять, где и когда они используются.
Это позволяет осуществлять структурированное ведение журналов, улучшать аналитику и получать высококачественную информацию о производительности без постоянного ручного контроля. Фактически, исследования с использованием YOLO11 , которая является предшественницей новейшей модели YOLO26, показали, что обнаружение лапароскопических инструментов в режиме реального времени может эффективно работать даже на встроенных системах.
Рис. 3. Обнаружение лапароскопических инструментов в реальном времени с помощью YOLO Источник)
Модель сохраняла высокую точность при достаточно быстрой работе для использования в условиях реальной хирургической практики. Это показывает, как глубокое обучение может обеспечить надежную визуальную обратную связь в режиме реального времени во время процедур.
Создание интеллектуальных розничных решений YOLO
Мы все стояли перед переполненной полкой в супермаркете, пытаясь найти нужный товар. Многие товары выглядят одинаково, этикетки маленькие, а товары часто размещены не на том месте.
Для розничных продавцов это затрудняет отслеживание состояния полок в режиме реального времени. Модели искусственного интеллекта Vision AI и YOLO для обнаружения YOLO могут помочь системам магазинов понять, что на самом деле находится на полках, с помощью камер и потокового видео в реальном времени. Это снижает зависимость от сканирования штрих-кодов и ручной проверки, делая мониторинг полок более точным и оперативным.
Рис. 4. Обнаружение и сегментирование продуктов на полках супермаркета с помощью YOLO26
Благодаря такой точности розничным продавцам больше не нужно полагаться только на периодические ручные проверки. Полки можно постоянно контролировать с помощью видео в реальном времени.
Низкий уровень запасов можно сразу же отметить, неправильно размещенные товары можно быстрее обнаружить, а процессы оформления заказа могут проходить более гладко. Это дает розничным продавцам лучший оперативный контроль и создает более удобные условия для покупок для клиентов.
Искусственный интеллект и автономная навигация
Автономные системы могут быть очень эффективными, но они часто полагаются на фиксированные маршруты или заранее заданные координаты. Хотя это работает в стабильных условиях, в реальном мире условия редко остаются неизменными.
Решения Vision AI, основанные на моделях глубокого обучения, позволяют машинам понимать окружающую обстановку и адаптироваться к ней в режиме реального времени. Благодаря компьютерному зрению в сочетании с адаптивными алгоритмами системы могут реагировать на изменения по мере их возникновения, а не полагаться на жесткие, заранее запрограммированные инструкции.
Как это работает в реальных условиях? Возьмем для примера робота, работающего на складе. Камеры непрерывно снимают его окружение, а модель зрительного восприятия в режиме реального времени выполняет обнаружение объектов, чтобы идентифицировать препятствия, полки и проходы.
Эти данные помогают определить местонахождение робота и его точное положение на территории объекта. На основе этой визуальной информации алгоритмы оптимизации мгновенно корректируют маршрут робота, позволяя ему эффективно перемещаться и поддерживать бесперебойную работу автоматизации даже при изменении условий.
Мониторинг инфраструктуры и более эффективное обнаружение дефектов
Линии электропередачи и сетевое оборудование требуют регулярных проверок для обеспечения безопасности и надежности. В большинстве случаев такие проверки коммунальных служб по-прежнему проводятся вручную, что отнимает много времени и затрудняет управление на больших или удаленных территориях.
Vision AI предлагает более простой способ контролировать инфраструктуру, не полагаясь исключительно на плановые выезды на объекты. Модели, такие как YOLO26, могут detect изоляторов линий электропередач, включая трещины, коррозию или видимые повреждения, непосредственно по изображениям, снятым в реальных условиях на открытом воздухе.
Анализируя визуальные данные в режиме реального времени, такие системы могут выявлять потенциальные проблемы, которые в противном случае могли бы остаться незамеченными. Своевременное выявление этих проблем снижает риск выхода оборудования из строя, сводит к минимуму непредвиденные простои и способствует более проактивному техническому обслуживанию.
Измерение рентабельности инвестиций в интеллектуальные продукты на основе систем технического зрения
Для бизнес-лидеров искусственный интеллект — это не только технические характеристики. Это измеримое влияние на бизнес.
При грамотном внедрении системы, основанные на видении, могут повысить эффективность, снизить затраты и повысить точность. Эти преимущества также способствуют улучшению пользовательского опыта и повышению общей производительности.
Вот несколько областей, в которых это влияние становится очевидным:
Сокращение ручного труда: системы технического зрения автоматизируют повторяющиеся задачи по проверке, мониторингу и верификации, снижая зависимость от ручных процессов и позволяя командам сосредоточиться на более стратегической работе.
Более быстрые циклы принятия решений: визуальный анализ в режиме реального времени позволяет системам мгновенно detect или запускать действия, сокращая время реагирования и обеспечивая бесперебойную работу.
Меньше операционных ошибок: автоматическое обнаружение обеспечивает стабильность. Благодаря сокращению человеческого фактора в рутинных задачах организации часто отмечают меньшее количество ошибок и более надежные результаты.
Повышение вовлеченности пользователей: продукты, которые могут видеть и интеллектуально реагировать, кажутся более интерактивными и актуальными. Это приводит к укреплению доверия пользователей, улучшению их впечатлений и более высокому уровню долгосрочного использования.
Основные выводы
Vision AI позволяет продуктам интерпретировать визуальную информацию в режиме реального времени, поддерживая более интеллектуальную автоматизацию и более отзывчивый интерфейс. Благодаря таким функциям, как обнаружение, отслеживание и сегментация, системы выходят за рамки базовых правил и принимают решения с учетом контекста. Эффективные модели, такие как Ultralytics , позволяют создавать масштабируемые, конкурентоспособные продукты на основе технологий машинного зрения.