Мероприятия

Генеративный ИИ меняет будущее компьютерного зрения

Открой для себя интересные выводы из панельной дискуссии на YOLO Vision 2024. Узнай, как генеративный ИИ определяет будущее моделей Vision AI, работающих в реальном времени.

АБАбирами Вина

5 min readMarch 24, 2025

Панельная дискуссия о генеративном ИИ и Vision AI на YOLO Vision 2024

Генеративный ИИ — это отрасль искусственного интеллекта (ИИ), которая создает новый контент, например изображения, текст или аудио, обучаясь на закономерностях в существующих данных. Благодаря недавним достижениям он теперь может использоваться для создания высокореалистичного контента, который часто имитирует человеческое творчество.

Однако влияние генеративного ИИ выходит за рамки простого создания контента. Поскольку модели компьютерного зрения реального времени, такие как Ultralytics YOLO models, продолжают развиваться, генеративный ИИ также меняет способы обработки и дополнения визуальных данных, прокладывая путь для инновационных приложений в реальных сценариях.

Этот новый технологический сдвиг стал интересной темой для обсуждения на YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, организованном Ultralytics. На YV24 энтузиасты ИИ и лидеры индустрии собрались вместе, чтобы обсудить последние прорывы в компьютерном зрении. Мероприятие было посвящено инновациям, эффективности и будущему ИИ-решений реального времени.

Одним из ключевых моментов мероприятия стала панельная дискуссия на тему YOLO in the Age of Generative AI. В дискуссии приняли участие Glenn Jocher, основатель и генеральный директор Ultralytics, Jing Qiu, старший инженер по машинному обучению в Ultralytics, и Ao Wang из Университета Цинхуа. Они обсудили то, как генеративный ИИ влияет на компьютерное зрение, и проблемы создания практических моделей ИИ.

В этой статье мы вернемся к ключевым идеям из их обсуждения и подробнее рассмотрим, как генеративный ИИ трансформирует Vision AI.

Link to this sectionРазработка моделей Ultralytics YOLO#

Наряду с Glenn Jocher, многие квалифицированные инженеры сыграли жизненно важную роль в разработке моделей Ultralytics YOLO. Один из них, Jing Qiu, рассказал о своем неожиданном начале работы с YOLO. Он объяснил, что его страсть к ИИ началась еще в студенческие годы. Он тратил значительное количество времени на изучение этой области. Jing Qiu вспомнил, как он связался с Glenn Jocher на GitHub и принял участие в различных проектах в сфере ИИ.

Дополняя слова Jing Qiu, Glenn Jocher назвал GitHub «невероятным способом обмена знаниями, где люди, которых ты никогда не встречал, собираются вместе, чтобы помочь друг другу, внося вклад в общую работу. Это отличное сообщество и действительно замечательный способ начать путь в ИИ».

Гленн Джочер и Цзин Цю выступают на сцене YV24

Рис 1. Glenn Jocher и Jing Qiu выступают на сцене YV24.

Интерес Jing Qiu к ИИ и его работа над Ultralytics YOLOv5 помогли усовершенствовать модель. Позже он сыграл ключевую роль в разработке Ultralytics YOLOv8, которая принесла дополнительные улучшения. Он описал это как невероятное путешествие. Сегодня Jing Qiu продолжает совершенствовать и работать над такими моделями, как Ultralytics YOLO11.

Link to this sectionYOLOv10: оптимизировано для реальной производительности#

Присоединившись к панельной дискуссии удаленно из Китая, Ao Wang представился как аспирант. Изначально он изучал программную инженерию, но страсть к ИИ привела его к переходу в сторону компьютерного зрения и глубокого обучения.

Его первое знакомство с известной моделью YOLO произошло во время экспериментов с различными методами и моделями ИИ. Его впечатлили скорость и точность модели, что вдохновило его на более глубокое погружение в задачи компьютерного зрения, такие как обнаружение объектов. Недавно Ao Wang внес свой вклад в YOLOv10, одну из новых версий модели YOLO. Его исследование было сосредоточено на оптимизации модели для повышения скорости и точности.

Link to this sectionКлючевое различие между генеративным ИИ и Vision AI#

Затем панель начала обсуждать генеративный ИИ, и Jing Qiu отметил, что генеративный ИИ и Vision AI имеют совершенно разные цели. Генеративный ИИ создает или генерирует такие вещи, как текст, изображения и видео, в то время как Vision AI анализирует то, что уже существует, главным образом изображения.

Glenn Jocher подчеркнул, что размер — это тоже огромное различие. Модели генеративного ИИ огромны, часто содержат миллиарды параметров — внутренних настроек, которые помогают модели учиться на данных. Модели компьютерного зрения намного меньше. Он сказал: «Самая маленькая модель YOLO, которая у нас есть, примерно в тысячу раз меньше, чем самая маленькая LLM [большая языковая модель]. То есть 3 миллиона параметров по сравнению с тремя миллиардами».

Панельная дискуссия о генеративном ИИ и Vision AI на YV24

Рис 2. Панельная дискуссия о генеративном ИИ и Vision AI на YV24.

Jing Qiu добавил, что процессы обучения и развертывания генеративного ИИ и компьютерного зрения также очень различаются. Для работы генеративного ИИ нужны огромные мощные серверы. Модели же типа YOLO созданы для эффективности и могут обучаться и развертываться на стандартном оборудовании. Это делает модели Ultralytics YOLO более практичными для реального использования.

Несмотря на то, что они разные, эти две области начинают переплетаться. Glenn Jocher пояснил, что генеративный ИИ привносит новые достижения в Vision AI, делая модели умнее и эффективнее.

Link to this sectionВлияние генеративного ИИ на компьютерное зрение#

Генеративный ИИ быстро продвинулся вперед, и эти прорывы влияют на многие другие области искусственного интеллекта, включая компьютерное зрение. Далее давай пройдемся по нескольким интересным идеям с этой панели.

Link to this sectionАппаратные достижения способствуют инновациям в ИИ#

В начале дискуссии Glenn Jocher объяснил, что идеи машинного обучения существуют уже давно, но компьютеры не были достаточно мощными, чтобы воплотить их в жизнь. Идеи ИИ нуждались в более мощном оборудовании, чтобы стать реальностью.

Появление GPU (графических процессоров) за последние 20 лет с возможностями параллельной обработки изменило всё. Они сделали обучение моделей ИИ намного быстрее и эффективнее, что позволило глубокому обучению развиваться быстрыми темпами.

В наши дни ИИ-чипы, такие как TPU (тензорные процессоры) и оптимизированные GPU, потребляют меньше энергии, справляясь с более крупными и сложными моделями. Это сделало ИИ более доступным и полезным в реальных приложениях.

С каждым новым улучшением оборудования как генеративный ИИ, так и приложения компьютерного зрения становятся мощнее. Эти достижения делают ИИ реального времени быстрее, эффективнее и готовым к использованию во многих отраслях.

Link to this sectionКак генеративный ИИ формирует модели обнаружения объектов#

На вопрос о том, как генеративный ИИ влияет на компьютерное зрение, Jing Qiu ответил, что трансформеры — модели, которые помогают ИИ фокусироваться на самых важных частях изображения, — изменили то, как ИИ понимает и обрабатывает изображения. Первым большим шагом стал DETR (Detection Transformer), который использовал этот новый подход для обнаружения объектов. Это повысило точность, но вызвало проблемы с производительностью, из-за чего в некоторых случаях он работал медленнее.

Чтобы решить эту проблему, исследователи создали гибридные модели, такие как RT-DETR. Эти модели сочетают в себе сверточные нейронные сети (CNN — модели глубокого обучения, которые автоматически изучают и извлекают признаки из изображений) и трансформеры, обеспечивая баланс между скоростью и точностью. Этот подход использует преимущества трансформеров, ускоряя обнаружение объектов.

Интересно, что YOLOv10 использует слои внимания на основе трансформеров (части модели, которые работают как прожектор, выделяя самые важные области изображения и игнорируя менее важные детали), чтобы повысить свою производительность.

Ao Wang также упомянул, как генеративный ИИ меняет способы обучения моделей. Такие методы, как маскированное моделирование изображений (masked image modeling), помогают ИИ учиться на изображениях более эффективно, сокращая потребность в больших наборах данных с ручной разметкой. Это ускоряет обучение компьютерного зрения и делает его менее ресурсоемким.

Link to this sectionБудущее генеративного ИИ и Vision AI#

Еще одна ключевая идея, которую обсуждала панель, заключалась в том, как генеративный ИИ и Vision AI могут объединиться для создания более мощных моделей. Glenn Jocher объяснил, что, хотя у этих двух подходов разные сильные стороны, их объединение может открыть новые возможности.

Например, модели Vision AI, такие как YOLO, часто разбивают изображение на сетку для идентификации объектов. Этот сеточный метод может помочь языковым моделям улучшить их способность как точно определять детали, так и описывать их — задача, с которой сегодня сталкиваются многие языковые модели. По сути, объединение этих методов может привести к созданию систем, которые способны точно обнаруживать и четко объяснять то, что они видят.

Будущее генеративного ИИ и Vision AI

Рис 3. Будущее генеративного ИИ и Vision AI. Изображение от автора.

Link to this sectionОсновные выводы#

Генеративный ИИ и компьютерное зрение развиваются вместе. Хотя генеративный ИИ создает изображения и видео, он также улучшает анализ изображений и видео, привнося новые инновационные идеи, которые могут сделать модели Vision AI более точными и эффективными.

В этой проницательной панельной дискуссии на YV24 Glenn Jocher, Jing Qiu и Ao Wang поделились своими мыслями о том, как эти технологии формируют будущее. Благодаря более совершенному оборудованию для ИИ, генеративный ИИ и Vision AI будут продолжать развиваться, что приведет к еще большим инновациям. Эти две области работают вместе, чтобы создать более умный, быстрый и полезный ИИ для повседневной жизни.

Присоединяйся к нашему сообществу и изучай наш репозиторий на GitHub, чтобы узнать больше о Vision AI. Ознакомься с нашими вариантами лицензирования, чтобы начать свои проекты в области компьютерного зрения. Интересуют инновации вроде ИИ в производстве или компьютерного зрения в беспилотных автомобилях? Посети наши страницы решений, чтобы узнать больше.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Генеративный ИИ меняет будущее компьютерного зрения

Link to this sectionРазработка моделей Ultralytics YOLO#

Link to this sectionYOLOv10: оптимизировано для реальной производительности#

Link to this sectionКлючевое различие между генеративным ИИ и Vision AI#

Link to this sectionВлияние генеративного ИИ на компьютерное зрение#

Link to this sectionАппаратные достижения способствуют инновациям в ИИ#

Link to this sectionКак генеративный ИИ формирует модели обнаружения объектов#

Link to this sectionБудущее генеративного ИИ и Vision AI#

Link to this sectionОсновные выводы#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!