Откройте для себя интересные моменты из панельной дискуссии на YOLO Vision 2024. Узнайте, как генеративный ИИ формирует будущее для моделей ИИ Vision в реальном времени.
Откройте для себя интересные моменты из панельной дискуссии на YOLO Vision 2024. Узнайте, как генеративный ИИ формирует будущее для моделей ИИ Vision в реальном времени.
Генеративный ИИ — это раздел искусственного интеллекта (ИИ), который создает новый контент, такой как изображения, текст или аудио, путем изучения закономерностей в существующих данных. Благодаря последним достижениям его теперь можно использовать для создания очень реалистичного контента, который часто имитирует человеческое творчество.
Однако влияние генеративного ИИ выходит за рамки простого создания контента. По мере развития моделей компьютерного зрения в реальном времени, таких как моделиUltralytics YOLO , генеративный ИИ также пересматривает способы обработки и дополнения визуальных данных, прокладывая путь к инновационным приложениям в реальных сценариях.
Этот новый технологический сдвиг стал интересной темой для разговора на YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, организованном компанией Ultralytics. На YV24 собрались энтузиасты искусственного интеллекта и лидеры индустрии, чтобы обсудить последние прорывы в области компьютерного зрения. Мероприятие было посвящено инновациям, эффективности и будущему решений ИИ в реальном времени.
Одним из ключевых моментов мероприятия стала дискуссия на тему YOLO в эпоху генеративного ИИ". В дискуссии приняли участие Гленн Джочер, основатель и генеральный директор Ultralytics, Цзин Цю, старший инженер по машинному обучению в Ultralytics, и Ао Ванг из Университета Цинхуа. Они рассказали о том, как генеративный ИИ влияет на компьютерное зрение, и о проблемах создания практических моделей ИИ.
В этой статье мы вернемся к ключевым моментам их дискуссии и более подробно рассмотрим, как генеративный ИИ преобразует Vision AI.
Наряду с Гленом Джошером многие опытные инженеры сыграли важную роль в разработке моделейYOLO Ultralytics . Один из них, Цзин Цю, рассказал о своем неожиданном начале работы над YOLO. Он рассказал, что его увлечение искусственным интеллектом началось в студенческие годы. Он проводил много времени, исследуя и изучая эту область. Цзин Цю вспомнил, как он познакомился с Гленом Джошером на GitHub и стал участвовать в различных проектах по ИИ.
В дополнение к тому, что сказала Цзин Цю, Гленн Йохер описал GitHub как "невероятный способ делиться - когда люди, которых вы никогда не встречали, собираются вместе, чтобы помочь друг другу, внося свой вклад в работу друг друга. Это отличное сообщество и действительно отличный способ начать работу в ИИ".

Интерес Цзина Цю к искусственному интеллекту и его работа над Ultralytics YOLOv5 помогли усовершенствовать модель. Позже он сыграл ключевую роль в разработке Ultralytics YOLOv8в которой были реализованы дальнейшие усовершенствования. Он описывает это как невероятное путешествие. Сегодня Цзин Цю продолжает совершенствовать и работать над такими моделями, как Ultralytics YOLO11.
Присоединившись к обсуждению удаленно из Китая, Ао Ван представился аспирантом. Первоначально он изучал разработку программного обеспечения, но его страсть к ИИ привела его к переходу к компьютерному зрению и глубокому обучению.
Впервые он познакомился со знаменитой моделью YOLO , когда экспериментировал с различными техниками и моделями искусственного интеллекта. Он был впечатлен ее скоростью и точностью, что вдохновило его на более глубокое изучение задач компьютерного зрения, таких как обнаружение объектов. Недавно Ао Ванг принял участие в разработке YOLOv10, последней версии модели YOLO . Его исследования были направлены на оптимизацию модели для повышения скорости и точности.
Затем участники дискуссии начали обсуждать генеративный ИИ, и Цзин Цю отметила, что генеративный ИИ и Vision AI имеют совершенно разные цели. Генеративный ИИ создает или генерирует такие вещи, как текст, изображения и видео, в то время как Vision AI анализирует то, что уже существует, в основном изображения.
Гленн Джочер подчеркнул, что размер тоже имеет большое значение. Генеративные модели ИИ массивны, часто содержат миллиарды параметров - внутренних настроек, которые помогают модели обучаться на основе данных. Модели компьютерного зрения гораздо меньше. Он сказал: "Самая маленькая модель YOLO , которая у нас есть, примерно в тысячу раз меньше, чем самая маленькая LLM [Large Language Model]. Итак, 3 миллиона параметров против трех миллиардов".

Цзин Цю добавил, что процессы обучения и внедрения генеративного ИИ и компьютерного зрения также сильно отличаются. Для работы генеративного ИИ требуются огромные мощные серверы. Модели, подобные YOLO, напротив, созданы для повышения эффективности и могут быть обучены и развернуты на стандартном оборудовании. Это делает модели Ultralytics YOLO более практичными для использования в реальном мире.
Несмотря на то, что это разные области, они начинают переплетаться. Гленн Джохер уточнил, что генеративный ИИ привносит новые достижения в Vision AI, делая модели более умными и эффективными.
Генеративный ИИ быстро развивался, и эти прорывы влияют на многие другие области искусственного интеллекта, включая компьютерное зрение. Далее мы рассмотрим некоторые интересные выводы панели по этому вопросу.
В начале обсуждения Гленн Джохер объяснил, что идеи машинного обучения существуют уже давно, но компьютеры не были достаточно мощными, чтобы заставить их работать. Идеям ИИ требовалось более мощное оборудование, чтобы воплотить их в жизнь.
Рост графических процессоров (Graphics Processing Units) за последние 20 лет с возможностями параллельной обработки изменил все. Они сделали обучение моделей ИИ намного быстрее и эффективнее, что позволило глубокому обучению развиваться быстрыми темпами.
Сегодня чипы ИИ, такие как TPU (Tensor Processing Units) и оптимизированные GPU, потребляют меньше энергии при обработке больших и более сложных моделей. Это сделало ИИ более доступным и полезным в реальных приложениях.
С каждым новым улучшением аппаратного обеспечения приложения как генеративного ИИ, так и компьютерного зрения становятся все более мощными. Эти достижения делают ИИ в реальном времени быстрее, эффективнее и готовым к использованию в большем количестве отраслей.
Отвечая на вопрос о влиянии генеративного ИИ на компьютерное зрение, Цзин Цю отметила, что трансформеры – модели, которые помогают ИИ фокусироваться на наиболее важных частях изображения, – изменили способ понимания и обработки изображений ИИ. Первым большим шагом стал DETR (Detection Transformer), который использовал этот новый подход для обнаружения объектов. Он повысил точность, но имел проблемы с производительностью, из-за которых в некоторых случаях работал медленнее.
Чтобы решить эту проблему, исследователи создали гибридные модели, такие как RT-DETR. Эти модели сочетают в себе конволюционные нейронные сети (CNN, модели глубокого обучения, которые автоматически обучаются и извлекают особенности из изображений) и трансформаторы, балансируя между скоростью и точностью. Такой подход позволяет использовать преимущества трансформаторов, ускоряя обнаружение объектов.
Интересно, YOLOv10 использует слои внимания на основе трансформаторов (части модели, которые действуют подобно прожектору, выделяя наиболее важные области изображения и игнорируя менее значимые детали) для повышения своей производительности.
Ао Ванг также упомянул, как генеративный ИИ меняет способы обучения моделей. Такие методы, как моделирование замаскированных изображений, помогают ИИ более эффективно учиться на изображениях, уменьшая потребность в больших наборах данных, размеченных вручную. Это делает обучение компьютерному зрению быстрее и менее ресурсоемким.
Еще одна ключевая идея, которую обсудили участники дискуссии, заключалась в том, как генеративный ИИ и Vision AI могут объединиться для создания более мощных моделей. Гленн Йохер объяснил, что, хотя эти два подхода имеют разные сильные стороны, их объединение может открыть новые возможности.
Например, модели Vision AI, такие как YOLO , часто разбивают изображение на сетку, чтобы определить объекты. Этот метод, основанный на сетке, может помочь языковым моделям улучшить свою способность как определять детали, так и описывать их - проблема, с которой сегодня сталкиваются многие языковые модели. По сути, объединение этих методов может привести к созданию систем, способных точно detect и четко объяснять то, что они видят.

Генеративный ИИ и компьютерное зрение развиваются вместе. В то время как генеративный ИИ создает изображения и видео, он также улучшает анализ изображений и видео, предлагая новые инновационные идеи, которые могут сделать модели Vision AI более точными и эффективными.
В этой содержательной дискуссии на YV24 Гленн Джохер, Цзин Цю и Ао Ван поделились своими мыслями о том, как эти технологии формируют будущее. Благодаря улучшенному аппаратному обеспечению ИИ, генеративный ИИ и Vision AI будут продолжать развиваться, что приведет к еще большим инновациям. Эти две области работают вместе, чтобы создать более умный, быстрый и полезный ИИ для повседневной жизни.
Присоединяйтесь к нашему сообществу и изучите наш репозиторий на GitHub, чтобы узнать больше о Vision AI. Ознакомьтесь с нашими вариантами лицензирования, чтобы дать старт своим проектам в области компьютерного зрения. Интересуетесь инновациями, такими как ИИ в производстве или компьютерное зрение в самоуправляемых автомобилях? Посетите страницы наших решений, чтобы узнать больше.