Узнайте интересные выводы из панельной дискуссии на YOLO Vision 2024. Узнайте, как генеративный искусственный интеллект формирует путь вперед для моделей Vision AI в реальном времени.
Узнайте интересные выводы из панельной дискуссии на YOLO Vision 2024. Узнайте, как генеративный искусственный интеллект формирует путь вперед для моделей Vision AI в реальном времени.
Генеративный ИИ — это раздел искусственного интеллекта (ИИ), который создает новый контент, такой как изображения, текст или аудио, путем изучения закономерностей в существующих данных. Благодаря последним достижениям его теперь можно использовать для создания очень реалистичного контента, который часто имитирует человеческое творчество.
Однако, влияние генеративного ИИ выходит за рамки простого создания контента. Поскольку модели компьютерного зрения реального времени, такие как модели Ultralytics YOLO, продолжают развиваться, генеративный ИИ также переопределяет способы обработки и расширения визуальных данных, открывая путь для инновационных приложений в реальных сценариях.
Этот новый технологический сдвиг стал интересной темой для обсуждения на YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, организованном Ultralytics. YV24 собрал энтузиастов ИИ и лидеров отрасли для обсуждения последних достижений в области компьютерного зрения. Основное внимание на мероприятии было уделено инновациям, эффективности и будущему решений на основе ИИ в реальном времени.
Одним из ключевых моментов мероприятия стала панельная дискуссия на тему YOLO в эпоху генеративного ИИ. В панели приняли участие Гленн Джохер, основатель и генеральный директор Ultralytics, Цзин Цю, старший инженер по машинному обучению в Ultralytics, и Ао Ван из Университета Цинхуа. Они изучили, как генеративный ИИ влияет на компьютерное зрение, и проблемы создания практических моделей ИИ.
В этой статье мы вернемся к ключевым моментам их дискуссии и более подробно рассмотрим, как генеративный ИИ преобразует Vision AI.
Наряду с Гленном Джохером, многие квалифицированные инженеры сыграли важную роль в разработке моделей Ultralytics YOLO. Один из них, Цзин Цю, рассказал о своем неожиданном начале работы с YOLO. Он объяснил, что его страсть к ИИ началась в студенческие годы. Он провел значительное количество времени, изучая эту область. Цзин Цю вспомнил, как он связался с Гленном Джохером на GitHub и принял участие в различных проектах в области ИИ.
В дополнение к тому, что сказала Цзин Цю, Гленн Йохер описал GitHub как "невероятный способ делиться - когда люди, которых вы никогда не встречали, собираются вместе, чтобы помочь друг другу, внося свой вклад в работу друг друга. Это отличное сообщество и действительно отличный способ начать работу в ИИ".

Интерес Цзин Цю к ИИ и его работа над Ultralytics YOLOv5 помогли усовершенствовать модель. Позже он сыграл ключевую роль в разработке Ultralytics YOLOv8, которая представила дальнейшие улучшения. Он описал это как невероятное путешествие. Сегодня Цзин Цю продолжает совершенствовать и работать над такими моделями, как Ultralytics YOLO11.
Присоединившись к обсуждению удаленно из Китая, Ао Ван представился аспирантом. Первоначально он изучал разработку программного обеспечения, но его страсть к ИИ привела его к переходу к компьютерному зрению и глубокому обучению.
Его первое знакомство со знаменитой моделью YOLO произошло во время экспериментов с различными техниками и моделями ИИ. Он был впечатлен ее скоростью и точностью, что вдохновило его на более глубокое погружение в задачи компьютерного зрения, такие как обнаружение объектов. Недавно Ао Ван внес вклад в YOLOv10, последнюю версию модели YOLO. Его исследования были сосредоточены на оптимизации модели для повышения скорости и точности.
Затем участники дискуссии начали обсуждать генеративный ИИ, и Цзин Цю отметила, что генеративный ИИ и Vision AI имеют совершенно разные цели. Генеративный ИИ создает или генерирует такие вещи, как текст, изображения и видео, в то время как Vision AI анализирует то, что уже существует, в основном изображения.
Гленн Джохер подчеркнул, что размер также имеет большое значение. Генеративные модели ИИ огромны и часто содержат миллиарды параметров — внутренних настроек, которые помогают модели учиться на данных. Модели компьютерного зрения намного меньше. Он сказал: «Самая маленькая модель YOLO, которая у нас есть, примерно в тысячу раз меньше, чем самая маленькая LLM [Большая языковая модель]. Итак, 3 миллиона параметров по сравнению с тремя миллиардами».

Цзин Цю добавил, что процессы обучения и развертывания генеративного ИИ и компьютерного зрения также сильно отличаются. Генеративному ИИ нужны огромные, мощные серверы для работы. Модели, такие как YOLO, с другой стороны, созданы для эффективности и могут быть обучены и развернуты на стандартном оборудовании. Это делает модели Ultralytics YOLO более практичными для использования в реальном мире.
Несмотря на то, что это разные области, они начинают переплетаться. Гленн Джохер уточнил, что генеративный ИИ привносит новые достижения в Vision AI, делая модели более умными и эффективными.
Генеративный ИИ быстро развивался, и эти прорывы влияют на многие другие области искусственного интеллекта, включая компьютерное зрение. Далее мы рассмотрим некоторые интересные выводы панели по этому вопросу.
В начале обсуждения Гленн Джохер объяснил, что идеи машинного обучения существуют уже давно, но компьютеры не были достаточно мощными, чтобы заставить их работать. Идеям ИИ требовалось более мощное оборудование, чтобы воплотить их в жизнь.
Рост графических процессоров (Graphics Processing Units) за последние 20 лет с возможностями параллельной обработки изменил все. Они сделали обучение моделей ИИ намного быстрее и эффективнее, что позволило глубокому обучению развиваться быстрыми темпами.
В настоящее время ИИ-чипы, такие как TPU (тензорные процессоры) и оптимизированные графические процессоры, потребляют меньше энергии, обрабатывая при этом более крупные и сложные модели. Это сделало ИИ более доступным и полезным в реальных приложениях.
С каждым новым улучшением аппаратного обеспечения приложения как генеративного ИИ, так и компьютерного зрения становятся все более мощными. Эти достижения делают ИИ в реальном времени быстрее, эффективнее и готовым к использованию в большем количестве отраслей.
Отвечая на вопрос о влиянии генеративного ИИ на компьютерное зрение, Цзин Цю отметила, что трансформеры – модели, которые помогают ИИ фокусироваться на наиболее важных частях изображения, – изменили способ понимания и обработки изображений ИИ. Первым большим шагом стал DETR (Detection Transformer), который использовал этот новый подход для обнаружения объектов. Он повысил точность, но имел проблемы с производительностью, из-за которых в некоторых случаях работал медленнее.
Для решения этой задачи исследователи создали гибридные модели, такие как RT-DETR. Эти модели объединяют Convolutional Neural Networks (CNN, сверточные нейронные сети, которые являются моделями глубокого обучения, автоматически изучающими и извлекающими признаки из изображений) и трансформеры, обеспечивая баланс между скоростью и точностью. Такой подход использует преимущества трансформеров, одновременно ускоряя обнаружение объектов.
Интересно, что в YOLOv10 используются слои внимания на основе трансформеров (части модели, которые действуют как прожектор, выделяя наиболее важные области на изображении и игнорируя менее важные детали) для повышения производительности.
Ао Ванг также упомянул, как генеративный ИИ меняет способы обучения моделей. Такие методы, как моделирование замаскированных изображений, помогают ИИ более эффективно учиться на изображениях, уменьшая потребность в больших наборах данных, размеченных вручную. Это делает обучение компьютерному зрению быстрее и менее ресурсоемким.
Еще одна ключевая идея, которую обсудили участники дискуссии, заключалась в том, как генеративный ИИ и Vision AI могут объединиться для создания более мощных моделей. Гленн Йохер объяснил, что, хотя эти два подхода имеют разные сильные стороны, их объединение может открыть новые возможности.
Например, модели Vision AI, такие как YOLO, часто разбивают изображение на сетку для идентификации объектов. Этот метод на основе сетки может помочь языковым моделям улучшить их способность как точно определять детали, так и описывать их — задача, с которой сталкиваются многие языковые модели сегодня. По сути, объединение этих методов может привести к созданию систем, которые могут точно обнаруживать и четко объяснять то, что они видят.

Генеративный ИИ и компьютерное зрение развиваются вместе. В то время как генеративный ИИ создает изображения и видео, он также улучшает анализ изображений и видео, предлагая новые инновационные идеи, которые могут сделать модели Vision AI более точными и эффективными.
В этой содержательной дискуссии на YV24 Гленн Джохер, Цзин Цю и Ао Ван поделились своими мыслями о том, как эти технологии формируют будущее. Благодаря улучшенному аппаратному обеспечению ИИ, генеративный ИИ и Vision AI будут продолжать развиваться, что приведет к еще большим инновациям. Эти две области работают вместе, чтобы создать более умный, быстрый и полезный ИИ для повседневной жизни.
Присоединяйтесь к нашему сообществу и изучите наш репозиторий на GitHub, чтобы узнать больше о Vision AI. Ознакомьтесь с нашими вариантами лицензирования, чтобы дать старт своим проектам в области компьютерного зрения. Интересуетесь инновациями, такими как ИИ в производстве или компьютерное зрение в самоуправляемых автомобилях? Посетите страницы наших решений, чтобы узнать больше.