Откройте для себя интересные моменты из панельной дискуссии на YOLO Vision 2024. Узнайте, как генеративный ИИ формирует будущее для моделей ИИ Vision в реальном времени.

Откройте для себя интересные моменты из панельной дискуссии на YOLO Vision 2024. Узнайте, как генеративный ИИ формирует будущее для моделей ИИ Vision в реальном времени.
Генеративный ИИ - это направление искусственного интеллекта (ИИ), которое создает новый контент, например изображения, текст или аудио, путем изучения закономерностей на основе существующих данных. Благодаря последним достижениям его можно использовать для создания очень реалистичного контента, часто имитирующего человеческое творчество.
Однако влияние генеративного ИИ выходит за рамки простого создания контента. По мере развития моделей компьютерного зрения в реальном времени, таких как модели Ultralytics YOLO, генеративный ИИ также пересматривает способы обработки и дополнения визуальных данных, прокладывая путь к инновационным приложениям в реальных сценариях.
Этот новый технологический сдвиг стал интересной темой для разговора на YOLO Vision 2024 (YV24), ежегодном гибридном мероприятии, организованном компанией Ultralytics. На YV24 собрались энтузиасты искусственного интеллекта и лидеры индустрии, чтобы обсудить последние прорывы в области компьютерного зрения. Мероприятие было посвящено инновациям, эффективности и будущему решений ИИ в реальном времени.
Одним из ключевых моментов мероприятия стала дискуссия на тему "YOLO в эпоху генеративного ИИ". В дискуссии приняли участие Гленн Джочер, основатель и генеральный директор Ultralytics, Цзин Цю, старший инженер по машинному обучению в Ultralytics, и Ао Ванг из Университета Цинхуа. Они рассказали о том, как генеративный ИИ влияет на компьютерное зрение, и о проблемах создания практических моделей ИИ.
В этой статье мы рассмотрим ключевые моменты их дискуссии и более подробно остановимся на том, как генеративный ИИ трансформирует Vision AI.
Наряду с Гленом Джошером многие опытные инженеры сыграли важную роль в разработке моделей YOLO компании Ultralytics. Один из них, Цзин Цю, рассказал о своем неожиданном начале работы над YOLO. Он рассказал, что его увлечение искусственным интеллектом началось в студенческие годы. Он проводил много времени, исследуя и изучая эту область. Цзин Цю вспомнил, как он познакомился с Гленом Джошером на GitHub и стал участвовать в различных проектах по ИИ.
В дополнение к словам Цзин Цю Гленн Джочер назвал GitHub "невероятным способом обмена информацией - здесь люди, которых вы никогда не встречали, собираются вместе, чтобы помогать друг другу, внося свой вклад в работу друг друга. Это прекрасное сообщество и отличный способ начать работу в области ИИ".
Интерес Цзина Цю к искусственному интеллекту и его работа над Ultralytics YOLOv5 помогли усовершенствовать модель. Позже он сыграл ключевую роль в разработке Ultralytics YOLOv8, в которой были внесены дальнейшие улучшения. Он описывает это как невероятное путешествие. Сегодня Цзин Цю продолжает совершенствовать и работать над такими моделями, как Ultralytics YOLO11.
Ао Ванг, участвовавший в дискуссии дистанционно из Китая, представился как аспирант. Изначально он изучал программную инженерию, но увлечение искусственным интеллектом заставило его перейти к компьютерному зрению и глубокому обучению.
Впервые он познакомился со знаменитой моделью YOLO, когда экспериментировал с различными техниками и моделями искусственного интеллекта. Он был впечатлен ее скоростью и точностью, что вдохновило его на более глубокое изучение задач компьютерного зрения, таких как обнаружение объектов. Недавно Ао Ванг принял участие в разработке YOLOv10, последней версии модели YOLO. Его исследования были направлены на оптимизацию модели для повышения скорости и точности.
Затем участники дискуссии приступили к обсуждению генеративного ИИ, и Цзин Цю отметил, что генеративный ИИ и Vision AI имеют совершенно разные цели. Генеративный ИИ создает или генерирует такие вещи, как текст, изображения и видео, в то время как Vision AI анализирует то, что уже существует, в основном изображения.
Гленн Джочер подчеркнул, что размер тоже имеет большое значение. Генеративные модели ИИ массивны, часто содержат миллиарды параметров - внутренних настроек, которые помогают модели обучаться на основе данных. Модели компьютерного зрения гораздо меньше. Он сказал: "Самая маленькая модель YOLO, которая у нас есть, примерно в тысячу раз меньше, чем самая маленькая LLM [Large Language Model]. Итак, 3 миллиона параметров против трех миллиардов".
Цзин Цю добавил, что процессы обучения и внедрения генеративного ИИ и компьютерного зрения также сильно отличаются. Для работы генеративного ИИ требуются огромные мощные серверы. Модели, подобные YOLO, напротив, созданы для повышения эффективности и могут быть обучены и развернуты на стандартном оборудовании. Это делает модели Ultralytics YOLO более практичными для использования в реальном мире.
Несмотря на различия, эти две области начинают переплетаться. Гленн Джочер рассказал о том, что генеративный искусственный интеллект привносит новые достижения в Vision AI, делая модели более умными и эффективными.
Генеративный ИИ быстро продвигается вперед, и эти прорывы влияют на многие другие области искусственного интеллекта, включая компьютерное зрение. Далее мы расскажем о некоторых интересных фактах, полученных от участников дискуссии.
В самом начале дискуссии Гленн Джочер объяснил, что идеи машинного обучения возникли уже давно, но компьютеры были недостаточно мощными, чтобы заставить их работать. Для воплощения идей ИИ в жизнь требовалось более мощное оборудование.
Появление за последние 20 лет графических процессоров (GPU) с возможностями параллельной обработки данных изменило все. Они сделали обучение моделей ИИ намного быстрее и эффективнее, что позволило глубокому обучению развиваться быстрыми темпами.
Сегодня чипы ИИ, такие как TPU (Tensor Processing Units) и оптимизированные GPU, потребляют меньше энергии при обработке больших и более сложных моделей. Это сделало ИИ более доступным и полезным в реальных приложениях.
С каждым новым усовершенствованием оборудования генеративный ИИ и приложения компьютерного зрения становятся все более мощными. Благодаря этим достижениям искусственный интеллект в реальном времени становится быстрее, эффективнее и готов к использованию во многих отраслях.
На вопрос о том, как генеративный ИИ влияет на компьютерное зрение, Цзин Цю ответил, что трансформаторы - модели, которые помогают ИИ сосредоточиться на наиболее важных частях изображения, - изменили способ понимания и обработки изображений ИИ. Первым большим шагом стал DETR (Detection Transformer), который использовал этот новый подход для обнаружения объектов. Он повысил точность, но имел проблемы с производительностью, из-за чего в некоторых случаях работал медленнее.
Чтобы решить эту проблему, исследователи создали гибридные модели, такие как RT-DETR. Эти модели сочетают в себе конволюционные нейронные сети (CNN, модели глубокого обучения, которые автоматически обучаются и извлекают особенности из изображений) и трансформаторы, обеспечивая баланс между скоростью и точностью. Такой подход позволяет использовать преимущества трансформаторов, ускоряя обнаружение объектов.
Интересно, что YOLOv10 использует слои внимания на основе трансформаторов (части модели, которые действуют как прожектор, выделяя наиболее важные области изображения и игнорируя менее значимые детали) для повышения своей производительности.
Ао Ванг также упомянул о том, как генеративный ИИ меняет способы обучения моделей. Такие методы, как моделирование изображений с помощью маски, помогают ИИ более эффективно обучаться на изображениях, снижая потребность в больших наборах данных, помеченных вручную. Благодаря этому обучение компьютерного зрения становится более быстрым и менее ресурсоемким.
Еще одна ключевая идея, которую обсудили участники дискуссии, - как генеративный ИИ и ИИ видения могут объединиться для создания более совершенных моделей. Гленн Джочер объяснил, что, хотя эти два подхода имеют разные сильные стороны, их объединение может открыть новые возможности.
Например, модели Vision AI, такие как YOLO, часто разбивают изображение на сетку, чтобы определить объекты. Этот метод, основанный на сетке, может помочь языковым моделям улучшить свою способность как определять детали, так и описывать их - проблема, с которой сегодня сталкиваются многие языковые модели. По сути, объединение этих методов может привести к созданию систем, способных точно определять и четко объяснять то, что они видят.
Генеративный ИИ и компьютерное зрение развиваются вместе. Генеративный ИИ создает изображения и видео, а также улучшает анализ изображений и видео, предлагая новые инновационные идеи, которые могут сделать модели ИИ для зрения более точными и эффективными.
В этой содержательной дискуссии на YV24 Гленн Джочер, Цзин Цю и Ао Ванг поделились своими мыслями о том, как эти технологии формируют будущее. С улучшением аппаратного обеспечения ИИ генеративный ИИ и ИИ видения будут продолжать развиваться, что приведет к еще большим инновациям. Эти две области работают вместе, чтобы создать более умный, быстрый и полезный ИИ для повседневной жизни.
Присоединяйтесь к нашему сообществу и изучайте наш репозиторий GitHub, чтобы узнать больше о Vision AI. Ознакомьтесь с нашими вариантами лицензирования, чтобы начать работу над проектами в области компьютерного зрения. Интересуют такие инновации, как ИИ в производстве или компьютерное зрение в самодвижущихся автомобилях? Посетите страницы наших решений, чтобы узнать больше.