Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Мероприятия

Ключевые моменты от Ultralytics на YOLO Vision 2025 Shenzhen!

Вспомни ключевые моменты YOLO Vision 2025 Shenzhen, где Ultralytics собрал новаторов, партнеров и ИИ-сообщество для дня вдохновения.

АБАбирами Вина
5 min read
Ключевые моменты YOLO Vision 2025 Shenzhen

26 октября YOLO Vision 2025 (YV25) впервые прошла в Китае, в корпусе B10 в творческом парке OCT Creative Culture Park в Шэньчжэне. На это мероприятие по гибридному ИИ для компьютерного зрения от Ultralytics собралось более 200 участников, а еще больше присоединились к трансляции онлайн через YouTube и Bilibili.

Прямая трансляция YV25 из Шэньчжэня уже набрала более 3500 просмотров на YouTube и продолжает привлекать внимание, поскольку участники делятся главными моментами события в сообществе. Это был день, наполненный идеями, общением и практическим изучением будущего ИИ в области компьютерного зрения.

День начался с теплого приветствия нашей ведущей, Хуан Сюэин, которая пригласила всех знакомиться, учиться и принимать участие в дискуссиях в течение всего мероприятия. Она рассказала, что это уже вторая конференция YOLO Vision в этом году, после лондонской в сентябре, и поделилась радостью от того, что мы снова собрали сообщество ИИ-специалистов здесь, в Шэньчжэне.

В этой статье мы вспомним самые яркие моменты дня, включая обновления моделей, выступления докладчиков, демонстрации в реальном времени и общение в сообществе, которое объединило всех присутствующих. Давай начнем!

Link to this sectionПуть моделей Ultralytics YOLO на сегодняшний день#

Первое выступление дня провел основатель и генеральный директор Ultralytics Glenn Jocher, который рассказал, как модели Ultralytics YOLO прошли путь от исследовательского прорыва до одних из самых используемых моделей ИИ для компьютерного зрения в мире. Гленн объяснил, что его ранняя работа была направлена на то, чтобы сделать YOLO проще в использовании.

Он перенес модели на PyTorch, улучшил документацию и поделился всем в открытом доступе, чтобы разработчики по всему миру могли строить свои решения на их основе. Как он вспоминает: «Я погрузился в это с головой в 2018 году. Я решил, что именно здесь мое будущее». То, что начиналось как личная инициатива, быстро превратилось в глобальное движение open-source.

Гленн Джочер выступает на сцене YOLO Vision 2025 в Шэньчжэне

Рис. 1. Гленн Джокер выступает на сцене YOLO Vision 2025 в Шэньчжэне.

Сегодня модели Ultralytics YOLO обеспечивают миллиарды операций логического вывода ежедневно, и Гленн подчеркнул, что такой масштаб был достигнут только благодаря людям, которые помогали их создавать. Исследователи, инженеры, студенты, энтузиасты и участники open-source движения со всего мира превратили YOLO в то, чем она является сегодня.

Как сказал Гленн: «Там почти тысяча из них [контрибьюторов], и мы невероятно им благодарны. Мы бы не были там, где мы сейчас, без этих людей».

Link to this sectionОбновления в Ultralytics YOLO26#

Первый взгляд на Ultralytics YOLO26 был представлен ранее в этом году на мероприятии YOLO Vision 2025 в Лондоне, где она была анонсирована как следующий важный шаг в семействе моделей Ultralytics YOLO. На YV25 в Шэньчжэне Гленн рассказал о прогрессе с момента того анонса и позволил ИИ-сообществу ближе познакомиться с тем, как эволюционировала модель.

YOLO26 спроектирована так, чтобы быть меньше, быстрее и точнее, оставаясь при этом практичной для реального применения. Гленн объяснил, что команда потратила последний год на доработку архитектуры, оценку производительности на различных устройствах и внедрение идей, полученных на основе исследований и обратной связи от сообщества. Цель состоит в том, чтобы обеспечить передовую производительность, не усложняя при этом развертывание моделей.

Link to this sectionЧего ожидать от Ultralytics YOLO26#

Одним из ключевых обновлений, которые отметил Гленн, является то, что YOLO26 сопровождается кампанией по настройке гиперпараметров, что меняет подход с обучения полностью с нуля на дообучение на более крупных наборах данных. Он подчеркнул, что такой подход гораздо ближе к реальным сценариям использования.

Вот некоторые другие ключевые улучшения, представленные на мероприятии:

  • Упрощенная архитектура: слой Distribution Focal Loss (DFL) был удален. Это делает модели проще и быстрее в работе при сохранении прежнего уровня точности.
  • Поддержка сквозного логического вывода (end-to-end): YOLO26 является нативно сквозной, что означает, что она может работать без отдельного слоя NMS. Это значительно упрощает экспорт в такие форматы, как ONNX и TensorRT, а также развертывание на пограничном оборудовании (edge hardware).
  • Улучшенная работа с мелкими объектами: обновленные стратегии расчета потерь помогают модели надежнее обнаруживать крошечные объекты, что долгое время было серьезной проблемой в компьютерном зрении.
  • Новый гибридный оптимизатор: YOLO26 включает в себя новый оптимизатор, вдохновленный недавними исследованиями обучения больших языковых моделей, который повышает точность модели и теперь встроен непосредственно в пакет Ultralytics Python.

Link to this sectionUltralytics YOLO26 — следующий шаг в практическом ИИ для компьютерного зрения#

В совокупности эти обновления позволяют создавать модели, которые на 43% быстрее на CPU и при этом точнее, чем Ultralytics YOLO11, что делает YOLO26 особенно эффективной для встроенных устройств, робототехники и периферийных систем.

YOLO26 будет поддерживать все те же задачи и размеры моделей, которые доступны сейчас в YOLO11, в результате чего в семействе будет представлено 25 вариантов моделей. Это включает модели для обнаружения, сегментации, оценки позы, ориентированных ограничивающих рамок (BBox) и классификации, от nano до extra large.

Команда также работает над пятью вариантами с поддержкой текстовых промптов. Это модели, которые могут принимать текстовое описание и сразу возвращать ограничивающие рамки, без необходимости предварительного обучения.

Это важный шаг к более гибким рабочим процессам, основанным на инструкциях, которые легче адаптировать к различным сценариям использования. Модели YOLO26 все еще находятся в активной разработке, но ранние результаты производительности выглядят многообещающе, и команда работает над их скорым выпуском.

Link to this sectionВзгляд на платформу Ultralytics#

После новостей о YOLO26 Гленн пригласил Prateek Bhatnagar, нашего руководителя отдела разработки продуктов, чтобы провести живую демонстрацию платформы Ultralytics. Эта платформа создается для объединения ключевых этапов рабочего процесса компьютерного зрения: от анализа наборов данных и аннотирования изображений до обучения моделей и сравнения результатов.

Пратик Бхатнагар демонстрирует платформу Ultralytics

Рис. 2. Пратик Бхатнагар демонстрирует платформу Ultralytics.

Пратик отметил, что платформа сохраняет верность open-source истокам Ultralytics, предлагая два сообщества: для работы с наборами данных и для совместных проектов, где разработчики могут делиться результатами, использовать их повторно и улучшать работу друг друга. В ходе демонстрации он показал аннотирование с помощью ИИ, простое обучение в облаке и возможность дообучать модели напрямую силами сообщества, не нуждаясь в локальных ресурсах GPU.

Платформа сейчас находится в разработке. Пратик призвал аудиторию следить за анонсами и отметил, что команда в Китае расширяется для поддержки запуска.

Link to this sectionГолоса за YOLO: панельная дискуссия авторов#

На волне успеха мероприятие перешло к панельной дискуссии с участием нескольких исследователей, стоящих за различными моделями YOLO. В панели приняли участие Гленн Джокер, а также Jing Qiu, наш старший инженер по машинному обучению; Chen Hui, инженер по машинному обучению в Meta и один из авторов YOLOv10; и Bo Zhang, стратег по алгоритмам в Meituan и один из авторов YOLOv6.

Панельная дискуссия о разработке моделей YOLO на YV25 в Шэньчжэне

Рис. 3. Панельная дискуссия по разработке моделей YOLO с участием Хуан Сюэин, Чэнь Хуэя, Бо Чжана, Цзин Цю и Гленна Джокера.

Дискуссия была сосредоточена на том, как YOLO продолжает развиваться через практическое применение. Спикеры коснулись того, что прогресс часто движим практическими задачами развертывания, такими как эффективная работа на пограничных устройствах, улучшение обнаружения мелких объектов и упрощение экспорта моделей.

Вместо того чтобы гнаться только за точностью, участники дискуссии отметили важность баланса между скоростью, удобством использования и надежностью в производственных средах. Еще один важный вывод — ценность итераций и обратной связи от сообщества.

Вот еще несколько интересных мыслей из этого разговора:

  • Обнаружение с открытым словарем (Open-vocabulary detection) набирает обороты в экосистеме YOLO: новые модели показывают, как согласование зрения и языка, а также рабочие процессы на основе промптов позволяют обнаруживать объекты вне жестко заданных категорий.
  • Легковесное внимание (attention) на подъеме: панель обсудила, как использование эффективных механизмов внимания, вместо повсеместного применения полного внимания, может повысить точность, сохраняя при этом легкость логического вывода для периферийных устройств.
  • Итерируй рано и часто вместе с сообществом: участники дискуссии поддержали подход «создавай-тестируй-улучшай», где выпуск моделей раньше и обучение на реальном опыте пользователей дает лучшие результаты, чем долгие закрытые циклы разработки.

Link to this sectionЛидеры мнений, определяющие будущее ИИ и компьютерного зрения#

Далее давай подробнее рассмотрим некоторые ключевые доклады на YV25 в Шэньчжэне, где лидеры ИИ-сообщества поделились своим видением развития компьютерного зрения: от цифровых людей и робототехники до мультимодальных рассуждений и эффективного развертывания на периферии.

Link to this sectionОбучение ИИ пониманию человеческого опыта#

В ходе вдохновляющей сессии доктор Пэн Чжан из Alibaba Qwen Lab рассказал о том, как его команда разрабатывает большие видеомодели, способные генерировать выразительных цифровых людей с более естественными движениями и контролем. Он продемонстрировал Wan S2V и Wan Animate, использующие аудио или референсы движений для создания реалистичной речи, жестов и анимации, что решает ограничения чисто текстовой генерации.

Пэн Чжан объясняет, как большие видеомодели могут расширять возможности цифровых людей

Рис. 4. Пэн Чжан объясняет, как большие видеомодели могут оживлять цифровых людей.

Доктор Чжан также рассказал о прогрессе в создании интерактивных аватаров в реальном времени, включая zero-shot клонирование внешности и движений, а также о легковесных моделях, способных анимировать лицо напрямую с потока живой камеры, что делает реалистичных цифровых людей все ближе к плавной работе на обычных устройствах.

Link to this sectionОт восприятия к действию: эпоха воплощенного интеллекта#

Одной из ключевых тем YV25 в Шэньчжэне стал переход от моделей зрения, которые просто «видят» мир, к системам, которые могут действовать в нем. Иными словами, восприятие больше не является концом цепочки — оно становится началом действия.

Например, в своем докладе Hu Chunxu из D-Robotics рассказал о том, как их комплекты разработчика и SoC-решения объединяют сенсоры, управление движением в реальном времени и принятие решений на едином стеке оборудования и ПО. Рассматривая восприятие и действие как непрерывную петлю обратной связи, а не как отдельные этапы, их подход поддерживает работу роботов, которые могут двигаться, адаптироваться и взаимодействовать более надежно в реальных условиях.

Демонстрация D-Robotics на YOLO Vision 2025 в Шэньчжэне, Китай

Рис. 5. Демонстрация D-Robotics на YOLO Vision 2025 в Шэньчжэне, Китай.

Alex Zhang из Baidu Paddle поддержал эту идею в своем выступлении, объяснив, как YOLO и PaddleOCR работают вместе для обнаружения объектов с последующей интерпретацией текста и структуры вокруг них. Это позволяет системам преобразовывать изображения и документы в полезную структурированную информацию для таких задач, как логистика, инспекции и автоматизированная обработка.

Link to this sectionИнтеллект на периферии: эффективный ИИ для каждого устройства#

Еще одной интересной темой на YV25 в Шэньчжэне стало то, как ИИ для компьютерного зрения становится все более эффективным и функциональным на периферийных устройствах.

Пол Юнг из DEEPX рассказал о развертывании моделей YOLO непосредственно на встроенном оборудовании, снижая зависимость от облака. Сосредоточившись на низком энергопотреблении, оптимизированном логическом выводе и настройке моделей под конкретное оборудование, DEEPX обеспечивает восприятие в реальном времени для дронов, мобильных роботов и промышленных систем, работающих в динамичных условиях.

Аналогичным образом, Лю Линфэй из Moore Threads поделился тем, как платформа Moore Threads E300 объединяет вычисления на центральном процессоре (CPU), графическом процессоре (GPU) и нейронном процессоре (NPU) для обеспечения высокоскоростного логического вывода в системах зрения на компактных устройствах.

Платформа может запускать несколько потоков YOLO с высокой частотой кадров, а ее инструментарий упрощает такие этапы, как квантование, статическая компиляция и настройка производительности. Moore Threads также открыла исходный код для широкого набора моделей компьютерного зрения и примеров развертывания, чтобы снизить порог входа для разработчиков.

Link to this sectionОбъединение зрения и языка для более умных ИИ-систем#

До недавнего времени создание единой модели, способной одновременно понимать изображения и интерпретировать язык, требовало использования архитектур трансформеров, которые были дорогостоящими в эксплуатации. На YV25 в Шэньчжэне Юэ Цзыинь из Yuanshi Intelligence представил обзор RWKV — архитектуры, которая сочетает способности трансформеров к рассуждению в условиях длинного контекста с эффективностью рекуррентных моделей.

Он объяснил, как Vision-RWKV применяет этот дизайн к компьютерному зрению, обрабатывая изображения таким образом, что сложность растет линейно с разрешением. Это делает решение подходящим для ввода высокого разрешения и для периферийных устройств с ограниченными вычислительными мощностями.

Юэ также показал, как RWKV используется в системах «зрение-язык», где характеристики изображения сочетаются с пониманием текста для перехода от простого обнаружения объектов к интерпретации сцен, документов и реального контекста.

Юэ Цзыинь рассказывает о применении RWKV

Рис. 6. Юэ Цзыинь рассказывает о применении RWKV.

Link to this sectionСтенды и живые демонстрации, которые оживили компьютерное зрение#

В то время как доклады на сцене были посвящены будущему компьютерного зрения, стенды в зале показывали, как оно используется уже сегодня. Участники могли увидеть работающие модели, сравнить варианты оборудования и напрямую пообщаться с командами, создающими эти системы.

Вот краткий обзор технологий, которые были представлены:

  • Платформы для разработки и прототипирования: Seeed, M5Stack и Infermove представили компактные отладочные платы и стартовые наборы, которые облегчают эксперименты с приложениями на основе YOLO и позволяют быстро перейти от идей к рабочим демонстрациям.
  • Высокопроизводительное периферийное оборудование: Hailo, DEEPX, Intel и Moore Threads продемонстрировали чипы и модули, созданные для быстрого и эффективного логического вывода.
  • Рабочие процессы со зрением и языком: Baidu Paddle и RWKV представили программные стеки, которые могут не только обнаруживать объекты, но и читать, интерпретировать и рассуждать о том, что изображено на картинке или в документе.
  • Open-source и инструменты сообщества: Ultralytics и Datawhale привлекли разработчиков живыми демонстрациями моделей, советами по обучению и практическим руководством, доказывая, что обмен знаниями ускоряет инновации.

Взгляд на стенд M5Stack на YV25 в Шэньчжэне

Рис. 7. Взгляд на стенд M5Stack на YV25 в Шэньчжэне.

Link to this sectionСвязь с сообществом компьютерного зрения#

Помимо всех захватывающих технологий, одной из лучших частей YV25 в Шэньчжэне стала возможность снова собрать сообщество компьютерного зрения и команду Ultralytics вместе лично. В течение дня люди собирались вокруг демонстраций, делились идеями во время перерывов на кофе и продолжали обсуждения еще долго после окончания докладов.

Исследователи, инженеры, студенты и создатели обменивались заметками, задавали вопросы и делились реальным опытом — от развертывания до обучения моделей. А благодаря Cinco Jotas из Grupo Osborne мы даже привнесли нотку испанской культуры в мероприятие, предложив свеженарезанный хамон, что создало теплую атмосферу общения. Прекрасная площадка, полная энтузиазма аудитория и общее чувство динамики сделали этот день поистине особенным.

Link to this sectionОсновные выводы#

От вдохновляющих докладов до практических демонстраций — YOLO Vision 2025 в Шэньчжэне передала дух инноваций, который определяет сообщество Ultralytics. Весь день спикеры и участники обменивались идеями, изучали новые технологии и общались, объединенные общим видением будущего ИИ. Вместе они ушли заряженными и готовыми к тому, что ждет нас дальше с Ultralytics YOLO.

Переосмысли, что возможно с помощью ИИ и компьютерного зрения. Присоединяйся к нашему сообществу и репозиторию GitHub, чтобы узнать больше. Узнай подробнее о таких приложениях, как компьютерное зрение в сельском хозяйстве и ИИ в ритейле. Изучи наши варианты лицензирования и начни свой путь в компьютерном зрении уже сегодня!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения