YOLO Vision 2025 ShenzhenにおけるUltralyticsの主要ハイライト!
Ultralyticsがイノベーター、パートナー、そしてAIコミュニティを一堂に集め、インスピレーションに満ちた一日となったYOLO Vision 2025 Shenzhenの重要な瞬間を振り返ります。

10月26日、YOLO Vision 2025 (YV25)が中国で初開催され、深圳のOCT Creative Culture Park内にあるBuilding B10を舞台に幕を開けました。UltralyticsのハイブリッドビジョンAIイベントには、200名以上の参加者が現地に集まり、さらに多くの人々がYouTubeやBilibiliを通じてオンラインで参加しました。
YV25 Shenzhenのライブ配信は、すでにYouTubeで3,500回以上再生されており、イベントのハイライトがコミュニティ全体で共有されるにつれて、さらに注目を集めています。この日は、ビジョンAIがこれからどこへ向かうのか、そのアイデアや会話、実践的な探究で満たされた一日となりました。
当日は、ホストであるHuang Xueying氏による温かい歓迎の挨拶で始まりました。彼女は、イベントを通じて参加者同士が交流し、学び、議論に参加するよう呼びかけました。また、9月のロンドン開催に続き、今年2度目となるYOLO Visionの開催であり、ここ深圳でビジョンAIコミュニティを再び結びつけられたことの喜びを語りました。
本記事では、モデルのアップデートや登壇者によるセッション、ライブデモ、そして参加者をつないだコミュニティの瞬間など、当日のハイライトを振り返ります。それでは、始めましょう!
Link to this sectionUltralytics YOLOモデルのこれまでの軌跡#
最初のキーノートは、Ultralyticsの創設者兼CEOであるGlenn Jocherが務めました。彼は、Ultralytics YOLOモデルがどのようにして研究のブレイクスルーから世界で最も広く利用されるビジョンAIモデルの一つへと成長したかを語りました。Glennは、自身の初期の取り組みが、YOLOをより使いやすくすることに焦点を当てていたと説明しました。
彼はモデルをPyTorchに移植し、ドキュメントを改善し、開発者が世界中でその上に構築できるようにすべてをオープンに共有しました。彼が振り返るように、「2018年に私は真っ先に飛び込みました。ここが私の未来だと決めたのです」。個人的な努力として始まったことが、急速に世界的なオープンソースのムーブメントへと発展しました。

図1:YOLO Vision 2025 Shenzhenのステージで講演するGlenn Jocher。
今日、Ultralytics YOLOモデルは毎日数十億もの推論を実行しており、Glennはこの規模が実現できたのは構築を支えた人々のおかげであると強調しました。世界中の研究者、エンジニア、学生、愛好家、そしてオープンソースの貢献者が、YOLOを現在の形へと形作ってきました。
Glennの言葉を借りれば、「彼ら(貢献者)は1000人近くいて、私たちはそのことに非常に感謝しています。彼らがいなければ、私たちは今日ここにいることはできなかったでしょう」。
Link to this sectionUltralytics YOLO26のアップデート#
Ultralytics YOLO26の最初の紹介は、今年初めに開催されたYOLO Vision 2025 Londonイベントで行われ、Ultralytics YOLOモデルファミリーの次なる大きな前進として発表されました。YV25 Shenzhenでは、Glennがその発表以降の進捗状況を更新し、モデルがどのように進化してきたのか、AIコミュニティに詳細を披露しました。
YOLO26は、実用的な用途に対応しつつ、より小型で高速、かつ高精度になるように設計されています。Glennは、チームが過去1年間、アーキテクチャの改善、デバイス間でのパフォーマンスのベンチマーク、研究やコミュニティからのフィードバックの反映に時間を費やしてきたと説明しました。目標は、モデルのデプロイを困難にすることなく、最先端のパフォーマンスを提供することです。
Link to this sectionUltralytics YOLO26に期待すること#
Glennが強調したコアアップデートの一つは、YOLO26が専用のハイパーパラメータ調整キャンペーンと組み合わされていることです。これにより、ゼロからのトレーニングから、より大規模なデータセットでのファインチューニングへと移行します。彼は、このアプローチが実際のユースケースにはるかに適していると詳しく説明しました。
イベントで共有されたその他の主な改善点は以下の通りです:
- 簡素化されたアーキテクチャ:Distribution Focal Loss (DFL) レイヤーが削除されました。これにより、精度を維持しながら、モデルの実行がよりシンプルで高速になります。
- エンドツーエンド推論のサポート:YOLO26はネイティブでエンドツーエンドであり、独立したNMSレイヤーなしで実行可能です。これにより、ONNXやTensorRTなどのフォーマットへのエクスポートや、エッジハードウェアへのデプロイが大幅に容易になります。
- 小物体性能の向上:更新された損失戦略により、モデルは小さな物体をより確実に検出できるようになりました。これはコンピュータビジョンにおける長年の課題でした。
- 新しいハイブリッドオプティマイザ:YOLO26には、最新の大規模言語モデル学習の研究に着想を得た新しいオプティマイザが含まれています。これによりモデルの精度が向上し、Ultralytics Pythonパッケージに直接組み込まれています。
Link to this sectionUltralytics YOLO26は実践的なビジョンAIの次なるステップです#
これらのアップデートにより、CPU上で最大43%高速化し、同時にUltralytics YOLO11よりも高精度なモデルが実現しました。これにより、YOLO26は組み込みデバイス、ロボティクス、エッジシステムにとって特にインパクトのあるものとなります。
YOLO26は、現在YOLO11で利用可能なすべてのタスクとモデルサイズをサポートし、ファミリー全体で25種類のモデルバリエーションを提供します。これには、検出、セグメンテーション、ポーズ推定、指向性バウンディングボックス、分類用のモデルが含まれ、nanoからextra largeまで多岐にわたります。
チームは5つのプロンプト対応バリエーションにも取り組んでいます。これらは、トレーニングを必要とせず、テキストプロンプトを受け取ってバウンディングボックスを直接返すことができるモデルです。
これは、異なるユースケースに適応させやすい、より柔軟で指示ベースのビジョンワークフローに向けた初期段階のステップです。YOLO26モデルは現在も活発に開発中ですが、初期のパフォーマンス結果は強力であり、チームは早期のリリースに向けて取り組んでいます。
Link to this sectionUltralyticsプラットフォームの紹介#
YOLO26のアップデートの後、Glennは製品エンジニアリング部門の責任者であるPrateek Bhatnagarを迎え、Ultralyticsプラットフォームのライブデモを行いました。このプラットフォームは、データセットの探索、画像のアノテーション、モデルのトレーニング、結果の比較など、コンピュータビジョンワークフローの重要な要素を統合するために構築されています。

図2:Ultralyticsプラットフォームを紹介するPrateek Bhatnagar。
Prateekは、このプラットフォームがUltralyticsのオープンソースとしてのルーツに忠実であることを指摘し、開発者が互いの作業を貢献、再利用、改善できるデータセットコミュニティとプロジェクトコミュニティという2つのコミュニティスペースを紹介しました。デモでは、AI支援によるアノテーション、容易なクラウドトレーニング、そしてローカルのGPUリソースを必要とせずにコミュニティから直接モデルをファインチューニングする機能が披露されました。
このプラットフォームは現在開発中です。Prateekは聴衆に対し、今後の発表に注目するよう促し、立ち上げを支援するために中国でのチームを拡大していると述べました。
Link to this sectionYOLOを支える声:著者パネルディスカッション#
勢いを増す中、イベントはさまざまなYOLOモデルを支える数名の研究者を迎えたパネルディスカッションへと移りました。パネリストにはGlenn Jocherに加え、当社のシニア機械学習エンジニアであるJing Qiu、Metaの機械学習エンジニアでありYOLOv10の著者の一人であるChen Hui、そしてMeituanのアルゴリズムストラテジストでありYOLOv6の著者の一人であるBo Zhangが登壇しました。

図3:Huang Xueying、Chen Hui、Bo Zhang、Jing Qiu、Glenn Jocherを迎えたYOLOモデル開発に関するパネルディスカッション。
議論は、YOLOが現実世界の利用を通じてどのように進化し続けているかに焦点を当てました。登壇者は、エッジデバイスでの効率的な実行、小物体検出の改善、モデルエクスポートの簡素化など、実用的なデプロイの課題がいかに進歩を促進しているかについて触れました。
パネルは、精度だけを追うのではなく、本番環境における速度、ユーザビリティ、信頼性のバランスをとることの重要性を指摘しました。もう一つの共通の収穫は、反復作業とコミュニティからのフィードバックの価値でした。
会話から得られたその他の興味深い洞察は以下の通りです:
- オープンボキャブラリー検出がYOLOエコシステムで注目されています:新しいモデルは、ビジョンと言語のアライメントやプロンプトベースのワークフローが、固定されたカテゴリを超えて物体を検出できることを示しています。
- 軽量なアテンションの台頭:パネルでは、すべてに完全なアテンションを使用するのではなく、効率的なアテンションメカニズムを使用することで、エッジデバイスで十分な推論速度を維持しながら精度を向上できることが議論されました。
- コミュニティとともに早期かつ頻繁に反復する:パネリストは「構築・テスト・改善」の考え方を強調しました。モデルを早期にリリースし、ユーザーから学ぶことの方が、長期的な非公開の開発サイクルよりも強力な成果につながります。
Link to this sectionAIとビジョンの未来を定義するソートリーダーたち#
次に、YV25 Shenzhenでのキーノート講演を詳しく見ていきましょう。AIコミュニティのリーダーたちが、デジタルヒューマンやロボティクスからマルチモーダル推論、効率的なエッジデプロイに至るまで、ビジョンAIの進化について共有しました。
Link to this sectionAIに人間の体験を理解させる#
洞察に満ちたセッションの中で、Alibaba Qwen LabのDr. Peng Zhangは、表現力豊かなデジタルヒューマンをより自然な動きと制御で生成できる大規模ビデオモデルをチームがどのように開発しているかを語りました。彼は、オーディオやモーションリファレンスを使用してリアルな音声、ジェスチャー、アニメーションを生成するWan S2VとWan Animateを解説し、純粋なテキスト駆動生成の限界に対処しました。

図4:大規模ビデオモデルでデジタルヒューマンを実現する方法を説明するPeng Zhang。
Dr. Zhangは、外見と動きのゼロショットクローン作成や、ライブカメラフィードから直接顔をアニメーション化できる軽量モデルなど、リアルタイムのインタラクティブアバターに向けた進歩についても語りました。これにより、等身大のデジタルヒューマンが日常的なデバイスでスムーズに動作することに近づいています。
Link to this section知覚から行動へ:具現化された知能の時代#
YV25 Shenzhenの主要テーマの一つは、単に世界を見るだけのビジョンモデルから、その中で行動できるシステムへのシフトでした。つまり、知覚はもはやパイプラインの終着点ではなく、行動の出発点になりつつあります。
例えば、D-RoboticsのHu Chunxu氏はキーノートの中で、同社の開発キットとSoC(システムオンチップ)ソリューションが、センシング、リアルタイムモーション制御、意思決定を統一されたハードウェアおよびソフトウェアスタック上でどのように統合しているかを説明しました。知覚と行動を別々の段階ではなく、連続的なフィードバックループとして扱うことで、同社のアプローチは現実の環境でより確実に移動、適応、相互作用できるロボットをサポートしています。

図5:中国・深圳でのYOLO Vision 2025におけるD-Roboticsのデモ。
Baidu PaddleのAlex Zhang氏は、自身の講演でこの考えに同調しました。彼は、YOLOとPaddleOCRが連携して物体を検出し、その周囲のテキストや構造を解釈する仕組みを説明しました。これにより、システムは画像やドキュメントを物流、検査、自動処理などのタスクに使用可能な構造化データへ変換できます。
Link to this sectionエッジにおける知能:あらゆるデバイスのための効率的なAI#
YV25 Shenzhenのもう一つの興味深いトピックは、ビジョンAIがエッジデバイス上でいかに効率的かつ有能になりつつあるかという点です。
DEEPXのPaul Jung氏は、YOLOモデルを組み込みハードウェア上で直接デプロイし、クラウドへの依存を減らすことについて語りました。低消費電力、最適化された推論、ハードウェアを意識したモデル調整に焦点を当てることで、DEEPXはドローン、モバイルロボット、動的な環境で動作する産業システムに対してリアルタイムの知覚を実現しています。
同様に、Moore ThreadsのLiu Lingfei氏は、Moore Threads E300プラットフォームが中央処理装置 (CPU)、グラフィックス処理装置 (GPU)、ニューラル処理装置 (NPU) の演算を統合し、コンパクトなデバイスで高速なビジョン推論を実現する方法について共有しました。
このプラットフォームは複数のYOLOストリームを高フレームレートで実行でき、ツールチェーンは量子化、静的コンパイル、パフォーマンス調整といったステップを簡素化します。Moore Threadsは、開発者の障壁を下げるために、幅広いコンピュータビジョンモデルとデプロイ例をオープンソース化しています。
Link to this sectionビジョンと言語の融合によるよりスマートなAIシステム#
最近まで、画像を理解し言語を解釈できる単一のモデルを構築するには、実行コストの高い大規模なトランスフォーマーアーキテクチャが必要でした。YV25 Shenzhenでは、Yuanshi IntelligenceのYue Ziyin氏が、トランスフォーマーの長文脈推論能力とリカレントモデルの効率性を融合させたアーキテクチャ「RWKV」の概要を説明しました。
彼は、Vision-RWKVがこの設計をコンピュータビジョンに適用し、解像度に対して線形にスケーリングする方法で画像を処理することを説明しました。これにより、高解像度の入力や、計算能力が制限されるエッジデバイスに適しています。
Yue氏はまた、RWKVがビジョン・言語システムでどのように使用されているかを示しました。そこでは、画像の特徴と言語理解が組み合わされ、物体検出の枠を超えて、シーン、ドキュメント、現実世界のコンテキストを解釈できるようになっています。

図6:RWKVの応用について語るYue Ziyin。
Link to this sectionビジョンAIに命を吹き込んだブースとライブデモ#
ステージでの講演がビジョンAIの未来を見据える一方で、会場のブースでは、今日どのように利用されているかが示されました。参加者はモデルが実際に動作する様子を見たり、ハードウェアの選択肢を比較したり、それらのシステムを構築しているチームと直接対話したりすることができました。
展示されていた技術の一部をご紹介します:
- 開発者およびプロトタイピングプラットフォーム:Seeed、M5Stack、Infermoveは、YOLOベースのアプリケーションでの実験を容易にし、アイデアから動作するデモへ素早く移行できるコンパクトな開発ボードやスターターキットを展示しました。
- 高性能エッジハードウェア:Hailo、DEEPX、Intel、Moore Threadsは、高速で効率的な推論のために構築されたチップとモジュールを実演しました。
- ビジョンおよび言語ワークフロー:Baidu PaddleとRWKVは、物体を検出するだけでなく、画像やドキュメントに何が映っているかを読み取り、解釈し、推論できるソフトウェアスタックを強調しました。
- オープンソースおよびコミュニティツール:UltralyticsとDatawhaleは、ライブモデルデモ、トレーニングのヒント、実践的なガイダンスを通じて開発者と交流し、共有された知識がいかにイノベーションを加速させるかを強調しました。

図7:YV25 ShenzhenでのM5Stackのブースの様子。
Link to this sectionビジョンAIコミュニティとのつながり#
エキサイティングな技術の数々に加え、YV25 Shenzhenの最高の醍醐味の一つは、コンピュータビジョンコミュニティとUltralyticsチームが再び直接顔を合わせたことでした。一日を通して、人々はデモの周りに集まり、コーヒーブレイク中にアイデアを共有し、講演が終わった後も会話を続けました。
研究者、エンジニア、学生、ビルダーたちは、デプロイからモデルトレーニングに至るまで、実体験を比較したり、質問をしたり、情報を交換したりしました。Grupo OsborneのCinco Jotasのおかげで、切りたてのハモンを用意し、イベントにスペイン文化の香りを取り入れることで、温かい交流の瞬間が生まれました。美しい会場、熱心な観衆、そして共有された勢いを感じる感覚が、この日を真に特別なものにしました。
Link to this section重要なポイント#
刺激的なキーノートから実践的なデモまで、YOLO Vision 2025 ShenzhenはUltralyticsコミュニティを定義づけるイノベーションの精神を捉えていました。一日を通して、登壇者と参加者はアイデアを交換し、新しい技術を探求し、AIの未来に対する共通のビジョンでつながりました。彼らは皆、活力を得て、Ultralytics YOLOの次なる展開に向けて準備を整えて帰路につきました。
AIとコンピュータビジョンで可能性を再考しましょう。コミュニティとGitHubリポジトリに参加して、さらなる発見をしてください。農業におけるコンピュータビジョンや小売におけるAIのようなアプリケーションについて詳しく学びましょう。ライセンスオプションを確認し、今すぐコンピュータビジョンを始めましょう!






