YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

ジェネレーティブAIがコンピュータビジョンの未来を変える

Abirami Vina

5分で読めます

2025年3月24日

YOLO Vision 2024のパネルディスカッションから得られた興味深い洞察をご覧ください。生成AIがリアルタイムVision AIモデルの今後の方向性をどのように形作っているかを探ります。

Generative AIは、既存のデータからパターンを学習して、画像、テキスト、オーディオなどの新しいコンテンツを作成する人工知能(AI)の一分野です。最近の進歩のおかげで、人間の創造性を模倣した非常にリアルなコンテンツを生成するために使用できるようになりました。

しかし、ジェネレーティブAIの影響は、コンテンツの作成だけにとどまりません。Ultralytics YOLOモデルのようなリアルタイムコンピュータビジョンモデルが進化し続けるにつれて、ジェネレーティブAIは、視覚データの処理と拡張の方法を再定義し、現実世界のシナリオにおける革新的なアプリケーションへの道を開いています。 

この新しい技術的変化は、Ultralyticsが主催する年次ハイブリッドイベントであるYOLO Vision 2024(YV24)で興味深い会話のトピックでした。YV24には、AI愛好家と業界のリーダーが集まり、コンピュータビジョンの最新のブレークスルーについて話し合いました。このイベントは、イノベーション、効率、リアルタイムAIソリューションの未来に焦点を当てました。

イベントの主なハイライトの1つは、生成AI時代のYOLOに関するパネルディスカッションでした。パネリストは、Ultralyticsの創設者兼CEOであるGlenn Jocher、Ultralyticsのシニア機械学習エンジニアであるJing Qiu、清華大学のAo Wangでした。彼らは、生成AIがコンピュータビジョンにどのように影響を与えているか、および実用的なAIモデルを構築する上での課題について探求しました。

この記事では、彼らの議論からの重要な洞察を再検討し、生成AIがVision AIをどのように変革しているかを詳しく見ていきます。

Ultralytics YOLOモデルの開発

Glenn Jocherと共に、多くの熟練したエンジニアがUltralytics YOLOモデルの開発で重要な役割を果たしてきました。そのうちの一人、Jing QiuがYOLOとの予期せぬ出会いを語ってくれました。彼は、AIへの情熱は大学時代に始まったと説明し、この分野を探求し学ぶために多くの時間を費やしました。Jing Qiuは、GitHubでGlenn Jocherと繋がり、さまざまなAIプロジェクトに関わるようになった経緯を振り返りました。

Jing Qiu氏の発言に加えて、Glenn Jocher氏はGitHubを「信じられないほどの共有方法であり、会ったことのない人々がお互いを助け合い、お互いの仕事に貢献し合う場です。素晴らしいコミュニティであり、AIを始めるには本当に素晴らしい方法です」と表現しました。

__wf_reserved_inherit
図1. YV24のステージで講演するGlenn Jocher氏とJing Qiu氏。

Jing Qiu氏のAIへの関心と、Ultralytics YOLOv5に関する彼の研究は、モデルの改良に役立ちました。その後、彼はUltralytics YOLOv8の開発で重要な役割を果たし、さらなる改善をもたらしました。彼はそれを信じられないほどの旅だったと述べています。今日、Jing Qiu氏は、Ultralytics YOLO11のようなモデルの改善と研究を続けています。 

YOLOv10:実際のパフォーマンスに最適化

中国からリモートでパネリストとして参加したAo Wangは、博士課程の学生として自己紹介しました。当初はソフトウェアエンジニアリングを学んでいましたが、AIへの情熱からコンピュータビジョンと深層学習に転向しました。

彼が有名なYOLOモデルと最初に出会ったのは、さまざまなAI技術とモデルを試していたときでした。彼はその速度と精度に感銘を受け、オブジェクト検出のようなコンピュータビジョンタスクをより深く掘り下げるきっかけとなりました。最近、Ao WangはYOLOモデルの最新バージョンであるYOLOv10に貢献しました。彼の研究は、モデルをより高速かつ正確にするための最適化に焦点を当てていました。

生成AIとVision AIの主な違い

その後、パネルは生成AIについて議論を開始し、Jing Qiuは、生成AIとVision AIは非常に異なる目的を持っていると指摘しました。生成AIは、テキスト、画像、ビデオなどのものを生成または作成しますが、Vision AIは主に画像である既存のものを分析します。

Glenn Jocher氏は、サイズも大きな違いであると強調しました。生成AIモデルは巨大で、モデルがデータから学習するのに役立つ内部設定であるパラメータを数十億も含むことがよくあります。コンピュータビジョンモデルははるかに小さいです。彼は、「最小のYOLOモデルは、最小のLLM(大規模言語モデル)よりも約1000分の1のサイズです。つまり、300万のパラメータと30億のパラメータです」と述べています。

__wf_reserved_inherit
図3. YV24でのジェネレーティブAIとVision AIに関するパネルディスカッション。

Jing Qiu氏は、ジェネレーティブAIとコンピュータビジョンのトレーニングおよびデプロイメントプロセスも大きく異なると付け加えました。ジェネレーティブAIは、実行するために巨大で強力なサーバーを必要とします。一方、YOLOのようなモデルは、効率性を重視して構築されており、標準的なハードウェアでトレーニングおよびデプロイできます。これにより、Ultralytics YOLOモデルは、実際の使用においてより実用的になります。

これら2つの分野は異なっていますが、互いに絡み合い始めています。 Glenn Jocherは、Generative AIがVision AIに新たな進歩をもたらし、モデルをよりスマートかつ効率的にしていると詳しく説明しました。 

生成AIがコンピュータビジョンに与える影響

Generative AIは急速に進歩しており、これらのブレークスルーは、コンピュータビジョンを含む人工知能の他の多くの分野に影響を与えています。次に、このパネルからのいくつかの魅力的な洞察を見ていきましょう。

ハードウェアの進歩がAIイノベーションを可能にしています

パネルの初期段階で、グレン・ジョッカーは、機械学習のアイデアは長い間存在していたが、コンピュータがそれらを機能させるのに十分なほど強力ではなかったと説明しました。 AIのアイデアを実現するには、より強力なハードウェアが必要でした。

並列処理機能を備えたGPU(Graphics Processing Units)の過去20年間の台頭は、すべてを変えました。これにより、AIモデルのトレーニングがはるかに高速かつ効率的になり、深層学習が急速に発展することができました。

今日では、TPU(Tensor Processing Units)のようなAIチップや最適化されたGPUは、より大型で複雑なモデルを処理しながら、消費電力を削減します。これにより、AIはよりアクセスしやすく、現実世界のアプリケーションで役立つようになりました。

新しいハードウェアが改善されるたびに、生成AIとコンピュータビジョンの両方のアプリケーションがより強力になっています。これらの進歩により、リアルタイムAIはより高速、より効率的になり、より多くの業界で使用できるようになります。

生成AIが物体検出モデルをどのように変えているか

生成AIがコンピュータビジョンにどのように影響を与えているかについて尋ねられたとき、Jing Qiuは、AIが画像の最も重要な部分に焦点を当てるのに役立つモデルであるTransformerが、AIが画像を理解し処理する方法を変えたと述べました。最初の大きなステップはDETR(Detection Transformer)であり、この新しいアプローチを物体検出に使用しました。これにより精度が向上しましたが、場合によってはパフォーマンスが低下するという問題がありました。

この問題を解決するために、研究者たちはRT-DETRのようなハイブリッドモデルを作成しました。これらのモデルは、畳み込みニューラルネットワーク(CNN、画像から特徴を自動的に学習および抽出する深層学習モデル)とトランスフォーマーを組み合わせ、速度と精度を両立させています。このアプローチは、トランスフォーマーの利点を活用しながら、オブジェクト検出を高速化します。

興味深いことに、YOLOv10は、transformerベースのアテンションレイヤー(画像内の最も重要な領域を強調表示し、重要度の低い詳細を無視するスポットライトのように機能するモデルの一部)を使用して、パフォーマンスを向上させています。 

Ao Wang氏はまた、生成AIがモデルのトレーニング方法をどのように変えているかについても言及しました。マスクされた画像モデリングのような手法は、AIが画像からより効率的に学習するのに役立ち、大規模で手動でラベル付けされたデータセットの必要性を減らします。これにより、コンピュータビジョンのトレーニングがより速く、リソース集約的でなくなります。

生成AIとVision AIの未来 

パネルが議論したもう1つの重要なアイデアは、生成AIとVision AIがどのように連携して、より高性能なモデルを構築できるかということでした。Glenn Jocher氏は、これら2つのアプローチには異なる強みがあるものの、組み合わせることで新たな可能性が開かれる可能性があると説明しました。 

例えば、YOLOのようなVision AIモデルは、画像をグリッドに分割してオブジェクトを識別することがよくあります。このグリッドベースの方法は、言語モデルが詳細を特定し、それらを記述する能力を向上させるのに役立つ可能性があります。これは、多くの言語モデルが今日直面している課題です。本質的に、これらの技術を組み合わせることで、正確に検出し、見ているものを明確に説明できるシステムにつながる可能性があります。

__wf_reserved_inherit
図4. 生成AIとVision AIの未来。画像は著者による。

主なポイント

Generative AIとコンピュータビジョンは共に進化しています。Generative AIは画像やビデオを作成する一方で、Vision AIモデルをより正確かつ効率的にする可能性のある新しい革新的なアイデアをもたらすことで、画像やビデオの分析も改善します。 

この洞察力に富んだYV24のパネルディスカッションで、Glenn Jocher、Jing Qiu、Ao Wangの各氏は、これらのテクノロジーが未来をどのように形作っているかについて意見を述べました。より優れたAIハードウェアにより、生成AIとVision AIは進化を続け、さらに大きなイノベーションにつながります。これら2つの分野は連携して、よりスマートで高速、そして日常生活に役立つAIを生み出しています。

コミュニティに参加し、GitHubリポジトリを探索して、Vision AIについてさらに学びましょう。ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう。製造業におけるAI自動運転におけるコンピュータビジョンなどのイノベーションにご興味がありますか?ソリューションページにアクセスして、詳細をご覧ください。 

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました