コンピュータビジョンの未来を変える生成AI
YOLO Vision 2024のパネルトークから興味深いインサイトを発見しましょう。生成AIがリアルタイムVision AIモデルの今後の展望をどのように形作っているかを探ります。

生成AIは、既存のデータからパターンを学習し、画像、テキスト、音声などの新しいコンテンツを生成する人工知能(AI)の一分野です。近年の進歩により、人間の創造性を模倣した非常にリアルなコンテンツを生成できるようになりました。
しかし、生成AIの影響は単なるコンテンツ制作にとどまりません。Ultralytics YOLO modelsのようなリアルタイムのコンピュータビジョンモデルが進化を続ける中、生成AIは視覚データの処理や拡張の方法も再定義しており、実世界における革新的なアプリケーションへの道を開いています。
この新たな技術的転換は、Ultralyticsが主催する年次ハイブリッドイベントYOLO Vision 2024 (YV24)においても興味深い話題となりました。YV24では、AI愛好家や業界リーダーが集まり、コンピュータビジョンにおける最新のブレークスルーについて議論しました。イベントでは、イノベーション、効率性、そしてリアルタイムAIソリューションの未来に焦点が当てられました。
イベントのハイライトの一つは、YOLO in the Age of Generative AIに関するパネルディスカッションでした。このパネルには、Ultralyticsの創設者兼CEOであるGlenn Jocher、UltralyticsのシニアマシンラーニングエンジニアであるJing Qiu、そして清華大学のAo Wangが登壇しました。彼らは、生成AIがコンピュータビジョンにどのような影響を与えているか、そして実用的なAIモデルを構築する上での課題について探求しました。
本記事では、彼らの議論から得られた重要な洞察を振り返り、生成AIがVision AIをどのように変革しているかについて詳しく見ていきます。
Link to this sectionUltralytics YOLO modelsの開発#
Glenn Jocher氏に加え、多くの熟練したエンジニアたちがUltralytics YOLO modelsの開発において重要な役割を果たしてきました。その一人であるJing Qiu氏は、自身が予期せずYOLOに関わることになった経緯を語りました。彼は、AIへの情熱が大学時代に始まったと説明しました。彼はこの分野を深く探求し、学習することに多大な時間を費やしました。Jing Qiu氏は、GitHubを通じてGlenn Jocher氏とつながり、さまざまなAIプロジェクトに参加した経緯を振り返りました。
Jing Qiu氏の言葉に付け加える形で、Glenn Jocher氏はGitHubについて次のように述べました。「共有のための素晴らしい方法です。会ったこともない人々が集まり、互いに助け合い、相手の作業に貢献できる場所です。素晴らしいコミュニティであり、AIを始めるための本当に素晴らしい方法です。」

図1. YV24のステージで登壇するGlenn Jocher氏とJing Qiu氏。
Jing Qiu氏のAIへの関心とUltralytics YOLOv5での取り組みは、モデルの改良に貢献しました。その後、彼はUltralytics YOLOv8の開発において中心的な役割を果たし、さらなる改善をもたらしました。彼はそれを素晴らしい旅だったと表現しました。今日、Jing Qiu氏はUltralytics YOLO11のようなモデルの改善と開発を続けています。
Link to this sectionYOLOv10:実世界のパフォーマンスに向けた最適化#
中国からリモートでパネルディスカッションに参加したAo Wang氏は、自身を博士課程の学生として紹介しました。当初はソフトウェアエンジニアリングを専攻していましたが、AIへの情熱からコンピュータビジョンとディープラーニングへと研究分野を移しました。
彼が有名なYOLOモデルと初めて出会ったのは、さまざまなAI技術やモデルを実験している時でした。そのスピードと精度に感銘を受け、それがきっかけで物体検出のようなコンピュータビジョンのタスクを深く掘り下げるようになりました。最近、Ao Wang氏はYOLOモデルの新しいバージョンであるYOLOv10に貢献しました。彼の研究は、モデルをより高速かつ高精度にするための最適化に焦点を当てています。
Link to this section生成AIとVision AIの決定的な違い#
続いてパネルディスカッションでは生成AIの話題に移り、Jing Qiu氏は生成AIとVision AIの目的が大きく異なることを指摘しました。生成AIはテキスト、画像、動画などを生成するものですが、Vision AIは主に画像としてすでに存在するものを分析するものです。
Glenn Jocher氏は、サイズも大きな違いであると強調しました。生成AIモデルは巨大で、多くの場合、数十億個ものパラメータ(データから学習するためにモデルが使用する内部設定)を含んでいます。一方、コンピュータビジョンモデルははるかに小規模です。彼は、「私たちが持つ最小のYOLOモデルは、最小のLLM(大規模言語モデル)よりも約1000倍小さいです。つまり、30億ではなく300万のパラメータです」と述べました。

図2. YV24における生成AIとVision AIに関するパネルディスカッション。
Jing Qiu氏は、生成AIとコンピュータビジョンのトレーニングおよびデプロイのプロセスも大きく異なると付け加えました。生成AIには実行するために巨大で強力なサーバーが必要ですが、YOLOのようなモデルは効率性を重視して構築されており、標準的なハードウェアでトレーニングとデプロイが可能です。それが、Ultralytics YOLO modelsが実用においてより現実的な理由です。
これら2つの分野は異なるとはいえ、相互に影響し合い始めています。Glenn Jocher氏は、生成AIがVision AIに新しい進歩をもたらしており、モデルをよりスマートで効率的にしていると詳しく説明しました。
Link to this sectionコンピュータビジョンに対する生成AIの影響#
生成AIは急速に進歩しており、そのブレークスルーはコンピュータビジョンを含む人工知能の他の多くの領域にも影響を与えています。次に、パネルで議論されたいくつかの興味深い洞察について見ていきましょう。
Link to this sectionハードウェアの進歩がAIイノベーションを可能にしている#
パネルの序盤で、Glenn Jocher氏は、マシンラーニングのアイデア自体は昔から存在していたものの、それを機能させるためのコンピュータの能力が不足していたと説明しました。AIのアイデアを現実のものにするためには、より強力なハードウェアが必要でした。
過去20年間のGPU(Graphics Processing Unit)の台頭と並列処理能力の向上は、すべてを変えました。それにより、AIモデルのトレーニングが大幅に高速かつ効率的になり、ディープラーニングが急速に発展できるようになりました。
現在では、TPU (Tensor Processing Unit)のようなAIチップや最適化されたGPUが、より大きく複雑なモデルを扱いながら消費電力を抑えています。これにより、AIはより利用しやすく、実用的なアプリケーションにおいて役立つようになりました。
ハードウェアが進化するたびに、生成AIとコンピュータビジョンの両方のアプリケーションがより強力になっています。これらの進歩により、リアルタイムAIはより高速で効率的になり、より多くの業界で使用できる準備が整いました。
Link to this section生成AIは物体検出モデルをどのように形作っているか#
生成AIがどのようにコンピュータビジョンに影響を与えているかという問いに対し、Jing Qiu氏は、AIが画像内の最も重要な部分に焦点を当てるのを助けるモデルであるTransformerが、AIが画像を理解し処理する方法を変えたと述べました。最初の大きなステップは、物体検出にこの新しいアプローチを用いたDETR(Detection Transformer)でした。これは精度を向上させましたが、パフォーマンスの問題により、場合によっては動作が遅くなることがありました。
これを解決するために、研究者たちはRT-DETRのようなハイブリッドモデルを作成しました。これらのモデルは、畳み込みニューラルネットワーク(CNN、画像から自動的に特徴を学習し抽出するディープラーニングモデル)とTransformerを組み合わせ、スピードと精度のバランスを取っています。このアプローチは、Transformerの利点を活用しつつ、物体検出をより高速化するものです。
興味深いことに、YOLOv10は、TransformerベースのAttention層(画像内の最も重要な領域をスポットライトのように強調し、関連性の低い詳細を無視するように動作するモデルの一部)を使用してパフォーマンスを向上させています。
Ao Wang氏も、生成AIがモデルのトレーニング方法をどのように変えているかについて言及しました。マスク画像モデリングのような手法は、AIがより効率的に画像から学習するのを助け、手作業でラベル付けされた大規模なデータセットの必要性を減らします。これにより、コンピュータビジョンのトレーニングはより高速化され、リソース消費も抑えられます。
Link to this section生成AIとVision AIの未来#
パネルで議論されたもう一つの重要なアイデアは、生成AIとVision AIがどのように連携して、より高性能なモデルを構築できるかという点です。Glenn Jocher氏は、これら2つのアプローチにはそれぞれ異なる強みがあるものの、組み合わせることで新たな可能性が開ける可能性があると説明しました。
例えば、YOLOのようなVision AIモデルは、物体を識別するために画像をグリッド状に分割することがよくあります。このグリッドベースの手法は、言語モデルが詳細を特定し、それを説明する能力を向上させるのに役立つ可能性があります。これは、現在多くの言語モデルが直面している課題です。本質的に、これらの技術を融合させることで、見たものを正確に検出し、明確に説明できるシステムが生まれるかもしれません。

図3. 生成AIとVision AIの未来。画像提供:著者。
Link to this section重要なポイント#
生成AIとコンピュータビジョンは共に進歩しています。生成AIは画像や動画を生成する一方で、Vision AIモデルをより正確かつ効率的にするための革新的な新しいアイデアをもたらすことで、画像や動画の分析も改善しています。
この洞察に満ちたYV24のパネルディスカッションにおいて、Glenn Jocher氏、Jing Qiu氏、Ao Wang氏は、これらの技術がどのように未来を形作っているかについて考えを共有しました。より優れたAIハードウェアにより、生成AIとVision AIは進化を続け、さらなるイノベーションを導くでしょう。これら2つの分野は協力して、日常生活においてよりスマートで高速、そして有用なAIを創造しています。
コミュニティに参加して、GitHubリポジトリでVision AIについて詳しく学びましょう。ライセンスオプションを確認して、コンピュータビジョンプロジェクトをスタートさせてください。製造業におけるAIや自動運転におけるコンピュータビジョンのようなイノベーションに興味がありますか?ソリューションページにアクセスして、詳細をご覧ください。






