YOLO Vision 2024のパネルトークから興味深い洞察をご覧ください。ジェネレーティブAIがリアルタイムVision AIモデルの前途をどのように形作っているのかを探る。
YOLO Vision 2024のパネルトークから興味深い洞察をご覧ください。ジェネレーティブAIがリアルタイムVision AIモデルの前途をどのように形作っているのかを探る。
Generative AIは、既存のデータからパターンを学習して、画像、テキスト、オーディオなどの新しいコンテンツを作成する人工知能(AI)の一分野です。最近の進歩のおかげで、人間の創造性を模倣した非常にリアルなコンテンツを生成するために使用できるようになりました。
しかし、ジェネレーティブAIの影響は、単にコンテンツを作成するだけにとどまらない。Ultralytics YOLO モデルのようなリアルタイムコンピュータビジョンモデルが進化し続けるにつれて、ジェネレーティブAIは視覚データの処理方法や拡張方法も再定義し、実世界のシナリオにおける革新的なアプリケーションへの道を開いている。
この新たな技術シフトは、Ultralytics主催の年次ハイブリッド・イベントであるYOLO Vision 2024(YV24)で興味深い話題となった。YV24では、AI愛好家と業界リーダーが一堂に会し、コンピューター・ビジョンにおける最新のブレークスルーについて議論した。このイベントでは、イノベーション、効率性、リアルタイムAIソリューションの未来に焦点が当てられた。
このイベントの目玉のひとつは、「ジェネレーティブAI時代のYOLO 」をテーマにしたパネルトークだった。パネルには、Ultralytics創設者兼CEOのグレン・ジョーチャー氏、Ultralyticsシニア機械学習エンジニアのジン・チウ氏、清華大学のアオ・ワン氏が登壇した。彼らは、ジェネレーティブAIがコンピュータ・ビジョンにどのような影響を及ぼしているのか、また実用的なAIモデルを構築する上での課題について探求した。
この記事では、彼らの議論からの重要な洞察を再検討し、生成AIがVision AIをどのように変革しているかを詳しく見ていきます。
Ultralytics YOLO モデルの開発には、グレン・ジョーチャー以外にも多くの熟練エンジニアが重要な役割を果たしている。その一人であるジン・チウは、YOLO思いがけない出会いについて語った。彼のAIへの情熱は大学時代に始まったと説明する。彼はこの分野を探求し、学ぶことに多くの時間を費やした。ジン・チウは、GitHubでグレン・ジョーチャーとつながり、さまざまなAIプロジェクトに参加するようになったと振り返った。
Jing Qiu氏の発言に加えて、Glenn Jocher氏はGitHubを「信じられないほどの共有方法であり、会ったことのない人々がお互いを助け合い、お互いの仕事に貢献し合う場です。素晴らしいコミュニティであり、AIを始めるには本当に素晴らしい方法です」と表現しました。

ジン・チュウのAIへの関心と、彼が取り組んでいる Ultralytics YOLOv5モデルの改良に貢献した。その後、彼は Ultralytics YOLOv8の開発で重要な役割を果たした。彼はそれを信じられないような旅だったと語っている。今日、ジン・チウは、次のようなモデルの改良と研究を続けている。 Ultralytics YOLO11.
中国からリモートでパネリストとして参加したAo Wangは、博士課程の学生として自己紹介しました。当初はソフトウェアエンジニアリングを学んでいましたが、AIへの情熱からコンピュータビジョンと深層学習に転向しました。
彼が有名なYOLO モデルに出会ったのは、さまざまなAI技術やモデルを試しているときだった。彼はそのスピードと精度に感銘を受け、物体検出のようなコンピュータ・ビジョンのタスクに深く入り込むようになった。最近、Ao WangはYOLO モデルの最新バージョンであるYOLOv10貢献した。彼の研究は、より高速で高精度なモデルの最適化に重点を置いた。
その後、パネルは生成AIについて議論を開始し、Jing Qiuは、生成AIとVision AIは非常に異なる目的を持っていると指摘しました。生成AIは、テキスト、画像、ビデオなどのものを生成または作成しますが、Vision AIは主に画像である既存のものを分析します。
グレン・ジョーチャーは、サイズも大きな違いだと強調した。ジェネレーティブAIのモデルは巨大で、多くの場合、数十億ものパラメーター(モデルがデータから学習するための内部設定)を含んでいる。コンピュータ・ビジョンのモデルはもっと小さい。私たちが持っている最小のYOLO モデルは、最小のLLM(大規模言語モデル)の約1000分の1です。つまり、30億のパラメータに対して300万のパラメータです"

ジン・チュウは、ジェネレーティブAIとコンピュータービジョンのトレーニングや導入プロセスも大きく異なると付け加えた。ジェネレーティブAIを実行するには、巨大で強力なサーバーが必要です。一方、YOLOようなモデルは効率性を重視して構築されており、標準的なハードウェアでトレーニングやデプロイが可能だ。そのため、Ultralytics YOLO モデルは実世界でより実用的なものとなっている。
これら2つの分野は異なっていますが、互いに絡み合い始めています。 Glenn Jocherは、Generative AIがVision AIに新たな進歩をもたらし、モデルをよりスマートかつ効率的にしていると詳しく説明しました。
Generative AIは急速に進歩しており、これらのブレークスルーは、コンピュータビジョンを含む人工知能の他の多くの分野に影響を与えています。次に、このパネルからのいくつかの魅力的な洞察を見ていきましょう。
パネルの初期段階で、グレン・ジョッカーは、機械学習のアイデアは長い間存在していたが、コンピュータがそれらを機能させるのに十分なほど強力ではなかったと説明しました。 AIのアイデアを実現するには、より強力なハードウェアが必要でした。
並列処理機能を備えたGPU(Graphics Processing Units)の過去20年間の台頭は、すべてを変えました。これにより、AIモデルのトレーニングがはるかに高速かつ効率的になり、深層学習が急速に発展することができました。
現在では、TPU(Tensor 処理ユニット)や最適化されたGPUのようなAIチップは、より大きく複雑なモデルを処理しながら、より少ない電力で動作する。これにより、AIはより身近になり、実世界のアプリケーションで役立つようになった。
新しいハードウェアが改善されるたびに、生成AIとコンピュータビジョンの両方のアプリケーションがより強力になっています。これらの進歩により、リアルタイムAIはより高速、より効率的になり、より多くの業界で使用できるようになります。
生成AIがコンピュータビジョンにどのように影響を与えているかについて尋ねられたとき、Jing Qiuは、AIが画像の最も重要な部分に焦点を当てるのに役立つモデルであるTransformerが、AIが画像を理解し処理する方法を変えたと述べました。最初の大きなステップはDETR(Detection Transformer)であり、この新しいアプローチを物体検出に使用しました。これにより精度が向上しましたが、場合によってはパフォーマンスが低下するという問題がありました。
これを解決するために、研究者たちはRT-DETRようなハイブリッドモデルを作った。これらのモデルは、畳み込みニューラルネットワーク(CNN、画像から自動的に学習して特徴を抽出する深層学習モデル)と変換器を組み合わせ、速度と精度のバランスをとっている。このアプローチは、変換器の利点を活用しながら、物体検出を高速化する。
興味深い、 YOLOv10は、トランスフォーマーに基づくアテンション・レイヤー(スポットライトのように作用し、画像内の最も重要な部分を強調する一方で、関連性の低いディテールは無視するモデル部分)を使って、その性能を高めている。
Ao Wang氏はまた、生成AIがモデルのトレーニング方法をどのように変えているかについても言及しました。マスクされた画像モデリングのような手法は、AIが画像からより効率的に学習するのに役立ち、大規模で手動でラベル付けされたデータセットの必要性を減らします。これにより、コンピュータビジョンのトレーニングがより速く、リソース集約的でなくなります。
パネルが議論したもう1つの重要なアイデアは、生成AIとVision AIがどのように連携して、より高性能なモデルを構築できるかということでした。Glenn Jocher氏は、これら2つのアプローチには異なる強みがあるものの、組み合わせることで新たな可能性が開かれる可能性があると説明しました。
例えば、YOLO ようなビジョンAIモデルは、画像をグリッドに分割してオブジェクトを識別することが多い。このグリッドベースの手法は、言語モデルが今日多くの言語モデルが直面している課題である、細部をピンポイントで特定し、それを説明する能力を向上させるのに役立つだろう。要するに、これらのテクニックを組み合わせることで、見たものを正確にdetect し、明確に説明できるシステムにつながるかもしれないのだ。

Generative AIとコンピュータビジョンは共に進化しています。Generative AIは画像やビデオを作成する一方で、Vision AIモデルをより正確かつ効率的にする可能性のある新しい革新的なアイデアをもたらすことで、画像やビデオの分析も改善します。
この洞察力に富んだYV24のパネルディスカッションで、Glenn Jocher、Jing Qiu、Ao Wangの各氏は、これらのテクノロジーが未来をどのように形作っているかについて意見を述べました。より優れたAIハードウェアにより、生成AIとVision AIは進化を続け、さらに大きなイノベーションにつながります。これら2つの分野は連携して、よりスマートで高速、そして日常生活に役立つAIを生み出しています。
コミュニティに参加し、GitHubリポジトリを探索して、Vision AIについてさらに学びましょう。ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう。製造業におけるAIや自動運転におけるコンピュータビジョンなどのイノベーションにご興味がありますか?ソリューションページにアクセスして、詳細をご覧ください。