YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

生成AI

生成AIの基礎を探求します。それがどのように合成データを生成し、Ultralytics YOLO26 と統合し、コンピュータービジョンにおけるイノベーションを推進しているかを学びましょう。

生成AIは、ユーザーのプロンプトに応じて、テキスト、画像、音声、ビデオ、コンピュータコードなどの新しいコンテンツを作成することに焦点を当てた人工知能(AI)のサブセットを指します。既存のデータを分析または分類することを主な目的とする従来のAIシステムとは異なり、生成モデルは深層学習(DL)アルゴリズムを使用して、大規模なデータセットの根底にあるパターン、構造、および確率分布を学習します。一度トレーニングされると、これらのシステムはトレーニングデータと統計的類似性を共有しながらも、独自の創造物である新しい出力を生成できます。この機能により、生成AIは現代の基盤モデルの礎石として位置づけられ、クリエイティブ産業、ソフトウェア開発、科学研究全体でイノベーションを推進しています。

生成モデルはどのように機能するか

生成AIの核となるのは、情報のエンコードとデコードを学習する複雑なニューラルネットワークアーキテクチャです。これらのモデルは通常、膨大なデータコーパスに対して教師なし学習を使用してトレーニングされます。

  • Transformer: テキストやコードにおいて、Transformerアーキテクチャは自己注意(self-attention)のようなメカニズムを利用して、シーケンス内の長距離にわたる単語間の関係を追跡します。これにより、大規模言語モデル(LLM)は、首尾一貫した、文脈に沿ったテキストを生成できます。
  • 拡散モデル: 画像生成において、拡散モデルは画像にノイズを加えて認識不能な状態にし、その後このプロセスを逆転させてランダムなノイズから鮮明な画像を再構築することを学習します。
  • GANs: 敵対的生成ネットワーク(GANs)は、ジェネレーターとディスクリミネーターという2つのニューラルネットワークを使用し、互いに競い合うことで、ジェネレーターがより現実的な出力を生成するように促します。

生成AIと識別AI

生成AIを理解するためには、識別AIと区別することが重要です。両者とも機械学習の柱ですが、その目的は大きく異なります。

  • 生成AI創造に焦点を当てています。個々のクラスの分布をモデル化して新しいサンプルを生成します。例えば、Stable Diffusionのようなモデルは、テキスト記述に基づいて犬の新しい画像を生成します。
  • 識別AIは、classificationpredictionに焦点を当てます。入力データを分類するために、クラス間の決定境界を学習します。YOLO26のような高性能ビジョンモデルは識別型であり、画像自体を作成するのではなく、画像を分析して特定のオブジェクトを識別し、位置を特定することでobject detectionに優れています(例:写真の中の犬をdetectする)。

実際のアプリケーション

生成AIの汎用性により、様々なドメインで適用可能であり、強力なワークフローを構築するために識別モデルと組み合わせて使用されることも少なくありません。

  1. 合成データ生成:コンピュータビジョンエンジニアにとって最も実用的な応用例の一つが 合成データの作成である。 特定の産業上の欠陥や危険な道路状況など、 稀なエッジケースに関する実世界のデータを収集することは、 危険を伴うか、あるいはコストがかかる場合があります。 生成モデルは、こうしたシナリオのフォトリアリスティックな画像を 何千枚も生成できます。このデータはその後、 YOLO26のような堅牢な検出器を訓練するために使用され、 実世界での精度を向上させます。
  2. クリエイティブデザインとプロトタイピング: クリエイティブ分野では、テキストから画像への変換モデルを搭載したツールにより、デザイナーはコンセプトを迅速に視覚化できます。プロンプトを入力することで、アーティストは製品デザイン、建築レイアウト、またはマーケティングアセットの複数のバリエーションを生成でき、アイデア出しの段階を大幅に加速させます。
  3. コード生成とデバッグ: ソフトウェア開発は、コードのリポジトリでトレーニングされたモデルによって変革されました。これらのアシスタントは、コードスニペットの提案、ドキュメントの作成、さらにはバグの特定を通じて開発者を支援し、ソフトウェアライフサイクルを効率化します。

コンピュータビジョンとの相乗効果

生成AIと識別型コンピュータビジョンモデルは、しばしば補完的な技術として機能します。一般的なパイプラインでは、生成モデルを使用してデータセットを拡張し、その後、Ultralytics Platformのようなツールを使用して、その強化されたデータセットで識別モデルをトレーニングします。

次のPython 例は ultralytics YOLO26モデルをロードするためのパッケージ。ハイブリッドワークフローでは、このコードを使用して合成生成された画像内のオブジェクトを検証するかもしれません。

from ultralytics import YOLO

# Load the YOLO26 model (Latest stable Ultralytics model)
model = YOLO("yolo26n.pt")

# Run inference on an image (e.g., a synthetic sample from a generative model)
# The model identifies objects within the generated content
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify the synthetic data quality
results[0].show()

課題と考慮事項

強力である一方で、生成AIはユーザーが対処しなければならない特定の課題を導入します。モデルは時折ハルシネーションを生成し、もっともらしく聞こえるが事実とは異なる情報や視覚的なアーティファクトを作成する可能性があります。さらに、これらのモデルはインターネット規模のデータでトレーニングされているため、ソースマテリアルに存在するAIにおけるバイアスを意図せず伝播する可能性があります。

さまざまなAI倫理フレームワークで議論されているように、著作権と知的財産に関する倫理的懸念も顕著です。スタンフォード人間中心AI研究所などの研究者や組織は、これらの強力なツールが責任を持って開発および展開されることを保証するための方法に積極的に取り組んでいます。さらに、これらの大規模モデルをトレーニングするための計算コストは、エッジデバイスでの推論をよりエネルギー効率的にするためのモデル量子化への関心を高めています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。