OpenAIの高度なマルチモーダルAIであるGPT-4をご覧ください。テキストとビジュアルのタスク、複雑な推論、およびヘルスケアや教育などの現実世界のアプリケーションに優れています。
GPT-4 (Generative Pre-trained Transformer 4)は、米国で開発された大規模マルチモーダルモデル(LMM)です。 ラージ・マルチモーダルモデル(LMM)である。 人工知能(AI)の分野における重要なマイルストーンである。 人工知能(AI)の分野における重要なマイルストーンである。広く使われている GPT-4は、広く使用されているGPT-3の後継として、標準的なGPT-3の機能を拡張しています。 標準的な ラージ・ランゲージ・モデル(LLM)の機能を拡張しています。 テキストだけでなく、画像も入力できるようになりました。この能力は、テキスト情報とともに視覚データを処理し、解釈することができる。 とのギャップを埋める複雑なタスクを実行できる。 自然言語処理(NLP) と視覚的理解のギャップを埋める複雑なタスクを実行できる。 の基盤モデルとなっている。
スケーラブルなTransformerアーキテクチャーをベースにしたGPT-4は、以下のような進化を遂げています。 は、そのテクニカルレポートで詳述されているように、いくつかのアーキテクチャとトレーニングの進歩を導入している。 テクニカルレポートに詳述されている。これらの改善により、このモデルは 人間レベルのパフォーマンスを発揮します。
GPT-4の多用途性により、さまざまな分野に統合され、次のようなイノベーションが推進されている。 ジェネレーティブAI
GPT-4のような汎用的なLMMと、コンピュータビジョン(CV)に特化したLMMを区別することは非常に重要である。 コンピュータビジョン(CV)モデル。GPT-4は GPT-4は画像を記述することができますが、計算コストが高く、リアルタイム推論に必要な高速・高精度な位置特定には最適化されていません。 には最適化されていない。
これに対して YOLO11のようなモデルは オブジェクト検出や 画像セグメンテーションのようなタスクのために構築されている。YOLO モデルは、正確な バウンディングボックス座標とクラスラベルを ミリ秒単位で提供するため、ビデオ解析や自律システムに最適です。今後発表される YOLO26は、エッジ・デバイスにおけるスピードと精度の限界をさらに押し広げることを目指している。 の限界をさらに押し上げることを目指している。
YOLO モデルは、ビデオフィードから構造化されたデータ(オブジェクトと位置)を迅速に抽出することができる。 YOLOモデルは、ビデオフィードから構造化されたデータ(オブジェクトと位置)を迅速に抽出し、それをGPT-4に渡してシーンの自然言語要約を生成する。
次の例は ultralytics 検出されたオブジェクト名を抽出する。
GPT-4のようなモデルで物語を生成することができる。
from collections import Counter
from ultralytics import YOLO
# Load the YOLO11 model for efficient object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names for text processing
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
object_counts = dict(Counter(detected_classes))
# Output structured data suitable for a GPT-4 prompt
print(f"Scene Objects for GPT Analysis: {object_counts}")
GPT-4は、以下のようなエンコーダのみのモデルとは根本的に異なります。 BERTとは根本的に異なります。 BERTは、文脈を双方向に見ることで、機械がテキストを「理解」するのを助ける(感情分析に有用)。 センチメント分析に有用)。 に最適化されたデコーダーベースのモデルである。 テキスト生成と次のトークンの予測に最適化されたデコーダーベースのモデルである。 に最適化されたデコーダーベースのモデルである。さらに、最新のAIエージェントはしばしばGPT-4 を「頭脳」として使用し、複雑な目標を実行可能なステップに分解します。 この能力はGPT-4の高度な推論構造によって促進されます。