OpenAIの強力な175BパラメータLLMであるGPT-3を探求しましょう。そのアーキテクチャ、NLPタスク、そしてUltralytics YOLO26と組み合わせてビジョン言語アプリを実現する方法を学びます。
Generative Pre-trained Transformer 3、一般にGPT-3として知られるものは、OpenAIによって開発された洗練された大規模言語モデル(LLM)であり、深層学習を使用して人間のようなテキストを生成します。GPTシリーズの第3世代モデルとして、そのリリース時に自然言語処理(NLP)能力において大きな飛躍を遂げました。入力テキストを処理し、シーケンス内の次の最も可能性の高い単語を予測することで、GPT-3は、エッセイの執筆やコード作成から言語翻訳まで、個々のタスクごとに特定のトレーニングを必要とせずに、幅広いタスクを実行できます。これはフューショット学習として知られる能力です。
GPT-3は、Transformerアーキテクチャに基づいて構築されており、特にデコーダーのみの構造を利用しています。1,750億の機械学習パラメーターを特徴とする大規模なモデルであり、言語、文脈、構文のニュアンスを高精度で捉えることができます。このモデルは、書籍、記事、ウェブサイトを含むインターネット上の膨大なテキストデータに対して、広範な教師なし学習を受けます。
推論中、ユーザーはプロンプトエンジニアリングを介してモデルと対話します。構造化されたテキスト入力を提供することで、ユーザーは技術文書の要約や創造的なアイデアのブレインストーミングなど、特定の出力を生成するようにモデルを導きます。
GPT-3の汎用性により、様々な産業で数多くのアプリケーションを動かすことが可能です。
GPT-3はテキストベースのモデルですが、コンピュータビジョン(CV)から始まるパイプラインではしばしば「脳」として機能します。一般的なワークフローでは、高速物体検出器を使用して画像を分析し、その検出結果をGPT-3に供給して記述的な説明や安全報告書を生成します。
以下の例は、Ultralytics YOLO26モデルを使用してオブジェクトをdetectし、その出力をLLMに適したテキストプロンプトとしてフォーマットする方法を示しています。
from ultralytics import YOLO
# Load the YOLO26 model (optimized for real-time edge performance)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to create a context string
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
context_string = f"The image contains: {', '.join(detected_classes)}."
# This string can now be sent to GPT-3 for further processing
print(f"LLM Prompt: {context_string} Describe the potential activity.")
AI分野におけるGPT-3の位置づけを理解するには、類似技術との区別が必要です。
その強力さにもかかわらず、GPT-3はリソース集約型であり、効率的な運用には強力なGPUが必要です。また、モデルが誤った事実を自信を持って提示するLLMにおけるハルシネーションという課題にも直面しています。さらに、モデルが学習データに存在するアルゴリズムバイアスを意図せず再現する可能性があるため、ユーザーはAI倫理に留意する必要があります。
ビジョンと言語の両方を含む複雑なパイプラインを構築しようとしている開発者は、LLM APIと統合する前に、Ultralytics Platformを利用してデータセットを管理し、特殊なビジョンモデルをトレーニングできます。基礎となるメカニズムをより深く理解するために、元の研究論文Language Models are Few-Shot Learnersは包括的な技術詳細を提供しています。

未来の機械学習で、新たな一歩を踏み出しましょう。