OpenAIの強力な1750億パラメータLLM、GPT-3を探求しましょう。そのアーキテクチャ、NLPタスク、Ultralytics と組み合わせて視覚言語アプリケーションを構築する方法について学びます。
Generative Pre-trained Transformer 3(通称GPT-3)は、OpenAIが開発した高度な大規模言語モデル(LLM)であり、深層学習を用いて人間のようなテキストを生成する。GPTシリーズの第三世代モデルとして、リリース時に自然言語処理(NLP)能力において飛躍的な進歩をもたらした。入力テキストを処理し、文脈内で最も可能性の高い次単語を予測することで、GPT-3はエッセイやコードの記述から言語翻訳まで、特定のタスクを必要とせずに多様な作業を遂行できる。 。入力テキストを処理し、文脈の中で最も可能性の高い次の単語を予測することで、GPT-3は 個々のタスクごとに特別な訓練を必要とせずに、 論文やコードの生成から言語翻訳まで、 幅広いタスクを実行できる。この能力は 少数の学習例で学習する「few-shot learning」として知られる。
GPT-3はトランスフォーマーアーキテクチャを基盤として構築されており、 特にデコーダのみの構造を採用しています。その規模は膨大で、1,750億もの機械学習パラメータを備えており、 言語、文脈、構文のニュアンスを高精度で捉えることが可能です。このモデルは、書籍、記事、ウェブサイトなど、 インターネット上の膨大なテキストデータコーパスを用いて、広範な教師なし学習を経ています。
推論時、ユーザーはプロンプトエンジニアリングを通じてモデルと対話する。構造化されたテキスト入力を提供することで、ユーザーはモデルを誘導し、技術文書の要約や創造的なアイデアのブレインストーミングなど、特定の出力を生成させる。
GPT-3の汎用性により、様々な業界にわたる数多くのアプリケーションを駆動することが可能である。
GPT-3はテキストベースのモデルですが、コンピュータビジョン(CV)から始まるパイプラインにおいて「頭脳」として機能することがよくあります。一般的なワークフローでは、高速物体検出器を用いて画像を分析し、その検出結果をGPT-3に投入して、物語的な説明文や安全報告書を生成します。
以下の例は、Ultralytics を使用してdetect 、 LLMに適したテキストプロンプトとして出力をフォーマットする方法を示しています:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for real-time edge performance)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to create a context string
detected_classes = [model.names[int(cls)] for cls in results[0].boxes.cls]
context_string = f"The image contains: {', '.join(detected_classes)}."
# This string can now be sent to GPT-3 for further processing
print(f"LLM Prompt: {context_string} Describe the potential activity.")
GPT-3がAIの領域においてどのような位置づけにあるかを理解するには、類似技術との区別が必要である:
その強力な性能にもかかわらず、GPT-3はリソースを大量に消費し、効率的な動作には高性能なGPUが必要である。また、大規模言語モデル(LLM)に共通する幻覚現象(モデルが誤った事実を確信を持って提示する現象)という課題にも直面している。さらに、モデルは訓練データに存在するアルゴリズム的バイアスを意図せず再現する可能性があるため、ユーザーはAI倫理に留意しなければならない。
複雑なビジョンと言語を組み合わせたパイプラインを構築したい開発者は、Ultralytics を活用してデータセットを管理し、特化型ビジョンモデルを訓練した後、LLM APIと統合できます。基盤となる仕組みを深く理解するには、研究論文「Language Models are Few-Shot Learners」が包括的な技術的詳細を提供しています。