YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

OpenAIのGPT-4o Miniの能力に関する詳細な調査

Abirami Vina

6 min read

2024年7月25日

GPT-4o Miniの機能とアプリケーションをご覧ください。OpenAIの最新かつ最も費用対効果の高いモデルは、GPT-3.5 Turboよりも60%安価で高度なAI機能を提供します。

2024年5月、OpenAIはGPT-4oをリリースしましたが、わずか3ヶ月後には、またしても印象的なモデルであるGPT-4o Miniを発表しました。2024年7月18日、OpenAIはGPT-4o Miniを発表し、彼らはそれを「最も費用対効果の高いモデル」と呼んでいます!GPT-4o Miniは、以前のモデルの機能を基に構築されたコンパクトなモデルであり、高度なAIをよりアクセスしやすく、手頃な価格にすることを目指しています。

GPT-4o Miniは現在、テキストとビジョンのインタラクションをサポートしており、将来のアップデートで画像、ビデオ、オーディオを処理する機能が追加される予定です。この記事では、GPT-4o Miniとは何か、その優れた機能、使用方法、GPT-4とGPT-4o Miniの違い、およびさまざまなコンピュータビジョンのユースケースでの使用方法について説明します。GPT-4o Miniが提供するものを見てみましょう!

GPT-4o Miniとは?

GPT-4o Miniは、OpenAIのAIモデルのラインナップに新たに追加されたもので、より費用対効果が高く、アクセスしやすいように設計されています。これはマルチモーダル大規模言語モデル(LLM)であり、テキスト、画像、ビデオ、オーディオなど、さまざまな種類のデータを処理および生成できます。このモデルは、GPT-4やGPT-4oなどの以前のモデルの強みを基に構築されており、コンパクトなパッケージで強力な機能を提供します。 

GPT-4o Miniは、GPT-3.5 Turboよりも60%安価で、100万入力トークン(モデルが処理するテキストまたはデータの単位)あたり15セント、100万出力トークン(モデルが応答で生成する単位)あたり60セントです。それを理解するために、100万トークンは、約2,500ページのテキストの処理に相当します。128Kトークンのコンテキストウィンドウと、リクエストあたり最大16Kの出力トークンを処理できる機能を備えたGPT-4o Miniは、効率的かつ手頃な価格になるように設計されています。

__wf_reserved_inherit
Fig 1. GPT-4o MiniはGPT-3.5 Turboより60%安価です。

GPT-4o Miniの主な機能 

GPT-4o Miniは、さまざまなアプリケーションに最適なオプションとなる幅広いタスクをサポートしています。複数のAPIの呼び出し、完全なコードベースや会話履歴などの大量のデータの処理、カスタマーサポートチャットボットでの迅速なリアルタイム応答の提供など、複数の操作を同時に実行する場合に使用できます。

以下に、その他の主要な機能を紹介します。

  • 更新されたナレッジベース: モデルには、2023年10月までの情報が含まれています。
  • トークナイザーの改善:GPT-4o Miniにより、英語以外のテキストの処理がより費用対効果が高くなります。
  • ロバストな安全対策: これらの対策には、有害なコンテンツのフィルタリングや、プロンプトインジェクションやシステム操作などのセキュリティ問題からの保護が含まれます。

GPT-4o Miniを使ってみる 

ChatGPTインターフェースからGPT-4o Miniを試すことができます。これは、以下に示すように、GPT-3.5に代わるFree、Plus、およびTeamユーザーがアクセスできます。エンタープライズユーザーも、OpenAIのすべての人にAIの利点を提供するという目標に沿って、まもなくアクセスできるようになります。GPT-4o Miniは、その機能をアプリケーションに統合したい開発者向けに、APIからも利用できます。現時点では、ビジョン機能はAPIからのみアクセス可能です。

__wf_reserved_inherit
図2。ChatGPT内のモデルオプション。

GPT-4oとGPT-4o Miniの違い 

GPT-4o MiniとGPT-4oはどちらも、さまざまなベンチマークで優れたパフォーマンスを発揮します。GPT-4oは一般的にGPT-4o Miniよりも優れていますが、GPT-4o Miniは日常的なタスクに対して依然として費用対効果の高いソリューションです。ベンチマークには、推論タスク、数学とコーディングの習熟度、およびマルチモーダル推論が含まれます。下の画像に示すように、GPT-4o Miniのベンチマークは、他の一般的なモデルと比較して非常に高いです。

__wf_reserved_inherit
Fig 3. GPT-4o Miniと他の一般的なモデルとの比較。

GPT-4oとGPT-4o Miniを実際に使ってみる

オンラインで議論されている興味深いプロンプトは、一般的なLLMが10進数を誤って比較することです。GPT-4oとGPT-4o Miniをテストしたところ、その推論能力には明確な違いが見られました。下の画像では、どちらのモデルにも9.11と9.9のどちらが大きいかを尋ね、その理由を説明させました。

__wf_reserved_inherit
図4. GPT-4oとGPT-4o Miniのテスト。

どちらのモデルも最初は誤って応答し、9.11の方が大きいと主張します。しかし、GPT-4oは正しい答えを導き出すことができ、9.9の方が大きいと述べています。詳細な説明を提供し、小数を正確に比較します。対照的に、GPT-4o Miniは、9.9の方が大きい理由を理解しているにもかかわらず、最初の誤った答えを頑なに維持します。

どちらのモデルも強力な推論スキルを示しています。GPT-4oの自己修正能力は、より複雑なタスクに適しており、優れています。GPT-4o Miniは適応性は低いものの、より単純なタスクに対して明確で正確な推論を提供します。 

さまざまなコンピュータビジョンのユースケースでのGPT-4o Miniの使用

コードに深く入り込むことなくGPT-4o Miniのビジョン機能を試したい場合は、OpenAI PlaygroundでAPIを簡単にテストできます。GPT-4o Miniがさまざまなコンピュータビジョン関連のユースケースにどれだけ対応できるかを確認するために、実際に試してみました。

GPT-4o Miniを使用した画像分類

GPT-4o Mini に、2 つの画像、つまり蝶の画像と地図の画像を分類するように依頼しました。AI モデルは、蝶と地図を正しく識別しました。画像が非常に異なっているため、これはかなり単純なタスクです。

__wf_reserved_inherit
図5:GPT-4o Miniを利用した画像の分類。

さらに、モデルを通して 2 つの画像を実行しました。1 つは植物にとまっている蝶、もう 1 つは地面にとまっている蝶です。AI は再び素晴らしい仕事をし、植物にとまっている蝶と地面にとまっている蝶を正しく見つけました。そこで、さらに一歩進んでみました。

__wf_reserved_inherit
図6:GPT-4o Miniを利用した類似画像の分類。

次に、GPT-4o Mini に 2 つの画像を分類するように依頼しました。1 つは、トウワタの花の蜜を吸う蝶、もう 1 つはヒャクニチソウの花の蜜を吸う蝶です。モデルが、さらなる微調整なしに、非常に具体的なラベルを分類できたことは驚くべきことです。これらの簡単な例は、GPT-4o Mini がカスタムトレーニングを必要とせずに画像分類タスクに使用できる可能性があることを示しています。

__wf_reserved_inherit
図7. GPT-4o Miniを活用した詳細な画像の分類。

GPT-4o Miniを使用した姿勢の理解

現在のところ、物体検出インスタンスセグメンテーションのようなコンピュータビジョンタスクは、GPT-4o Miniを使用して処理できません。GPT-4oは精度に苦労しますが、そのようなタスクに使用できます。同様に、ポーズの理解に関して言えば、画像内のポーズを検出または推定することはできませんが、ポーズを分類して理解することはできます。

__wf_reserved_inherit
図8. GPT-4o Miniを使用して画像内のポーズを理解する。 

上の画像は、GPT-4o Miniがポーズの正確な座標を検出または推定できなくても、ポーズを分類および理解できることを示しています。これは、さまざまなアプリケーションで役立ちます。たとえば、スポーツ分析では、アスリートの動きを大まかに評価し、怪我の防止に役立ちます。同様に、理学療法では、リハビリ中に患者が正しい動きをしていることを確認するために、エクササイズの監視を支援できます。また、監視では、一般的なボディランゲージを分析して不審な行動を特定するのに役立ちます。GPT-4o Miniは特定のキーポイントを検出できませんが、一般的なポーズを分類する機能により、これらおよびその他の分野で役立ちます。

GPT-4o Miniが適しているアプリケーション

GPT-4o Mini でできることを見てきました。次に、GPT-4o Mini を使用するのが最適なアプリケーションについて説明します。

GPT-4o Miniは、高度な自然言語理解を必要とし、計算量が少ないアプリケーションに最適です。通常はコストが高すぎてAIを統合できないアプリケーションにAIを統合することが可能になります。実際、Artificial Analysisによる詳細な分析では、GPT-4o Miniは、他のほとんどのモデルと比較して、非常に高速な速度で高品質の応答を提供することが示されています。

__wf_reserved_inherit
Fig 9. GPT-4o Miniの品質対出力速度。

将来的に重要な役割を果たす可能性のある分野をいくつかご紹介します。

  • バーチャルアシスタントとチャットボット: GPT-4o Miniは、迅速かつスマートな応答を提供し、ユーザーインタラクションを向上させることができます。
  • 教育ツール:このモデルは、パーソナライズされた個別指導やコンテンツ生成を提供するツールを構築するために使用できます。
  • 生産性向上ツール: ドキュメントの要約、メールの作成、言語の翻訳などのタスクを改善し、効率を高めることができます。
  • 言語翻訳: GPT の最新バージョンは、異なる言語間のより良いコミュニケーションのために、正確でリアルタイムな言語翻訳を提供する翻訳者を開発するために使用できます。

GPT-4o Miniは新たな扉を開きます

GPT-4o Miniは、マルチモーダルAIの未来に新たな機会を創出しています。各テキストまたはデータの処理にかかる費用(トークンあたりのコストとして知られています)は、GPT-3モデルであるtext-davinci-003がリリースされた2022年以降、ほぼ99%も大幅に減少しました。コストの減少は、高度なAIを手頃な価格にするという明確な傾向を示しています。AIモデルが改善し続けるにつれて、AIをすべてのアプリとWebサイトに統合することが経済的に実行可能になる可能性がますます高まっています!

AIを実際に体験してみませんか?GitHubリポジトリにアクセスして、当社のイノベーションをご覧になり、活発なコミュニティに参加してください。当社のソリューションページで、製造業農業におけるAIアプリケーションの詳細をご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました