OpenAIのGPT-4o Miniの機能についての詳細解説
GPT-4o Miniの機能とアプリケーションを探求しましょう。OpenAIの最新で最もコスト効率の高いこのモデルは、GPT-3.5 Turboより60%安価でありながら高度なAI機能を提供します。

2024年5月、OpenAIはGPT-4oをリリースしましたが、それからわずか3か月後、さらに印象的なモデルであるGPT-4o Miniを発表しました。2024年7月18日、OpenAIはGPT-4o Miniを導入しました。同社はこれを「最も費用対効果の高いモデル」と呼んでいます!GPT-4o Miniは、これまでのモデルの機能をベースに構築されたコンパクトなモデルであり、高度なAIをより利用しやすく、かつ手頃な価格で提供することを目指しています。
GPT-4o Miniは現在、テキストと視覚情報のインタラクションをサポートしており、今後のアップデートで画像、動画、音声を処理する機能が追加される予定です。この記事では、GPT-4o Miniとは何か、その優れた機能、使用方法、GPT-4とGPT-4o Miniの違い、そして様々なコンピュータビジョンのユースケースでどのように活用できるかを探っていきます。GPT-4o Miniの可能性について見ていきましょう!
Link to this sectionGPT-4o Miniとは?#
GPT-4o Miniは、OpenAIのAIモデルラインナップにおける最新の追加モデルであり、費用対効果とアクセシビリティを追求して設計されています。これはマルチモーダルな大規模言語モデル (LLM)であり、テキスト、画像、動画、音声など、異なるタイプのデータを処理および生成することができます。このモデルは、GPT-4やGPT-4oといった従来のモデルの強みを活かし、コンパクトなパッケージで強力な機能を提供します。
GPT-4o MiniはGPT-3.5 Turboよりも60%安価で、100万入力トークン(モデルが処理するテキストやデータの単位)あたり15セント、100万出力トークン(モデルが応答として生成する単位)あたり60セントのコストです。これを具体的に説明すると、100万トークンはテキスト約2,500ページ分を処理する量に相当します。128Kトークンのコンテキストウィンドウと、リクエストごとに最大16Kの出力トークンを処理できる機能を備えたGPT-4o Miniは、効率的かつ手頃な価格になるよう設計されています。

図1. GPT-4o MiniはGPT-3.5 Turboより60%安価です。
Link to this sectionGPT-4o Miniの主な機能#
GPT-4o Miniは、様々なアプリケーションに最適な選択肢となる幅広いタスクをサポートしています。複数のAPIを呼び出したり、コードベース全体や会話履歴などの大量のデータを扱ったり、カスタマーサポートチャットボットで迅速かつリアルタイムな応答を提供したりするなど、複数の操作を同時に実行する場合に使用できます。
その他の主な機能は以下の通りです。
- 更新された知識ベース: このモデルには2023年10月までの情報が含まれています。
- 改良されたトークナイザー: GPT-4o Miniは、英語以外のテキスト処理をより費用対効果の高いものにします。
- 堅牢な安全対策: これらの対策には、有害なコンテンツのフィルタリングや、プロンプトインジェクションやシステム操作などのセキュリティ問題からの保護が含まれます。
Link to this sectionGPT-4o Miniを使い始める#
ChatGPTのインターフェースを通じてGPT-4o Miniを試すことができます。Free、Plus、Teamユーザーが利用可能で、以下のようにGPT-3.5に代わるものとなります。Enterpriseユーザーも、AIの恩恵をすべての人に提供するというOpenAIの目的に沿って、まもなく利用できるようになります。GPT-4o Miniは、その機能をアプリケーションに統合したい開発者向けにAPIを通じても提供されています。現時点では、視覚機能はAPI経由でのみ利用可能です。

図2. ChatGPT内のモデルオプション。
Link to this sectionGPT-4oとGPT-4o Miniの違い#
GPT-4oとGPT-4o Miniはどちらも、様々なベンチマークで素晴らしいパフォーマンスを発揮します。一般的にGPT-4oの方がGPT-4o Miniを上回りますが、GPT-4o Miniは日常的なタスクにおいて依然として費用対効果の高いソリューションです。ベンチマークには、推論タスク、数学とコーディングの習熟度、マルチモーダル推論が含まれます。以下の画像に示すように、GPT-4o Miniは他の人気モデルと比較しても非常に高いスコアを記録しています。

図3. GPT-4o Miniと他の人気モデルの比較。
Link to this sectionGPT-4oとGPT-4o Miniを実際に試す#
オンラインで議論されている興味深いプロンプトの1つに、人気LLMが小数値を誤って比較するというものがあります。GPT-4oとGPT-4o Miniでテストしてみると、その推論能力には明確な違いが見られました。以下の画像では、両方のモデルに「9.11と9.9のどちらが大きいか」を尋ね、その推論を説明させました。

図4. GPT-4oとGPT-4o Miniのテスト。
両モデルとも最初は誤った回答をし、9.11の方が大きいと主張します。しかし、GPT-4oは推論を経て正しい答えにたどり着き、9.9の方が大きいと述べます。詳細な説明を提供し、小数値を正確に比較しています。対照的に、GPT-4o Miniは、9.9の方が大きい理由を正しく導き出せたにもかかわらず、頑固に最初の誤った回答を維持します。
どちらのモデルも強力な推論能力を示しています。GPT-4oの自己修正能力は、より複雑なタスクにおいて優れており有用です。GPT-4o Miniは適応力は劣るものの、単純なタスクに対しては依然として明確かつ正確な推論を提供します。
Link to this sectionGPT-4o Miniを様々なコンピュータビジョンのユースケースに使用する#
コードを書かずにGPT-4o Miniの視覚機能を調べてみたい場合は、OpenAI Playgroundで簡単にAPIをテストできます。GPT-4o Miniが様々なコンピュータビジョン関連のユースケースをどれだけうまく処理できるか、実際に試してみました。
Link to this sectionGPT-4o Miniを使用した画像分類#
GPT-4o Miniに2つの画像を分類するように依頼しました。1つは蝶、もう1つは地図の画像です。AIモデルは蝶と地図を正しく識別しました。画像が大きく異なるため、これはかなり単純なタスクです。

図5. GPT-4o Miniを使用した画像分類。
さらに2つの画像、つまり植物の上で休んでいる蝶の画像と、地面で休んでいる蝶の画像を入力しました。AIはまたしても素晴らしい働きをし、植物の上にいる蝶と地面にいる蝶を正しく見つけました。そこで、さらにもう一段階進めてみました。

図6. GPT-4o Miniを使用した類似画像の分類。
次に、GPT-4o Miniに2つの画像を分類させました。1つはスワンプミルクウィードの花で食事をする蝶、もう1つは百日草の花で食事をする蝶です。モデルが追加のファインチューニングなしで、これほど特定のラベルを分類できたことは驚異的です。これらの簡単な例は、GPT-4o Miniがカスタムトレーニングを必要とせずに画像分類タスクに使用できる可能性を示しています。

図7. GPT-4o Miniを使用した詳細画像の分類。
Link to this sectionGPT-4o Miniを使用した姿勢の理解#
現在、物体検出やインスタンスセグメンテーションのようなコンピュータビジョンタスクは、GPT-4o Miniを使用して処理することはできません。GPT-4oは精度に苦労しますが、そのようなタスクに使用することは可能です。同様に、姿勢の理解に関して、画像内の姿勢を検出または推定することはできませんが、姿勢を分類して理解することはできます。

図8. GPT-4o Miniを使用した画像内の姿勢の理解。
上の画像は、GPT-4o Miniが姿勢の正確な座標を検出または推定できなくても、姿勢を分類および理解できることを示しています。これは様々なアプリケーションで役立ちます。例えば、スポーツ分析では、アスリートの動きを大まかに評価して怪我を予防するのに役立ちます。同様に、理学療法では、患者がリハビリ中に正しい動きをしているかを確認するためのモニタリングを支援できます。また、監視においても、一般的なボディランゲージを分析して不審な行動を特定するのに役立ちます。GPT-4o Miniは特定のキーポイントを検出できませんが、一般的な姿勢を分類できるため、これらの分野や他の分野で有用です。
Link to this sectionGPT-4o Miniが適しているアプリケーション#
GPT-4o Miniで何ができるかを見てきました。次に、GPT-4o Miniの使用が最適となるアプリケーションについて説明しましょう。
GPT-4o Miniは、高度な自然言語理解を必要とし、計算フットプリントが小さいアプリケーションに最適です。通常であれば高コストになるようなアプリケーションにもAIを統合できるようになります。Artificial Analysisによる詳細な分析では、GPT-4o Miniは他のほとんどのモデルと比較して、超高速で高品質な応答を提供することが示されています。

図9. GPT-4o Miniの品質対出力速度。
将来的に輝きを放つ可能性のある主要な領域をいくつか紹介します。
- バーチャルアシスタントとチャットボット: GPT-4o Miniは、迅速かつスマートな応答を提供し、ユーザーのやり取りを改善できます。
- 教育ツール: このモデルを使用して、パーソナライズされた個別指導やコンテンツ生成を提供するツールを構築できます。
- 生産性向上ツール: 文書の要約、メールのドラフト作成、言語翻訳などのタスクを改善して、効率を高めることができます。
- 言語翻訳: 最新バージョンのGPTは、異なる言語間でのより良いコミュニケーションのために、正確でリアルタイムの言語翻訳を提供する翻訳エンジンの開発に使用できます。
Link to this sectionGPT-4o Miniが開く新しい扉#
GPT-4o Miniは、マルチモーダルAIの未来に新たな可能性を生み出しています。GPT-3モデルであるtext-davinci-003がリリースされた2022年以来、トークンあたりのコストとして知られる各テキストやデータの処理費用は、99%近くまで大幅に減少しました。コストの減少は、高度なAIをより手頃な価格にするという明確な傾向を示しています。AIモデルが進化し続けるにつれ、あらゆるアプリやウェブサイトにAIを統合することが経済的に現実的になる可能性が高まっています!
AIを実際に試してみたいですか?私たちのGitHubリポジトリにアクセスしてイノベーションを確認し、活発なコミュニティに参加してください。当社のソリューションページで、製造業や農業におけるAIの応用についてさらに詳しく知ることができます。






