YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

OpenAIのGPT-4oは、AIの可能性を示しています

Abirami Vina

5分で読めます

2024年5月14日

OpenAIの新しいGPT-4oを探索しましょう。高度なAIを搭載し、まるで生きているかのようなインタラクションで、テクノロジーとのコミュニケーション方法を変革します。その画期的な機能を探索してください!

2024年5月13日月曜日、OpenAIは新しいフラッグシップモデルであるGPT-4oの発売を発表しました。'o'は'omni'を表します。GPT-4oは、リアルタイムのテキスト、オーディオ、およびビジョンのインタラクションのための高度なマルチモーダルAIモデルであり、より高速な処理、多言語サポート、および強化された安全性を提供します。

これまでにない生成AI機能を提供します。ChatGPTの会話力を基盤として構築されたGPT-4oの機能は、人々がAIを認識する方法に大きな進歩をもたらします。まるで本物の人間のようにGPT-4oと話せるようになりました。GPT-4oが何ができるのかを詳しく見ていきましょう。

GPT-4oを知る

OpenAIの春のアップデートで、GPT-4oはGPT-4と同等の知能を持ちながら、データ処理が高速で、テキスト、ビジョン、オーディオの処理能力が向上していることが明らかになりました。モデルをよりスマートにすることに重点を置いていた以前のリリースとは異なり、今回のリリースでは、一般ユーザーがAIをより使いやすくする必要性を念頭に置いて作成されました。 

図1. OpenAIの春のアップデート

昨年末にリリースされたChatGPTの音声モードでは、音声入力を文字に起こし、記述された返答を理解して生成し、テキストを音声に変換してユーザーが応答を聞くことができるようにするために、3つの異なるモデルが連携していました。このモードでは、レイテンシーの問題に対処する必要があり、非常に自然であるとは感じられませんでした。GPT-4oは、テキスト、ビジョン、オーディオを一度にネイティブに処理して、ユーザーに自然な会話に参加しているような印象を与えることができます。 

また、音声モードとは異なり、GPT-4oが話している途中で中断できるようになり、まるで人のように反応します。一時停止して耳を傾け、あなたの発言に基づいてリアルタイムで応答します。また、声を通して感情を表現したり、あなたの口調を理解したりすることもできます。 

注目のGPT-4oの機能

GPT-4oのモデル評価は、その高度さを示しています。最も興味深い結果の1つは、GPT-4oがすべての言語、特にあまり使用されていない言語において、Whisper-v3と比較して音声認識を大幅に改善したことです。 

オーディオASR(自動音声認識)のパフォーマンスは、モデルが話し言葉をテキストにどれだけ正確に書き起こすかを測定します。GPT-4oのパフォーマンスは、単語誤り率(WER)によって追跡されます。これは、誤って書き起こされた単語の割合を示します(WERが低いほど品質が向上します)。下のグラフは、GPT-4oがさまざまな地域でWERが低いことを示しており、リソースの少ない言語の音声認識を改善する上での有効性を示しています。

Fig 2. GPT-4oは、複数の言語で優れた音声認識を備えています。

GPT-4oのよりユニークな機能をいくつかご紹介します。

  • より高速 - GPT-4 Turboの2倍の速さです。わずか232ミリ秒で音声入力に応答でき、人間の会話の応答時間とほぼ同じです。
  • 費用対効果 - GPT-4oのAPIバージョンは、GPT-4 Turboより50%安価です。
  • 記憶 - GPT-4oは、異なる会話間で認識を維持する能力を備えています。異なるチャットであなたが話している内容を記憶することができます。
  • 多言語対応 - GPT-4oは、50の異なる言語において、速度と品質が向上するようにトレーニングされています。

GPT-4oでできることの例

携帯電話でGPT-4oを取り出し、カメラをオンにして、友達にするようにGPT-4oに顔の表情に基づいて気分を推測するように依頼できます。GPT-4oはカメラを通してあなたを見て答えることができます。

図3. GPT-4oがビデオを通して人間の気分を理解する様子

ビデオを通してGPT-4oに書いているものを見せることで、数学の問題を解くのに役立てることさえできます。または、画面を共有して、カーンアカデミーで役立つ家庭教師になってもらい、下の図に示すように、幾何学で三角形のさまざまな部分を指摘してもらうこともできます。

図4. Khan Academyで家庭教師として機能するGPT-4o。

子供たちの算数の手伝いだけでなく、開発者はGPT-4oと会話してコードをデバッグできます。これは、ChatGPTがデスクトップアプリとして導入されたおかげです。デスクトップGPT-4o音声アプリと話しながら、CTRL + “C”を使用してコードを強調表示してコピーすると、コードを読み取ることができます。または、異なる言語を話す開発者間の会話を翻訳するために使用することもできます。 

GPt-4oの可能性は無限にあるようです。OpenAIの最も興味深いデモの1つは、2台の電話を使用して、GPt-4oがそれ自身の異なるインスタンスと会話したり、一緒に歌ったりする様子を示しました。

Fig 5. AI同士の会話と歌。

GPT-4oアプリケーション

デモで示されているように、GPT-4oは視覚障害のある人々にとって世界をよりアクセスしやすくすることができます。彼らがより安全かつ独立して対話し、動き回るのを助けることができます。たとえば、ユーザーはビデオをオンにして、GPT-4oに通りの様子を見せることができます。GPT-4oは、障害物の特定、道路標識の読み取り、特定の場所への誘導など、環境のリアルタイムの説明を提供できます。タクシーが近づいているときに警告することで、タクシーを呼ぶことさえできます。

Fig 6. GPT-4o によるタクシーの接近警告。

同様に、GPT-4oは、その高度な機能により、さまざまな業界を変革することができます。小売では、リアルタイムの支援、質問への回答、オンラインおよび店舗での製品検索の支援を提供することで、顧客サービスを向上させることができます。たとえば、棚に並んだ製品を見ていて、探している製品を選ぶことができない場合、GPT-4oが役立ちます。 

ヘルスケアにおいて、GPT-4oは患者データを分析し、症状に基づいて考えられる病状を示唆し、治療の選択肢に関するガイダンスを提供することで、診断を支援できます。また、患者記録の要約、医学文献への迅速なアクセス、異なる言語を話す患者とのコミュニケーションのためのリアルタイムな言語翻訳を提供することで、医療従事者をサポートできます。これらはほんの一例にすぎません。GPT-4oのアプリケーションは、調整されたコンテキスト認識型の支援を提供し、情報とコミュニケーションの障壁を取り除くことで、日常生活をより容易にします。

GPT-4oとモデルの安全性

何億もの人々の生活に影響を与えたGPTの以前のバージョンと同様に、GPT-4oはリアルタイムのオーディオおよびビデオとグローバルに対話する可能性が高く、安全性がこれらのアプリケーションにおいて重要な要素となります。OpenAIは、潜在的なリスクを軽減することに重点を置いてGPT-4oを構築することに非常に注意を払ってきました。

安全性と信頼性を確保するために、OpenAIは厳格な安全対策を実施しています。これには、トレーニングデータのフィルタリング、トレーニング後のモデルの動作の改良、音声出力を管理するための新しい安全システムの組み込みが含まれます。さらに、GPT-4oは、社会心理学、偏見と公平性、誤情報などの分野で70人以上の外部専門家によって広範囲にテストされています。外部テストにより、新機能によって導入または増幅されるリスクが特定され、対処されることが保証されます。

高い安全基準を維持するために、OpenAI は今後数週間かけて GPT-4o の機能を段階的にリリースします。段階的なロールアウトにより、OpenAI はパフォーマンスを監視し、問題に対処し、ユーザーからのフィードバックを収集できます。慎重なアプローチをとることで、GPT-4o は高度な機能を提供しながら、最高水準の安全性と倫理的な使用を維持できます。

GPT-4oを自分で試す

GPT-4oは無料でアクセスできます。上記のリアルタイム会話機能をお試しになるには、Google PlayストアまたはApple App StoreからChatGPTアプリを直接お使いの携帯電話にダウンロードしてください。 

ログイン後、画面の右上隅にある3つの点をタップして表示されるリストからGPT-4oを選択できます。GPT-4oが有効になっているチャットに移動した後、画面の左下隅にあるプラス記号をタップすると、複数の入力オプションが表示されます。画面の右下隅には、ヘッドホンアイコンが表示されます。ヘッドホンアイコンを選択すると、GPT-4oのハンズフリーバージョンを体験するかどうかを尋ねられます。同意すると、以下に示すようにGPT-4oを試すことができます。

図7:ChatGPTモバイルアプリでGPT-4oを試す。

GPT-4oの高度な機能を自分のプロジェクトに統合したい場合は、開発者向けのAPIとして利用できます。これにより、GPT-4oの強力な音声認識、多言語サポート、リアルタイムの会話機能をアプリケーションに組み込むことができます。APIを使用することで、ユーザーエクスペリエンスを向上させ、よりスマートなアプリを構築し、最先端のAIテクノロジーをさまざまな分野に導入できます。

GPT-4o:まだ人間には及ばない

GPT-4oは以前のAIモデルよりもはるかに高度ですが、GPT-4oには独自の制限があることを覚えておくことが重要です。OpenAIは、GPT-4oが会話中にランダムに言語を切り替え、英語からフランス語に変わることがあると述べています。また、GPT-4oが言語間で誤った翻訳を行うことも確認されています。より多くの人々がこのモデルを試すにつれて、GPT-4oがどこで優れており、さらに改善が必要な点はどこかを理解できるようになるでしょう。

結論

OpenAIのGPT-4oは、高度なテキスト、ビジョン、音声処理により、AIに新たな可能性をもたらし、自然で人間らしいインタラクションを提供します。速度、コスト効率、多言語サポートに優れており、教育、アクセシビリティ、リアルタイム支援に活用できる多用途なツールです。ユーザーがGPT-4oの機能を検証することで、フィードバックがその進化を促進します。GPT-4oは、AIが真に世界を変え、私たちの日常生活の一部になりつつあることを証明しています。 

AIについてさらに深く知りたい場合は、GitHubリポジトリをご覧いただき、コミュニティにご参加ください。ソリューションページでは、製造業農業など、AIが業界をどのように変革しているかをご紹介しています。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました