AIの可能性を示す OpenAI の GPT-4o
OpenAI の新しい GPT-4o を探ります。テクノロジーとのコミュニケーション方法を変える、人間のようなインタラクションを備えた高度なAIを搭載しています。革新的な機能をご覧ください!

2024年5月13日(月)、OpenAIは新しいフラッグシップモデルGPT-4oを発表しました。ここで「o」は「omni(オムニ)」を意味します。GPT-4oは、テキスト、音声、視覚のリアルタイム対話を実現する高度なマルチモーダルAIモデルであり、処理の高速化、多言語サポート、安全性の向上を実現しています。
これまでにない生成AI機能が提供されます。ChatGPTの会話能力をベースにしたGPT-4oの機能は、人々がAIをどのように認識するかという点で大きな前進です。私たちは今、まるで実在する人間と話すかのようにGPT-4oと会話することができます。GPT-4oの能力を詳しく見ていきましょう。
Link to this sectionGPT-4oを知る#
OpenAIの春のアップデートで明らかになったのは、GPT-4oはGPT-4と同等の知性を持ちながら、より高速なデータ処理が可能で、テキスト、視覚、音声をより適切に扱えるようになったということです。モデルの知能を高めることに焦点を当てた以前のリリースとは異なり、今回のリリースは、一般ユーザーにとってAIをより使いやすくする必要性を念頭に置いて作成されました。

図1 OpenAIの春のアップデート
昨年末にリリースされたChatGPTの音声モードでは、音声入力の文字起こし、書き言葉による返答の理解と生成、そしてテキストを音声に変換してユーザーに聞かせるという3つの異なるモデルが組み合わされていました。このモードではレイテンシの問題があり、あまり自然とは言えませんでした。GPT-4oは、テキスト、視覚、音声をネイティブに一度に処理できるため、ユーザーは自然な会話に参加しているような印象を受けることができます。
また、音声モードとは異なり、GPT-4oが話している途中で割り込むことができ、人間と同じように反応してくれます。一時停止して話を聞き、あなたが言ったことに基づいてリアルタイムで回答を返します。さらに、声を通じて感情を表現したり、あなたのトーンを理解したりすることも可能です。
Link to this sectionエキサイティングなGPT-4oの機能#
GPT-4oのモデル評価は、その先進性を物語っています。最も興味深い結果の一つは、GPT-4oがあらゆる言語、特に一般的にあまり使用されない言語において、Whisper-v3と比較して音声認識が大幅に改善されていることです。
オーディオASR(自動音声認識)のパフォーマンスは、モデルが話し言葉をどれだけ正確にテキストに書き起こせるかを測定します。GPT-4oのパフォーマンスは単語誤り率(WER)によって追跡されており、これは誤って書き起こされた単語の割合を示します(WERが低いほど品質が高いことを意味します)。下のチャートは、さまざまな地域におけるGPT-4oの低いWERを示しており、リソースの少ない言語の音声認識を改善する上での有効性を証明しています。

図2 GPT-4oは多言語において優れた音声認識性能を発揮します。
GPT-4oのその他のユニークな機能をご紹介します。
- 高速 - GPT-4 Turboの2倍の速さです。音声入力にわずか232ミリ秒で応答でき、人間の会話の応答時間に近いパフォーマンスを発揮します。
- コスト効率 - GPT-4oのAPIバージョンは、GPT-4 Turboよりも50%安価です。
- メモリ - GPT-4oには、異なる会話間でも情報を保持する能力があります。異なるチャットで何を話していたかを記憶できます。
- 多言語対応 - GPT-4oは、50の異なる言語において速度と品質が向上するように学習されています。
Link to this sectionGPT-4oでできることの例#
携帯電話でGPT-4oを立ち上げ、カメラをオンにして、友人にするように「私の表情から気分を当ててみて」と頼むことができます。GPT-4oはカメラを通じてあなたを見て回答してくれます。

図3 ビデオを通じて人間の気分を理解するGPT-4o。
ビデオで書いているものを見せることで、数学の問題を解く手助けをしてもらうこともできます。あるいは、画面を共有すれば、以下に示すように、Khan Academyで役立つ家庭教師として、幾何学の三角形のさまざまな部分を指摘するように求めてくることもあります。

図4 Khan Academyで家庭教師を務めるGPT-4o。
子供たちの数学を助けるだけでなく、開発者はGPT-4oと会話してコードのデバッグを行うことができます。これは、デスクトップアプリとしてChatGPTが導入されたおかげで可能になりました。デスクトップ版GPT-4oの音声アプリで話しながら、CTRL + Cを使ってコードをコピーすれば、コードを読み取ることができます。また、異なる言語を話す開発者間の会話を通訳するために使用することもできます。
GPT-4oの可能性は無限に思えます。OpenAIの最も興味深いデモの一つでは、2台のスマートフォンを使用して、GPT-4oが自身の異なるインスタンス同士で話し、一緒に歌う様子が披露されました。

図5 AIと会話して歌うAI。
Link to this sectionGPT-4oのアプリケーション#
デモで示されたように、GPT-4oは視覚障害を持つ人々にとって世界をより利用しやすくすることができます。より安全かつ自立して対話し、移動する手助けをします。例えば、ユーザーがビデオをオンにして通りの風景をGPT-4oに見せることができます。GPT-4oは、障害物の特定、道路標識の読み上げ、特定の場所への案内など、環境のリアルタイムの説明を提供できます。タクシーが近づいたときにアラートを出すことで、タクシーを拾う手助けさえ可能です。

図6 タクシーの接近を知らせるGPT-4o。
同様に、GPT-4oはその高度な機能によってさまざまな産業を変革できます。小売においては、リアルタイムのサポートを提供し、質問に回答し、オンラインおよび店舗の両方で顧客が製品を見つける手助けをすることで、カスタマーサービスを向上させることができます。例えば、製品の棚を見ていて探している商品が見つからない場合、GPT-4oがサポートします。
ヘルスケアにおいては、GPT-4oは患者データを分析し、症状に基づいた考えられる病状を示唆し、治療選択肢に関するガイダンスを提供することで、診断を支援できます。また、患者の記録を要約したり、医学文献への迅速なアクセスを提供したり、異なる言語を話す患者とコミュニケーションをとるためにリアルタイムの翻訳を提供したりすることで、医療専門家をサポートします。これらはほんの一例に過ぎません。GPT-4oのアプリケーションは、文脈に応じた調整済みのサポートを提供し、情報とコミュニケーションの壁を取り払うことで、日常生活をより快適にします。
Link to this sectionGPT-4oとモデルの安全性#
数億人の人々に影響を与えてきたこれまでのGPTのバージョンと同様に、GPT-4oもグローバルにリアルタイムの音声やビデオとやり取りすることになるため、これらのアプリケーションにおいて安全性は極めて重要な要素となります。OpenAIは、潜在的なリスクを軽減することに重点を置いてGPT-4oを構築することに細心の注意を払っています。
安全性と信頼性を確保するため、OpenAIは厳格な安全対策を実施しています。これには、学習データのフィルタリング、学習後のモデル動作の調整、音声出力を管理するための新しい安全システムの組み込みが含まれます。さらに、GPT-4oは、社会心理学、偏見と公平性、誤情報などの分野の70人以上の外部専門家によって広範囲にテストされました。外部テストにより、新機能によって導入または増幅されるリスクが確実に特定され、対処されるようにしています。
高い安全基準を維持するために、OpenAIは今後数週間かけてGPT-4oの機能を段階的にリリースします。段階的なロールアウトにより、OpenAIはパフォーマンスを監視し、問題を解決し、ユーザーのフィードバックを収集することができます。慎重なアプローチをとることで、GPT-4oは最高の安全性と倫理的な使用基準を維持しながら、高度な機能を提供します。
Link to this sectionGPT-4oを試してみる#
GPT-4oは無料で利用できます。上記のリアルタイム会話機能を試すには、Google PlayストアまたはApple App StoreからChatGPT appをスマートフォンに直接ダウンロードしてください。
ログイン後、画面右上の3つの点をタップして表示されるリストからGPT-4oを選択できます。GPT-4oが有効なチャットに移動したら、画面左下のプラス記号をタップすると、複数の入力オプションが表示されます。画面右下にはヘッドフォンアイコンがあります。ヘッドフォンアイコンを選択すると、ハンズフリー版のGPT-4oを体験するかどうか尋ねられます。同意すると、以下のようにGPT-4oを試すことができます。

図7. ChatGPTモバイルアプリでGPT-4oを試す。
GPT-4oの高度な機能を独自のプロジェクトに統合したい場合は、開発者向けAPIとして利用可能です。これにより、GPT-4oの強力な音声認識、多言語サポート、リアルタイムの会話機能をアプリケーションに組み込むことができます。APIを使用することで、ユーザー体験を向上させ、よりスマートなアプリを構築し、最先端のAI技術をさまざまなセクターにもたらすことができます。
Link to this sectionGPT-4o:まだ人間そのものではない#
GPT-4oは以前のAIモデルよりもはるかに高度ですが、GPT-4oには独自の限界があることを覚えておくことが重要です。OpenAIは、話している途中で突然言語を切り替えたり(例:英語からフランス語)、異なる言語間で誤った翻訳を行う場合があることに言及しています。より多くの人がモデルを試すにつれて、GPT-4oがどこに優れており、どこにさらなる改善が必要かが理解されていくでしょう。
Link to this section結論#
OpenAIのGPT-4oは、高度なテキスト、視覚、音声処理を備え、自然で人間のようなインタラクションを提供することで、AIの新しい扉を開きます。速度、コスト効率、多言語サポートの点で優れています。GPT-4oは、教育、アクセシビリティ、リアルタイムの支援のための汎用性の高いツールです。ユーザーがGPT-4oの機能を探索するにつれて、フィードバックがその進化を促進します。GPT-4oは、AIが真に私たちの世界を変え、日常生活の一部になりつつあることを証明しています。
私たちのGitHub repositoryを探索し、communityに参加して、AIについてさらに深く学んでください。製造業や農業といった産業をAIがどのように変革しているかについては、ソリューションページをご覧ください。






