YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

OpenAIの最新アップデート:Canvas、Vision Fine-Tuningなど

Abirami Vina

4分で読めます

2024年11月7日

OpenAIがリリースした最新のChatGPTアップデートを詳しく見ていきます。Canvas、ビジョン機能のファインチューニング、最新の検索機能について解説します。

9月にOpenAIのo1モデル(推論を改善するように設計されました)を最後に見てから、多くの新しくエキサイティングな機能がChatGPTに追加されました。これらのリリースのいくつかは開発者向けであり、その他はユーザーエクスペリエンスを向上させるように設計されています。全体として、各アップグレードはChatGPTとのやり取りをより直感的で効果的にするのに役立ちます。

共同での執筆やコーディングを目的としたCanvasのようなアップデートや、ChatGPTが画像を扱う方法を改善するビジョン機能微調整などにより、多くの関心が集まり、ユーザーはより創造的な可能性を模索するようになっています。一方、新しいAPIや公平性テストレポートのような技術的なアップグレードは、モデルの統合倫理的なAIの実践といった側面に対応しています。OpenAIの最新ChatGPT機能をより深く理解するために、詳しく見ていきましょう。

OpenAIのキャンバス機能の概要

Canvasは、ChatGPTのリリース以来、初の主要なユーザーインターフェース(UI)のアップデートです。これは、2画面レイアウトの新しいインターフェースで、左側のサイドバーにプロンプト、右側のウィンドウに応答が表示されます。新しいUIは、チャットのようなシングルスクリーン構造の通常のワークフローを排除し、生産性を向上させるためのマルチタスクに適した2画面レイアウトに移行します。

図1. CanvasがChatGPTにUIアップデートをもたらす。

Canvasが導入される前は、ChatGPTで長文のドキュメントを扱うには、かなりスクロールする必要がありました。新しいレイアウトでは、プロンプトが左側のサイドバーに表示され、テキストドキュメントまたはコードスニペットが画面の大部分を占めます。必要に応じて、左側のサイドバーと出力画面のサイズをカスタマイズすることもできます。また、テキストの一部またはコードのセクションを選択して、ドキュメント全体を変更せずに特定のセクションを編集できます。

図2. キャンバスを使用してテキストの特定セクションを編集。

Canvasを使用する場合、ChatGPTのインターフェースにCanvasを開くための特定のボタンやトグルがないことに気づくでしょう。代わりに、GPT-4oモデルを使用している場合、編集執筆、またはコーディングをしていることを検出すると、Canvasが自動的に開きます。より単純なプロンプトの場合、Canvasは非アクティブのままです。手動で開きたい場合は、「Canvasを開く」または「Canvasのレイアウトを表示する」のようなプロンプトを使用できます。

現在、Canvasはベータ版であり、GPT-4oでのみ利用可能です。ただし、OpenAIは、Canvasがベータ版からリリースされると、すべての無料ユーザーが利用できるようになると述べています。

ChatGPTのAPIアップデート

OpenAIは、効率性、拡張性、汎用性の向上を目的とした3つの新しいChatGPT APIアップデートをリリースしました。これらのアップデートについて詳しく見ていきましょう。

モデル蒸留

OpenAI APIを介したモデル蒸留機能を使用すると、開発者はGPT-4oやo1-previewなどの高度なモデルの出力を利用して、GPT-4o miniのようなより小型で費用対効果の高いモデルのパフォーマンスを向上させることができます。モデル蒸留とは、より高度なモデルの動作を模倣するように小型モデルをトレーニングし、特定のタスクに対してより効率的にするプロセスです。

この機能が導入される前は、開発者はさまざまなツールを使用して、さまざまなタスクを手動で調整する必要がありました。これらのタスクには、データセットの生成、モデル性能の測定、モデルの微調整が含まれており、プロセスが複雑になり、エラーが発生しやすくなっていました。Model Distillationアップデートにより、開発者はStored Completionsを使用できます。これは、APIを通じて高度なモデルによって生成された入出力ペアをキャプチャして保存することにより、自動的にデータセットを生成できるツールです。

Model Distillationのもう一つの機能であるEvals(現在ベータ版)は、カスタムの評価スクリプトを作成したり、別のツールを使用したりせずに、特定のタスクでモデルがどの程度うまく機能するかを測定するのに役立ちます。Stored Completionsで生成されたデータセットを使用し、Evalsでパフォーマンスを評価することで、開発者は独自のカスタムGPTモデルを微調整できます。

Fig 3. Evalsを使用して、モデルのパフォーマンスを測定できます。

プロンプトキャッシュ

AIアプリケーション、特にチャットボットを構築する際、同じコンテキスト(現在のリクエストを理解するために必要な背景情報または以前の会話履歴)が複数のAPI呼び出しで繰り返し使用されることがよくあります。プロンプトキャッシュを使用すると、開発者は最近使用した入力トークン(モデルがプロンプトを理解し、応答を生成するために処理するテキストのセグメント)を再利用できるため、コストとレイテンシの削減に役立ちます。

10月1日から、OpenAIはGPT-4o、GPT-4o mini、o1-preview、o1-miniのようなモデルにプロンプトキャッシュを自動的に適用しました。これは、開発者がAPIを使用して、長いプロンプト(1,024トークンを超える)でモデルと対話する場合、システムはすでに処理した部分を保存することを意味します。 

これにより、同じまたは類似のプロンプトが再度使用された場合、それらの部分の再計算を省略できます。システムは、以前に遭遇したプロンプトの最長部分を自動的にキャッシュします。最初は1,024トークンから始まり、プロンプトが長くなるにつれて128トークンずつ追加されます。

リアルタイム API

音声アシスタントの作成には通常、音声をテキストに書き起こし、テキストを処理し、応答を再生するために音声を音声に変換する必要があります。OpenAIのRealtime APIは、このプロセス全体を1つのAPIリクエストで処理することを目的としています。プロセスを簡素化することで、APIはAIとのリアルタイム会話を可能にします。 

例えば、Realtime API と統合された音声アシスタントは、ユーザーのリクエストに基づいて、注文情報検索などの特定のアクションを実行できます。この API により、音声アシスタントはより応答性が高く、ユーザーのニーズに迅速に適応できます。Realtime API は 10 月 1 日にパブリックベータ版として公開され、6 つの声が利用可能になりました。10 月 30 日には、さらに 5 つの声が追加され、合計 11 の声が利用可能になりました。

図4. Realtime APIを使用して、新しい言語での会話を練習する例。

ChatGPTのビジョンタスクへのファインチューニング

当初、GPT-4oビジョン言語モデルは、テキストのみのデータセットを使用してのみ、微調整およびカスタマイズできました。現在、ビジョン微調整APIのリリースにより、開発者は画像データセットを使用してGPT-4oをトレーニングおよびカスタマイズできます。リリース以来、ビジョン微調整は、開発者およびコンピュータビジョンエンジニアの間で大きな関心を集めています。

GPT-4oの視覚機能を微調整するために、開発者は100枚程度の画像から50,000枚もの画像に及ぶ画像データセットを使用できます。データセットがOpenAIで求められる形式に合致していることを確認した後、OpenAIプラットフォームにアップロードし、特定のアプリケーションに合わせてモデルを微調整できます。 

例えば、自動化企業のAutomatは、スクリーンショットのデータセットを使用して、GPT-4oをトレーニングし、説明に基づいて画面上のUI要素を識別できるようにしました。これにより、ボットがユーザーインターフェースとより簡単にやり取りできるようになり、ロボティック・プロセス・オートメーション(RPA)が効率化されます。固定された座標や複雑なセレクター規則に頼る代わりに、モデルは簡単な説明に基づいてUI要素を識別できるため、インターフェースが変更された場合でも、自動化設定の適応性と保守性が向上します。

Fig 5. GPT-4oモデルのファインチューニングされたバージョンを使用して、UI要素を検出。

ChatGPTの公平性とバイアス検出

AIアプリケーションを取り巻く倫理的な懸念は、AIがますます高度になるにつれて、会話の主要なトピックになっています。ChatGPTの応答は、ユーザーが提供するプロンプトとインターネット上で利用可能なデータに基づいているため、その言語を常に責任あるものになるように微調整することは困難な場合があります。報告によると、ChatGPTの回答は、名前、性別、人種に関して偏見があるとのことです。この問題に対処するために、OpenAIの社内チームは第一者の公平性テストを実施しました。

名前は、私たちの文化や地理的な要因に関する微妙な手がかりを含んでいることがよくあります。ほとんどの場合、ChatGPTは名前の微妙な手がかりを無視します。しかし、人種や文化を反映した名前の場合、ChatGPTからの応答が異なることがあり、そのうち約1%が有害な言語を反映しています。言語モデルにとって、偏見や有害な言語を排除することは困難な課題です。しかし、OpenAIはこれらの調査結果を公に共有し、モデルの限界を認識することで、ユーザーがより中立的で偏りのない回答を得るためにプロンプトを改善するのに役立ちます。 

Fig 6. ユーザー名が異なることによる応答の相違の例。

ChatGPT検索の理解

ChatGPTが最初に公開されたとき、AIコミュニティでは、それが従来のウェブブラウジングに取って代わる可能性があるかどうかについて議論がありました。現在、多くのユーザーがGoogle検索の代わりにChatGPTを使用しています。 

OpenAIの新しいアップデートである検索機能は、これをさらに一歩進めます。検索機能により、ChatGPTは最新の応答を生成し、関連ソースへのリンクを含めます。10月31日の時点で、検索機能はすべてのChatGPT PlusおよびTeamユーザーが利用できるようになり、ChatGPTはAI搭載の検索エンジンのように機能するようになります。

図7。ChatGPTの新しい検索機能の使用例。

今後の展望

ChatGPTの最近のアップデートは、AIをより便利で柔軟、かつ公平にすることに重点を置いています。新しいCanvas機能は、ユーザーがより効率的に作業できるように支援し、ビジョンファインチューニングにより、開発者は視覚タスクをより適切に処理するようにモデルをカスタマイズできます。公平性への取り組みとバイアスの軽減も重要な優先事項であり、AIが誰にとっても適切に機能することを保証します。モデルを微調整する開発者であれ、最新機能を使用するだけであれ、ChatGPTは幅広いニーズを満たすように進化しています。リアルタイム機能、視覚的な統合、責任ある使用に焦点を当てることで、これらのアップデートは、すべての人にとってより信頼できるAIエクスペリエンスを構築します。

AIについてさらに詳しく知りたい場合は、GitHubリポジトリをご覧いただき、コミュニティにご参加ください。自動運転ヘルスケアにおけるAIの応用について詳しくご紹介しています。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました