前回9月にOpenAIのo1モデル(推論を改善するために設計された)を見てから、ChatGPTに多くの新しくエキサイティングな機能が追加されました。これらのリリースは開発者向けのものもあれば、ユーザーエクスペリエンスを向上させるためのものもあります。全体として、それぞれのアップグレードはChatGPTとのインタラクションをより直感的で効果的なものにするのに役立っています。
共同執筆やコーディングのために設計されたCanvasや、ChatGPTの画像処理能力を向上させるビジョン機能の微調整といったアップデートは多くの関心を呼び起こし、ユーザーがより創造的な可能性を探求することを促している。一方、新しいAPIや公正性テストレポートなどの技術的なアップグレードは、モデルの統合や 倫理的なAIの 実践などの側面に対処しています。それでは、OpenAIのChatGPTの最新機能について理解を深めていきましょう!
キャンバスは、ChatGPTのユーザーインターフェイス(UI)のリリース以来初のメジャーアップデートです。2画面レイアウト、左サイドバーにプロンプト、右サイドウィンドウに応答という新しいインターフェイスです。新しいUIは、チャットのような1画面構成の通常のワークフローを排除し、マルチタスクの目的に合った2画面レイアウトに移行することで、生産性を高めています。
キャンバスが導入される前は、ChatGPTで長文のドキュメントを扱うには、かなり上下にスクロールする必要がありました。新しいレイアウトでは、プロンプトは左サイドバーに表示され、テキストドキュメントやコードスニペットは画面の大部分を占めます。必要に応じて、左サイドバーと出力画面のサイズをカスタマイズすることもできる。また、テキストやコードの一部を選択し、ドキュメント全体を変更することなく、特定の部分を編集することができます。
Canvasを使用している場合、ChatGPTインターフェイスにそれを開くための特定のボタンやトグルがないことに気づくでしょう。代わりに、GPT-4oモデルで作業しているとき、編集、執筆、コーディング中であることを検出すると、キャンバスが自動的に開きます。簡単なプロンプトの場合は、非アクティブのままです。手動で開きたい場合は、"キャンバスを開く "または "キャンバスのレイアウトを取得 "のようなプロンプトを使用することができます。
現在、Canvasはベータ版で、GPT-4oでのみ利用できる。しかし、OpenAIは、Canvasがベータ版から脱却すれば、すべての無料ユーザーが利用できるようになると言及している。
OpenAIは、効率性、拡張性、汎用性の向上を目的とした3つの新しいChatGPT APIアップデートをリリースしました。それぞれのアップデートを詳しく見てみましょう。
OpenAI APIを通じてモデル蒸留機能を使用すると、開発者はGPT-4oやo1-previewのような高度なモデルの出力を使用して、GPT-4o miniのような小型でコスト効率の高いモデルのパフォーマンスを向上させることができます。モデル蒸留は、より高度なモデルの動作を模倣するために、より小さなモデルを訓練する ことを含むプロセスであり、特定のタスクのためにそれらをより効率的にします。
この機能が導入される前は、開発者はさまざまなツールを使って手作業でさまざまなタスクを調整しなければならなかった。これらのタスクには、データセットの生成、モデル性能の測定、モデルの微調整などが含まれ、しばしばプロセスが複雑になり、エラーが発生しやすくなっていました。Model Distillationのアップデートにより、開発者は、APIを通じて高度なモデルによって生成された入出力ペアをキャプチャして保存することにより、データセットを自動的に生成できるツールであるStored Completionsを使用できるようになった。
Model Distillationのもう一つの機能であるEvals(現在ベータ版)は、カスタム評価スクリプトを作成したり、別のツールを使用したりすることなく、特定のタスクに対するモデルのパフォーマンスを測定するのに役立ちます。Stored Completions で生成されたデータセットを使用し、Evals でパフォーマンスを評価することで、開発者は独自のカスタム GPT モデルを微調整できます。
AIアプリケーション、特にチャットボットを構築する場合、同じコンテキスト(現在のリクエストを理解するために必要な背景情報や以前の会話履歴)が複数のAPIコールで繰り返し使用されることがよくあります。プロンプト・キャッシングは、開発者が最近使用した入力トークン(プロンプトを理解し、応答を生成するためにモデルが処理するテキストのセグメント)を再利用することを可能にし、コストとレイテンシの削減に役立ちます。
10月1日より、OpenAIはGPT-4o、GPT-4o mini、o1-preview、o1-miniのようなモデルに自動的にプロンプト・キャッシングを適用しました。これは、開発者がAPIを使用して長いプロンプト(1,024トークンを超える)を持つモデルと対話するとき、システムが既に処理した部分を保存することを意味します。
こうすることで、同じプロンプトまたは類似のプロンプトが再度使用された場合、その部分の再計算を省略することができる。システムは、以前に遭遇したプロンプトの最長部分を自動的にキャッシュし、1,024トークンから開始し、プロンプトが長くなるにつれて128トークンのチャンクを追加する。
一般的に音声アシスタントを作るには、音声をテキストに書き起こし、テキストを処理し、レスポンスを再生するために音声に戻す必要がある。OpenAIのRealtime APIは、このプロセス全体を1つのAPIリクエストで処理することを目指している。このプロセスをよりシンプルにすることで、APIはAIとのリアルタイムの会話を可能にする。
例えば、Realtime APIと統合された音声アシスタントは、ユーザーのリクエストに基づいて、注文や 情報検索などの特定のアクションを実行することができる。このAPIは、音声アシスタントの応答性を高め、ユーザーのニーズに素早く対応できるようにする。Realtime APIは、10月1日にパブリック・ベータ版が公開され、6つの音声が利用可能になった。10月30日にはさらに5つの音声が追加され、合計11の音声が利用可能になった。
もともと、GPT-4oビジョン言語モデルは、テキストのみのデータセットを使用してのみ、微調整とカスタマイズが可能でした。現在では、ビジョン微調整APIのリリースにより、開発者は画像データセットを使用してGPT-4oをトレーニングおよびカスタマイズすることができます。リリース以来、ビジョンの微調整は、開発者やコンピュータビジョンエンジニアの間で大きな話題となっています。
GPT-4oの視覚能力を微調整するために、開発者は100枚程度の画像から50,000枚程度の画像データセットを使用することができます。データセットがOpenAIの要求するフォーマットと一致していることを確認した後、Openaiプラットフォームにアップロードすることができ、特定のアプリケーション用にモデルを微調整することができます。
例えば、自動化企業のAutomat社は、スクリーンショットのデータセットを使用して、説明に基づいて画面上のUI要素を識別できるようにGPT-4oを訓練した 。これにより、ボットがユーザー・インターフェースと簡単に対話できるようになり、ロボティック・プロセス・オートメーション(RPA)の合理化に役立つ。このモデルは、固定座標や複雑なセレクタ・ルールに依存する代わりに、シンプルな説明に基づいてUI要素を識別できるため、自動化のセットアップがより適応しやすくなり、インターフェースが変更された場合のメンテナンスも容易になります。
AIアプリケーションを取り巻く倫理的な懸念は、AIがますます高度になるにつれて、顕著な話題となっている。ChatGPTの回答は、ユーザーから提供されたプロンプトとインターネット上で利用可能なデータに基づいているため、その言語を常に責任あるものに微調整することは難しいかもしれない。ChatGPTの回答は名前、性別、人種に偏りがあるとの報告もある。この問題に対処するため、OpenAIの社内チームは一人称の公平性テストを実施しました。
名前には、私たちの文化や地理的要因に関する微妙な手がかりが含まれていることがよくあります。ほとんどの場合、ChatGPTは名前の微妙な手がかりを無視します。しかし、人種や文化を反映した名前は、ChatGPTから異なる応答を導くケースもあり、そのうちの約1%は有害な言語を反映しています。偏見や有害な言葉を排除することは、言語モデルにとって難しい課題です。しかし、これらの発見を公開し、モデルの限界を認識することで、OpenAIは、ユーザーがより中立的で偏りのない回答を得るためにプロンプトを改良するのに役立ちます。
ChatGPTがローンチされた当初、AIコミュニティでは従来のウェブ・ブラウジングに取って代わることができるかどうかが議論された。今では、多くのユーザーが グーグル検索の代わりにChatGPTを使っている。
OpenAIの新しいアップデートである検索機能は、これをさらに一歩進めます。検索機能では、ChatGPTは最新の回答を生成し、関連するソースへのリンクを含みます。10月31日より、ChatGPT PlusとTeamの全ユーザーが検索機能を利用できるようになり、ChatGPTがAI検索エンジンのように機能するようになりました。
ChatGPTの最近のアップデートは、AIをより便利に、柔軟に、公平にすることに重点を置いています。新しいキャンバス機能は、ユーザーがより効率的に作業できるようにし、ビジョンの微調整は、開発者が視覚的なタスクをよりうまく処理できるようにモデルをカスタマイズできるようにします。また、公平性の確保とバイアスの低減も重要な優先事項であり、AIが誰であろうと、誰にとってもうまく機能することを保証します。モデルを微調整する開発者であれ、単に最新機能を使用する開発者であれ、ChatGPTは幅広いニーズに対応できるよう進化しています。リアルタイム機能、ビジュアル統合、そして責任ある使用に焦点を当てたこれらのアップデートは、誰にとってもより信頼でき、信頼できるAI体験を構築します。
GitHubリポジトリにアクセスし、コミュニティに参加して、AIについてもっと調べてください。自動運転や ヘルスケアにおけるAIの応用についてもっと知る。