YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

OpenAIの最新アップデート:Canvas、ビジョン・ファインチューニングなど

OpenAIが発表した最近のChatGPTのアップデートについて詳しく解説します。Canvas、視覚機能のためのファインチューニング、最新の検索機能について探ります。

ABAbirami Vina
4 min read
OpenAIによる最新のChatGPTアップデートの概要

前回9月にOpenAIのo1モデル(推論能力を向上させるために設計されたもの)を検証して以来、ChatGPTには多くの刺激的な新機能が追加されました。これらのリリースの一部は開発者向けであり、その他はユーザーエクスペリエンスを向上させるために設計されています。総じて、各アップグレードはChatGPTとのやり取りをより直感的かつ効果的にするのに役立ちます。

Updates like Canvas, designed for collaborative writing and coding, and fine-tuning for vision capabilities that improves how ChatGPT works with images, have sparked a lot of interest, encouraging users to explore more creative possibilities. Meanwhile, technical upgrades, like new APIs and fairness test reports, address aspects like model integration, and ethical AI practices. Let’s dive in and get a better understanding of the latest ChatGPT features from OpenAI!

Link to this sectionOpenAIのCanvas機能の概要#

Canvasは、ChatGPTのリリース以来初となるユーザーインターフェース(UI)の主要なアップデートです。これは、左側のサイドバーにプロンプトを表示し、右側のウィンドウに応答を表示する2画面構成の新しいインターフェースです。この新しいUIは、従来のチャット形式の1画面構造というワークフローを排除し、生産性を高めるためのマルチタスクに適した2画面レイアウトを採用しています。

CanvasはChatGPTにUIアップデートをもたらします

図1. CanvasはChatGPTにUIアップデートをもたらします。

Canvasが導入される前は、ChatGPT上で長文のドキュメントを扱うには、頻繁に上下にスクロールする必要がありました。新しいレイアウトでは、左側のサイドバーにプロンプトが表示され、テキストドキュメントやコードのスニペットが画面の大部分を占めます。必要に応じて、左側のサイドバーと出力画面のサイズをカスタマイズすることも可能です。また、テキストの一部やコードのセクションを選択して、ドキュメント全体を変更することなくその特定の部分だけを編集できます。

Canvasを使用してテキストの特定のセクションを編集する

図2. Canvasを使用してテキストの特定のセクションを編集する。

Canvasを使用する場合、ChatGPTインターフェース上にCanvasを開くための特定のボタンやトグルがないことに気づくでしょう。代わりに、GPT-4oモデルを使用しているときに、ユーザーが編集ライティング、またはコーディングを行っていると判断されると、Canvasが自動的に開きます。シンプルなプロンプトの場合は非アクティブのままです。手動で開きたい場合は、「Open the Canvas」や「Get me the Canvas layout」のようなプロンプトを使用できます。

現在、Canvasはベータ版であり、GPT-4oでのみ利用可能です。しかし、OpenAIはベータ期間が終了すればすべての無料ユーザーがCanvasを利用できるようになると述べています。

Link to this sectionChatGPTのAPIアップデート#

OpenAIは、効率性、スケーラビリティ、多用途性の向上を目的とした3つの新しいChatGPT APIアップデートをリリースしました。それぞれのアップデートを詳しく見ていきましょう。

Link to this sectionモデル蒸留#

Using the Model Distillation feature through the OpenAI APIs, developers can use the outputs of advanced models like GPT-4o or o1-preview to enhance the performance of smaller, cost-efficient models like GPT-4o mini. Model distillation is a process that involves training smaller models to mimic the behavior of more advanced ones, making them more efficient for specific tasks.

Before this feature was introduced, developers had to manually coordinate a variety of tasks using different tools. These tasks included generating datasets, measuring model performance, and fine-tuning models, which often made the process complex and error-prone. The Model Distillation update lets developers use Stored Completions, a tool that lets them automatically generate datasets by capturing and storing the input-output pairs produced by advanced models through the API.

Another feature of Model Distillation, Evals (currently in beta), helps measure how well a model performs on specific tasks, without needing to create custom evaluation scripts or using separate tools. Using datasets generated with Stored Completions and evaluating performance with Evals, developers can fine-tune their own custom GPT models.

Evalsを使用してモデルのパフォーマンスを測定する

図3. Evalsを使用してモデルパフォーマンスを測定できます。

Link to this sectionプロンプトキャッシュ#

Oftentimes when building AI applications, especially chatbots, the same context (the background information or previous conversation history needed to understand the current request) will be used repeatedly for multiple API calls. Prompt Caching makes it possible for developers to reuse recently used input tokens (segments of text that the model processes to understand the prompt and generate a response), helping to reduce cost and latency.

From October 1st, OpenAI has automatically applied Prompt Caching to its models like GPT-4o, GPT-4o mini, o1-preview, and o1-mini. This means that when developers use the API to interact with a model with a long prompt (over 1,024 tokens), the system saves the parts it has already processed.

このように、同じまたは類似したプロンプトが再度使用された場合、それらの部分の再計算をスキップできます。システムは、プロンプトの以前に出会った最も長い部分を自動的にキャッシュします。開始は1,024トークンで、プロンプトが長くなるにつれて128トークンのチャンク単位で追加されていきます。

Link to this sectionRealtime API#

Creating a voice assistant generally involves needing to transcribe audio to text, process the text, and then convert it back to audio to play the response. OpenAI’s Realtime API aims to handle this entire process with a single API request. By making the process simpler, the API enables real-time conversations with AI.

例えば、Realtime APIと統合された音声アシスタントは、ユーザーのリクエストに基づいて注文を行う情報を検索するといった特定の動作を実行できます。APIにより、音声アシスタントはより応答性が高まり、ユーザーのニーズに迅速に適応できるようになります。Realtime APIは10月1日にパブリックベータ版として6つの音声とともに利用可能になりました。10月30日にはさらに5つの音声が追加され、合計11の音声が利用可能になりました。

Realtime APIを使用して新しい言語での会話を練習する

図4. 新しい言語での会話練習にRealtime APIを使用する例。

Link to this sectionChatGPTのビジョンタスク向けファインチューニング#

当初、GPT-4oビジョン言語モデルは、テキストのみのデータセットを使用してのみファインチューニングやカスタマイズが可能でした。現在、ビジョンファインチューニングAPIのリリースにより、開発者は画像データセットを使用してGPT-4oをトレーニングおよびカスタマイズできるようになりました。リリース以来、ビジョンファインチューニングは開発者やコンピュータビジョンエンジニアの間で大きな関心を集めるトピックとなっています。

GPT-4oのビジョン能力をファインチューニングするために、開発者は100枚から最大50,000枚までの画像データセットを使用できます。データセットがOpenAIの要求するフォーマットに一致することを確認した後、OpenAIプラットフォームにアップロードし、特定のアプリケーションに合わせてモデルをファインチューニングできます。

例えば、自動化企業であるAutomatは、スクリーンショットのデータセットを使用してGPT-4oをトレーニングし、説明に基づいて画面上のUI要素を識別できるようにしました。これは、ボットがユーザーインターフェースと対話することを容易にすることで、ロボティック・プロセス・オートメーション(RPA)を合理化するのに役立ちます。固定された座標や複雑なセレクタルールに依存する代わりに、モデルは単純な説明に基づいてUI要素を識別できるため、自動化の設定はより適応性が高まり、インターフェースが変更された際にもメンテナンスが容易になります。

ファインチューニングされたGPT-4oモデルを使用してUI要素を検出する

図5. ファインチューニングされたバージョンのGPT-4oモデルを使用してUI要素を検出する様子。

Link to this sectionChatGPTの公平性とバイアス検出#

Ethical concerns surrounding AI applications are a prominent topic of conversation as AI becomes more and more advanced. Because ChatGPT’s responses are based on user-provided prompts and data available on the Internet, it can be challenging to fine-tune its language to be responsible all the time. Reports state that ChatGPT’s answers are biased on name, gender, and race. To address this issue, OpenAI’s in-house team conducted a first-person fairness test.

名前には、私たちの文化や地理的要因に関する微妙なヒントが含まれていることがよくあります。ほとんどの場合、ChatGPTは名前の中の微妙なヒントを無視します。しかし、場合によっては、人種や文化を反映した名前によってChatGPTからの応答が異なることがあり、そのうちの約1%が有害な言語を反映しています。バイアスや有害な言語を排除することは、言語モデルにとって困難なタスクです。しかし、これらの調査結果を公に共有し、モデルの制限を認めることで、OpenAIはユーザーがプロンプトを改良し、より中立でバイアスのない回答を得ることを支援しています。

ユーザーの名前によってChatGPTのレスポンスが異なる例

図6. ユーザーの名前によって応答が異なる例。

Link to this sectionChatGPT検索について#

ChatGPTが最初にローンチされたとき、AIコミュニティでは、それが従来のWebブラウジングに取って代わることができるかどうかについての議論がありました。現在、多くのユーザーがGoogle検索の代わりにChatGPTを使用しています。

OpenAIの新しいアップデートである検索機能は、これをさらに一歩前進させました。検索機能により、ChatGPTは最新の応答を生成し、関連するソースへのリンクを含めるようになります。10月31日の時点で、検索機能はすべてのChatGPT PlusおよびTeamユーザーが利用可能になり、ChatGPTはAIを活用した検索エンジンのように機能するようになりました。

ChatGPTの新しい検索機能を使用する例

図7. ChatGPTの新しい検索機能を使用する例。

Link to this section今後の展望#

ChatGPTの最近のアップデートは、AIをより便利で柔軟、かつ公正にすることに重点を置いています。新しいCanvas機能はユーザーがより効率的に作業できるようにし、ビジョンファインチューニングにより開発者は視覚的なタスクをより適切に処理できるようにモデルをカスタマイズできます。公平性への対処とバイアスの低減も重要な優先事項であり、誰であってもAIがうまく機能するように保証しています。モデルをファインチューニングしている開発者であろうと、最新の機能を使用しているだけであろうと、ChatGPTは多様なニーズを満たすために進化しています。リアルタイム機能、ビジュアル統合、そして責任ある利用への注力により、これらのアップデートはすべての人にとってより信頼性が高く確実なAI体験を構築しています。

ぜひ私たちのGitHubリポジトリにアクセスし、コミュニティに参加して、AIについてさらに探求してください。自動運転ヘルスケアにおけるAIアプリケーションについて学びましょう。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう