ヨロビジョン深圳
深セン
今すぐ参加

OpenAI o1: AI推論のためのOpenAIの新しいモデルシリーズ

Abirami Vina

5分で読めます

2024年9月13日

新しく発表されたOpenAI o1モデルの詳細と、その特徴について解説します。また、その仕組みとAIの未来への影響についても考察します。

AIコミュニティでは、OpenAIのGPTモデルの次のステップ、通称「プロジェクト・ストロベリー」について様々な憶測が飛び交っていました。その理由は、GPT-4oに「strawberry」という単語にRがいくつ含まれているか尋ねると、「strawberry」という単語には2つのRが含まれていると答えるためです。GPT-4oの性能を考えると奇妙に思えるかもしれませんが、このモデルは正確な単語ではなく、サブテキストを処理するように構築されています。噂では、次のモデルはこれを解決することを目的としているとのことでした。Sam Altman氏も自身のX(旧Twitter)アカウントにイチゴの写真を投稿し、この噂に拍車をかけました。

9月12日(木)にOpenAIから最新の発表があり、ついに憶測に対する答えが出ました。OpenAI o1は、応答する前にじっくりと考えさせるように設計された、AIモデルの新しいシリーズとしてリリースされました。興味深いことに、OpenAI o1は推論能力が向上しており、イチゴに関する質問にも正しく答えることができます。この記事では、OpenAI o1とは何か、その仕組み、どこで使用できるのか、そしてAIの未来にとって何を意味するのかについて解説します。それでは始めましょう。

__wf_reserved_inherit
図1. OpenAI o1にイチゴについて質問した例。

OpenAIによるAIの新たな進歩

2024年7月、OpenAIの幹部は、OpenAIの研究がAIのレベル2と呼ばれる、人間レベルの問題解決に近づいていることを明らかにしました。OpenAIが新しいモデルシリーズであるOpenAI o1を、回答する前に考えるモデルとして発表したことから、このレベルが推論に焦点を当てていることは明らかです。OpenAI o1は新しいLLM(大規模言語モデル)であり、大量の言語データからパターンを学習することで、人間のようなテキストを理解し生成するAIモデルです。これは、高度な推論を必要とする複雑な問題に対処するように設計されています。 

__wf_reserved_inherit
図2. AIの段階に関するOpenAIの見解。

このモデルは強化学習を用いてトレーニングされています。これは、モデルが行動に対する報酬またはペナルティを受け取ることで、試行錯誤を通じてより良い意思決定を学習する手法です。強化学習アルゴリズムは、思考の連鎖をたどることによって、モデルがより効果的に考えるのに役立ちます。OpenAIはまた、トレーニング中のより多くの強化学習と、問題解決中のより多くの「思考」時間によって、o1のパフォーマンスが向上し続けることも明らかにしました。これは、長期的なトレーニングと思慮深い処理の両方が、モデルの能力向上に役立つことを示しています。

OpenAI o1は複雑な推論において大きな進歩ですが、まだ初期のモデルであり、Webの閲覧やファイルや画像のアップロードなど、ChatGPTを便利にする機能がいくつか欠けています。多くの一般的なタスクでは、現時点ではGPT-4oの方がより有能かもしれません。しかし、OpenAI o1はAIが複雑な推論を処理する能力において大きな一歩を踏み出しており、それがOpenAIが新しいシリーズを開始し、OpenAI o1と呼ぶ理由です。

新しいOpenAIモデルがAI推論をどのように強化するか

OpenAI o1は、暗号の解読、プログラミングの課題解決、数学の問題解決、クロスワードパズルへの取り組み、さらには科学安全医療における複雑なトピックの処理などのタスクに使用できます。プロジェクトのコードネームへの面白い賛辞として、OpenAIは「THERE ARE THREE R’S IN STRAWBERRY(ストロベリーには3つのRがある)」というメッセージを明らかにする暗号を解読することで、モデルの推論スキルを示しました。 

暗号の解読以外にも、OpenAI o1はコーディングにも優れています。プログラマーが時間制限のある条件下で複雑なコーディング問題を解決するプラットフォームであるCodeforcesのような、競争的プログラミングの課題で優れたパフォーマンスを発揮します。これらの課題において、モデルは高いEloレーティング(他の競争相手に対するパフォーマンスに基づいてスキルレベルを測定するスコアリングシステム)を達成し、以前のモデルを上回っています。また、数学にも優れており、American Invitational Mathematics Examination(AIME)のような試験でも優れた成績を収めています。 

__wf_reserved_inherit
図3. o1のコーディング能力のベンチマーク。

これらの進歩により、OpenAI o1はGPT-4oのような以前のモデルから大幅にアップグレードされたものとして位置づけられます。これは、ビジネス、開発、研究医療などの分野におけるAIの新たな可能性を切り開きます。たとえば、遺伝子研究では、OpenAI o1は大量の研究論文を迅速に調べ、遺伝子マーカーと疾患との間の重要な発見とつながりを抽出できます。複雑な科学的言語を理解し、重要なポイントを要約して、研究者が最も関連性の高い情報に集中できるように支援します。 

思考の連鎖の詳細

OpenAI o1が「思考の連鎖(Chain of Thought)」という推論プロセスを導入したことを前述しました。これにより、モデルは人間の認知戦略と同様の方法で複雑な問題に取り組むことができます。モデルは、課題をより小さく、管理しやすいステップに分解し、そのアプローチを反復的に改善できます。以前のモデルが即時のパターン認識に依存していたのとは異なり、o1は複数の推論パスを探索し、強化学習を通じて成功と失敗の両方から学習することで、意思決定を最適化します。

OpenAIは、これらの生の思考の連鎖をユーザーから隠し、すべてのステップを公開せずにモデルの推論に関する洞察を提供する要約を提供することにしました。この決定は、モデルの思考プロセスの誤用を防ぎながら、開発者がAIの安全性と整合性を監視および改善できるようにするのに役立ちます。開発者は、内部で隠された連鎖を観察することで、o1が倫理的ガイドラインを遵守し、有害な行動を回避することを保証できます。

OpenAI o1のベンチマーク

OpenAI o1は、推論および問題解決能力をテストするいくつかのベンチマークにおいて、GPT-4oよりも大幅な改善を示しています。トップ高校生向けの難解な数学試験であるAmerican Invitational Mathematics Examination(AIME)2024では、o1は問題あたり1つのサンプルのみで74%の正答率を達成しましたが、GPT-4oは12%でした。64個のサンプル全体でコンセンサスを得ると、その精度は83%に向上し、1,000個のサンプルで洗練された再ランキングメソッドを使用すると、93%に達し、全国のトップ500人の学生にランクインしました。 

数学以外にも、o1は化学、物理学生物学の博士レベルの質問をカバーするGPQA Diamondのような、科学的知識をテストするベンチマークでも非常に優れたパフォーマンスを発揮しました。驚くべきことに、o1はこのテストで博士号を持つ人間の専門家を上回り、これを行った最初のAIモデルとなりました。また、歴史法律、科学など、多様な科目にわたる理解度をテストするMMLUベンチマークの57のカテゴリのうち54のカテゴリでGPT-4oを上回りました。

__wf_reserved_inherit
図4. OpenAI o1のベンチマーク。

OpenAI o1を実際に体験する

OpenAIは、o1シリーズにo1-previewとo1-miniという2つの新しいAIモデルを導入しました。o1-previewモデルは、応答する前により深く考えるように設計されており、科学、コーディング、数学における複雑な推論タスクに優れています。これは、困難なプロジェクトに取り組むユーザーに高度な問題解決機能を提供します。対照的に、o1-miniは、特に数学とコーディングにおいて、STEM推論に特化して最適化された、より小型で高速かつ費用対効果の高いモデルです。世界に関する知識はo1-previewよりも少ないかもしれませんが、o1-miniはAIME数学コンテストやCodeforcesコーディングチャレンジなどの主要な評価において、o1-previewのパフォーマンスにほぼ匹敵し、コストは80%削減されています。

__wf_reserved_inherit
図5. OpenAIモデルの比較。

これらのモデルは、OpenAIの様々なプラットフォームを通じて試すことができます。ChatGPT PlusおよびTeamのユーザーは、モデルピッカーを通じてo1-previewとo1-miniの両方にアクセスでき、ChatGPT内で直接、強化された推論能力を体験できます。API利用ティア5のアクセス権を持つ開発者は、これらのモデルでプロトタイピングを開始できますが、一部の高度な機能はまだ開発中です。OpenAIはまた、o1-miniをすべてのChatGPT Freeユーザーが間もなく利用できるようにする予定です。これらのモデルを試すことで、AI推論の進歩を直接体験し、ニーズに最適なものを選択できます。

OpenAIによる倫理的なAIに関する考慮事項

OpenAIは、o1モデルシリーズの開発において、倫理と安全性に重点を置いてきました。o1-previewおよびo1-miniモデルのリリース前に、禁止コンテンツ、ハルシネーション、バイアスなどのリスクについて、外部テストや内部チェックを含む徹底的な評価を実施しました。これらのモデルは、安全規則をより良く理解し、従うために、高度な推論能力を備えて設計されています。 

OpenAIはまた、リスクを管理するために、ブロックリストや安全分類器などの安全対策を実施しています。o1モデルの全体的なリスク評価は中程度です。サイバーセキュリティやモデルの自律性などの分野ではリスクが低く、CBRN(化学、生物、放射性、核)コンテンツや説得などの分野ではリスクが中程度です。OpenAIのSafety Advisory GroupとBoardは、モデルが安全かつ倫理的に使用できるよう、これらの安全対策をレビューしています。

__wf_reserved_inherit
図6. OpenAI o1スコアカード。

噂から現実へ:OpenAI o1がついに登場

OpenAI o1は、AI推論における大きな進歩であり、初期の噂の一部を現実のものにしています。GPT-4oとは異なり、o1シリーズは「Chain of Thought」アプローチを使用することで、より深く思考し、複雑な問題をより小さなステップに分解して、より良い応答を生成します。現在、ChatGPTおよびAPIで早期プレビューとして利用可能であり、OpenAIはWebブラウジングやファイルおよび画像のアップロードなどの機能を追加する予定です。OpenAIはまた、新しいOpenAI o1シリーズと並行して、GPTシリーズのモデルの開発とリリースを継続する予定であると発表しました。AIが進化し続けるにつれて、これらの進歩は、人間のニーズをより良く支援し、理解できる、より強力で直感的、かつ汎用性の高いAIシステムへの道を切り開いています。

私たちのコミュニティに参加して、AIの最新情報を入手してください!GitHubリポジトリにアクセスして、製造ヘルスケアなどの分野で、私たちがどのようにAIソリューションを開拓しているかをご覧ください。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました