OpenAI o1：新しいAI推論モデル - インサイドルック

AIコミュニティは、OpenAIのGPTモデルの次のステップについての憶測で賑わっており、多くの人が "プロジェクト・ストロベリー "と呼んでいる。その理由は、GPT-4oに「"strawberry "という単語にはRがいくつあるか」と尋ねると、「"strawberry"という単語にはRが2つある」と答えるからだ。GPT-4oの強力さを考えると、奇妙に思えるかもしれない。しかし、このモデルは正確な単語ではなく、サブテキストを処理するように作られている。次期モデルはこの問題を解決することを目的としていると噂されていた。Sam アルトマンは自身のX（旧ツイッター）アカウントにイチゴの写真を投稿し、この噂をさらに煽った。

9月12日（木）にOpenAIから最新の発表があり、ついに憶測に対する答えが出ました。OpenAI o1は、応答する前にじっくりと考えさせるように設計された、AIモデルの新しいシリーズとしてリリースされました。興味深いことに、OpenAI o1は推論能力が向上しており、イチゴに関する質問にも正しく答えることができます。この記事では、OpenAI o1とは何か、その仕組み、どこで使用できるのか、そしてAIの未来にとって何を意味するのかについて解説します。それでは始めましょう。

__wf_reserved_inherit — 図1. OpenAI o1にイチゴについて質問した例。

‍

OpenAIによるAIの新たな進歩

2024年7月、OpenAIの幹部は、OpenAIの研究がAIのレベル2と呼ばれる、人間レベルの問題解決に近づいていることを明らかにしました。OpenAIが新しいモデルシリーズであるOpenAI o1を、回答する前に考えるモデルとして発表したことから、このレベルが推論に焦点を当てていることは明らかです。OpenAI o1は新しいLLM（大規模言語モデル）であり、大量の言語データからパターンを学習することで、人間のようなテキストを理解し生成するAIモデルです。これは、高度な推論を必要とする複雑な問題に対処するように設計されています。

‍

このモデルは強化学習を用いてトレーニングされています。これは、モデルが行動に対する報酬またはペナルティを受け取ることで、試行錯誤を通じてより良い意思決定を学習する手法です。強化学習アルゴリズムは、思考の連鎖をたどることによって、モデルがより効果的に考えるのに役立ちます。OpenAIはまた、トレーニング中のより多くの強化学習と、問題解決中のより多くの「思考」時間によって、o1のパフォーマンスが向上し続けることも明らかにしました。これは、長期的なトレーニングと思慮深い処理の両方が、モデルの能力向上に役立つことを示しています。

OpenAI o1は複雑な推論をするための大きな進歩ではあるが、まだ初期のモデルであり、ウェブの閲覧やファイルや画像のアップロードなど、ChatGPT 便利にするいくつかの機能が欠けている。多くの一般的なタスクでは、今のところGPT-4oの方がまだ高性能かもしれません。しかし、OpenAI o1は、複雑な推論を処理するAIの能力において大きな一歩を踏み出すものであり、だからこそOpenAIは新しいシリーズを開始し、OpenAI o1と呼んでいるのです。

新しいOpenAIモデルがAI推論をどのように強化するか

OpenAI o1は、暗号の解読、プログラミングの課題解決、数学の問題解決、クロスワードパズルへの取り組み、さらには科学、安全、医療における複雑なトピックの処理などのタスクに使用できます。プロジェクトのコードネームへの面白い賛辞として、OpenAIは「THERE ARE THREE R’S IN STRAWBERRY（ストロベリーには3つのRがある）」というメッセージを明らかにする暗号を解読することで、モデルの推論スキルを示しました。

暗号の解読以外にも、OpenAI o1はコーディングにも優れています。プログラマーが時間制限のある条件下で複雑なコーディング問題を解決するプラットフォームであるCodeforcesのような、競争的プログラミングの課題で優れたパフォーマンスを発揮します。これらの課題において、モデルは高いEloレーティング（他の競争相手に対するパフォーマンスに基づいてスキルレベルを測定するスコアリングシステム）を達成し、以前のモデルを上回っています。また、数学にも優れており、American Invitational Mathematics Examination（AIME）のような試験でも優れた成績を収めています。

‍

これらの進歩により、OpenAI o1はGPT-4oのような以前のモデルから大幅にアップグレードされたものとして位置づけられます。これは、ビジネス、開発、研究、医療などの分野におけるAIの新たな可能性を切り開きます。たとえば、遺伝子研究では、OpenAI o1は大量の研究論文を迅速に調べ、遺伝子マーカーと疾患との間の重要な発見とつながりを抽出できます。複雑な科学的言語を理解し、重要なポイントを要約して、研究者が最も関連性の高い情報に集中できるように支援します。

思考の連鎖の詳細

OpenAI o1が「思考の連鎖（Chain of Thought）」という推論プロセスを導入したことを前述しました。これにより、モデルは人間の認知戦略と同様の方法で複雑な問題に取り組むことができます。モデルは、課題をより小さく、管理しやすいステップに分解し、そのアプローチを反復的に改善できます。以前のモデルが即時のパターン認識に依存していたのとは異なり、o1は複数の推論パスを探索し、強化学習を通じて成功と失敗の両方から学習することで、意思決定を最適化します。

OpenAIは、これらの生の思考の連鎖をユーザーから隠し、すべてのステップを公開せずにモデルの推論に関する洞察を提供する要約を提供することにしました。この決定は、モデルの思考プロセスの誤用を防ぎながら、開発者がAIの安全性と整合性を監視および改善できるようにするのに役立ちます。開発者は、内部で隠された連鎖を観察することで、o1が倫理的ガイドラインを遵守し、有害な行動を回避することを保証できます。

OpenAI o1のベンチマーク

OpenAI o1は、推論および問題解決能力をテストするいくつかのベンチマークにおいて、GPT-4oよりも大幅な改善を示しています。トップ高校生向けの難解な数学試験であるAmerican Invitational Mathematics Examination（AIME）2024では、o1は問題あたり1つのサンプルのみで74％の正答率を達成しましたが、GPT-4oは12％でした。64個のサンプル全体でコンセンサスを得ると、その精度は83％に向上し、1,000個のサンプルで洗練された再ランキングメソッドを使用すると、93％に達し、全国のトップ500人の学生にランクインしました。

数学以外にも、o1は化学、物理学、生物学の博士レベルの質問をカバーするGPQA Diamondのような、科学的知識をテストするベンチマークでも非常に優れたパフォーマンスを発揮しました。驚くべきことに、o1はこのテストで博士号を持つ人間の専門家を上回り、これを行った最初のAIモデルとなりました。また、歴史、法律、科学など、多様な科目にわたる理解度をテストするMMLUベンチマークの57のカテゴリのうち54のカテゴリでGPT-4oを上回りました。

‍

OpenAI o1を実際に体験する

OpenAIは、o1シリーズにo1-previewとo1-miniという2つの新しいAIモデルを導入しました。o1-previewモデルは、応答する前により深く考えるように設計されており、科学、コーディング、数学における複雑な推論タスクに優れています。これは、困難なプロジェクトに取り組むユーザーに高度な問題解決機能を提供します。対照的に、o1-miniは、特に数学とコーディングにおいて、STEM推論に特化して最適化された、より小型で高速かつ費用対効果の高いモデルです。世界に関する知識はo1-previewよりも少ないかもしれませんが、o1-miniはAIME数学コンテストやCodeforcesコーディングチャレンジなどの主要な評価において、o1-previewのパフォーマンスにほぼ匹敵し、コストは80％削減されています。

‍

これらのモデルは様々なOpenAIプラットフォームを通して試すことができます。ChatGPT PlusとTeamのユーザーは、モデルピッカーを経由してo1-previewとo1-miniの両方にアクセスし、ChatGPT強化された推論機能を直接体験することができます。API利用ティア5にアクセスできる開発者は、これらのモデルでプロトタイピングを始めることができますが、いくつかの高度な機能はまだ開発中です。OpenAIはまた、すべてのChatGPT フリーユーザがo1-miniをすぐに利用できるようにする予定です。これらのモデルを探索することで、AI推論の進歩を直接体験し、あなたのニーズに最も適したものを選択することができます。

OpenAIによる倫理的なAIに関する考慮事項

OpenAIは、o1モデルシリーズの開発において、倫理と安全性に重点を置いてきました。o1-previewおよびo1-miniモデルのリリース前に、禁止コンテンツ、ハルシネーション、バイアスなどのリスクについて、外部テストや内部チェックを含む徹底的な評価を実施しました。これらのモデルは、安全規則をより良く理解し、従うために、高度な推論能力を備えて設計されています。

OpenAIはまた、リスクを管理するために、ブロックリストや安全分類器などの安全対策を実施しています。o1モデルの全体的なリスク評価は中程度です。サイバーセキュリティやモデルの自律性などの分野ではリスクが低く、CBRN（化学、生物、放射性、核）コンテンツや説得などの分野ではリスクが中程度です。OpenAIのSafety Advisory GroupとBoardは、モデルが安全かつ倫理的に使用できるよう、これらの安全対策をレビューしています。

‍

噂から現実へ：OpenAI o1がついに登場

OpenAI o1は、AI推論における大きな前進であり、初期の噂のいくつかを現実のものにした。GPT-4oとは異なり、o1シリーズは「Chain of Thought（思考の連鎖）」アプローチを用いることで、より深く思考し、複雑な問題をより小さなステップに分解することで、より良い対応を実現します。現在、ChatGPT APIで初期プレビューとして利用可能だが、OpenAIはウェブブラウジングやファイルや画像のアップロードなどの機能を追加する予定だ。OpenAIはまた、新しいOpenAI o1シリーズと並行して、GPTシリーズのモデルの開発とリリースを継続する予定であることを共有しました。AIが進化し続ける中、このような進歩は、人間のニーズをより良く支援し理解することができる、より強力で、直感的で、多目的なAIシステムへの道を開いている。

私たちのコミュニティに参加して、AIの最新情報を入手してください！GitHubリポジトリにアクセスして、製造やヘルスケアなどの分野で、私たちがどのようにAIソリューションを開拓しているかをご覧ください。🚀

OpenAI o1: AI推論のためのOpenAIの新しいモデルシリーズ

OpenAIによるAIの新たな進歩

新しいOpenAIモデルがAI推論をどのように強化するか

思考の連鎖の詳細

OpenAI o1のベンチマーク

OpenAI o1を実際に体験する

OpenAIによる倫理的なAIに関する考慮事項

噂から現実へ：OpenAI o1がついに登場

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

医療診断のためのビジョンAIツール

データから意思決定へ：企業戦略におけるビジョンAIの活用

AIの未来を
共に築きましょう！

OpenAI o1: AI推論のためのOpenAIの新しいモデルシリーズ

OpenAIによるAIの新たな進歩

新しいOpenAIモデルがAI推論をどのように強化するか

思考の連鎖の詳細

OpenAI o1のベンチマーク

OpenAI o1を実際に体験する

OpenAIによる倫理的なAIに関する考慮事項

噂から現実へ：OpenAI o1がついに登場

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

医療診断のためのビジョンAIツール

データから意思決定へ：企業戦略におけるビジョンAIの活用

AIの未来を共に築きましょう！

AIの未来を
共に築きましょう！