OpenAI o1: AI 추론을 위한 새로운 OpenAI 모델 시리즈
새롭게 출시된 OpenAI o1 모델과 그 특별한 점을 알아보세요. 또한 작동 방식과 AI의 미래에 미치는 영향에 대해서도 살펴봅니다.

AI 커뮤니티는 OpenAI의 GPT 모델의 다음 단계에 대한 추측으로 떠들썩하며, 많은 사람들이 이를 "프로젝트 스트로베리(Project Strawberry)"라고 부르고 있습니다. 그 이유는 GPT-4o에게 "strawberry"라는 단어에 R이 몇 개 들어가는지 물어보면, 그 단어에 R이 두 개 있다고 답하기 때문입니다. strawberry GPT-4o가 얼마나 강력한지를 고려하면 이상하게 보일 수 있습니다. 하지만 이 모델은 정확한 단어보다는 하위 텍스트를 처리하도록 구축되었습니다. 차기 모델이 이 문제를 해결하는 것을 목표로 할 것이라는 소문이 돌았습니다. 샘 알트만(Sam Altman)은 자신의 X(구 트위터) 계정에 딸기 사진을 게시하여 이러한 소문을 더욱 부채질했습니다.
9월 12일 목요일, OpenAI의 최신 발표를 통해 마침내 그 추측에 대한 답을 얻었습니다! 응답하기 전에 잠시 멈추고 생각하도록 설계된 새로운 AI 모델 시리즈인 OpenAI o1이 출시되었습니다. 흥미롭게도 OpenAI o1은 더 잘 추론하며 딸기에 관한 질문에 정확하게 대답할 수 있습니다! 이 기사에서는 OpenAI o1이 무엇인지, 어떻게 작동하는지, 어디에 사용될 수 있는지, 그리고 이것이 AI의 미래에 어떤 의미를 갖는지 논의하겠습니다. 시작해 보겠습니다!

그림 1. OpenAI o1에게 딸기에 대해 질문하는 예시.
Link to this sectionOpenAI의 새로운 AI 기술 발전#
2024년 7월, OpenAI 경영진은 OpenAI의 연구가 AI 2단계라고 불리는 인간 수준의 문제 해결 능력에 근접하고 있다고 밝혔습니다. OpenAI가 새로운 모델 시리즈인 OpenAI o1을 도입하면서 대답하기 전에 생각하는 능력을 강조함에 따라, 이 단계가 추론에 중점을 두고 있음이 분명합니다. OpenAI o1은 방대한 언어 데이터에서 패턴을 학습하여 인간과 유사한 텍스트를 이해하고 생성하는 새로운 LLM(거대 언어 모델)입니다. 이 모델은 심층적인 추론이 필요한 복잡한 문제를 처리하도록 설계되었습니다.

그림 2. AI 단계에 대한 OpenAI의 관점.
The model has been trained using reinforcement learning, a technique where the model learns to make better decisions through trial and error by receiving rewards or penalties for its actions. The reinforcement learning algorithm helps the model think more effectively by following a chain of thought. OpenAI also shared that o1’s performance keeps improving with more reinforcement learning during training and with more time spent "thinking" during problem-solving, showing that both extended training and thoughtful processing help boost the model's abilities.
OpenAI o1은 복잡한 추론에 있어 중요한 발전이지만, 아직 초기 모델이며 웹 브라우징이나 파일 및 이미지 업로드와 같이 ChatGPT를 유용하게 만드는 일부 기능이 부족합니다. 많은 일반적인 작업의 경우 당분간은 GPT-4o가 더 유능할 수 있습니다. 그러나 OpenAI o1은 AI가 복잡한 추론을 처리하는 능력에 있어 큰 진전을 의미하며, 이것이 바로 OpenAI가 새로운 시리즈를 시작하고 이를 OpenAI o1이라고 명명한 이유입니다.
Link to this section새로운 OpenAI 모델이 AI 추론을 향상시키는 방법#
OpenAI o1은 암호 해독, 프로그래밍 문제 해결, 수학 문제 답변, 십자말풀이, 심지어 과학, 안전, 의료 분야의 복잡한 주제를 다루는 등의 작업에 사용할 수 있습니다. 프로젝트 코드명에 대한 재미있는 오마주로, OpenAI는 "THERE ARE THREE R’S IN STRAWBERRY(스트로베리에는 세 개의 R이 있다)"라는 메시지를 드러내는 암호를 해독하여 모델의 추론 능력을 보여주었습니다.
암호 해독 외에도 OpenAI o1은 코딩에도 능숙합니다. 프로그래머들이 시간 제한 조건 하에 복잡한 코딩 문제를 해결하는 플랫폼인 Codeforces와 같은 경쟁 프로그래밍 챌린지에서 우수한 성과를 거둡니다. 이러한 챌린지에서 이 모델은 높은 Elo 평점(다른 경쟁자와의 성과를 기반으로 기술 수준을 측정하는 점수 체계)을 달성하며 이전 모델들을 능가합니다. 또한 수학 분야에서도 뛰어나며 AIME(American Invitational Mathematics Examination)와 같은 시험에서 좋은 성적을 거둡니다.

그림 3. o1의 코딩 능력 벤치마킹.
이러한 발전은 OpenAI o1을 GPT-4o와 같은 초기 모델보다 크게 업그레이드된 위치에 놓습니다. 이는 비즈니스, 개발, 연구 및 의료와 같은 분야에서 AI의 새로운 가능성을 열어줍니다. 예를 들어, 유전학 연구에서 OpenAI o1은 다수의 연구 논문을 신속하게 검토하여 핵심 연구 결과와 유전자 표지 및 질병 간의 연결 고리를 파악할 수 있습니다. 복잡한 과학적 언어를 이해하고 중요한 요점을 요약할 수 있어 연구자들이 가장 관련성 높은 정보에 집중하도록 돕습니다.
Link to this section사고의 연쇄에 대한 심층 분석#
We saw earlier that OpenAI o1 introduces a "Chain of Thought" reasoning process. It enables the model to tackle complex problems in a manner similar to human cognitive strategies. The model can break down challenges into smaller, manageable steps and iteratively refine its approach. Unlike earlier models that relied on immediate pattern recognition, o1 optimizes its decision-making by exploring multiple reasoning paths, learning from both successes and mistakes through reinforcement learning.
OpenAI는 이러한 원시 사고의 연쇄를 사용자에게 공개하지 않고, 모든 단계를 노출하지 않으면서도 모델의 추론에 대한 통찰력을 제공하는 요약을 제공하기로 결정했습니다. 이러한 결정은 개발자가 AI 안전과 정렬을 모니터링하고 개선할 수 있도록 하면서도 모델의 사고 과정이 오용되는 것을 방지하는 데 도움이 됩니다. 내부적으로 숨겨진 연쇄를 관찰함으로써 개발자는 o1이 윤리적 지침을 준수하고 유해한 행동을 피하도록 보장할 수 있습니다.
Link to this sectionOpenAI o1 벤치마킹#
OpenAI o1은 추론 및 문제 해결 능력을 테스트하는 여러 벤치마크에서 GPT-4o 대비 주요 향상을 보여줍니다. 우수 고등학생을 대상으로 하는 어려운 수학 시험인 2024년 AIME에서, o1은 문제당 단 하나의 샘플만 사용하여 74%의 정확도를 달성한 반면, GPT-4o는 12%를 기록했습니다. 64개의 샘플에 걸친 합의를 통해 정확도는 83%로 증가했으며, 1,000개의 샘플을 사용한 정교한 재순위 지정 방식을 통해 93%에 도달하여 전국 상위 500명의 학생 수준을 기록했습니다.
수학 외에도 o1은 화학, 물리학, 생물학 분야의 박사급 질문을 다루는 GPQA Diamond와 같은 과학 지식 테스트 벤치마크에서도 뛰어난 성능을 보였습니다. 놀랍게도 o1은 이 테스트에서 박사 학위를 가진 인간 전문가를 능가했으며, 최초로 이를 달성한 AI 모델이 되었습니다. 또한 역사, 법률 및 과학을 포함한 다양한 주제에 대한 이해력을 테스트하는 MMLU 벤치마크의 57개 카테고리 중 54개에서 GPT-4o를 앞섰습니다.

그림 4. OpenAI o1 벤치마킹.
Link to this sectionOpenAI o1 직접 경험하기#
OpenAI는 o1 시리즈에서 o1-preview와 o1-mini라는 두 가지 새로운 AI 모델을 도입했습니다. o1-preview 모델은 응답하기 전에 더 깊이 생각하도록 설계되어 과학, 코딩, 수학 분야의 복잡한 추론 작업에서 탁월한 능력을 발휘합니다. 까다로운 프로젝트를 수행하는 사용자에게 고급 문제 해결 기능을 제공합니다. 반면 o1-mini는 특히 수학 및 코딩과 같은 STEM 추론에 최적화된 더 작고 빠르며 비용 효율적인 모델입니다. 폭넓은 세계 지식은 적을 수 있지만, o1-mini는 AIME 수학 대회나 Codeforces 코딩 챌린지와 같은 주요 평가에서 o1-preview의 성능을 거의 따라잡으면서도 비용은 80% 더 저렴합니다.

그림 5. OpenAI 모델 비교.
다양한 OpenAI 플랫폼을 통해 이 모델들을 사용해 볼 수 있습니다. ChatGPT Plus 및 Team 사용자는 모델 선택기(model picker)를 통해 o1-preview와 o1-mini 모두에 액세스하여 ChatGPT에서 향상된 추론 기능을 직접 경험할 수 있습니다. API 사용 등급 5 권한이 있는 개발자는 이 모델들로 프로토타이핑을 시작할 수 있지만, 일부 고급 기능은 아직 개발 중입니다. OpenAI는 또한 곧 모든 ChatGPT 무료 사용자에게 o1-mini를 제공할 계획입니다. 이러한 모델을 탐색함으로써 AI 추론의 발전을 직접 경험하고 자신의 필요에 가장 적합한 모델을 선택할 수 있습니다.
Link to this sectionOpenAI가 고려한 윤리적 AI 고려 사항#
OpenAI는 o1 모델 시리즈를 개발하면서 윤리와 안전에 중점을 두었습니다. o1-preview 및 o1-mini 모델을 출시하기 전에 외부 테스트 및 허용되지 않는 콘텐츠, 환각, 편향과 같은 위험에 대한 내부 점검을 포함하여 철저한 평가를 수행했습니다. 모델은 안전 규칙을 더 잘 이해하고 준수할 수 있도록 고급 추론 능력으로 설계되었습니다.
OpenAI는 또한 위험을 관리하기 위해 차단 목록과 안전 분류기와 같은 안전 장치를 구현했습니다. o1 모델은 전반적으로 중간 수준의 위험 등급을 받았습니다. 사이버 보안 및 모델 자율성 분야에서는 낮은 위험을 보이며, CBRN(화학, 생물학, 방사능, 핵) 콘텐츠 및 설득과 같은 분야에서는 중간 위험을 보입니다. OpenAI의 안전 자문 그룹과 이사회는 모델이 안전하고 윤리적으로 사용될 수 있도록 이러한 안전 조치를 검토했습니다.

그림 6. OpenAI o1 성적표.
Link to this section소문에서 현실로: OpenAI o1이 무대에 오르다#
OpenAI o1은 AI 추론의 큰 진전이며, 초기 소문 중 일부를 현실로 바꾸었습니다. GPT-4o와 달리 o1 시리즈는 "사고의 연쇄(Chain of Thought)" 접근 방식을 사용하여 더 깊이 생각하고 복잡한 문제를 더 나은 응답을 위해 더 작은 단계로 세분화합니다. 현재 ChatGPT와 API에서 초기 미리보기로 제공되고 있으며, OpenAI는 웹 브라우징과 파일 및 이미지 업로드와 같은 기능을 추가할 계획입니다. OpenAI는 또한 새로운 OpenAI o1 시리즈와 함께 GPT 시리즈 모델을 계속 개발하고 출시할 계획이라고 밝혔습니다. AI가 계속 진화함에 따라 이러한 발전은 인간의 요구를 더 잘 지원하고 이해할 수 있는 더욱 강력하고 직관적이며 다재다능한 AI 시스템을 위한 길을 열고 있습니다.
우리 커뮤니티에 가입하여 최신 AI 소식을 확인하세요! GitHub 저장소를 방문하여 우리가 제조 및 의료와 같은 분야에서 어떻게 AI 솔루션을 개척하고 있는지 확인해 보세요. 🚀






