OpenAI의 최신 업데이트: Canvas, 비전 파인튜닝 등
OpenAI가 최근 발표한 ChatGPT 업데이트를 자세히 살펴보겠습니다. Canvas, 비전 기능에 대한 파인튜닝, 그리고 최신 검색 기능을 탐색할 것입니다.

지난 9월 OpenAI의 o1 모델에 대해 살펴본 이후(추론 능력 향상을 위해 설계됨), ChatGPT에 새롭고 흥미로운 기능이 많이 추가되었습니다. 이러한 릴리스 중 일부는 개발자를 위한 것이고, 다른 일부는 사용자 경험을 개선하기 위해 설계되었습니다. 전반적으로 각 업그레이드는 ChatGPT와의 상호 작용을 더욱 직관적이고 효과적으로 만드는 데 기여합니다.
Updates like Canvas, designed for collaborative writing and coding, and fine-tuning for vision capabilities that improves how ChatGPT works with images, have sparked a lot of interest, encouraging users to explore more creative possibilities. Meanwhile, technical upgrades, like new APIs and fairness test reports, address aspects like model integration, and ethical AI practices. Let’s dive in and get a better understanding of the latest ChatGPT features from OpenAI!
Link to this sectionOpenAI의 Canvas 기능 개요#
Canvas는 출시 이후 ChatGPT 사용자 인터페이스(UI)에 대한 첫 번째 주요 업데이트입니다. 이는 왼쪽 사이드바에 프롬프트가 있고 오른쪽 창에 응답이 표시되는 2화면 레이아웃의 새로운 인터페이스입니다. 새로운 UI는 일반적인 챗봇 형태의 단일 화면 구조를 벗어나 생산성 향상을 위해 멀티태스킹 목적에 적합한 2화면 레이아웃으로 전환되었습니다.

그림 1. Canvas는 ChatGPT에 UI 업데이트를 제공합니다.
Canvas가 도입되기 전에는 ChatGPT에서 긴 문서를 다룰 때 위아래로 꽤 많이 스크롤해야 했습니다. 새로운 레이아웃에서는 왼쪽 사이드바에 프롬프트가 표시되고 텍스트 문서나 코드 스니펫이 화면의 대부분을 차지합니다. 필요한 경우 왼쪽 사이드바와 출력 화면의 크기를 조정할 수도 있습니다. 또한 텍스트나 코드의 일부분을 선택하여 전체 문서를 변경하지 않고도 특정 섹션만 편집할 수 있습니다.

그림 2. Canvas를 사용하여 텍스트의 특정 섹션 편집.
Canvas를 사용할 때 ChatGPT 인터페이스에는 이를 여는 특정 버튼이나 토글이 없다는 점을 알게 될 것입니다. 대신 GPT-4o 모델로 작업할 때 편집, 쓰기 또는 코딩을 하고 있다고 감지되면 Canvas가 자동으로 열립니다. 단순한 프롬프트의 경우 활성화되지 않습니다. 수동으로 열고 싶다면 "Open the Canvas" 또는 "Get me the Canvas layout"과 같은 프롬프트를 사용할 수 있습니다.
현재 Canvas는 베타 버전이며 GPT-4o에서만 사용할 수 있습니다. 그러나 OpenAI는 베타 기간이 종료되면 모든 무료 사용자에게 Canvas가 제공될 것이라고 언급했습니다.
Link to this sectionChatGPT API 업데이트#
OpenAI는 효율성, 확장성 및 범용성을 개선하기 위해 3가지 새로운 ChatGPT API 업데이트를 출시했습니다. 각 업데이트를 자세히 살펴보겠습니다.
Link to this section모델 증류(Model distillation)#
Using the Model Distillation feature through the OpenAI APIs, developers can use the outputs of advanced models like GPT-4o or o1-preview to enhance the performance of smaller, cost-efficient models like GPT-4o mini. Model distillation is a process that involves training smaller models to mimic the behavior of more advanced ones, making them more efficient for specific tasks.
Before this feature was introduced, developers had to manually coordinate a variety of tasks using different tools. These tasks included generating datasets, measuring model performance, and fine-tuning models, which often made the process complex and error-prone. The Model Distillation update lets developers use Stored Completions, a tool that lets them automatically generate datasets by capturing and storing the input-output pairs produced by advanced models through the API.
Another feature of Model Distillation, Evals (currently in beta), helps measure how well a model performs on specific tasks, without needing to create custom evaluation scripts or using separate tools. Using datasets generated with Stored Completions and evaluating performance with Evals, developers can fine-tune their own custom GPT models.

그림 3. Evals를 사용하여 모델 성능을 측정할 수 있습니다.
Link to this section프롬프트 캐싱(Prompt caching)#
Oftentimes when building AI applications, especially chatbots, the same context (the background information or previous conversation history needed to understand the current request) will be used repeatedly for multiple API calls. Prompt Caching makes it possible for developers to reuse recently used input tokens (segments of text that the model processes to understand the prompt and generate a response), helping to reduce cost and latency.
From October 1st, OpenAI has automatically applied Prompt Caching to its models like GPT-4o, GPT-4o mini, o1-preview, and o1-mini. This means that when developers use the API to interact with a model with a long prompt (over 1,024 tokens), the system saves the parts it has already processed.
이러한 방식으로 동일하거나 유사한 프롬프트가 다시 사용되면 해당 부분을 다시 계산하는 과정을 건너뛸 수 있습니다. 시스템은 이전에 접한 프롬프트의 가장 긴 부분을 자동으로 캐싱하며, 1,024 토큰부터 시작하여 프롬프트가 길어짐에 따라 128 토큰 단위로 추가합니다.
Link to this sectionRealtime API#
Creating a voice assistant generally involves needing to transcribe audio to text, process the text, and then convert it back to audio to play the response. OpenAI’s Realtime API aims to handle this entire process with a single API request. By making the process simpler, the API enables real-time conversations with AI.
예를 들어, Realtime API와 통합된 음성 어시스턴트는 사용자 요청에 따라 주문하기나 정보 찾기와 같은 특정 작업을 수행할 수 있습니다. 이 API는 음성 어시스턴트의 반응성을 높이고 사용자의 요구에 빠르게 적응할 수 있게 해줍니다. Realtime API는 10월 1일 공개 베타를 통해 6개의 목소리로 제공되기 시작했습니다. 10월 30일에는 5개의 목소리가 추가되어 총 11개의 목소리를 사용할 수 있게 되었습니다.

그림 4. Realtime API를 사용하여 새로운 언어로 대화 연습을 하는 예시.
Link to this section비전 작업을 위한 ChatGPT 파인튜닝#
원래 GPT-4o 비전 언어 모델은 텍스트 전용 데이터셋으로만 파인튜닝하고 커스터마이징할 수 있었습니다. 이제 비전 파인튜닝 API 출시로 개발자들은 이미지 데이터셋을 사용하여 GPT-4o를 학습시키고 커스터마이징할 수 있게 되었습니다. 출시 이후 비전 파인튜닝은 개발자들과 컴퓨터 비전 엔지니어들 사이에서 주요 관심사가 되었습니다.
GPT-4o의 비전 기능을 파인튜닝하기 위해 개발자는 100개에서 50,000개에 이르는 이미지 데이터셋을 사용할 수 있습니다. 데이터셋이 OpenAI에서 요구하는 형식과 일치하는지 확인한 후 OpenAI 플랫폼에 업로드하면 특정 애플리케이션을 위해 모델을 파인튜닝할 수 있습니다.
예를 들어, 자동화 기업인 Automat은 스크린샷 데이터셋을 사용하여 GPT-4o를 학습시켜 설명에 기반하여 화면의 UI 요소를 식별하도록 했습니다. 이는 봇이 사용자 인터페이스와 더 쉽게 상호 작용할 수 있게 하여 RPA(Robotic Process Automation)를 간소화하는 데 도움이 됩니다. 고정된 좌표나 복잡한 선택기 규칙에 의존하는 대신, 모델이 간단한 설명을 기반으로 UI 요소를 식별할 수 있으므로 인터페이스 변경 시에도 자동화 설정을 더 쉽게 유지하고 적응시킬 수 있습니다.

그림 5. 파인튜닝된 GPT-4o 모델 버전을 사용하여 UI 요소를 감지하는 모습.
Link to this sectionChatGPT 공정성 및 편향 감지#
Ethical concerns surrounding AI applications are a prominent topic of conversation as AI becomes more and more advanced. Because ChatGPT’s responses are based on user-provided prompts and data available on the Internet, it can be challenging to fine-tune its language to be responsible all the time. Reports state that ChatGPT’s answers are biased on name, gender, and race. To address this issue, OpenAI’s in-house team conducted a first-person fairness test.
이름에는 종종 우리 문화와 지리적 요인에 대한 미묘한 단서가 포함되어 있습니다. 대부분의 경우 ChatGPT는 이름 속의 미묘한 단서를 무시합니다. 그러나 일부 경우에는 인종이나 문화를 반영하는 이름이 ChatGPT의 서로 다른 응답으로 이어지며, 이 중 약 1%는 유해한 언어를 반영합니다. 편향과 유해한 언어를 제거하는 것은 언어 모델에게 어려운 작업입니다. 그러나 OpenAI는 이러한 결과를 공개적으로 공유하고 모델의 한계를 인정함으로써 사용자가 더 중립적이고 편향되지 않은 답변을 얻을 수 있도록 프롬프트를 개선하도록 돕고 있습니다.

그림 6. 사용자 이름으로 인해 발생하는 응답 차이의 예시.
Link to this sectionChatGPT 검색 이해하기#
ChatGPT가 처음 출시되었을 때, AI 커뮤니티에서는 기존의 웹 브라우징을 대체할 수 있을지에 대한 논의가 있었습니다. 이제 많은 사용자가 Google 검색 대신 ChatGPT를 사용하고 있습니다.
OpenAI의 새로운 업데이트인 검색 기능은 이를 한 단계 더 발전시켰습니다. 검색을 통해 ChatGPT는 최신 응답을 생성하고 관련 출처에 대한 링크를 포함합니다. 10월 31일 기준으로 검색 기능은 모든 ChatGPT Plus 및 Team 사용자에게 제공되며, ChatGPT가 AI 기반 검색 엔진처럼 기능하게 합니다.

그림 7. ChatGPT의 새로운 검색 기능 사용 예시.
Link to this section앞으로의 방향#
ChatGPT의 최근 업데이트는 AI를 더욱 유용하고 유연하며 공정하게 만드는 데 중점을 두고 있습니다. 새로운 Canvas 기능은 사용자가 더 효율적으로 작업할 수 있도록 돕고, 비전 파인튜닝은 개발자가 시각적 작업을 더 잘 처리하도록 모델을 커스터마이징할 수 있게 합니다. 공정성 해결 및 편향 감소 또한 핵심 우선순위이며, 누구나 어떤 배경을 가지고 있든 관계없이 AI가 잘 작동하도록 보장합니다. 모델을 파인튜닝하는 개발자이든 단순히 최신 기능을 사용하는 사용자이든 상관없이, ChatGPT는 광범위한 요구를 충족하기 위해 진화하고 있습니다. 실시간 기능, 시각적 통합, 그리고 책임감 있는 사용에 초점을 맞춘 이러한 업데이트는 모두를 위해 더욱 신뢰할 수 있고 안정적인 AI 경험을 구축하고 있습니다.
저희 GitHub 리포지토리를 방문하고 커뮤니티에 참여하여 AI에 대해 더 많이 알아보세요. 자율 주행 및 헬스케어 분야의 AI 애플리케이션에 대해서도 더 자세히 확인해 보시기 바랍니다.






