YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

최신 OpenAI 업데이트: Canvas, Vision Fine-Tuning 등

Abirami Vina

4분 소요

2024년 11월 7일

OpenAI에서 릴리스한 최신 ChatGPT 업데이트를 자세히 살펴보는 데 동참하세요. Canvas, 비전 기능을 위한 미세 조정 및 최신 검색 기능을 살펴볼 것입니다.

지난 9월에 OpenAI의 o1 모델(추론 개선을 위해 설계됨)을 살펴본 후 ChatGPT에 새롭고 흥미로운 기능이 많이 추가되었습니다. 이러한 릴리스 중 일부는 개발자를 대상으로 하고 다른 릴리스는 사용자 경험을 개선하도록 설계되었습니다. 전반적으로 각 업그레이드는 ChatGPT와의 상호 작용을 더욱 직관적이고 효과적으로 만드는 데 도움이 됩니다.

협업 글쓰기 및 코딩을 위해 설계된 Canvas와 같은 업데이트와 이미지를 사용하여 ChatGPT가 작동하는 방식을 개선하는 미세 조정 비전 기능과 같은 업데이트는 많은 관심을 불러일으켜 사용자가 더 창의적인 가능성을 탐색하도록 장려했습니다. 한편, 새로운 API 및 공정성 테스트 보고서와 같은 기술 업그레이드는 모델 통합윤리적 AI 관행과 같은 측면을 다룹니다. OpenAI의 최신 ChatGPT 기능을 자세히 살펴보고 더 나은 이해를 해봅시다!

OpenAI의 캔버스 기능 개요

Canvas는 ChatGPT 출시 이후 첫 번째 주요 사용자 인터페이스(UI) 업데이트입니다. 왼쪽 사이드바에 프롬프트가 있고 오른쪽 창에 응답이 있는 두 화면 레이아웃의 새로운 인터페이스입니다. 새로운 UI는 채팅과 같은 단일 화면 구조의 일반적인 워크플로우를 제거하고 생산성 향상을 위해 멀티태스킹에 적합한 두 화면 레이아웃으로 이동합니다.

Fig 1. Canvas, ChatGPT에 UI 업데이트를 제공합니다.

Canvas가 도입되기 전에는 ChatGPT에서 긴 형식의 문서 작업을 하려면 위아래로 스크롤해야 했습니다. 새로운 레이아웃에서는 프롬프트가 왼쪽 사이드바에 표시되고 텍스트 문서 또는 코드 스니펫이 화면의 대부분을 차지합니다. 필요한 경우 왼쪽 사이드바와 출력 화면의 크기를 사용자 정의할 수도 있습니다. 또한 텍스트 또는 코드 섹션을 선택하여 전체 문서를 변경하지 않고 특정 섹션을 편집할 수 있습니다.

Fig 2. Canvas를 사용하여 텍스트의 특정 섹션 편집.

Canvas를 사용하는 경우 ChatGPT 인터페이스에서 Canvas를 여는 특정 버튼이나 토글이 없습니다. 대신 GPT-4o 모델로 작업할 때 편집, 작성 또는 코딩 중인 것을 감지하면 Canvas가 자동으로 열립니다. 더 간단한 프롬프트의 경우 비활성 상태로 유지됩니다. 수동으로 열려면 "Canvas 열기" 또는 "Canvas 레이아웃 가져오기"와 같은 프롬프트를 사용할 수 있습니다.

현재 Canvas는 베타 버전이며 GPT-4o에서만 사용할 수 있습니다. 그러나 OpenAI는 Canvas가 베타 버전에서 벗어나면 모든 무료 사용자가 사용할 수 있을 것이라고 언급했습니다.

ChatGPT API 업데이트

OpenAI는 효율성, 확장성 및 다재다능성을 개선하기 위해 세 가지 새로운 ChatGPT API 업데이트를 발표했습니다. 이러한 각 업데이트를 자세히 살펴보겠습니다.

모델 증류

OpenAI API를 통해 모델 증류 기능을 사용하면 개발자는 GPT-4o 또는 o1-preview와 같은 고급 모델의 출력을 활용하여 GPT-4o mini와 같이 더 작고 비용 효율적인 모델의 성능을 향상시킬 수 있습니다. 모델 증류는 더 고급 모델의 동작을 모방하도록 더 작은 모델을 학습시키는 프로세스로, 특정 작업에 더욱 효율적으로 사용할 수 있도록 합니다.

이 기능이 도입되기 전에는 개발자가 다양한 도구를 사용하여 다양한 작업을 수동으로 조정해야 했습니다. 이러한 작업에는 데이터 세트 생성, 모델 성능 측정 및 미세 조정 모델이 포함되어 프로세스가 복잡하고 오류가 발생하기 쉬웠습니다. 모델 증류 업데이트를 통해 개발자는 API를 통해 고급 모델에서 생성된 입력-출력 쌍을 캡처하고 저장하여 데이터 세트를 자동으로 생성할 수 있는 도구인 저장된 완료를 사용할 수 있습니다.

모델 증류의 또 다른 기능인 Evals(현재 베타 버전)는 사용자 지정 평가 스크립트를 만들거나 별도의 도구를 사용하지 않고도 특정 작업에서 모델 성능을 측정하는 데 도움이 됩니다. Stored Completions로 생성된 데이터 세트를 사용하고 Evals로 성능을 평가함으로써 개발자는 자체 사용자 지정 GPT 모델을 미세 조정할 수 있습니다.

Fig 3. Evals를 사용하여 모델 성능을 측정할 수 있습니다.

프롬프트 캐싱

AI 애플리케이션, 특히 챗봇을 구축할 때 동일한 컨텍스트(현재 요청을 이해하는 데 필요한 배경 정보 또는 이전 대화 기록)가 여러 API 호출에 반복적으로 사용되는 경우가 많습니다. 프롬프트 캐싱을 통해 개발자는 최근에 사용한 입력 토큰(모델이 프롬프트를 이해하고 응답을 생성하기 위해 처리하는 텍스트 세그먼트)을 재사용하여 비용과 지연 시간을 줄일 수 있습니다.

10월 1일부터 OpenAI는 GPT-4o, GPT-4o mini, o1-preview 및 o1-mini와 같은 모델에 프롬프트 캐싱을 자동으로 적용했습니다. 즉, 개발자가 긴 프롬프트(1,024 토큰 초과)로 모델과 상호 작용하기 위해 API를 사용할 때 시스템은 이미 처리한 부분을 저장합니다. 

이러한 방식으로 동일하거나 유사한 프롬프트가 다시 사용될 경우 해당 부분을 다시 계산하는 것을 건너뛸 수 있습니다. 시스템은 이전에 접한 프롬프트 중 가장 긴 부분을 자동으로 캐싱하며, 1,024 토큰부터 시작하여 프롬프트가 길어짐에 따라 128 토큰씩 추가합니다.

실시간 API

음성 비서를 만드는 데에는 일반적으로 오디오를 텍스트로 변환하고, 텍스트를 처리한 다음, 응답을 재생할 오디오로 다시 변환하는 과정이 필요합니다. OpenAI의 Realtime API는 단일 API 요청으로 이 전체 프로세스를 처리하는 것을 목표로 합니다. 이 프로세스를 단순화함으로써 API는 AI와의 실시간 대화를 가능하게 합니다. 

예를 들어, Realtime API와 통합된 음성 어시스턴트는 사용자 요청에 따라 주문하기 또는 정보 찾기와 같은 특정 작업을 수행할 수 있습니다. API는 음성 어시스턴트를 더욱 반응적으로 만들고 사용자의 요구에 빠르게 적응할 수 있도록 합니다. Realtime API는 10월 1일에 공개 베타를 통해 6개의 음성으로 제공되었습니다. 10월 30일에는 5개의 음성이 추가되어 총 11개의 음성을 사용할 수 있게 되었습니다.

Fig 4. 새로운 언어로 대화 연습을 위해 Realtime API를 사용하는 예시입니다.

비전 작업을 위한 ChatGPT 미세 조정

원래 GPT-4o 비전 언어 모델은 텍스트 전용 데이터 세트만 사용하여 미세 조정 및 사용자 정의할 수 있었습니다. 이제 비전 미세 조정 API가 출시됨에 따라 개발자는 이미지 데이터 세트를 사용하여 GPT-4o를 훈련하고 사용자 정의할 수 있습니다. 출시 이후 비전 미세 조정은 개발자 및 컴퓨터 비전 엔지니어 사이에서 주요 관심사가 되었습니다.

GPT-4o의 시각 기능을 미세 조정하기 위해 개발자는 100장에서 50,000장에 이르는 이미지 데이터 세트를 사용할 수 있습니다. 데이터 세트가 OpenAI에서 요구하는 형식과 일치하는지 확인한 후 Openai 플랫폼에 업로드할 수 있으며 특정 애플리케이션에 맞게 모델을 미세 조정할 수 있습니다. 

예를 들어, 자동화 회사인 Automat는 스크린샷 데이터 세트를 사용하여 설명에 따라 화면에서 UI 요소를 식별할 수 있도록 GPT-4o를 훈련했습니다. 이는 봇이 사용자 인터페이스와 더 쉽게 상호 작용할 수 있도록 하여 로봇 프로세스 자동화(RPA)를 간소화하는 데 도움이 됩니다. 고정된 좌표 또는 복잡한 선택기 규칙에 의존하는 대신 모델은 간단한 설명을 기반으로 UI 요소를 식별할 수 있으므로 인터페이스가 변경될 때 자동화 설정을 더 쉽게 조정하고 유지 관리할 수 있습니다.

Fig 5. GPT-4o 모델의 미세 조정된 버전을 사용하여 UI 요소를 감지합니다.

ChatGPT의 공정성 및 편향 감지

AI 애플리케이션을 둘러싼 윤리적 문제는 AI가 점점 더 발전함에 따라 주요 대화 주제입니다. ChatGPT의 응답은 사용자가 제공한 프롬프트와 인터넷에서 사용할 수 있는 데이터를 기반으로 하기 때문에 항상 책임감 있도록 언어를 미세 조정하는 것이 어려울 수 있습니다. 보고서에 따르면 ChatGPT의 답변은 이름, 성별 및 인종에 편향되어 있습니다. 이 문제를 해결하기 위해 OpenAI의 사내 팀은 1인칭 공정성 테스트를 수행했습니다.

이름은 종종 우리 문화 및 지리적 요인에 대한 미묘한 단서를 전달합니다. 대부분의 경우 ChatGPT는 이름의 미묘한 단서를 무시합니다. 그러나 인종이나 문화를 반영하는 이름은 ChatGPT에서 다른 응답을 유도하는 경우가 있으며, 이 중 약 1%가 유해한 언어를 반영합니다. 편향과 유해한 언어를 제거하는 것은 언어 모델에게 어려운 작업입니다. 그러나 이러한 결과를 공개적으로 공유하고 모델의 한계를 인정함으로써 OpenAI는 사용자가 더 중립적이고 편향되지 않은 답변을 얻을 수 있도록 프롬프트를 개선하는 데 도움을 줍니다. 

Fig 6. 사용자 이름으로 인해 응답이 달라지는 예시입니다.

ChatGPT 검색 이해

ChatGPT가 처음 출시되었을 때 AI 커뮤니티에서는 기존 웹 브라우징을 대체할 수 있는지에 대한 논의가 있었습니다. 현재 많은 사용자가 Google 검색 대신 ChatGPT를 사용하고 있습니다. 

OpenAI의 새로운 업데이트인 검색 기능은 한 단계 더 나아갑니다. 검색을 통해 ChatGPT는 최신 응답을 생성하고 관련 소스에 대한 링크를 포함합니다. 10월 31일부터 검색 기능은 모든 ChatGPT Plus 및 Team 사용자가 사용할 수 있게 되어 ChatGPT가 AI 기반 검색 엔진처럼 작동합니다.

Fig 7. ChatGPT의 새로운 검색 기능 사용 예시.

앞으로의 과제

ChatGPT의 최근 업데이트는 AI를 더욱 유용하고, 유연하며, 공정하게 만드는 데 중점을 두고 있습니다. 새로운 Canvas 기능은 사용자가 더욱 효율적으로 작업할 수 있도록 지원하며, 비전 미세 조정 기능을 통해 개발자는 시각적 작업을 더 잘 처리하도록 모델을 맞춤 설정할 수 있습니다. 공정성을 확보하고 편향을 줄이는 것 또한 중요한 우선순위이며, AI가 누구에게나 효과적으로 작동하도록 보장합니다. 모델을 미세 조정하는 개발자이든 최신 기능을 사용하는 사용자이든, ChatGPT는 광범위한 요구 사항을 충족하도록 진화하고 있습니다. 실시간 기능, 시각적 통합 및 책임감 있는 사용에 대한 집중을 통해 이러한 업데이트는 모든 사람에게 더욱 신뢰할 수 있고 안정적인 AI 경험을 구축합니다.

GitHub 저장소를 방문하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 자율 주행헬스케어 분야의 AI 애플리케이션에 대해 자세히 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.