Yolo 비전 선전
선전
지금 참여하기

최신 OpenAI 업데이트: Canvas, Vision Fine-Tuning 등

Abirami Vina

4분 소요

2024년 11월 7일

OpenAI가 최근 발표한 ChatGPT 업데이트에 대해 자세히 알아보세요. 캔버스, 비전 기능의 미세 조정, 최신 검색 기능에 대해 살펴볼 것입니다.

지난 9월에 추론을 개선하기 위해 설계된 OpenAI의 o1 모델을 마지막으로 살펴본 이후, 새롭고 흥미로운 기능들이 ChatGPT 많이 추가되었습니다. 이러한 릴리스 중 일부는 개발자를 위한 것이며, 다른 일부는 사용자 경험을 개선하기 위해 설계되었습니다. 전반적으로, 각 업그레이드는 ChatGPT 상호작용을 더욱 직관적이고 효과적으로 만드는 데 도움이 됩니다.

협업 글쓰기 및 코딩을 위해 설계된 캔버스, 이미지와 함께 작동하는 ChatGPT 방식을 개선하는 비전 기능의 미세 조정과 같은 업데이트는 많은 관심을 불러일으키며 사용자들이 더 창의적인 가능성을 탐구할 수 있도록 독려하고 있습니다. 한편, 새로운 API 및 공정성 테스트 보고서와 같은 기술 업그레이드는 모델 통합윤리적 AI 관행과 같은 측면을 다루고 있습니다. 지금부터 OpenAI의 최신 ChatGPT 기능에 대해 자세히 알아보세요!

OpenAI의 캔버스 기능 개요

캔버스는 출시 이후 ChatGPT사용자 인터페이스(UI)에 대한 첫 번째 주요 업데이트입니다. 두 개의 화면 레이아웃, 왼쪽 사이드바에 프롬프트, 오른쪽 창에 응답이 있는 새로운 인터페이스입니다. 새로운 UI는 채팅과 같은 단일 화면 구조의 일반적인 워크플로우를 없애고 멀티태스킹에 적합한 두 화면 레이아웃으로 전환하여 생산성을 높입니다.

그림 1. 캔버스가 ChatGPT UI 업데이트를 제공합니다.

캔버스가 도입되기 전에는 ChatGPT 긴 형식의 문서를 작업하려면 위아래로 꽤 많이 스크롤해야 했습니다. 새 레이아웃에서는 왼쪽 사이드바에 프롬프트가 표시되고 텍스트 문서나 코드 조각이 화면의 대부분을 차지합니다. 필요한 경우 왼쪽 사이드바 및 출력 화면의 크기를 사용자 지정할 수도 있습니다. 또한 텍스트의 일부 또는 코드 섹션을 선택하여 전체 문서를 변경하지 않고 특정 섹션을 편집할 수 있습니다.

Fig 2. Canvas를 사용하여 텍스트의 특정 섹션 편집.

캔버스를 사용하는 경우, ChatGPT 인터페이스에 캔버스를 열기 위한 특정 버튼이나 토글이 없다는 것을 알 수 있습니다. 대신, GPT-4o 모델로 작업할 때 편집, 작성 또는 코딩 중임을 감지하면 캔버스가 자동으로 열립니다. 간단한 프롬프트의 경우 비활성 상태로 유지됩니다. 수동으로 열려면 "캔버스 열기" 또는 "캔버스 레이아웃 가져오기"와 같은 프롬프트를 사용할 수 있습니다.

현재 Canvas는 베타 버전이며 GPT-4o에서만 사용할 수 있습니다. 그러나 OpenAI는 Canvas가 베타 버전에서 벗어나면 모든 무료 사용자가 사용할 수 있을 것이라고 언급했습니다.

ChatGPTAPI 업데이트

OpenAI는 효율성, 확장성, 범용성을 개선하기 위한 세 가지 새로운 ChatGPT API 업데이트를 출시했습니다. 각 업데이트에 대해 자세히 살펴보겠습니다.

모델 증류

OpenAI API를 통해 모델 증류 기능을 사용하면 개발자는 GPT-4o 또는 o1-preview와 같은 고급 모델의 출력을 활용하여 GPT-4o mini와 같이 더 작고 비용 효율적인 모델의 성능을 향상시킬 수 있습니다. 모델 증류는 더 고급 모델의 동작을 모방하도록 더 작은 모델을 학습시키는 프로세스로, 특정 작업에 더욱 효율적으로 사용할 수 있도록 합니다.

이 기능이 도입되기 전에는 개발자가 다양한 도구를 사용하여 다양한 작업을 수동으로 조정해야 했습니다. 이러한 작업에는 데이터 세트 생성, 모델 성능 측정 및 미세 조정 모델이 포함되어 프로세스가 복잡하고 오류가 발생하기 쉬웠습니다. 모델 증류 업데이트를 통해 개발자는 API를 통해 고급 모델에서 생성된 입력-출력 쌍을 캡처하고 저장하여 데이터 세트를 자동으로 생성할 수 있는 도구인 저장된 완료를 사용할 수 있습니다.

모델 증류의 또 다른 기능인 Evals(현재 베타 버전)는 사용자 지정 평가 스크립트를 만들거나 별도의 도구를 사용하지 않고도 특정 작업에서 모델 성능을 측정하는 데 도움이 됩니다. Stored Completions로 생성된 데이터 세트를 사용하고 Evals로 성능을 평가함으로써 개발자는 자체 사용자 지정 GPT 모델을 미세 조정할 수 있습니다.

Fig 3. Evals를 사용하여 모델 성능을 측정할 수 있습니다.

프롬프트 캐싱

AI 애플리케이션, 특히 챗봇을 구축할 때 동일한 컨텍스트(현재 요청을 이해하는 데 필요한 배경 정보 또는 이전 대화 기록)가 여러 API 호출에 반복적으로 사용되는 경우가 많습니다. 프롬프트 캐싱을 통해 개발자는 최근에 사용한 입력 토큰(모델이 프롬프트를 이해하고 응답을 생성하기 위해 처리하는 텍스트 세그먼트)을 재사용하여 비용과 지연 시간을 줄일 수 있습니다.

10월 1일부터 OpenAI는 GPT-4o, GPT-4o mini, o1-preview 및 o1-mini와 같은 모델에 프롬프트 캐싱을 자동으로 적용했습니다. 즉, 개발자가 긴 프롬프트(1,024 토큰 초과)로 모델과 상호 작용하기 위해 API를 사용할 때 시스템은 이미 처리한 부분을 저장합니다. 

이러한 방식으로 동일하거나 유사한 프롬프트가 다시 사용될 경우 해당 부분을 다시 계산하는 것을 건너뛸 수 있습니다. 시스템은 이전에 접한 프롬프트 중 가장 긴 부분을 자동으로 캐싱하며, 1,024 토큰부터 시작하여 프롬프트가 길어짐에 따라 128 토큰씩 추가합니다.

실시간 API

음성 비서를 만드는 데에는 일반적으로 오디오를 텍스트로 변환하고, 텍스트를 처리한 다음, 응답을 재생할 오디오로 다시 변환하는 과정이 필요합니다. OpenAI의 Realtime API는 단일 API 요청으로 이 전체 프로세스를 처리하는 것을 목표로 합니다. 이 프로세스를 단순화함으로써 API는 AI와의 실시간 대화를 가능하게 합니다. 

예를 들어, Realtime API와 통합된 음성 어시스턴트는 사용자 요청에 따라 주문하기 또는 정보 찾기와 같은 특정 작업을 수행할 수 있습니다. API는 음성 어시스턴트를 더욱 반응적으로 만들고 사용자의 요구에 빠르게 적응할 수 있도록 합니다. Realtime API는 10월 1일에 공개 베타를 통해 6개의 음성으로 제공되었습니다. 10월 30일에는 5개의 음성이 추가되어 총 11개의 음성을 사용할 수 있게 되었습니다.

Fig 4. 새로운 언어로 대화 연습을 위해 Realtime API를 사용하는 예시입니다.

비전 작업을 위한 ChatGPT 미세 조정하기

원래 GPT-4o 비전 언어 모델은 텍스트 전용 데이터 세트만 사용하여 미세 조정 및 사용자 정의할 수 있었습니다. 이제 비전 미세 조정 API가 출시됨에 따라 개발자는 이미지 데이터 세트를 사용하여 GPT-4o를 훈련하고 사용자 정의할 수 있습니다. 출시 이후 비전 미세 조정은 개발자 및 컴퓨터 비전 엔지니어 사이에서 주요 관심사가 되었습니다.

GPT-4o의 시각 기능을 미세 조정하기 위해 개발자는 100장에서 50,000장에 이르는 이미지 데이터 세트를 사용할 수 있습니다. 데이터 세트가 OpenAI에서 요구하는 형식과 일치하는지 확인한 후 Openai 플랫폼에 업로드할 수 있으며 특정 애플리케이션에 맞게 모델을 미세 조정할 수 있습니다. 

예를 들어, 자동화 회사인 Automat는 스크린샷 데이터 세트를 사용하여 설명에 따라 화면에서 UI 요소를 식별할 수 있도록 GPT-4o를 훈련했습니다. 이는 봇이 사용자 인터페이스와 더 쉽게 상호 작용할 수 있도록 하여 로봇 프로세스 자동화(RPA)를 간소화하는 데 도움이 됩니다. 고정된 좌표 또는 복잡한 선택기 규칙에 의존하는 대신 모델은 간단한 설명을 기반으로 UI 요소를 식별할 수 있으므로 인터페이스가 변경될 때 자동화 설정을 더 쉽게 조정하고 유지 관리할 수 있습니다.

그림 5. 미세 조정된 버전의 GPT-4o 모델을 사용하여 UI 요소 detect .

ChatGPT 공정성 및 편향성 감지

인공지능이 점점 더 발전함에 따라 인공지능 애플리케이션을 둘러싼 윤리적 문제는 중요한 화두로 떠오르고 있습니다. ChatGPT응답은 사용자가 제공한 프롬프트와 인터넷에서 사용할 수 있는 데이터를 기반으로 하기 때문에 항상 책임감 있게 언어를 미세 조정하는 것이 어려울 수 있습니다. 보고서에 따르면 ChatGPT답변이 이름, 성별, 인종에 편향되어 있다고 합니다. 이 문제를 해결하기 위해 OpenAI의 사내 팀은 1인칭 공정성 테스트를 실시했습니다.

이름에는 종종 문화와 지리적 요인에 대한 미묘한 단서가 담겨 있습니다. 대부분의 경우 ChatGPT 이름에 포함된 미묘한 단서를 무시합니다. 그러나 인종이나 문화가 반영된 이름은 ChatGPT 다른 응답을 유도하는 경우도 있으며, 이 중 약 1%는 유해한 언어를 반영합니다. 언어 모델에서 편견과 유해한 언어를 제거하는 것은 어려운 작업입니다. 그러나 이러한 결과를 공개적으로 공유하고 모델의 한계를 인정함으로써 OpenAI는 사용자가 보다 중립적이고 편견 없는 답변을 얻을 수 있도록 프롬프트를 개선할 수 있도록 지원합니다. 

Fig 6. 사용자 이름으로 인해 응답이 달라지는 예시입니다.

ChatGPT 검색 이해하기

ChatGPT 처음 출시되었을 때, AI 커뮤니티에서는 기존 웹 브라우징을 대체할 수 있을지에 대한 논의가 있었습니다. 지금은 많은 사용자가 Google 검색 대신 ChatGPT 사용하고 있습니다. 

OpenAI의 새로운 업데이트인 검색 기능은 이를 한 단계 더 발전시켰습니다. 검색을 통해 ChatGPT 최신 응답을 생성하고 관련 소스에 대한 링크를 포함합니다. 10월 31일부터 모든 ChatGPT 플러스 및 팀 사용자는 검색 기능을 사용할 수 있으며, 이로써 ChatGPT AI 기반 검색 엔진과 같은 기능을 갖추게 됩니다.

그림 7. ChatGPT새로운 검색 기능 사용 예시.

앞으로의 과제

ChatGPT 최근 업데이트는 AI를 더욱 유용하고 유연하며 공정하게 만드는 데 중점을 두고 있습니다. 새로운 캔버스 기능은 사용자가 보다 효율적으로 작업할 수 있도록 도와주며, 비전 미세 조정을 통해 개발자는 시각적 작업을 더 잘 처리할 수 있도록 모델을 사용자 지정할 수 있습니다. 공정성 문제를 해결하고 편견을 줄이는 것 또한 핵심 우선 순위로, 누구에게나 AI가 잘 작동하도록 보장합니다. 모델을 미세 조정하는 개발자이든 최신 기능을 사용하는 개발자이든 ChatGPT 다양한 요구 사항을 충족하기 위해 진화하고 있습니다. 실시간 기능, 시각적 통합, 책임감 있는 사용에 중점을 둔 이번 업데이트는 모두에게 더욱 신뢰할 수 있고 안정적인 AI 환경을 구축합니다.

GitHub 저장소를 방문하고 커뮤니티에 가입하여 AI에 대해 자세히 알아보세요. 자율 주행헬스케어 분야의 AI 애플리케이션에 대해 자세히 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기