2024년, 제너레이티브 AI의 시작

아비라미 비나

6분 읽기

2024년 4월 12일

2024년 1분기의 흥미로운 AI 혁신에 대해 살펴봅니다. OpenAI의 Sora AI, Neuralink의 두뇌 칩, 최신 LLM과 같은 획기적인 기술을 다룹니다.

AI 커뮤니티는 거의 매일 헤드라인을 장식하는 것 같습니다. 2024년의 첫 몇 달은 흥미진진하고 새로운 AI 혁신으로 가득 차 있습니다. 강력한 새로운 대규모 언어 모델부터 인간의 뇌 임플란트까지, 2024년은 놀라운 한 해가 될 것입니다.

우리는 AI가 산업을 변화시키고, 정보에 대한 접근성을 높이며, 심지어 인간의 정신과 기계의 결합을 향한 첫 걸음을 내딛는 것을 목격하고 있습니다. 2024년 1분기를 되돌려 불과 몇 달 만에 이루어진 AI의 진전을 자세히 살펴보겠습니다.

LLM 트렌드

방대한 양의 텍스트 데이터를 기반으로 인간의 언어를 이해, 생성, 조작하도록 설계된 대규모 언어 모델(LLM)이 2024년 1분기에 각광을 받았습니다. 많은 주요 기술 기업들이 각각 고유한 기능을 갖춘 자체 LLM 모델을 출시했습니다. GPT-3와 같은 이전 LLM의 놀라운 성공이 이러한 추세에 영감을 주었습니다. 다음은 2024년 초에 출시된 가장 주목할 만한 LLM 중 일부입니다.

앤트로픽의 클로드 3

2024년 3월 14일에 클로드 3가 출시되었습니다. Claude 3 모델은 세 가지 버전으로 제공됩니다: 오푸스, 소네트, 하이쿠는 각각 다른 시장과 목적에 맞게 제공됩니다. 가장 빠른 모델인 하이쿠는 빠르고 기본적인 응답에 최적화되어 있습니다. Sonnet은 속도와 인텔리전스의 균형을 맞추며 엔터프라이즈 애플리케이션을 대상으로 합니다. 가장 고급 버전인 Opus는 탁월한 지능과 추론을 제공하며 복잡한 작업과 최고 벤치마크 달성에 이상적입니다.

Claude 3는 많은 고급 기능과 개선 사항을 자랑합니다:

  • 향상된 다국어 회화: 스페인어, 일본어, 프랑스어 등의 언어 능력이 향상되었습니다.
  • 고급 비전 기능: 다양한 시각적 포맷을 처리할 수 있습니다.
  • 거부 최소화: 불필요한 거부를 줄이면서 더 많은 이해를 표시하여 문맥 파악이 개선되었음을 나타냅니다.
    ↪f_200D↩
  • 확장된 컨텍스트 창: 200만 개의 컨텍스트 창을 제공하지만, 고객의 필요에 따라 100만 개 이상의 토큰 입력을 처리할 수 있습니다.
__wf_reserved_inherit
그림 1. Claude 3는 이전 버전보다 컨텍스트를 더 잘 인식합니다.

데이터브릭스의 DBRX

데이터브릭스 DBRX는 2024년 3월 27일에 데이터브릭스에서 출시한 개방형 범용 LLM입니다. DBRX는 언어 이해, 프로그래밍, 수학을 포함한 다양한 벤치마크에서 매우 우수한 성능을 보입니다. 기존 모델보다 약 40% 더 작으면서도 다른 기존 모델을 능가합니다.

__wf_reserved_inherit
그림 2. DBRX와 다른 모델 비교.

DBRX는 세분화된 전문가 혼합(MoE) 아키텍처로 다음 토큰 예측을 사용하여 훈련되었기 때문에 훈련 및 추론 성능이 크게 향상되었습니다. 이 아키텍처는 모델이 다양한 전문 하위 모델('전문가')을 참조하여 시퀀스의 다음 단어를 더 정확하게 예측할 수 있게 해줍니다. 이러한 하위 모델은 다양한 유형의 정보나 작업을 처리하는 데 능숙합니다.

구글의 제미니 1.5

Google은 2024년 2월 15일에 방대한 텍스트, 동영상, 오디오 데이터를 분석할 수 있는 컴퓨팅 효율성이 뛰어난 멀티모달 AI 모델인 Gemini 1.5를 출시했습니다. 최신 모델은 성능, 효율성, 기능 면에서 더욱 발전했습니다. Gemini 1.5의 주요 특징은 장문 이해 능력의 획기적인 향상입니다. 이 모델은 최대 100만 개의 토큰을 일관되게 처리할 수 있습니다. Gemini 1.5의 이러한 기능은 새로운 MoE 기반 아키텍처 덕분이기도 합니다.

__wf_reserved_inherit
그림 3. 인기 있는 LLM의 컨텍스트 길이 비교

Gemini 1.5의 가장 흥미로운 기능 몇 가지를 소개합니다:

  • 향상된 데이터 처리: 대용량 PDF, 코드 저장소 또는 긴 동영상을 프롬프트로 직접 업로드할 수 있습니다. 모델은 여러 모달리티를 추론하고 텍스트를 출력할 수 있습니다.
  • 여러 파일 업로드 및 쿼리: 이제 개발자는 여러 파일을 업로드하고 질문할 수 있습니다.
  • 다양한 작업에 사용할 수 있습니다: 다양한 작업에서 확장할 수 있도록 최적화되어 있으며 수학, 과학, 추론, 다국어, 동영상 이해 및 코드와 같은 영역에서 개선된 성능을 보여줍니다.

AI의 놀라운 비주얼

2024년 1분기에는 소셜 미디어의 미래와 AI의 발전에 대한 논쟁을 불러일으킬 정도로 실제와 같은 비주얼을 만들어낼 수 있는 제너레이티브 AI 모델이 공개되었습니다. 화제를 불러일으킨 모델에 대해 자세히 알아보세요.

OpenAI의 소라 

ChatGPT를 개발한 OpenAI는 2024년 2월 15일에 최첨단 텍스트-비디오 딥러닝 모델인 Sora를 발표했습니다. Sora는 텍스트 사용자 프롬프트를 기반으로 시각적 품질이 뛰어난 1분 길이의 동영상을 생성할 수 있는 텍스트-비디오 생성기입니다. 

예를 들어 다음 프롬프트를 살펴보세요. 

"다채로운 물고기와 바다 생물로 가득한 산호초의 종이공예 세계를 화려하게 표현했습니다." 

다음은 출력 비디오의 프레임입니다. 

__wf_reserved_inherit
그림 4. Sora가 생성한 비디오의 프레임.

소라의 아키텍처는 텍스처 생성을 위한 디퓨전 모델과 구조적 일관성을 위한 트랜스포머 모델을 혼합하여 이를 가능하게 합니다. 지금까지는 레드 팀원과 일부 비주얼 아티스트, 디자이너, 영화 제작자 그룹이 위험을 파악하고 피드백을 받기 위해 Sora에 액세스할 수 있었습니다. 

안정성 AI의 안정적인 확산 3 

Stability AI는 2024년 2월 22일에 텍스트-이미지 생성 모델인 Stable Diffusion 3의 출시를 발표했습니다. 이 모델은 디퓨전 트랜스포머 아키텍처와 플로우 매칭을 혼합한 것입니다. 아직 기술 문서를 공개하지는 않았지만 몇 가지 주요 기능을 살펴볼 수 있습니다.

__wf_reserved_inherit
그림 5. 프롬프트에 따른 출력 이미지: "밤에 산 꼭대기에서 마법사가 어두운 하늘에 우주 주문을 시전하는 서사시 애니메이션 작품으로, 다채로운 에너지로 만들어진 "안정된 확산 3"이라고 쓰여 있습니다."

스테이블 디퓨전의 최신 모델은 여러 피사체가 있는 이미지를 만들 때 향상된 성능, 이미지 품질 및 정확도를 제공합니다. 스테이블 디퓨전 3는 또한 8억 개에서 80억 개에 이르는 다양한 모델을 제공합니다. 이를 통해 사용자는 확장성과 디테일에 대한 특정 요구 사항에 따라 선택할 수 있습니다.

구글의 뤼미에르 

2024년 1월 23일, Google은 텍스트-동영상 확산 모델인 Lumiere를 출시했습니다. Lumiere는 Space-Time-U-Net 또는 줄여서 STUNet이라는 아키텍처를 사용합니다. 이 아키텍처는 뤼미에르가 동영상에서 사물이 어디에 있고 어떻게 움직이는지 이해하는 데 도움이 됩니다. 이를 통해 부드럽고 생생한 동영상을 생성할 수 있습니다.

__wf_reserved_inherit
그림 6. 프롬프트에 따라 생성된 비디오의 프레임: "팬더는 집에서 우쿨렐레를 연주합니다."

비디오당 80프레임을 생성할 수 있는 기능을 갖춘 Lumiere는 AI 분야에서 비디오 품질에 대한 새로운 기준을 제시하며 한계를 뛰어넘고 있습니다. 다음은 Lumiere의 몇 가지 기능입니다:

  • 이미지-비디오: 이미지와 프롬프트에서 시작하여 이미지를 동영상으로 애니메이션화할 수 있습니다.
    ↪cf_200D↩
  • 스타일화된 생성: Lumiere는 단일 참조 이미지를 사용하여 특정 스타일로 동영상을 제작할 수 있습니다.
    ↪f_200D↩
  • 시네마그래프: 뤼미에르: 이미지 내의 특정 영역에 애니메이션을 적용하여 특정 오브젝트가 움직이는 동안 나머지 장면은 정적으로 유지되는 등 동적인 장면을 만들 수 있습니다.
    ↪cf_200D↩
  • 동영상 색칠하기: 동영상 내 인물의 복장을 변경하거나 배경 디테일을 변경하는 등 동영상의 일부를 수정할 수 있습니다.

미래는 여기에 있습니다

2024년의 시작과 함께 공상과학 영화에서나 볼 수 있을 것 같은 많은 AI 혁신이 이루어지고 있습니다. 이전에는 불가능하다고 여겨졌던 일들이 이제 실현되고 있습니다. 다음과 같은 발견을 통해 미래가 그리 멀게 느껴지지 않습니다.

엘론 머스크의 뉴럴링크

엘론 머스크의 뉴럴링크는 2024년 1월 29일 무선 뇌 칩을 인간에게 이식하는 데 성공했습니다. 이는 인간의 뇌를 컴퓨터와 연결하기 위한 큰 진전입니다. 엘론 머스크는 뉴럴링크의 첫 번째 제품인 '텔레파시'가 개발 중이라고 밝혔습니다. 

__wf_reserved_inherit
그림 7. 뉴럴링크 임플란트

특히 사지 기능을 잃은 사용자들이 생각을 통해 손쉽게 기기를 제어할 수 있도록 하는 것이 목표입니다. 잠재적인 응용 분야는 편리함 그 이상입니다. 엘론 머스크는 마비 장애인도 쉽게 소통할 수 있는 미래를 상상합니다.

디즈니의 홀로타일 바닥 

2024년 1월 18일, 월트 디즈니 이매지니어링은 홀로타일 플로어를 공개했습니다. 세계 최초의 다인용 전방향 러닝머신 바닥이라는 별칭이 붙었습니다. 

__wf_reserved_inherit
그림 8. 디즈니 이매지니어인 래니 스무트가 최신 혁신 제품인 홀로타일 바닥에서 포즈를 취하고 있습니다.

염력처럼 사람이나 물체 아래로 이동하여 몰입감 넘치는 가상 및 증강 현실을 경험할 수 있습니다. 어느 방향으로든 걸을 수 있고, 그 위를 걷는 동안에는 충돌을 피할 수 있습니다. 디즈니의 홀로타일 플로어는 연극 무대에 설치하여 창의적인 방식으로 춤추고 움직일 수도 있습니다.

애플의 비전 프로

2024년 2월 2일, 많은 기대를 모았던 Apple의 비전 프로 헤드셋이 시장에 출시되었습니다. 이 제품은 가상 및 증강 현실 경험을 재정의하도록 설계된 다양한 기능과 애플리케이션을 갖추고 있습니다. 비전 프로 헤드셋은 엔터테인먼트, 생산성, 공간 컴퓨팅을 결합하여 다양한 사용자를 만족시킵니다. Apple은 출시 당시 생산성 도구부터 게임 및 엔터테인먼트 서비스에 이르기까지 600개 이상의 앱이 Vision Pro에 최적화되었다고 자랑스럽게 발표했습니다.

코그니션의 데빈

2024년 3월 12일, 코그니션은 Devin이라는 소프트웨어 엔지니어링 어시스턴트를 출시했습니다. Devin은 세계 최초로 시도되는 자율 AI 소프트웨어 엔지니어입니다. 제안을 제공하거나 특정 작업을 완료하는 기존의 코딩 어시스턴트와 달리 Devin은 초기 개념부터 완료까지 전체 소프트웨어 개발 프로젝트를 처리하도록 설계되었습니다. 

새로운 기술을 배우고, 전체 앱을 빌드 및 배포하고, 버그를 찾아 수정하고, 자체 모델을 교육하고, 오픈 소스 및 프로덕션 코드베이스에 기여하고, Upwork와 같은 사이트에서 실제 개발 작업을 수행할 수도 있습니다. 

__wf_reserved_inherit
그림 9. Devin과 다른 모델 비교.

Devin은 에이전트에게 Django 및 scikit-learn과 같은 오픈 소스 프로젝트에서 발견되는 실제 GitHub 문제를 해결하도록 요청하는 까다로운 벤치마크인 SWE-bench에서 평가되었습니다. 13.86%의 이슈를 엔드투엔드 방식으로 올바르게 해결했으며, 이는 이전의 1.96%에 비해 훨씬 높은 수치입니다.

입선작

이 글에서 모든 것을 다룰 수 없을 정도로 많은 일이 일어났습니다. 하지만 여기 몇 가지 주목할 만한 사례를 소개합니다. 

  • 2024년 3월 21일에 발표된 NVIDIA의 LATTE3D는 텍스트 프롬프트에서 3D 표현을 즉시 생성하는 텍스트-3D AI 모델입니다.
    ↪f_200D↩
  • CEO 데이비드 홀츠가 소개한 미드저니의 새로운 텍스트-비디오 생성기는 1월에 교육을 시작했으며 곧 출시될 예정입니다.
    ↪f_200D↩
  • AI PC 혁명을 선도하는 레노버는 2024년 1월 8일 E 잉크 프리즘 기술과 고성능 AI 노트북을 탑재한 씽크북 13x를 출시했습니다.

저희와 함께 AI 트렌드에 대한 최신 소식을 받아보세요!

2024년은 AI의 획기적인 발전과 많은 주요 기술적 이정표가 세워진 해였습니다. 하지만 이것은 AI가 할 수 있는 일의 시작에 불과합니다. 최신 AI 개발에 대해 더 자세히 알고 싶으시다면 Ultralytics가 도와드리겠습니다.

컴퓨터 비전과 AI 분야의 최신 기여를 확인하려면 GitHub 리포지토리를 확인하세요. 또한 솔루션 페이지에서 제조 의료와 같은 산업에서 AI가 어떻게 활용되고 있는지 살펴볼 수 있습니다. 

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨