2024년 1분기의 흥미로운 AI 혁신을 살펴봅니다. OpenAI의 Sora AI, Neuralink의 두뇌 칩, 최신 LLM과 같은 획기적인 기술을 다룰 것입니다.

2024년 1분기의 흥미로운 AI 혁신을 살펴봅니다. OpenAI의 Sora AI, Neuralink의 두뇌 칩, 최신 LLM과 같은 획기적인 기술을 다룰 것입니다.

AI 커뮤니티는 거의 매일 헤드라인을 장식하는 듯합니다. 2024년 처음 몇 달은 새로운 AI 혁신으로 가득 찬 흥미로운 시간이었습니다. 강력한 새로운 대규모 언어 모델부터 인간 뇌 임플란트까지, 2024년은 놀라운 한 해가 될 것으로 보입니다.
AI가 산업을 변화시키고, 정보 접근성을 높이며, 심지어 우리의 정신과 기계를 융합하는 첫걸음을 내딛는 것을 목격하고 있습니다. 2024년 1분기를 되돌아보며 몇 달 만에 AI가 이룬 발전을 자세히 살펴보겠습니다.
방대한 양의 텍스트 데이터를 기반으로 인간의 언어를 이해, 생성 및 조작하도록 설계된 대규모 언어 모델(LLM)이 2024년 1분기에 중심 무대를 차지했습니다. 많은 주요 기술 회사들이 각기 고유한 기능을 갖춘 자체 LLM 모델을 출시했습니다. GPT-3와 같은 이전 LLM의 놀라운 성공이 이러한 추세를 촉발했습니다. 다음은 2024년 초 가장 주목할 만한 LLM 출시작 중 일부입니다.
Anthropic은 2024년 3월 14일에 Claude 3를 출시했습니다. Claude 3 모델은 Opus, Sonnet, Haiku의 세 가지 버전으로 제공되며, 각 버전은 서로 다른 시장과 목적에 맞춰 제공됩니다. 가장 빠른 모델인 Haiku는 빠른 기본 응답에 최적화되어 있습니다. Sonnet은 속도와 지능의 균형을 맞추고 있으며 엔터프라이즈 애플리케이션을 대상으로 합니다. 가장 발전된 버전인 Opus는 타의 추종을 불허하는 지능과 추론을 제공하며 복잡한 작업과 최고의 벤치마크 달성에 이상적입니다.
Claude 3는 다음과 같은 많은 고급 기능과 개선 사항을 자랑합니다.

Databricks DBRX는 Databricks가 2024년 3월 27일에 출시한 개방형 범용 LLM입니다. DBRX는 언어 이해, 프로그래밍 및 수학을 포함한 다양한 벤치마크에서 매우 뛰어난 성능을 보입니다. 유사한 모델보다 약 40% 더 작으면서도 다른 기존 모델을 능가합니다.

DBRX는 세분화된 MoE(mixture-of-experts) 아키텍처를 사용하여 다음 토큰 예측으로 학습되었으며, 이것이 바로 학습 및 추론 성능에서 상당한 개선을 볼 수 있는 이유입니다. 이 아키텍처를 통해 모델은 다양한 전문 서브모델("전문가") 세트를 참조하여 시퀀스에서 다음 단어를 더 정확하게 예측할 수 있습니다. 이러한 서브모델은 다양한 유형의 정보 또는 작업을 처리하는 데 능숙합니다.
Google은 2024년 2월 15일에 광범위한 텍스트, 비디오 및 오디오 데이터를 분석할 수 있는 컴퓨팅 효율적인 멀티모달 AI 모델인 Gemini 1.5를 소개했습니다. 최신 모델은 성능, 효율성 및 기능 면에서 더욱 발전되었습니다. Gemini 1.5의 핵심 기능은 긴 컨텍스트 이해의 획기적인 발전입니다. 이 모델은 최대 100만 개의 토큰을 일관되게 처리할 수 있습니다. Gemini 1.5의 기능은 새로운 MoE 기반 아키텍처 덕분이기도 합니다.

다음은 Gemini 1.5의 가장 흥미로운 기능 중 일부입니다.
2024년 1분기에는 너무나 현실적이어서 소셜 미디어의 미래와 AI의 발전에 대한 논쟁을 불러일으킨 시각적 자료를 생성할 수 있는 생성적 AI 모델이 공개되었습니다. 대화를 불러일으키는 모델에 대해 자세히 알아보겠습니다.
ChatGPT 제작사인 OpenAI는 2024년 2월 15일에 Sora라는 최첨단 텍스트-비디오 딥러닝 모델을 발표했습니다. Sora는 텍스트 프롬프트를 기반으로 시각적 품질이 뛰어난 1분 길이의 비디오를 생성할 수 있는 텍스트-비디오 생성기입니다.
예를 들어 다음 프롬프트를 살펴보겠습니다.
화려하게 표현된 산호초의 종이 공예 세계, 다채로운 물고기와 바다 생물이 가득합니다.
다음은 출력 비디오의 프레임입니다.

Sora의 아키텍처는 텍스처 생성을 위한 디퓨전 모델과 구조적 일관성을 위한 트랜스포머 모델을 결합하여 이를 가능하게 합니다. 현재까지 Sora에 대한 접근 권한은 위험을 파악하고 피드백을 얻기 위해 레드팀과 일부 시각 예술가, 디자이너 및 영화 제작자 그룹에 제공되었습니다.
Stability AI는 2024년 2월 22일에 텍스트-이미지 생성 모델인 Stable Diffusion 3의 출시를 발표했습니다. 이 모델은 디퓨전 트랜스포머 아키텍처와 플로우 매칭을 혼합합니다. 아직 기술 논문이 발표되지는 않았지만 주목해야 할 몇 가지 주요 기능이 있습니다.

Stable Diffusion의 최신 모델은 여러 피사체가 있는 이미지를 생성할 때 성능, 이미지 품질 및 정확도가 향상되었습니다. Stable Diffusion 3는 또한 8억 개에서 80억 개에 이르는 다양한 파라미터 모델을 제공할 예정입니다. 이를 통해 사용자는 확장성과 디테일에 대한 특정 요구 사항에 따라 선택할 수 있습니다.
2024년 1월 23일, Google은 텍스트-비디오 디퓨전 모델인 Lumiere를 출시했습니다. Lumiere는 Space-Time-U-Net 또는 STUNet이라는 아키텍처를 사용합니다. STUNet은 Lumiere가 비디오에서 사물의 위치와 움직임을 이해하는 데 도움이 됩니다. 이를 통해 부드럽고 생생한 비디오를 생성할 수 있습니다.

비디오당 80프레임을 생성할 수 있는 Lumiere는 AI 분야에서 비디오 품질의 경계를 넓히고 새로운 표준을 설정하고 있습니다. 다음은 Lumiere의 몇 가지 기능입니다.
2024년 초는 공상 과학 영화에서나 나올 법한 많은 AI 혁신을 가져왔습니다. 이전에는 불가능하다고 말했던 것들이 이제 연구되고 있습니다. 다음 발견들을 통해 미래가 그리 멀지 않은 것처럼 느껴집니다.
Elon Musk의 Neuralink는 2024년 1월 29일에 인간에게 무선 뇌 칩을 성공적으로 이식했습니다. 이는 인간의 뇌를 컴퓨터에 연결하는 데 있어 엄청난 진전입니다. Elon Musk는 Neuralink의 첫 번째 제품인 'Telepathy'가 개발 중이라고 밝혔습니다.

목표는 사용자가, 특히 팔다리 기능을 상실한 사용자가 생각을 통해 장치를 쉽게 제어할 수 있도록 하는 것입니다. 잠재적인 응용 분야는 편의성을 넘어섭니다. Elon Musk는 마비 환자가 쉽게 의사 소통할 수 있는 미래를 상상합니다.
2024년 1월 18일, 월트 디즈니 이매지니어링은 HoloTile Floor를 공개했습니다. 이는 세계 최초의 다인용, 전방향 트레드밀 바닥으로 불립니다.

이 바닥은 몰입형 가상 및 증강 현실 경험을 위해 마치 염력처럼 사람이나 물체 아래에서 움직일 수 있습니다. 어느 방향으로든 걸을 수 있으며, 바닥 위에서 충돌을 피할 수 있습니다. 디즈니의 HoloTile Floor는 연극 무대에 설치하여 창의적인 방식으로 춤을 추고 움직일 수도 있습니다.
2024년 2월 2일, Apple의 많은 기대를 모았던 Vision Pro 헤드셋이 출시되었습니다. 이 헤드셋은 가상 및 증강 현실 경험을 재정의하도록 설계된 다양한 기능과 애플리케이션을 갖추고 있습니다. Vision Pro 헤드셋은 엔터테인먼트, 생산성, 공간 컴퓨팅을 결합하여 다양한 사용자층을 만족시킵니다. Apple은 출시 시 생산성 도구에서 게임 및 엔터테인먼트 서비스에 이르기까지 600개 이상의 앱이 Vision Pro에 최적화되었다고 자랑스럽게 발표했습니다.
2024년 3월 12일, Cognition은 Devin이라는 소프트웨어 엔지니어링 어시스턴트를 출시했습니다. Devin은 세계 최초의 자율 AI 소프트웨어 엔지니어를 시도한 것입니다. 제안을 제공하거나 특정 작업을 완료하는 기존 코딩 어시스턴트와 달리, Devin은 초기 개념부터 완료까지 전체 소프트웨어 개발 프로젝트를 처리하도록 설계되었습니다.
Devin은 새로운 기술을 배우고, 전체 앱을 구축 및 배포하고, 버그를 찾아서 수정하고, 자체 모델을 훈련하고, 오픈 소스 및 프로덕션 코드베이스에 기여하고, 심지어 Upwork와 같은 사이트에서 실제 개발 작업을 수행할 수도 있습니다.

Devin은 Django 및 scikit-learn과 같은 오픈 소스 프로젝트에서 발견된 실제 GitHub 문제를 해결하도록 요청하는 까다로운 벤치마크인 SWE-bench에서 평가되었습니다. Devin은 이전 최고 수준인 1.96%에 비해 13.86%의 문제를 올바르게 해결했습니다.
너무나 많은 일이 일어나서 이 기사에서 모든 것을 다루는 것은 불가능합니다. 하지만 여기에 몇 가지 더 주목할 만한 언급이 있습니다.
2024년 초는 AI의 획기적인 발전과 많은 주요 기술적 이정표를 보았습니다. 하지만 이것은 AI가 할 수 있는 일의 시작일 뿐입니다. 최신 AI 개발에 대해 더 자세히 알고 싶다면 Ultralytics가 도와드리겠습니다.
컴퓨터 비전 및 AI 분야에서 우리의 최신 기여를 보려면 GitHub 저장소를 확인하십시오. 또한 제조 및 헬스케어와 같은 산업에서 AI가 어떻게 사용되고 있는지 보려면 솔루션 페이지를 살펴보십시오.