YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
비전 AI

생성형 AI의 물결로 시작하는 2024년

2024년 1분기의 흥미로운 AI 혁신을 살펴봅니다. OpenAI의 Sora AI, Neuralink의 뇌 칩, 그리고 최신 LLM과 같은 획기적인 기술들을 다룰 것입니다.

ABAbirami Vina
6 min read
2024년 초의 생성형 AI 돌파구

AI 커뮤니티는 거의 매일 새로운 소식으로 떠들썩합니다. 2024년의 첫 몇 달은 흥미진진했으며, 새로운 AI 혁신으로 가득 찼습니다. 강력한 새로운 대규모 언어 모델(LLM)부터 인간 뇌 임플란트까지, 2024년은 놀라운 한 해가 될 것으로 보입니다.

우리는 AI가 산업을 변화시키고, 정보 접근성을 높이며, 심지어 인간의 마음과 기계를 결합하는 첫 단계에 들어서는 것을 목격하고 있습니다. 2024년 1분기를 되돌아보며, 불과 몇 달 만에 이루어진 AI의 발전을 자세히 살펴보겠습니다.

Link to this sectionLLM이 트렌드입니다#

방대한 양의 텍스트 데이터를 기반으로 인간의 언어를 이해, 생성, 조작하도록 설계된 대규모 언어 모델(LLM)이 2024년 1분기의 중심을 차지했습니다. 많은 주요 기술 기업들이 각자의 고유한 기능을 갖춘 자체 LLM 모델을 출시했습니다. GPT-3와 같은 이전 LLM들의 놀라운 성공이 이러한 트렌드에 영감을 주었습니다. 2024년 초에 발표된 가장 주목할 만한 LLM들을 소개합니다.

Link to this sectionAnthropic의 Claude 3#

Anthropic은 2024년 3월 14일에 Claude 3를 출시했습니다. Claude 3 모델은 Opus, Sonnet, Haiku 세 가지 버전으로 제공되며, 각기 다른 시장과 목적에 맞게 설계되었습니다. 가장 빠른 모델인 Haiku는 빠르고 기본적인 응답에 최적화되어 있습니다. Sonnet은 속도와 지능의 균형을 맞추었으며 엔터프라이즈 애플리케이션을 겨냥합니다. 가장 고급 버전인 Opus는 타의 추종을 불허하는 지능과 추론 능력을 제공하며, 복잡한 작업과 최고 수준의 벤치마크 달성에 이상적입니다.

Claude 3는 많은 고급 기능과 개선 사항을 자랑합니다:

  • 향상된 다국어 대화: 스페인어, 일본어, 프랑스어를 포함한 언어 능력이 개선되었습니다.
  • 고급 시각 기능: 다양한 시각적 형식을 처리할 수 있습니다.
  • 최소화된 거부 응답: 불필요한 거부 응답을 줄이고 더 높은 이해도를 보여주어, 문맥 파악 능력이 향상되었음을 나타냅니다.
  • 확장된 컨텍스트 윈도우: 200K 컨텍스트 윈도우를 제공하며, 고객의 필요에 따라 100만 토큰 이상의 입력을 처리할 수 있습니다.

Claude 3의 문맥 인식 능력을 이전 버전과 비교한 차트

Fig 1. Claude 3는 이전 버전보다 더 나은 문맥 인식 능력을 갖추고 있습니다.

Link to this sectionDatabricks의 DBRX#

Databricks DBRX는 Databricks가 2024년 3월 27일에 출시한 오픈 범용 LLM입니다. DBRX는 언어 이해, 프로그래밍, 수학을 포함한 다양한 벤치마크에서 우수한 성능을 보여줍니다. 기존의 다른 모델들을 능가하면서도 유사한 모델들에 비해 약 40% 더 작은 크기를 자랑합니다.

DBRX를 다른 모델들과 비교

Fig 2. DBRX와 다른 모델 비교.

DBRX는 세분화된 전문가 혼합(MoE) 아키텍처를 사용하여 다음 토큰 예측 방식으로 훈련되었으며, 이 덕분에 훈련 및 추론 성능이 크게 향상되었습니다. 이 아키텍처를 통해 모델은 다양한 전문 하위 모델(전문가)들을 참조하여 시퀀스 내의 다음 단어를 더 정확하게 예측할 수 있습니다. 이러한 하위 모델들은 서로 다른 유형의 정보나 작업을 처리하는 데 뛰어납니다.

Link to this sectionGoogle의 Gemini 1.5#

Google은 2024년 2월 15일, 방대한 텍스트, 비디오, 오디오 데이터를 분석할 수 있는 계산 효율적인 멀티모달 AI 모델인 Gemini 1.5를 발표했습니다. 최신 모델은 성능, 효율성, 기능 측면에서 더 발전했습니다. Gemini 1.5의 핵심 기능은 긴 컨텍스트 이해에 대한 돌파구입니다. 이 모델은 최대 100만 토큰까지 일관되게 처리할 수 있습니다. Gemini 1.5의 성능은 새로운 MoE 기반 아키텍처 덕분이기도 합니다.

주요 LLM의 문맥 길이를 비교

Fig 3. 인기 LLM의 컨텍스트 길이 비교

Gemini 1.5의 가장 흥미로운 기능들은 다음과 같습니다:

  • 향상된 데이터 처리: 대규모 PDF, 코드 저장소, 또는 긴 비디오를 프롬프트로 직접 업로드할 수 있습니다. 모델은 모달리티 전반에 걸쳐 추론하고 텍스트를 출력할 수 있습니다.
  • 다중 파일 업로드 및 쿼리: 개발자는 이제 여러 파일을 업로드하고 질문할 수 있습니다.
  • 다양한 작업 수행 가능: 다양한 작업에 걸쳐 확장되도록 최적화되었으며, 수학, 과학, 추론, 다국어 처리, 비디오 이해, 코드 등의 분야에서 향상된 성능을 보여줍니다.

Link to this sectionAI가 만든 놀라운 영상#

2024년 1분기에는 너무나 실감 나는 영상을 생성하여 소셜 미디어의 미래와 AI의 발전에 대한 논쟁을 불러일으킨 생성형 AI 모델들이 공개되었습니다. 화제의 중심에 있는 모델들을 살펴보겠습니다.

Link to this sectionOpenAI의 Sora#

ChatGPT의 개발사인 OpenAI는 2024년 2월 15일, Sora라는 최첨단 텍스트-비디오 딥러닝 모델을 발표했습니다. Sora는 텍스트 프롬프트를 기반으로 최대 1분 길이의 고품질 영상을 생성할 수 있는 텍스트-비디오 생성기입니다.

예를 들어, 다음 프롬프트를 확인해 보십시오.

“알록달록한 물고기와 바다 생물들로 가득 찬 산호초를 정교하게 렌더링한 페이퍼크래프트(종이 공예) 세계.”

그리고 여기 결과 영상의 프레임 하나를 보여드립니다.

OpenAI Sora로 생성된 영상의 한 장면

Fig 4. Sora가 생성한 영상의 한 프레임.

Sora의 아키텍처는 텍스처 생성을 위한 확산(diffusion) 모델과 구조적 일관성을 위한 Transformer 모델을 결합하여 이를 가능하게 합니다. 지금까지 Sora에 대한 접근 권한은 위험을 이해하고 피드백을 얻기 위해 레드 팀과 선별된 시각 예술가, 디자이너, 영화 제작자 그룹에게 제공되었습니다.

Link to this sectionStability AI의 Stable Diffusion 3#

Stability AI는 2024년 2월 22일, 텍스트 투 이미지 생성 모델인 Stable Diffusion 3의 출시를 발표했습니다. 이 모델은 Transformer 확산 아키텍처와 흐름 매칭(flow matching)을 결합한 것입니다. 아직 기술 논문은 발표되지 않았지만, 주목할 만한 몇 가지 주요 기능이 있습니다.

우주적인 주문을 외우는 마법사를 Stable Diffusion 3로 생성한 이미지

Fig 5. 다음 프롬프트를 기반으로 생성된 출력 이미지: "화려한 에너지로 'Stable Diffusion 3'라고 적힌 우주적인 주문을 밤 산꼭대기에서 외치는 마법사의 서사적인 애니메이션 아트워크" (출처)

최신 Stable Diffusion 모델은 향상된 성능과 이미지 품질을 제공하며, 여러 피사체가 포함된 이미지를 생성할 때의 정확도가 높습니다. Stable Diffusion 3는 또한 8억 개에서 80억 개의 파라미터에 이르는 다양한 모델을 제공할 예정입니다. 사용자는 확장성과 세부 묘사에 대한 특정 요구 사항에 따라 모델을 선택할 수 있습니다.

Link to this sectionGoogle의 Lumiere#

2024년 1월 23일, Google은 텍스트-비디오 확산 모델인 Lumiere를 출시했습니다. Lumiere는 Space-Time-U-Net(줄여서 STUNet)이라는 아키텍처를 사용합니다. 이는 Lumiere가 비디오 내에서 사물의 위치와 움직임을 이해하도록 돕습니다. 이를 통해 매끄럽고 생생한 비디오를 생성할 수 있습니다.

우쿨렐레를 연주하는 판다를 Google Lumiere로 생성한 영상의 한 장면

Fig 6. "집에서 우쿨렐레를 연주하는 팬더"라는 프롬프트를 기반으로 생성된 영상의 한 프레임.

비디오당 80프레임을 생성할 수 있는 Lumiere는 AI 분야에서 비디오 품질의 한계를 넓히고 새로운 표준을 세우고 있습니다. Lumiere의 몇 가지 기능은 다음과 같습니다:

  • 이미지-비디오: 이미지와 프롬프트로 시작하여 이미지를 비디오로 애니메이션화할 수 있습니다.
  • 스타일화된 생성: Lumiere는 단일 참조 이미지를 사용하여 특정 스타일의 비디오를 생성할 수 있습니다.
  • 시네마그래프: 이미지 내 특정 영역을 애니메이션화하여 다이내믹한 장면을 만들 수 있습니다. 예를 들어, 나머지 장면은 정적인 상태에서 특정 객체만 움직이게 할 수 있습니다.
  • 비디오 인페인팅: 비디오 내 사람들의 의상을 바꾸거나 배경 세부 사항을 변경하는 등 비디오의 일부분을 수정할 수 있습니다.

Link to this section미래가 이미 여기에 있는 듯합니다#

2024년 초는 공상 과학 영화에서나 나올 법한 많은 AI 혁신을 가져왔습니다. 과거에는 불가능하다고 말했을 법한 일들이 현재 진행되고 있습니다. 다음 발견들을 통해 미래가 그리 멀게 느껴지지 않습니다.

Elon Musk의 Neuralink는 2024년 1월 29일, 인간에게 무선 뇌 칩을 성공적으로 이식했습니다. 이는 인간의 뇌를 컴퓨터에 연결하는 데 있어 거대한 발걸음입니다. Elon Musk는 '텔레파시'라는 Neuralink의 첫 번째 제품이 준비 중이라고 밝혔습니다.

Neuralink 임플란트

Fig 7. Neuralink 임플란트

목표는 사용자가, 특히 신체 기능을 상실한 사람들이 생각을 통해 장치를 쉽게 제어할 수 있도록 하는 것입니다. 잠재적인 응용 분야는 편리함을 넘어섭니다. Elon Musk는 마비 증상이 있는 사람들이 쉽게 의사소통할 수 있는 미래를 상상합니다.

Link to this sectionDisney의 HoloTile Floor#

2024년 1월 18일, Walt Disney Imagineering은 HoloTile Floor를 공개했습니다. 이는 세계 최초의 다인용 전방향 트레드밀 지면으로 불립니다.

HoloTile 바닥 위에 있는 디즈니 이매지니어 Lanny Smoot

Fig 8. Disney Imagineer Lanny Smoot이 최신 혁신 기술인 HoloTile floor 위에 서 있습니다.

몰입형 가상 및 증강 현실 경험을 위해 염력처럼 사람이나 물체 아래에서 움직일 수 있습니다. 어떤 방향으로든 걸을 수 있으며, 위에서 충돌을 피할 수도 있습니다. Disney의 HoloTile Floor는 극장 무대에 설치하여 창의적인 방식으로 춤추고 움직이는 데 활용할 수도 있습니다.

Link to this sectionApple의 Vision Pro#

2024년 2월 2일, 많은 기대를 모았던 Apple의 Vision Pro 헤드셋이 시장에 출시되었습니다. 이 제품은 가상 및 증강 현실 경험을 재정의하도록 설계된 다양한 기능과 애플리케이션을 갖추고 있습니다. Vision Pro 헤드셋은 엔터테인먼트, 생산성, 공간 컴퓨팅을 결합하여 다양한 사용자를 만족시킵니다. Apple은 출시 당시 생산성 도구부터 게임 및 엔터테인먼트 서비스에 이르기까지 600개 이상의 앱이 Vision Pro에 최적화되었다고 자랑스럽게 발표했습니다.

Link to this sectionCognition의 Devin#

2024년 3월 12일, Cognition은 Devin이라는 소프트웨어 엔지니어링 어시스턴트를 출시했습니다. Devin은 세계 최초의 자율형 AI 소프트웨어 엔지니어를 표방합니다. 제안을 제공하거나 특정 작업을 완료하는 기존 코딩 어시스턴트와 달리, Devin은 초기 개념부터 완료까지 전체 소프트웨어 개발 프로젝트를 처리하도록 설계되었습니다.

Devin은 새로운 기술을 배우고, 전체 앱을 구축 및 배포하며, 버그를 찾아 수정하고, 자체 모델을 훈련하며, 오픈 소스 및 프로덕션 코드베이스에 기여하고, 심지어 Upwork와 같은 사이트에서 실제 개발 업무를 수행할 수도 있습니다.

Devin을 다른 모델들과 비교

Fig 9. Devin과 다른 모델 비교.

Devin은 Django 및 scikit-learn과 같은 오픈 소스 프로젝트에서 발견된 실제 GitHub 이슈를 해결하도록 에이전트에 요구하는 까다로운 벤치마크인 SWE-bench에서 평가되었습니다. 이전의 최고 수준 모델인 1.96%와 비교하여, Devin은 13.86%의 이슈를 엔드투엔드로 올바르게 해결했습니다.

Link to this section그 외 주목할 만한 소식#

너무 많은 일이 일어나서 이 기사에 모두 담을 수는 없지만, 몇 가지 주목할 만한 소식을 추가로 전해드립니다.

  • NVIDIA가 2024년 3월 21일에 발표한 LATTE3D는 텍스트 프롬프트에서 3D 표현을 즉시 생성하는 텍스트-3D AI 모델입니다.
  • CEO David Holz가 예고한 Midjourney의 새로운 텍스트-비디오 생성기는 1월부터 훈련을 시작했으며 곧 출시될 예정입니다.
  • AI PC 혁명을 앞당기며, Lenovo는 2024년 1월 8일 E Ink Prism 기술을 탑재한 ThinkBook 13x와 고성능 AI 노트북을 출시했습니다.

Link to this section저희와 함께 AI 트렌드 소식을 계속 확인하세요!#

2024년 초에는 획기적인 AI 발전과 많은 주요 기술적 이정표가 있었습니다. 하지만 이는 AI가 할 수 있는 일의 시작일 뿐입니다. 최신 AI 개발 소식에 대해 더 알고 싶으시다면 Ultralytics가 도와드리겠습니다.

저희 GitHub 리포지토리를 방문하여 컴퓨터 비전 및 AI 분야의 최신 기여를 확인해 보십시오. 또한 제조의료와 같은 산업에서 AI가 어떻게 사용되고 있는지 솔루션 페이지에서 살펴보실 수 있습니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.