YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
비전 AI

멀티모달 모델과 멀티모달 학습: AI의 기능 확장

멀티모달 모델이 어떻게 텍스트, 이미지, 오디오 및 센서 데이터를 통합하여 AI 인식, 추론 및 의사 결정을 향상시키는지 탐구하십시오.

ABAbdelrahman Elgendy
5 min read
텍스트, 이미지, 오디오 및 센서 데이터를 통합하는 멀티모달 AI 모델

기존의 AI 시스템은 일반적으로 텍스트, 이미지, 오디오와 같은 단일 데이터 소스에서 정보를 처리합니다. 이러한 유니모달 접근 방식은 특수 작업에는 탁월하지만, 여러 입력이 동시에 발생하는 복잡한 실세계 시나리오를 처리하는 데는 종종 실패합니다. 멀티모달 학습은 통합된 프레임워크 내에서 다양한 데이터 스트림을 결합하여 더욱 풍부하고 맥락을 이해하는 인식을 가능하게 함으로써 이 문제를 해결합니다.

인간의 지각에서 영감을 받은 멀티모달 모델은 시각, 청각, 언어를 자연스럽게 통합하는 인간과 마찬가지로 결합된 입력을 기반으로 분석, 해석 및 행동합니다. 이러한 모델을 통해 AI는 더 높은 정확도, 견고성 및 적응성을 가지고 복잡한 시나리오를 처리할 수 있습니다.

이 글에서는 멀티모달 모델이 어떻게 발전했는지 살펴보고, 작동 원리를 분석하며, 컴퓨터 비전 분야에서의 실용적인 응용 사례를 논의하고, 다중 데이터 유형 통합과 관련된 장점과 과제를 평가하겠습니다.

Link to this section멀티모달 학습이란 무엇입니까?#

멀티모달 학습이 정확히 무엇이며 왜 인공지능(AI)에서 중요한지 궁금할 수 있습니다. 기존의 AI 모델은 이미지, 텍스트, 오디오, 센서 입력 등 한 번에 한 가지 유형의 데이터만 처리하는 경향이 있습니다.

그러나 멀티모달 학습은 시스템이 여러 다양한 데이터 스트림을 동시에 분석, 해석 및 통합할 수 있도록 함으로써 한 단계 더 나아갑니다. 이 접근 방식은 인간의 뇌가 시각적, 청각적, 언어적 입력을 자연스럽게 통합하여 세상에 대한 응집력 있는 이해를 형성하는 방식과 매우 유사합니다.

이러한 다양한 모달리티를 결합함으로써 멀티모달 AI는 복잡한 시나리오에 대해 더 깊고 미묘한 이해를 달성합니다.

예를 들어, 영상 자료를 분석할 때 멀티모달 시스템은 시각적 콘텐츠만 처리하는 것이 아니라 음성 대화, 주변 소리, 함께 제공되는 자막도 고려합니다.

이러한 통합적 관점은 각 데이터 유형을 독립적으로 분석할 경우 놓칠 수 있는 맥락과 미묘한 차이를 AI가 포착할 수 있게 합니다.

다양한 데이터 유형을 통합하는 멀티모달 학습 모델

그림 1. 멀티모달 학습 모델은 다양한 데이터 유형을 통합합니다.

실질적으로 멀티모달 학습은 AI가 수행할 수 있는 범위를 확장합니다. 이미지 캡셔닝, 시각적 맥락에 기반한 질문 답변, 텍스트 설명을 바탕으로 한 현실적인 이미지 생성, 상호작용 시스템의 직관성 및 맥락 인식 향상과 같은 응용 분야를 지원합니다.

그렇다면 멀티모달 모델은 이러한 결과를 얻기 위해 어떻게 서로 다른 데이터 유형을 결합할까요? 성공 뒤에 숨겨진 핵심 메커니즘을 단계별로 살펴보겠습니다.

Link to this section멀티모달 AI 모델은 어떻게 작동합니까?#

멀티모달 AI 모델은 특수 프로세스를 통해 강력한 역량을 달성합니다. 각 모달리티에 대한 별도의 특징 추출(이미지, 텍스트, 오디오 등 각 데이터 유형을 독립적으로 처리), 융합 방법(추출된 세부 정보를 결합), 그리고 고급 정렬 기술(결합된 정보가 일관되게 맞물리도록 보장)이 사용됩니다.

예측 작업을 위한 멀티모달 데이터 통합 및 융합 파이프라인

그림 2. 예측 작업을 위한 멀티모달 데이터 통합 및 융합 파이프라인.

각 프로세스가 어떻게 작동하는지 자세히 알아보겠습니다.

Link to this section모달리티별 개별 특징 추출#

멀티모달 AI 모델은 각 데이터 유형에 대해 서로 다른 특수 아키텍처를 사용합니다. 이는 시각, 텍스트, 오디오 또는 센서 입력이 각 데이터 유형을 위해 특별히 설계된 시스템에 의해 처리됨을 의미합니다. 이렇게 함으로써 모델은 정보를 결합하기 전에 각 입력의 고유한 세부 정보를 캡처할 수 있습니다.

다양한 데이터 유형에서 특징을 추출하기 위해 서로 다른 특수 아키텍처가 사용되는 몇 가지 예는 다음과 같습니다.

  • 시각 데이터: CNN(Convolutional Neural Networks) 또는 Vision Transformer는 이미지와 비디오에서 시각 정보를 해석하여 상세한 특징 표현을 생성합니다.
  • 텍스트 데이터: GPT 계열과 같은 Transformer 기반 모델은 텍스트 입력을 의미 있는 의미론적 임베딩으로 변환합니다.
  • 오디오 및 센서 데이터: 특수 신경망이 오디오 파형이나 공간 센서 입력을 처리하여 각 모달리티가 정확하게 표현되고 고유한 특성이 유지되도록 합니다.

각 모달리티는 개별적으로 처리된 후 해당 데이터 유형 내에 포함된 고유한 정보를 캡처하도록 최적화된 고급 특징을 생성합니다.

Link to this section특징 융합 기술#

특징을 추출한 후 멀티모달 모델은 이를 통합된 일관된 표현으로 병합합니다. 이를 효과적으로 수행하기 위해 몇 가지 융합 전략이 사용됩니다.

  • 초기 융합(Early fusion): 각 모달리티를 처리한 직후 추출된 특징 벡터를 결합합니다. 이 전략은 분석 파이프라인 초기 단계에서 더 깊은 교차 모달 상호작용을 장려합니다.
  • 후기 융합(Late fusion): 최종 의사결정 단계까지 모달리티 분리를 유지하며, 이때 각 모달리티의 예측값이 평균화 또는 투표와 같은 앙상블 방법을 통해 결합됩니다.
  • 하이브리드 융합(Hybrid fusion): 최신 아키텍처는 종종 모델의 여러 계층에 걸쳐 특징을 반복적으로 통합하며, 공동 주의(co-attention) 메커니즘을 사용하여 중요한 교차 모달 상호작용을 동적으로 강조하고 정렬합니다. 예를 들어, 하이브리드 융합은 특정 음성 단어나 텍스트 구문을 실시간으로 해당 시각적 특징과 정렬하는 데 중점을 둘 수 있습니다.

Link to this section교차 모달 정렬 및 주의 메커니즘#

마지막으로, 멀티모달 시스템은 서로 다른 모달리티의 데이터가 효과적으로 대응되도록 고급 정렬 및 주의 기법을 활용합니다.

대조 학습(Contrastive learning)과 같은 방법은 시각적 표현과 텍스트적 표현을 공유된 의미론적 공간 내에서 긴밀하게 정렬하도록 돕습니다. 이를 통해 멀티모달 모델은 다양한 데이터 유형 전반에 걸쳐 강력하고 의미 있는 연결을 구축하여 모델이 '보는' 것과 '읽는' 것 사이의 일관성을 보장합니다.

Transformer 기반 주의 메커니즘은 모델이 각 입력의 가장 관련성 높은 부분에 동적으로 집중할 수 있도록 하여 이 정렬을 더욱 강화합니다. 예를 들어, 주의 계층을 통해 모델은 특정 텍스트 설명을 시각 데이터의 해당 영역과 직접 연결할 수 있으며, 이는 VQA(Visual Question Answering) 및 이미지 캡셔닝과 같은 복잡한 작업에서 정확도를 크게 향상합니다.

이러한 기술은 맥락을 깊이 이해하는 멀티모달 AI의 능력을 향상시켜 AI가 복잡한 실세계 데이터에 대해 더욱 미묘하고 정확한 해석을 제공할 수 있게 합니다.

Link to this section멀티모달 AI의 발전#

멀티모달 AI는 초기 규칙 기반 기술에서 정교한 통합이 가능한 고급 딥러닝 시스템으로 전환되며 크게 발전했습니다.

초기에는 멀티모달 시스템이 인간 전문가가 수동으로 만든 규칙이나 간단한 통계적 방법을 사용하여 이미지, 오디오, 센서 입력 등 서로 다른 데이터 유형을 결합했습니다. 예를 들어, 초기 로봇 내비게이션은 카메라 이미지와 소나 데이터를 병합하여 장애물을 감지하고 피했습니다. 효과적이기는 했으나, 이러한 시스템은 방대한 수동 특징 엔지니어링이 필요했으며 적응 및 일반화 능력이 제한적이었습니다.

딥러닝의 출현과 함께 멀티모달 모델은 훨씬 더 대중화되었습니다. 멀티모달 오토인코더와 같은 신경망이 서로 다른 데이터 유형(특히 이미지와 텍스트 데이터)의 공동 표현을 학습하기 시작하면서, AI는 교차 모달 검색 및 텍스트 설명을 기반으로 이미지 찾기와 같은 작업을 처리할 수 있게 되었습니다.

VQA(Visual Question Answering)와 같은 시스템이 이미지를 처리하기 위한 CNN과 텍스트를 해석하기 위한 RNN 또는 Transformer를 통합하면서 발전은 계속되었습니다. 이를 통해 AI 모델은 시각적 콘텐츠에 대한 복잡하고 맥락에 따른 질문에 정확하게 답변할 수 있게 되었습니다.

가장 최근에는 대규모 인터넷 수준 데이터셋으로 학습된 대규모 멀티모달 모델이 AI 역량을 더욱 혁신적으로 변화시켰습니다.

이러한 모델은 대조 학습과 같은 기술을 활용하여 시각적 콘텐츠와 텍스트 설명 간의 일반화 가능한 관계를 식별할 수 있습니다. 모달리티 간의 격차를 해소함으로써 최신 멀티모달 아키텍처는 복잡한 시각적 추론 작업을 인간에 가까운 정밀도로 수행하는 AI의 능력을 향상시켰으며, 이는 멀티모달 AI가 기초 단계에서 얼마나 발전했는지를 보여줍니다.

Link to this section컴퓨터 비전에서 멀티모달 학습 탐색#

멀티모달 모델이 어떻게 다양한 데이터 스트림을 통합하는지 살펴보았으니, 이제 이러한 역량이 어떻게 컴퓨터 비전 모델에 적용될 수 있는지 알아보겠습니다.

컴퓨터 비전에 적용된 멀티모달 학습 워크플로우

그림 3. 컴퓨터 비전에 적용된 멀티모달 학습 워크플로.

시각적 입력과 텍스트, 오디오 또는 센서 데이터를 결합함으로써 멀티모달 학습은 AI 시스템이 점점 더 정교하고 맥락이 풍부한 애플리케이션을 해결할 수 있게 합니다.

Link to this section이미지 캡셔닝#

이미지 캡셔닝은 시각 데이터에 대한 자연어 설명을 생성하는 것을 포함합니다. 기존 객체 탐지 방법은 개별 객체를 식별하지만, 멀티모달 캡셔닝은 더 나아가 관계와 맥락을 해석합니다.

예를 들어, 멀티모달 모델은 피크닉을 즐기는 사람들의 이미지를 분석하고 “화창한 공원에서 피크닉을 즐기는 가족”과 같은 묘사적인 캡션을 생성하여 더 풍부하고 접근하기 쉬운 출력을 제공할 수 있습니다.

이 응용 분야는 접근성 측면에서 중요합니다. 시각 장애인을 위한 대체 텍스트 생성 및 대규모 데이터베이스에 대한 콘텐츠 태그 지정에 사용될 수 있습니다. Transformer 아키텍처는 여기서 핵심적인 역할을 하며, 텍스트 생성 모듈이 주의 메커니즘을 통해 관련 시각 영역에 집중하고 텍스트 설명을 시각적 특징과 동적으로 정렬할 수 있게 합니다.

Link to this section시각적 질문 답변(VQA)#

VQA 모델은 컴퓨터 비전과 언어 이해를 결합하여 시각적 콘텐츠를 기반으로 자연어 질문에 답변합니다. 이러한 작업은 이미지 콘텐츠, 맥락 및 의미론적 추론에 대한 상세한 이해를 필요로 합니다.

Transformer 아키텍처는 모델의 텍스트 및 시각적 구성 요소가 동적으로 상호작용하도록 하여 질문과 관련된 정확한 이미지 영역을 찾아냄으로써 VQA를 향상시켰습니다.

예를 들어, Google의 PaLI 모델은 ViT(Visual Transformer)를 언어 인코더 및 디코더와 통합하는 고급 Transformer 기반 아키텍처를 사용하여 “사진 속 여성이 무엇을 하고 있습니까?” 또는 “동물이 몇 마리 보입니까?”와 같은 정교한 질문에 정확하게 답변할 수 있습니다.

모델이 입력의 가장 관련성 높은 부분에 집중하도록 돕는 주의 계층은 각 질문 단어가 시각적 단서와 동적으로 연결되도록 하여 기본적인 객체 탐지를 넘어선 미묘한 답변을 가능하게 합니다.

Link to this section텍스트-이미지 생성#

텍스트-이미지 생성은 의미론적 이해와 시각적 창조 사이의 간극을 메우며, 텍스트 설명에서 직접 시각적 콘텐츠를 생성하는 AI의 능력을 의미합니다.

이 작업을 수행하는 멀티모달 모델은 상세하고 맥락적으로 정확한 이미지를 생성하기 위해 Transformer나 확산 과정과 같은 고급 신경 아키텍처를 활용합니다.

For example, imagine generating synthetic training data for computer vision models tasked with vehicle detection. Given textual descriptions like "a red sedan parked on a busy street" or "a white SUV driving on a highway," these multi-modal models can produce diverse, high-quality images depicting these precise scenarios.

이러한 역량을 통해 연구자와 개발자는 수천 장의 이미지를 수동으로 캡처하지 않고도 객체 탐지 데이터셋을 효율적으로 확장할 수 있으며, 데이터 수집에 필요한 시간과 자원을 크게 줄일 수 있습니다.

합성 데이터셋으로 학습된 객체 탐지 모델의 결과

그림 4. 합성 데이터셋으로 학습된 객체 탐지 모델의 결과 예시.

최근 방법들은 무작위 시각적 노이즈에서 시작하여 텍스트 입력과 밀접하게 일치하도록 이미지를 점진적으로 개선하는 확산 기반 기술을 적용합니다. 이 반복적인 과정은 현실적이고 다양한 예시를 생성하여 여러 시점, 조명 조건, 차량 유형 및 배경을 포괄하는 강력한 학습 데이터를 보장할 수 있습니다.

이 접근 방식은 컴퓨터 비전 분야에서 특히 가치가 높으며, 데이터셋의 빠른 확장을 가능하게 하고 모델 정확도를 개선하며 AI 시스템이 안정적으로 인식할 수 있는 시나리오의 다양성을 높입니다.

Link to this section이미지-텍스트 검색#

멀티모달 검색 시스템은 텍스트와 이미지를 공통된 의미 언어로 변환하여 검색을 더 쉽게 만듭니다. 예를 들어, 수백만 개의 이미지-텍스트 쌍으로 학습된 CLIP과 같은 모델은 텍스트 쿼리를 올바른 이미지와 매칭할 수 있어 더 직관적이고 정확한 검색 결과를 제공합니다.

예를 들어, “해변의 일몰”과 같은 검색 쿼리는 시각적으로 정확한 결과를 반환하여 전자상거래 플랫폼, 미디어 아카이브 및 스톡 사진 데이터베이스 전반의 콘텐츠 검색 효율성을 크게 향상시킵니다.

멀티모달 접근 방식은 시각적 도메인과 텍스트적 도메인 간에 학습된 의미론적 정렬 덕분에 쿼리와 이미지 설명이 서로 다른 언어를 사용하더라도 검색 정확도를 보장합니다.

Link to this sectionAI에서 멀티모달 모델의 장단점#

멀티모달 학습은 컴퓨터 비전 및 그 이상 분야에서 AI의 역량을 향상시키는 몇 가지 핵심 장점을 제공합니다.

  • 더 풍부한 맥락적 이해: 여러 입력 스트림을 결합함으로써 멀티모달 모델은 복잡한 실세계 시나리오에 대해 더 깊고 미묘한 파악 능력을 달성합니다.
  • 정확도 향상: 여러 데이터 소스를 상호 참조하면 인식 및 추론 오류가 줄어들어 전반적인 신뢰성이 향상됩니다.
  • 견고성 증가: 멀티모달 시스템은 하나의 데이터 소스가 손상되더라도(예: 시각 입력의 열악한 조명 조건 또는 오디오 데이터의 노이즈) 효과를 유지합니다.

이러한 강점에도 불구하고 멀티모달 모델은 나름의 도전 과제도 가지고 있습니다.

  • 계산 복잡성: 여러 모달리티를 동시에 처리하려면 상당한 계산 자원이 필요하며, 이는 인프라 요구 사항의 증가로 이어집니다.
  • 데이터 정렬 및 동기화: 서로 다른 모달리티를 정확하게 정렬하는 것(예: 오디오 단서를 시각적 프레임과 정확하게 매칭)은 기술적으로 어렵지만 최적의 성능을 위해 필수적입니다.
  • 윤리적 영향: 멀티모달 시스템은 학습 데이터셋에 존재하는 편향을 의도치 않게 증폭시킬 수 있으며, 이는 세심한 데이터 큐레이션과 지속적인 윤리적 평가의 중요성을 강조합니다.

Link to this section핵심 요약#

멀티모달 학습은 여러 데이터 스트림 전반에서 더 풍부하고 맥락적인 이해를 가능하게 함으로써 AI를 재편하고 있습니다. 이미지 캡셔닝, 시각적 질문 답변, 텍스트-이미지 생성 및 향상된 이미지 검색과 같은 컴퓨터 비전 응용 사례들은 다양한 모달리티 통합의 잠재력을 보여줍니다.

계산 및 윤리적 과제가 남아 있지만, Transformer 기반 융합 및 대조 정렬과 같은 아키텍처의 지속적인 혁신은 이러한 우려 사항을 계속 해결하며 멀티모달 AI를 점점 더 인간과 유사한 지능으로 이끌고 있습니다.

이 분야가 발전함에 따라 멀티모달 모델은 의료 진단에서 자율 로봇에 이르기까지 모든 것을 향상시키는 복잡한 실세계 AI 작업에 필수적인 요소가 될 것입니다. 멀티모달 학습을 수용하는 것은 산업계가 AI의 미래를 형성할 강력한 역량을 활용할 수 있는 위치를 점하게 합니다.

성장하는 저희 커뮤니티에 참여하세요! AI에 대해 자세히 알아보려면 저희 GitHub 리포지토리를 살펴보세요. 자신만의 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 저희 라이선스 옵션을 확인해 보세요. 저희 솔루션 페이지를 방문하여 제조업에서의 AI자율 주행의 비전 AI를 확인해 보세요!

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.