Yolo 비전 선전
선전
지금 참여하기
용어집

대규모 비전 모델(LVM)

대규모 비전 모델(LVM)과 이것이 AI에 미치는 영향을 살펴보세요. Ultralytics Ultralytics 어떻게 고급 물체 탐지 및 분석을 가능하게 하는지 알아보세요.

대규모 비전 모델(LVM)은 인공 지능 분야의 주요 진화를 보여주는 것으로, 대규모 시각 데이터의 이해, 생성 및 처리에 전적으로 초점을 맞추고 있습니다. 특정 사전 정의된 작업을 위해 좁은 범위의 데이터셋으로 훈련되는 기존의 컴퓨터 비전 시스템과 달리, LVM은 방대한 양의 이미지 및 동영상 컬렉션으로 훈련된 일반화된 파운데이션 모델 역할을 합니다. 이러한 광범위한 사전 훈련을 통해 LVM은 사람이 직접 라벨을 부여한 데이터에 의존하지 않고도 시각적 기하학, 질감, 그리고 복잡한 공간적 관계에 대해 깊고 포괄적인 이해를 발전시킬 수 있습니다.

대규모 비전 모델의 작동 원리

현대적인 대규모 비전 모델은 일반적으로 비전 트랜스포머(ViT) 나 대규모 컨볼루션 아키텍처를 활용하여 시각적 입력을 처리합니다. 마스크 이미지 모델링과 같은 자가 지도 학습 기법을 적용함으로써, 이미지나 프레임에서 누락된 부분을 예측하는 방식으로 학습합니다. 스탠포드 기초 모델 연구 센터(Stanford Center for Research on Foundation Models )와 같은 학술 기관들은 이러한 모델의 매개변수 수를 급속도로 확장하면 즉각적으로 활용 가능한 새로운 기능이 나타난다는 사실을 입증했습니다. 이를 통해 모델은 최소한의 미세 조정만으로 고속 물체 탐지 및 정밀한 이미지 분할과 같은 하류 작업에 적응할 수 있습니다.

실제 애플리케이션

LVM은 과거에는 고도로 전문화되고 별도로 훈련된 알고리즘이 필요했던 복잡한 시각적 분석을 처리함으로써 산업을 혁신하고 있습니다.

  • 의료 영상 자동 분석: 임상 환경에서 대규모 비전 아키텍처는 고해상도 X선, MRI 및 CT 스캔을 처리하여 미세한 이상 징후를 식별함으로써, 영상의학 전문의의 조기 질병 발견을 지원하고 진단 오류를 크게 줄여줍니다.
  • 제조 분야의 결함 탐지: 공장 생산 라인에서는 일반화된 비전 모델을 활용해 제품을 실시간으로 검사함으로써, 조립 라인에서 발생하는 복잡하고 이전에 본 적 없는 결함도 손쉽게 식별하고, 각 특정 결함에 대한 수천 건의 예시 데이터 없이도 품질 관리를 개선합니다.

관련 개념 구분하기

AI 생태계를 완전히 이해하려면 LVM을 다른 널리 사용되는 파운데이션 모델들과 구분해 보는 것이 도움이 됩니다:

  • LVM 대 비전 언어 모델(VLM): LVM은 시각적 모달리티(픽셀)만 처리하는 반면, VLM은 텍스트와 이미지를 모두 통합하여 사용자가 사진에 대해 자연어 질문을 하거나 동영상에 대한 텍스트 설명을 받을 수 있게 해줍니다.
  • LVM 대 대규모 언어 모델(LLM): LLM은 인간의 언어를 이해하고 생성하기 위해 텍스트 데이터만을 대상으로 훈련됩니다. LVM은 이와 동등한 확장 및 이해 기능을 수행하지만, 오로지 시각적 데이터에 한정됩니다.

비전 모델 활용하기

대규모 LVM의 경우 대개 다음을 실행하는 서버 클러스터가 필요하지만 PyTorch 또는 TensorFlow를 실행하는 서버 클러스터가 필요한 반면, Ultralytics 같이 고도로 최적화된 기초 비전 모델은 강력하고 최첨단 시각 인텔리전스를 로컬 엣지 환경에 직접 제공합니다. 다음 예제는 사전 훈련된 모델을 사용하여 견고한 시각 추론을 수행하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

시각 지능의 미래

arXiv IEEE Xplore 디지털 라이브러리에 게재된 학술 연구가 실제 기업 현장으로 적용되는 속도가 급속히 빨라지고 있다. Google 같은 연구 그룹의 혁신을 통해 LVM이 시간 영역으로 활발히 확장되고 있으며, 이를 통해 모델은 OpenAI의 Sora에서 볼 수 있는 것과 유사한 복잡한 영상 시퀀스를 이해할 수 있게 되었다.

맞춤형 시각 AI 솔루션을 구축하려는 개발자와 조직을 위해, Ultralytics 팀 기반의 데이터셋 라벨링, 클라우드 훈련, 그리고 간소화된 모델 배포를 위한 원활한 도구를 제공하여, 누구나 고급 비전 기능을 활용할 수 있도록 합니다. 또한, Meta의 Segment Anything 2(SAM )와 같은 제로샷 분할 도구는 ACM 디지털 라이브러리에자주 소개되는 대규모 기초 비전 접근 방식이 AI 산업 전반에 걸쳐 복잡한 픽셀 수준의 이해를 표준화하고 있음을 입증하고 있습니다.

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요