Yolo 비전 선전
선전
지금 참여하기
용어집

확산 강제력

일관된 시계열 데이터 생성을 위해 자기회귀 예측과 시퀀스 확산을 결합한 생성 모델링 패러다임인 ‘확산 강제(Diffusion Forcing)’를 살펴보세요.

확산 강제(Diffusion Forcing)는 2024년에 도입된 고급 생성 모델링 패러다임으로, 자기회귀적 다음 토큰 예측과 전체 시퀀스 확산의 장점을 결합한 것입니다. 시퀀스 내의 각 단계에 독립적이고 가변적인 노이즈 수준을 적용함으로써, 이 기법은 머신러닝 모델이 매우 일관성 높은 시계열 데이터를 생성할 수 있도록 합니다. 개별 토큰을 하나씩 예측하거나 전체 시퀀스의 노이즈를 동시에 제거하는 기존 방법과 달리, 확산 강제(Diffusion Forcing)는 모델이 견고한 계획자 및 시퀀스 생성기 역할을 수행하도록 훈련시켜, 복잡하고 장기적인 종속성을 지닌 연속적인 상태를 처리할 수 있게 합니다.

확산 강제력의 작동 원리

본질적으로, Diffusion Forcing은 재귀 신경망에서 사용되는 고전적인 티처 포싱(teacher forcing ) 기법에서 영감을 얻었습니다. 그러나 다음 단계를 예측하기 위해 정답인 이산 토큰을 입력하는 대신, 부분적으로 노이즈가 섞인 연속적인 이력을 인과적 트랜스포머에 입력합니다. 모델은 과거를 조건으로 하여 현재 상태의 노이즈를 제거하는 방법을 학습합니다. 이를 통해 네트워크는 프레임별로 노이즈 수준을 동적으로 조정할 수 있으며, 국소적인 정밀도와 광범위한 시간적 인식이 모두 필요한 작업에 유연한 프레임워크를 제공합니다.

이 접근 방식은 예측 불가능한 환경에 대응하면서도 장기적인 계획을 준수해야 하는 지능형 AI 에이전트를 구축할 때 매우 유용하며, 일반적인 자기회귀 모델에서 흔히 발생하는 오류 누적 문제를 피할 수 있습니다.

실제 애플리케이션

확산 강제(Diffusion Forcing)는 여러 복잡한 인공지능 분야에서 빠르게 주목받고 있습니다:

  • 로봇공학 및 시각-운동 제어: 자율 로봇 팔과 자율 주행 시스템은 확산 강제(Diffusion Forcing)를 활용하여 부드럽고 연속적인 궤적 계획을 생성합니다. 연속적인 운동 명령 시퀀스를 예측함으로써, 로봇은 목표 지점까지 안정적인 경로를 유지하면서 동적인 장애물에 적응할 수 있습니다.
  • 영상 생성 및 예측: 첨단 컴퓨터 비전 파이프라인에서 모델은 이 기법을 활용하여 엄격한 시간적 일관성을 유지하며 향후 영상 프레임을 예측함으로써, 기존 생성적 접근법에서 흔히 나타나는 깜빡임 현상을 방지합니다.

확산 강제력 대 표준 확산 모델

기본적인 노이즈 제거 메커니즘은 공유하지만, Diffusion Forcing은 표준 확산 모델과는 확연히 다릅니다. 텍스트-이미지 생성에 사용되는 모델과 같은 기존의 확산 모델은 일반적으로 단일 정적 출력의 모든 픽셀이나 잠재 변수를 동시에 노이즈 제거합니다. 반면, 확산 포싱은 시계열을 명시적으로 모델링하여 네트워크가 인과적 순서를 따르도록 강제합니다. 이로 인해 궤적 예측이나 행동 인식과 같은 시간적 작업에 훨씬 더 적합합니다.

실무에서의 시퀀스 처리 통합

확산 강제(Diffusion Forcing)는 주로 생성형 시퀀스 작업에 적용되지만, 시계열 시퀀스를 해석하는 것은 현대적인 비전 파이프라인에서 마찬가지로 중요합니다. 예를 들어, Ultralytics 사용하면 시퀀스 비디오 프레임 전반에 걸쳐 track 효율적으로 track 수 있는데, 이 모델은 물체 추적 과정에서 시계열 일관성을 기본적으로 처리합니다.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")

# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)

# Iterate through the sequence of frames
for frame_result in results:
    # Access temporal tracking IDs for objects in the current state
    print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")

시퀀스 데이터 수집을 확장하고 고급 비전 모델을 훈련하고자 하는 팀을 위해, Ultralytics 복잡한 데이터셋을 관리하고, track , 모델을 에지 환경에 원활하게 배포할 수 있는 강력한 클라우드 기반 도구를 제공합니다. PyTorch에서 최신 인과적 트랜스포머를 실험하든 PyTorch 환경에서 최첨단 인과 트랜스포머를 실험하든, 실시간 추적 시스템을 배포하든, 공간 및 시간 데이터의 교차점을 숙달하는 것은 AI의 미래를 위해 필수적입니다.

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요