YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Medusa Heads

Medusa heads가 LLM 디코딩을 어떻게 가속화하는지 알아보십시오. 이 멀티 헤드 아키텍처가 병렬 토큰 예측을 통해 AI 추론의 지연 시간을 줄이는 방법을 확인해 보십시오.

현대 머신러닝, 특히 large language models의 아키텍처에서 이 용어는 텍스트 생성을 가속화하기 위해 설계된 혁신적인 디코딩 프레임워크를 의미합니다. 머리카락 대신 여러 마리의 뱀이 달린 신화 속 괴물에게서 영감을 받은 이러한 아키텍처는 고정된 단일 백본 모델에 부착된 다중 디코딩 헤드를 활용합니다. 이 구조를 통해 네트워크는 엄격한 단계별 자기회귀(autoregressive) 생성에 의존하는 대신 여러 개의 후속 토큰을 동시에 예측할 수 있습니다. 시스템은 향후 발생 가능한 여러 가지 가능성을 병렬로 초안 작성함으로써 별도의 더 작은 초안 모델 없이도 inference latency를 획기적으로 줄일 수 있습니다.

Link to this section아키텍처 이해하기#

전통적인 언어 생성은 모델이 이전 단어 시퀀스를 기반으로 다음 단어를 예측하는 자기회귀 프로세스에 의존합니다. 정확하기는 하지만 이러한 순차적 처리는 계산 속도에 병목 현상을 일으키며, 이는 최근 Stanford NLP Group research에서 잘 설명된 과제입니다. Medusa 프레임워크는 모델의 마지막 은닉 상태(hidden state)에 추가적인 신경망 헤드를 추가하여 이를 우회합니다.

이러한 추가 헤드는 각각 서로 다른 미래 위치의 토큰을 예측하도록 훈련됩니다. 생성 중에 이 헤드들은 확률적 토큰 시퀀스 트리를 생성합니다. 그런 다음 트리 어텐션 메커니즘이 이러한 시퀀스를 동시에 검증합니다. 예측이 기본 모델의 기대치와 일치하면 단일 순방향 패스(forward pass)에서 여러 토큰이 수락됩니다. 이 기법은 매우 효율적인 형태의 speculative decoding이며, 그 근본적인 메커니즘에 대한 자세한 내용은 최신 academic papers on arXiv에서 확인할 수 있습니다.

Link to this sectionAI의 실제 응용 사례#

이 아키텍처의 병렬 예측 기능은 빠르고 대용량의 real-time inference가 필요한 시나리오에서 특히 유용합니다.

  • 실시간 대화형 에이전트: OpenAI's generative models 또는 Anthropic's Claude framework로 구동되는 고급 고객 서비스 봇은 자연스러운 대화 흐름을 유지하기 위해 짧은 지연 시간의 응답에 의존합니다. 한 번에 여러 토큰을 예측함으로써 이러한 에이전트는 사용자에게 텍스트를 훨씬 더 빠르게 스트리밍할 수 있습니다.
  • 코드 자동 완성 도구: AI 보조 프로그래밍 환경은 이러한 다중 헤드 아키텍처를 사용하여 전체 코드 라인이나 블록을 즉시 제안합니다. 코드는 예측 가능한 구문 구조를 가지고 있기 때문에 병렬 헤드가 함수 클로저나 루프를 정확하게 초안 작성하여 개발자 효율성을 향상시킵니다.

Link to this section관련 아키텍처 용어 구분하기#

개념적 유사성을 공유하지만, 이 NLP 전용 용어를 computer vision 시스템에서 발견되는 구조적 구성 요소와 구분하는 것이 중요합니다.

  • Detection Head: 최첨단 Ultralytics YOLO26과 같은 비전 모델에서 "헤드"는 바운딩 박스 및 object detection을 위한 클래스 확률과 같은 공간적 예측을 출력하는 네트워크의 최종 레이어를 의미합니다.
  • Medusa Head: 반대로, 이 용어는 순차적 토큰을 병렬로 예측하여 자기회귀적 병목 현상을 우회하는 것이 목표인 자연어 처리 및 vision-language models에 구체적으로 적용됩니다.

Link to this section다중 헤드 구조 구현하기#

비전을 위한 공간 예측 헤드를 구축하든 텍스트를 위한 병렬 토큰 예측기를 구축하든, 다중 헤드 구조는 PyTorch와 같은 저수준 라이브러리를 사용하여 유사한 구현 원칙을 공유합니다. 다음 코드 조각은 공유된 피처 표현을 여러 병렬 레이어를 통해 처리하는 간단한 다중 헤드 모듈을 구성하는 방법을 보여줍니다.

import torch
import torch.nn as nn


class ParallelHeads(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        super().__init__()
        # Shared backbone representation
        self.base = nn.Linear(128, hidden_dim)
        # Multiple parallel heads predicting concurrent states
        self.heads = nn.ModuleList([nn.Linear(hidden_dim, 50) for _ in range(num_heads)])

    def forward(self, x):
        features = torch.relu(self.base(x))
        # Return predictions from all heads simultaneously
        return [head(features) for head in self.heads]


model = ParallelHeads(hidden_dim=64, num_heads=3)
predictions = model(torch.randn(1, 128))

프로덕션 환경에서 복잡한 다층 모델의 개발 및 배포를 간소화하기 위해 개발자들은 Ultralytics Platform과 같은 포괄적인 시스템을 자주 활용합니다. 이를 통해 팀은 model deployment options를 원활하게 관리하여 speculative decoding을 통해서든 효율적인 비전 탐지 헤드를 통해서든 속도에 최적화된 아키텍처가 실제 환경에서 안정적으로 작동하도록 보장할 수 있습니다. 머신러닝 워크플로우 최적화에 대한 자세한 통찰력을 얻으려면 Google DeepMind의 간행물을 검토하거나 ACM Digital Library의 회의록을 살펴보십시오.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.