Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Medusa Heads

Khám phá cách các Medusa heads tăng tốc giải mã LLM. Tìm hiểu cách kiến trúc đa đầu này cho phép dự đoán token song song để giảm độ trễ trong suy luận AI.

Trong machine learning hiện đại, đặc biệt là trong kiến trúc của large language models, thuật ngữ này đề cập đến một framework giải mã sáng tạo được thiết kế để tăng tốc độ tạo văn bản. Lấy cảm hứng từ sinh vật thần thoại với mái tóc là nhiều con rắn, các kiến trúc này sử dụng nhiều head giải mã gắn với một model backbone cố định. Cấu trúc này cho phép network dự đoán đồng thời nhiều token tiếp theo thay vì chỉ dựa vào quá trình tạo tự hồi quy từng bước. Bằng cách phác thảo nhiều khả năng tương lai song song, các hệ thống có thể giảm đáng kể inference latency mà không cần một model phác thảo nhỏ hơn và riêng biệt.

Link to this sectionTìm hiểu về Kiến trúc#

Việc tạo ngôn ngữ truyền thống dựa trên quá trình tự hồi quy, nơi model dự đoán từ tiếp theo dựa trên chuỗi các từ đứng trước. Mặc dù chính xác, quá trình xử lý tuần tự này tạo ra các nút thắt cổ chai về tốc độ tính toán, một thách thức được ghi chép rõ ràng trong các Stanford NLP Group research gần đây. Framework Medusa bỏ qua điều này bằng cách gắn thêm các head neural network vào trạng thái ẩn cuối cùng của model.

Mỗi head bổ sung này được đào tạo để dự đoán token tại một vị trí tương lai khác nhau. Trong quá trình tạo, các head này tạo ra một cây gồm các chuỗi token có xác suất cao. Sau đó, một cơ chế tree attention sẽ xác thực các chuỗi này đồng thời. Nếu các dự đoán khớp với kỳ vọng của model cơ sở, nhiều token sẽ được chấp nhận trong một lần forward pass duy nhất. Kỹ thuật này là một dạng speculative decoding hiệu quả cao và thông tin chi tiết về các cơ chế nền tảng của nó có thể được tìm hiểu trong các academic papers on arXiv hiện đại.

Link to this sectionCác ứng dụng thực tế trong AI#

Khả năng dự đoán song song của kiến trúc này đặc biệt có giá trị trong các tình huống đòi hỏi real-time inference nhanh chóng và khối lượng lớn.

  • Real-Time Conversational Agents: Các bot chăm sóc khách hàng nâng cao được hỗ trợ bởi OpenAI's generative models hoặc Anthropic's Claude framework dựa vào phản hồi độ trễ thấp để duy trì luồng hội thoại tự nhiên. Bằng cách dự đoán nhiều token cùng lúc, các tác nhân này có thể truyền văn bản đến người dùng nhanh hơn đáng kể.
  • Công cụ Tự động Hoàn thiện Mã: Các môi trường lập trình hỗ trợ bởi AI sử dụng các kiến trúc đa head này để gợi ý toàn bộ dòng hoặc khối code ngay lập tức. Vì code có cấu trúc cú pháp dễ dự đoán, các head song song có thể phác thảo chính xác các function closure hoặc vòng lặp, giúp cải thiện hiệu suất của developer.

Link to this sectionPhân biệt các Thuật ngữ Kiến trúc liên quan#

Mặc dù có những điểm tương đồng về mặt khái niệm, điều quan trọng là phải phân biệt thuật ngữ dành riêng cho NLP này với các thành phần cấu trúc được tìm thấy trong các hệ thống computer vision.

  • Detection Head: Trong các vision model như Ultralytics YOLO26 hiện đại nhất, "head" đề cập đến các lớp cuối cùng của network chịu trách nhiệm xuất ra các dự đoán không gian, chẳng hạn như bounding box và xác suất lớp cho object detection.
  • Medusa Head: Ngược lại, thuật ngữ này áp dụng cụ thể cho xử lý ngôn ngữ tự nhiên và vision-language models, nơi mục tiêu là dự đoán các token tuần tự song song để bỏ qua các nút thắt cổ chai tự hồi quy.

Link to this sectionTriển khai các Cấu trúc Đa head#

Cho dù xây dựng các head dự đoán không gian cho vision hay dự đoán token song song cho văn bản, các cấu trúc đa head đều chia sẻ các nguyên tắc triển khai tương tự bằng cách sử dụng các thư viện cấp thấp như PyTorch. Đoạn mã dưới đây minh họa cách xây dựng một module đa head đơn giản xử lý biểu diễn tính năng được chia sẻ thông qua nhiều lớp song song.

import torch
import torch.nn as nn


class ParallelHeads(nn.Module):
    def __init__(self, hidden_dim, num_heads):
        super().__init__()
        # Shared backbone representation
        self.base = nn.Linear(128, hidden_dim)
        # Multiple parallel heads predicting concurrent states
        self.heads = nn.ModuleList([nn.Linear(hidden_dim, 50) for _ in range(num_heads)])

    def forward(self, x):
        features = torch.relu(self.base(x))
        # Return predictions from all heads simultaneously
        return [head(features) for head in self.heads]


model = ParallelHeads(hidden_dim=64, num_heads=3)
predictions = model(torch.randn(1, 128))

Để hợp lý hóa việc phát triển và triển khai các model phức tạp, nhiều lớp trong môi trường production, các developer thường sử dụng các hệ thống toàn diện như Ultralytics Platform. Điều này cho phép các team quản lý model deployment options một cách liền mạch, đảm bảo rằng các kiến trúc được tối ưu hóa cho tốc độ—cho dù thông qua speculative decoding hay các detection head hiệu quả—đều hoạt động đáng tin cậy trong thế giới thực. Để biết thêm thông tin chi tiết về việc tối ưu hóa quy trình làm việc machine learning, bạn có thể xem xét các ấn phẩm từ Google DeepMind hoặc khám phá các biên bản trong ACM Digital Library.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning