Continuous Batching

Aprende como o continuous batching otimiza o débito de GPU e reduz a latência. Descobre como usar o Ultralytics YOLO26 para maximizar a eficiência em tarefas de ML de produção.

Continuous batching é uma técnica avançada de agendamento e otimização de inferência usada em machine learning (ML) para maximizar a utilização de hardware e o throughput. No batching estático tradicional, um inference engine aguarda que um número predeterminado de solicitações se acumule antes de processá-las simultaneamente. Isso geralmente leva a ineficiências, pois o sistema precisa esperar que a solicitação de execução mais longa no batch termine antes de liberar recursos. Continuous batching, também conhecido como batching dinâmico ou em nível de iteração, resolve isso injetando novas solicitações no batch de computação assim que uma solicitação ativa é concluída, reduzindo significativamente o tempo ocioso em GPUs e melhorando a eficiência geral.

Link to this sectionDistinguindo Conceitos Relacionados#

Para entender melhor como os dados são processados durante a implantação de modelos, é útil diferenciar continuous batching de outros termos relacionados no glossário:

Batch Size: Refere-se ao número fixo de amostras processadas simultaneamente durante o treinamento ou inferência. Fluxos de trabalho de processamento em batch tradicionais dependem de tamanhos estáticos, enquanto o continuous batching permite que o tamanho efetivo do batch flutue dinamicamente com base no tráfego de entrada.
Real-Time Inference: Este conceito foca na minimização da inference latency para previsões imediatas, processando entradas únicas à medida que chegam. O continuous batching preenche a lacuna entre o batching estático de alto throughput e a inferência em tempo real de baixa latência, mantendo um alto throughput sem forçar solicitações rápidas a esperar por solicitações mais lentas.

Link to this sectionAplicações no Mundo Real#

O continuous batching é fundamental para sistemas de produção que lidam com grandes volumes de solicitações imprevisíveis. Aqui estão dois exemplos concretos de sua aplicação:

Geração de Texto de Alto Throughput: Ao servir Large Language Models (LLMs), a geração de respostas para diferentes usuários leva quantidades variadas de tempo, dependendo do tamanho da saída. Frameworks que aproveitam o continuous batching — como o vLLM no Ray Serve — podem transmitir continuamente tokens recém-gerados e substituir imediatamente conversas finalizadas por novos prompts. Este método, originalmente popularizado por pesquisas sobre agendamento em nível de iteração, melhora drasticamente o throughput de geração de texto.
Análise de Vídeo Assíncrona: Em tarefas de video understanding, como o rastreamento de veículos na rede de câmeras de trânsito de uma cidade, os quadros chegam em intervalos diferentes. O continuous batching permite que modelos de object tracking processem dinamicamente os quadros de vídeo recebidos no milissegundo em que os recursos são liberados, otimizando pipelines de hardware acceleration para dashboards de cidades inteligentes.

Link to this sectionProcessamento Contínuo em Tarefas de Visão#

Ao gerenciar práticas de implantação de modelos com alto tráfego, transmitir inferências iterativamente pode simular os benefícios do batching dinâmico, garantindo que a memória seja liberada progressivamente em vez de bloqueada. O exemplo em Python a seguir demonstra como usar o padrão de gerador com a API de previsão de modelos para lidar com um fluxo contínuo de imagens com eficiência.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Using stream=True acts as a generator, iteratively processing inputs
# to keep memory usage low and throughput high
results = model.predict(source=["img1.jpg", "img2.jpg", "img3.jpg"], stream=True)

# Process each result as soon as it completes
for result in results:
    print(f"Detected {len(result.boxes)} objects in this frame.")

O gerenciamento de resource scheduling em nível de sistema requer um equilíbrio entre velocidade bruta e custo operacional. As equipes que implantam modelos massivos de computer vision (CV) e linguagem dependem cada vez mais de frameworks de serviço avançados para gerenciar esses batches dinâmicos. Para equipes corporativas que buscam simplificar sua infraestrutura, a Ultralytics Platform oferece ferramentas robustas para treinar, monitorar e exportar modelos para ambientes de produção altamente otimizados.

Continuous Batching

Link to this sectionDistinguindo Conceitos Relacionados#

Link to this sectionAplicações no Mundo Real#

Link to this sectionProcessamento Contínuo em Tarefas de Visão#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!