Descubra como a inferência em tempo real com o Ultralytics YOLO permite previsões instantâneas para aplicações de IA, como condução autónoma e sistemas de segurança.
A inferência em tempo real é o processo em que um modelo de modelo de aprendizagem automática treinado aceita dados de entrada em tempo real e gera uma previsão quase instantaneamente. Neste contexto, "tempo real" implica que a velocidade de processamento é suficiente para acompanhar o fluxo de dados de entrada, permitindo que o sistema tome decisões imediatas. Esta capacidade é uma pedra angular das modernas aplicações modernas de visão por computador, permitindo aos dispositivos que permitem aos dispositivos percecionar e reagir ao seu ambiente com um atraso mínimo.
A principal métrica para avaliar o desempenho em tempo real é a latência de inferência, que mede o tempo decorrido entre o momento em que o modelo recebe uma entrada e produz uma saída. Para que um sistema seja considerado em tempo real, esta para que um sistema seja considerado em tempo real, esta latência deve ser suficientemente baixa para satisfazer as restrições de tempo específicas do caso de utilização. Por exemplo, um sistema de compreensão de vídeo que analisa um fluxo a 30 fotogramas por segundo (FPS) tem cerca de 33 milissegundos para processar cada fotograma. Se a inferência demorar mais, os quadros são descartados e o sistema fica atrasado.
Atingir esta velocidade implica frequentemente a utilização de hardware especializado, como GPUs ou aceleradores de aceleradores de IA de borda dedicados, como a plataformaNVIDIA Jetson. Além disso, engenheiros empregam frequentemente técnicas de otimização de modelos para reduzir a complexidade computacional sem sacrificar significativamente a precisão.
É importante distinguir os fluxos de trabalho em tempo real da inferência em lote. Enquanto a inferência em tempo real processa os pontos de dados individualmente à medida que eles chegam para minimizar a latência, a inferência em lote agrupa os dados em grandes partes para serem processados em conjunto numa altura posterior.
A capacidade de gerar previsões instantâneas transformou vários sectores, automatizando tarefas complexas que exigem tomadas de decisão numa fração de segundo.
Para atingir as velocidades necessárias para aplicações em tempo real, os programadores implementam frequentemente modelos utilizando motores de inferência optimizados optimizados. Frameworks como o TensorRT para hardware NVIDIA ou o OpenVINO para processadores Intel podem acelerar significativamente o desempenho. Além disso, técnicas como a quantização do modelo - quereduz a precisão precisão dos pesos do modelo de ponto flutuante para valores inteiros - podem reduzir drasticamente o espaço de memória e melhorar a velocidade de execução em sistemas incorporados.
O exemplo Python a seguir demonstra como executar inferência em tempo real em um feed de webcam usando o
ultralytics biblioteca.
from ultralytics import YOLO
# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")
# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)
# Process the generator to keep the stream running
for result in results:
pass
À medida que a conetividade 5G se expande e o hardware se torna mais potente, o âmbito da IA em tempo real está a crescer. Conceitos como Internet das Coisas (IoT) estão a tornar-se mais inteligentes, passando de simples colectores de dados a decisores activos. Desenvolvimentos futuros, como como o próximo YOLO26, têm como objetivo alargar ainda mais estes limites oferecendo modelos nativos de ponta a ponta que são ainda mais pequenos e rápidos, garantindo que cidades inteligentes e dispositivos médicos possam e os dispositivos médicos possam funcionar sem problemas em tempo real.