Melhorar a previsão de colisões com os modelos Ultralytics YOLO
Saiba como as informações dos modelosYOLO Ultralytics ajudam os sistemas de previsão de colisões a tomar decisões mais seguras e mais rápidas em ambientes dinâmicos.

Saiba como as informações dos modelosYOLO Ultralytics ajudam os sistemas de previsão de colisões a tomar decisões mais seguras e mais rápidas em ambientes dinâmicos.

Apesar de sermos cuidadosos na estrada, os acidentes podem acontecer. Um carro muda de faixa, um peão caminha em falso ou um ciclista acelera sem aviso. Estes momentos quotidianos são exemplos de quando os sistemas de previsão de colisões podem fazer uma verdadeira diferença e ajudar a manter todos em segurança.
Anteriormente, analisámos a previsão da trajetória da bola e vimos como a previsão da trajetória de uma bola em movimento rápido ajuda a analítica desportiva a compreender o movimento e a antecipar o que vai acontecer a seguir. A previsão de colisões funciona de forma semelhante.
Estes sistemas de previsão olham essencialmente para o futuro. Ao observarem a forma como os veículos e os peões se movimentam, podem detetar riscos atempadamente e ajustar a sua trajetória ou comportamento antes de as coisas tomarem um rumo perigoso (também conhecido como planeamento de movimento ou planeamento de trajetória).
As principais tecnologias informáticas subjacentes aos sistemas de previsão de colisões são a inteligência artificial e os seus subdomínios, como a visão por computador e os métodos de previsão que ajudam a prever a forma como as coisas se vão mover. Por exemplo, modelos de visão por computador como o Ultralytics YOLO11 e o futuro Ultralytics YOLO26 podem ser utilizados para detect e track objectos como veículos e peões em tempo real, e os modelos de previsão utilizam esses conhecimentos para estimar os seus próximos movimentos.

O resultado é um sistema de IA que compreende o que está a acontecer à sua volta e apoia a tomada de decisões mais inteligentes em ambientes dinâmicos. Neste artigo, vamos explorar como funciona a previsão de colisões, os métodos que lhe estão subjacentes e o papel que a visão por computador e os modelosYOLO Ultralytics podem desempenhar no processo. Vamos começar!
A previsão de colisão é a capacidade de um sistema de IA para compreender a forma como os objectos se movem e antecipar quando podem aproximar-se muito ou entrar em contacto. Diferentes sistemas podem utilizar esta informação de muitas formas, incluindo o apoio a funcionalidades de segurança, a otimização de movimentos ou a coordenação de acções em espaços partilhados.
Sempre que os objectos se deslocam num espaço partilhado, quer se trate de automóveis numa autoestrada, empilhadoras num corredor de um armazém ou peões a atravessar uma rua, a previsão de colisões ajuda os sistemas a compreender como estas interações se podem desenrolar. Em aplicações centradas na segurança, esta previsão pode ser utilizada para reduzir o risco, enquanto noutros contextos pode apoiar tarefas como o planeamento de rotas, a cronometragem ou o movimento coordenado.
Por exemplo, em muitos veículos mais recentes equipados com sistemas avançados de assistência ao condutor, ou ADAS, as câmaras e os sensores monitorizam a estrada à frente e estimam a rapidez com que o automóvel se aproxima de objectos próximos. Se o sistema detetar que uma situação pode tornar-se insegura, alerta o condutor e, em alguns casos, a travagem automática pode ajudar a reduzir o impacto.
A previsão de colisão envolve um processo coordenado em que diferentes componentes de IA trabalham em conjunto para identificar objectos, seguir o seu movimento e estimar o que pode acontecer a seguir. Estes sistemas funcionam normalmente em quatro fases interligadas: deteção de objectos, seguimento de objectos, previsão de trajectórias e, finalmente, previsão de colisões, sendo que cada fase se baseia na precisão da anterior.
De seguida, vamos analisar mais detalhadamente o funcionamento de cada fase.
A deteção de objectos é uma tarefa central da visão computacional em que os modelos de IA de visão identificam e localizam objectos numa imagem ou quadro de vídeo. Ao analisar os dados de pixéis, um modelo de deteção de objectos pode produzir três resultados principais: caixas delimitadoras, classes de objectos e pontuações de confiança. As caixas delimitadoras mostram onde se encontra um objeto, as classes de objectos indicam o que é, como um carro, um peão ou um ciclista, e as pontuações de confiança reflectem o grau de certeza do modelo relativamente à previsão.
Os modelos de IA de visão, como o YOLO11 e o YOLO26, assentam nesta base e suportam várias tarefas relacionadas, incluindo a deteção de objectos, o seguimento de objectos e a deteção de caixas delimitadoras orientadas (OBB). A deteção de objectos pode dizer a um sistema de previsão o que está em cada fotograma, o seguimento segue esses objectos à medida que se movem e as caixas delimitadoras orientadas fornecem formas mais precisas para objectos que aparecem em ângulos diferentes.
Nesta fase, um sistema de previsão de colisões centra-se apenas na compreensão do que está presente nos dados visuais. Forma a camada base de informação de que dependem todos os passos posteriores, mas ainda não considera a forma como os objectos se vão mover ou interagir.
Uma vez detectados os objectos, o passo seguinte é segui-los track longo dos fotogramas para que o sistema possa compreender como se movem ao longo do tempo. Enquanto a deteção fornece novas caixas delimitadoras em cada fotograma, o seguimento de objectos acrescenta continuidade ao ligar essas detecções ao longo do tempo.
Os algoritmos de seguimento suportados pelo pacotePython Ultralytics , como o ByteTrack ou o BoT-SORT, funcionam com modelos como o YOLO11 , utilizando dados de deteção de cada fotograma para seguir os objectos à medida que se movem. Estes algoritmos atribuem uma identificação única a cada objeto e utilizam-na para manter essa identidade mesmo quando o objeto se move rapidamente ou fica parcialmente oculto. Isto cria um histórico de seguimento suave que capta a forma como o objeto se move.

Segue-se uma breve descrição do funcionamento destes dois métodos de seguimento:
Para medir o desempenho destes métodos de seguimento, os investigadores avaliam-nos em conjuntos de dados e padrões de referência estabelecidos de seguimento de múltiplos objectos (MOT). Além disso, as métricas normalmente utilizadas incluem a precisão do seguimento de múltiplos objectos (MOTA), que reflecte a qualidade geral do seguimento; a pontuação F1 de identificação (IDF1), que mede a consistência com que as identidades dos objectos são mantidas; e a precisão do seguimento de ordem superior (HOTA), que oferece uma visão equilibrada do desempenho da deteção e da precisão da associação.
Depois de seguir um objeto em vários fotogramas, o passo seguinte é prever para onde irá a seguir. Isto é conhecido como previsão de trajetória. Enquanto a deteção encontra objectos e o seguimento segue a forma como se movem, a previsão olha em frente e estima as suas posições futuras.
A informação proveniente da deteção e do seguimento, como a caixa delimitadora de um objeto, a posição nos fotogramas e a ID atribuída, pode ser utilizada para calcular caraterísticas de movimento como a velocidade, a direção e os padrões de movimento. Estas informações derivadas fornecem ao modelo de previsão os dados de que necessita para estimar onde é provável que o objeto se encontre nos próximos segundos.
Nos casos em que os dados de rastreio contêm lacunas ou saltos abruptos, as técnicas de interpolação ajudam a reconstruir trajectórias mais suaves e consistentes. Isto assegura que o modelo de previsão recebe dados de movimento de alta qualidade em vez de dados de posição ruidosos ou incompletos.

Para fazer estas previsões, muitos sistemas recorrem a modelos de aprendizagem profunda concebidos para compreender como o movimento de um objeto muda ao longo do tempo. Ao analisar sequências de posições passadas e as caraterísticas de movimento derivadas das mesmas, estes modelos aprendem padrões de movimento comuns e utilizam esse conhecimento para prever trajectórias futuras.
Seguem-se algumas abordagens de aprendizagem profunda e de aprendizagem automática normalmente utilizadas para a previsão de trajectórias:
Estes modelos podem prever trajectórias a curto e a longo prazo. As previsões a curto prazo, normalmente inferiores a dois segundos, tendem a ser as mais exactas, enquanto as previsões a mais longo prazo, como as de dois a seis segundos, proporcionam uma maior previsão, mas com maior incerteza.
Na fase final, a previsão de colisão, o sistema utiliza tudo o que aprendeu até agora: o que é cada objeto (deteção), como se moveu (seguimento) e para onde é provável que vá a seguir (previsão). Esta etapa verifica se algum dos caminhos previstos se pode cruzar de uma forma que possa levar a uma colisão.

No caso dos veículos autónomos, um sistema de verificação de colisão compara as trajectórias futuras de objectos próximos, como carros, peões e ciclistas. Se duas trajectórias previstas se sobrepuserem ou se aproximarem perigosamente, o sistema assinala a situação como uma potencial colisão de veículos. Para compreender a urgência do risco de colisão, o sistema também calcula um valor conhecido como tempo até à colisão.
O tempo até à colisão (TTC) é uma medida fundamental em ambientes de movimento rápido. Calcula quanto tempo falta para que dois objectos colidam se continuarem nas suas velocidades e direcções actuais. Quando o TTC desce abaixo de um determinado limiar, o sistema pode responder emitindo avisos, aplicando os travões ou ajustando a trajetória planeada.
A previsão de colisões está a tornar-se crucial em muitas indústrias, incluindo a gestão de tráfego, infra-estruturas urbanas inteligentes, automação industrial e robótica móvel. À medida que a visão computacional e os modelos de previsão de última geração continuam a avançar, estes sistemas estão a tornar-se mais capazes de antecipar o movimento.
Agora que compreendemos melhor como funcionam a previsão de colisões e a previsão de trajectórias, vejamos alguns estudos de investigação interessantes que mostram como estes métodos podem ser utilizados em vários ambientes do mundo real.
Navegar em ambientes lotados e imprevisíveis é um dos desafios mais difíceis para os sistemas autónomos, especialmente quando os peões se movimentam de formas que não seguem padrões claros. Os veículos de emergência enfrentam este problema ainda mais frequentemente, uma vez que precisam de se deslocar rapidamente a alta velocidade através de espaços públicos densos sem depender de estradas estruturadas, marcações de faixas ou comportamento previsível dos peões.
Neste tipo de cenários, compreender onde estão as pessoas e como se podem mover nos segundos seguintes torna-se essencial para evitar acidentes. Por exemplo, um estudo de investigação recente explorou este desafio através da construção de um pipeline completo de previsão de colisões para um Veículo Autónomo de Emergência (EAV) que opera em ambientes ricos em peões.
Eis uma visão geral do funcionamento desta metodologia:
Do mesmo modo, outra abordagem à prevenção de colisões vai para além dos veículos e centra-se na própria infraestrutura. Em vez de se basear em sensores no interior de um automóvel, este método utiliza câmaras inteligentes instaladas em passadeiras e cruzamentos para monitorizar a forma como os peões e os veículos se deslocam em tempo real. Estes locais são muitas vezes imprevisíveis; as pessoas podem entrar na estrada de repente, os ciclistas podem atravessar o trânsito e os condutores nem sempre abrandam, pelo que a deteção precoce de riscos é vital.
Um estudo interessante explorou esta ideia através de um sistema chamado NAVIBox, um dispositivo de visão periférica concebido para prever os riscos entre veículos e peões diretamente no cruzamento. O sistema utiliza o Ultralytics YOLOv8 da Ultralytics para detect peões e veículos, e um rastreador centróide leve para os seguir ao longo dos fotogramas. Isto cria histórias de movimento curtas e fiáveis, que são depois refinadas utilizando uma transformação de perspetiva que converte a vista angular de CCTV num esquema mais claro da estrada.
Com estas trajectórias refinadas, o NAVIBox pode estimar a forma como os utentes da estrada se irão provavelmente deslocar nos próximos segundos e verificar se as suas trajectórias se podem cruzar (também designado por teste de cruzamento). Quando o sistema detecta uma interação de risco, envia imediatamente avisos através de ecrãs para os condutores e altifalantes para os peões - sem depender de um servidor remoto ou de uma ligação de rede. Os testes em locais urbanos reais mostraram que o NAVIBox funciona suficientemente rápido para uma verdadeira resposta em tempo real e consegue identificar com precisão potenciais cenários de colisão, o que o torna uma ferramenta de segurança prática para cruzamentos urbanos movimentados.

Eis algumas vantagens da utilização de sistemas de previsão de colisões com base em IA:
Apesar das suas vantagens, os sistemas sem colisão também enfrentam algumas limitações. Eis alguns desafios a considerar:
A previsão de colisões junta duas capacidades poderosas: a visão por computador, que permite aos sistemas compreender o que está a acontecer no ambiente neste momento, e a previsão de trajectórias, que os ajuda a antecipar o que é provável que aconteça a seguir.
Combinando estes pontos fortes, as máquinas podem detect objectos em movimento em tempo real e prever como esses objectos podem interagir nos segundos seguintes. À medida que a visão computacional e as técnicas de previsão continuam a evoluir, a previsão de colisões tornar-se-á provavelmente a chave para a construção de sistemas autónomos mais seguros, fiáveis e escaláveis.
Consulte a nossa comunidade e o repositório GitHub para saber mais sobre IA. Explore aplicações como a IA nos cuidados de saúde e a visão por computador no fabrico nas nossas páginas de soluções. Descubra as nossas opções de licenciamento e comece a construir hoje mesmo!