Melhorar a previsão de colisões com o Ultralytics YOLO

Apesar de sermos cuidadosos na estrada, os acidentes podem acontecer. Um carro muda de faixa, um peão caminha em falso ou um ciclista acelera sem aviso. Estes momentos quotidianos são exemplos de quando os sistemas de previsão de colisões podem fazer uma verdadeira diferença e ajudar a manter todos em segurança.

Anteriormente, analisámos a previsão da trajetória da bola e vimos como a previsão da trajetória de uma bola em movimento rápido ajuda a analítica desportiva a compreender o movimento e a antecipar o que vai acontecer a seguir. A previsão de colisões funciona de forma semelhante.

Estes sistemas de previsão olham essencialmente para o futuro. Ao observarem a forma como os veículos e os peões se movimentam, podem detetar riscos atempadamente e ajustar a sua trajetória ou comportamento antes de as coisas tomarem um rumo perigoso (também conhecido como planeamento de movimento ou planeamento de trajetória).

As principais tecnologias informáticas subjacentes aos sistemas de previsão de colisões são a inteligência artificial e os seus subdomínios, como a visão por computador e os métodos de previsão que ajudam a prever a forma como as coisas se vão mover. Por exemplo, modelos de visão por computador como o Ultralytics YOLO11 e o futuro Ultralytics YOLO26 podem ser utilizados para detect e track objectos como veículos e peões em tempo real, e os modelos de previsão utilizam esses conhecimentos para estimar os seus próximos movimentos.

Fig. 1. Um exemplo de utilização YOLO11 para detect objectos na estrada(Fonte).

‍

O resultado é um sistema de IA que compreende o que está a acontecer à sua volta e apoia a tomada de decisões mais inteligentes em ambientes dinâmicos. Neste artigo, vamos explorar como funciona a previsão de colisões, os métodos que lhe estão subjacentes e o papel que a visão por computador e os modelosYOLO Ultralytics podem desempenhar no processo. Vamos começar!

O que é a previsão de colisão?

A previsão de colisão é a capacidade de um sistema de IA para compreender a forma como os objectos se movem e antecipar quando podem aproximar-se muito ou entrar em contacto. Diferentes sistemas podem utilizar esta informação de muitas formas, incluindo o apoio a funcionalidades de segurança, a otimização de movimentos ou a coordenação de acções em espaços partilhados.

Sempre que os objectos se deslocam num espaço partilhado, quer se trate de automóveis numa autoestrada, empilhadoras num corredor de um armazém ou peões a atravessar uma rua, a previsão de colisões ajuda os sistemas a compreender como estas interações se podem desenrolar. Em aplicações centradas na segurança, esta previsão pode ser utilizada para reduzir o risco, enquanto noutros contextos pode apoiar tarefas como o planeamento de rotas, a cronometragem ou o movimento coordenado.

Por exemplo, em muitos veículos mais recentes equipados com sistemas avançados de assistência ao condutor, ou ADAS, as câmaras e os sensores monitorizam a estrada à frente e estimam a rapidez com que o automóvel se aproxima de objectos próximos. Se o sistema detetar que uma situação pode tornar-se insegura, alerta o condutor e, em alguns casos, a travagem automática pode ajudar a reduzir o impacto.

Explorar as quatro fases da previsão de colisões

A previsão de colisão envolve um processo coordenado em que diferentes componentes de IA trabalham em conjunto para identificar objectos, seguir o seu movimento e estimar o que pode acontecer a seguir. Estes sistemas funcionam normalmente em quatro fases interligadas: deteção de objectos, seguimento de objectos, previsão de trajectórias e, finalmente, previsão de colisões, sendo que cada fase se baseia na precisão da anterior.

De seguida, vamos analisar mais detalhadamente o funcionamento de cada fase.

Um olhar sobre a deteção de objectos

A deteção de objectos é uma tarefa central da visão computacional em que os modelos de IA de visão identificam e localizam objectos numa imagem ou quadro de vídeo. Ao analisar os dados de pixéis, um modelo de deteção de objectos pode produzir três resultados principais: caixas delimitadoras, classes de objectos e pontuações de confiança. As caixas delimitadoras mostram onde se encontra um objeto, as classes de objectos indicam o que é, como um carro, um peão ou um ciclista, e as pontuações de confiança reflectem o grau de certeza do modelo relativamente à previsão.

Os modelos de IA de visão, como o YOLO11 e o YOLO26, assentam nesta base e suportam várias tarefas relacionadas, incluindo a deteção de objectos, o seguimento de objectos e a deteção de caixas delimitadoras orientadas (OBB). A deteção de objectos pode dizer a um sistema de previsão o que está em cada fotograma, o seguimento segue esses objectos à medida que se movem e as caixas delimitadoras orientadas fornecem formas mais precisas para objectos que aparecem em ângulos diferentes.

Nesta fase, um sistema de previsão de colisões centra-se apenas na compreensão do que está presente nos dados visuais. Forma a camada base de informação de que dependem todos os passos posteriores, mas ainda não considera a forma como os objectos se vão mover ou interagir.

Uma visão geral do rastreio de objectos

Uma vez detectados os objectos, o passo seguinte é segui-los track longo dos fotogramas para que o sistema possa compreender como se movem ao longo do tempo. Enquanto a deteção fornece novas caixas delimitadoras em cada fotograma, o seguimento de objectos acrescenta continuidade ao ligar essas detecções ao longo do tempo.

Os algoritmos de seguimento suportados pelo pacotePython Ultralytics , como o ByteTrack ou o BoT-SORT, funcionam com modelos como o YOLO11 , utilizando dados de deteção de cada fotograma para seguir os objectos à medida que se movem. Estes algoritmos atribuem uma identificação única a cada objeto e utilizam-na para manter essa identidade mesmo quando o objeto se move rapidamente ou fica parcialmente oculto. Isto cria um histórico de seguimento suave que capta a forma como o objeto se move.

Fig. 2. Um olhar sobre a atribuição de IDs únicos para diferentes detecções utilizando o YOLO (Fonte)

‍

Segue-se uma breve descrição do funcionamento destes dois métodos de seguimento:

ByteTrack: Utiliza detecções de alta e baixa confiança para manter IDs de objectos consistentes, com previsões de movimento de um Filtro Kalman que ajuda o localizador a manter-se estável quando os objectos se movem rapidamente ou são difíceis de detect por breves instantes.
BoT-SORT: Este algoritmo estende o SORT combinando as previsões de movimento do Filtro de Kalman com pistas de aparência, permitindo que o localizador siga objectos de forma mais fiável em cenas com muita gente ou durante a oclusão parcial.

Para medir o desempenho destes métodos de seguimento, os investigadores avaliam-nos em conjuntos de dados e padrões de referência estabelecidos de seguimento de múltiplos objectos (MOT). Além disso, as métricas normalmente utilizadas incluem a precisão do seguimento de múltiplos objectos (MOTA), que reflecte a qualidade geral do seguimento; a pontuação F1 de identificação (IDF1), que mede a consistência com que as identidades dos objectos são mantidas; e a precisão do seguimento de ordem superior (HOTA), que oferece uma visão equilibrada do desempenho da deteção e da precisão da associação.

Compreender a previsão de trajectórias

Depois de seguir um objeto em vários fotogramas, o passo seguinte é prever para onde irá a seguir. Isto é conhecido como previsão de trajetória. Enquanto a deteção encontra objectos e o seguimento segue a forma como se movem, a previsão olha em frente e estima as suas posições futuras.

A informação proveniente da deteção e do seguimento, como a caixa delimitadora de um objeto, a posição nos fotogramas e a ID atribuída, pode ser utilizada para calcular caraterísticas de movimento como a velocidade, a direção e os padrões de movimento. Estas informações derivadas fornecem ao modelo de previsão os dados de que necessita para estimar onde é provável que o objeto se encontre nos próximos segundos.

Nos casos em que os dados de rastreio contêm lacunas ou saltos abruptos, as técnicas de interpolação ajudam a reconstruir trajectórias mais suaves e consistentes. Isto assegura que o modelo de previsão recebe dados de movimento de alta qualidade em vez de dados de posição ruidosos ou incompletos.

Fig. 3. Uma visualização da previsão da trajetória de um automóvel.(Fonte)

‍

Para fazer estas previsões, muitos sistemas recorrem a modelos de aprendizagem profunda concebidos para compreender como o movimento de um objeto muda ao longo do tempo. Ao analisar sequências de posições passadas e as caraterísticas de movimento derivadas das mesmas, estes modelos aprendem padrões de movimento comuns e utilizam esse conhecimento para prever trajectórias futuras.

Seguem-se algumas abordagens de aprendizagem profunda e de aprendizagem automática normalmente utilizadas para a previsão de trajectórias:

Redes Neurais Recorrentes (RNNs): As RNNs são modelos de aprendizagem profunda concebidos para trabalhar com sequências, como uma série de fotogramas de vídeo. Podem manter uma memória de posições anteriores e utilizar essa informação para compreender como um objeto se tem movido. Isto ajuda o sistema a reconhecer padrões de movimento simples, como acelerar, abrandar ou mover-se em linha reta.

Redes de memória de curto prazo (LSTMs): As LSTMs são um tipo mais avançado de RNN que pode memorizar informações por períodos mais longos. Isto permite-lhes captar movimentos mais complexos, como um veículo que se prepara para virar ou um peão que muda de direção. Como podem track tendências mais longas, produzem frequentemente previsões mais fiáveis em ambientes movimentados.

Transformadores: Transformers processa sequências de movimento completas e utiliza a atenção para se concentrar nos detalhes mais importantes dessas sequências. Isto torna-os especialmente eficazes em cenas em que vários objectos interagem, como a fusão de carros ou o cruzamento de peões.

Estes modelos podem prever trajectórias a curto e a longo prazo. As previsões a curto prazo, normalmente inferiores a dois segundos, tendem a ser as mais exactas, enquanto as previsões a mais longo prazo, como as de dois a seis segundos, proporcionam uma maior previsão, mas com maior incerteza.

Juntar tudo: Algoritmos de deteção de colisão

Na fase final, a previsão de colisão, o sistema utiliza tudo o que aprendeu até agora: o que é cada objeto (deteção), como se moveu (seguimento) e para onde é provável que vá a seguir (previsão). Esta etapa verifica se algum dos caminhos previstos se pode cruzar de uma forma que possa levar a uma colisão.

Fig. 4. Como funciona um sistema de previsão de colisões(Fonte)

‍

No caso dos veículos autónomos, um sistema de verificação de colisão compara as trajectórias futuras de objectos próximos, como carros, peões e ciclistas. Se duas trajectórias previstas se sobrepuserem ou se aproximarem perigosamente, o sistema assinala a situação como uma potencial colisão de veículos. Para compreender a urgência do risco de colisão, o sistema também calcula um valor conhecido como tempo até à colisão.

O tempo até à colisão (TTC) é uma medida fundamental em ambientes de movimento rápido. Calcula quanto tempo falta para que dois objectos colidam se continuarem nas suas velocidades e direcções actuais. Quando o TTC desce abaixo de um determinado limiar, o sistema pode responder emitindo avisos, aplicando os travões ou ajustando a trajetória planeada.

Aplicações do mundo real da previsão de colisões

A previsão de colisões está a tornar-se crucial em muitas indústrias, incluindo a gestão de tráfego, infra-estruturas urbanas inteligentes, automação industrial e robótica móvel. À medida que a visão computacional e os modelos de previsão de última geração continuam a avançar, estes sistemas estão a tornar-se mais capazes de antecipar o movimento.

Agora que compreendemos melhor como funcionam a previsão de colisões e a previsão de trajectórias, vejamos alguns estudos de investigação interessantes que mostram como estes métodos podem ser utilizados em vários ambientes do mundo real.

Previsão de colisão YOLO para veículos autónomos de emergência

Navegar em ambientes lotados e imprevisíveis é um dos desafios mais difíceis para os sistemas autónomos, especialmente quando os peões se movimentam de formas que não seguem padrões claros. Os veículos de emergência enfrentam este problema ainda mais frequentemente, uma vez que precisam de se deslocar rapidamente a alta velocidade através de espaços públicos densos sem depender de estradas estruturadas, marcações de faixas ou comportamento previsível dos peões.

Neste tipo de cenários, compreender onde estão as pessoas e como se podem mover nos segundos seguintes torna-se essencial para evitar acidentes. Por exemplo, um estudo de investigação recente explorou este desafio através da construção de um pipeline completo de previsão de colisões para um Veículo Autónomo de Emergência (EAV) que opera em ambientes ricos em peões.

Como funciona o pipeline de previsão de colisões YOLO

Eis uma visão geral do funcionamento desta metodologia:

Deteção de peões utilizando YOLO: Um detetor YOLO identifica os peões em cada fotograma da câmara e produz caixas delimitadoras para cada pessoa visível.
‍
Rastreio de movimento com ByteTrack: O algoritmo ByteTrack liga estas detecções através de fotogramas, dando a cada peão uma identificação consistente e criando um histórico de movimento que mostra como se estão a mover ao longo do tempo.
‍
Estimativa de posição no mundo real: O Mapeamento de Perspetiva Inversa (IPM) converte as coordenadas de píxeis 2D em posições aproximadas no plano do solo, ajudando o sistema a compreender onde os peões se encontram no espaço do mundo real relativamente ao veículo.
‍
Geração de visão panorâmica utilizando um cGAN: Um GAN condicional, um modelo de IA que traduz um formato de imagem para outro, cria uma representação panorâmica da cena. Este esquema de cima para baixo facilita a interpretação das posições dos peões e das suas imediações.
‍
Previsão de trajetória com um modelo LSTM: Utilizando as posições passadas e os padrões de movimento de cada peão, um modelo LSTM prevê para onde é provável que se desloquem nos próximos segundos.
‍
Deteção eficiente de colisões utilizando cones de colisão: As trajectórias previstas são comparadas utilizando o método dos cones de colisão, que determina se as trajectórias do veículo e de qualquer peão estão em vias de se intersectar.
‍
Evitar colisões através de sinalização: Se o sistema prevê uma colisão, ativa um sinal auditivo (como uma buzina ou uma campainha) no momento ideal. O momento é escolhido para influenciar o comportamento dos peões e dar-lhes a oportunidade de acelerar ou abrandar e chegar a um local seguro.

Garantir a segurança dos peões nas cidades utilizando a visão periférica e o YOLO

Do mesmo modo, outra abordagem à prevenção de colisões vai para além dos veículos e centra-se na própria infraestrutura. Em vez de se basear em sensores no interior de um automóvel, este método utiliza câmaras inteligentes instaladas em passadeiras e cruzamentos para monitorizar a forma como os peões e os veículos se deslocam em tempo real. Estes locais são muitas vezes imprevisíveis; as pessoas podem entrar na estrada de repente, os ciclistas podem atravessar o trânsito e os condutores nem sempre abrandam, pelo que a deteção precoce de riscos é vital.

Um estudo interessante explorou esta ideia através de um sistema chamado NAVIBox, um dispositivo de visão periférica concebido para prever os riscos entre veículos e peões diretamente no cruzamento. O sistema utiliza o Ultralytics YOLOv8 da Ultralytics para detect peões e veículos, e um rastreador centróide leve para os seguir ao longo dos fotogramas. Isto cria histórias de movimento curtas e fiáveis, que são depois refinadas utilizando uma transformação de perspetiva que converte a vista angular de CCTV num esquema mais claro da estrada.

Com estas trajectórias refinadas, o NAVIBox pode estimar a forma como os utentes da estrada se irão provavelmente deslocar nos próximos segundos e verificar se as suas trajectórias se podem cruzar (também designado por teste de cruzamento). Quando o sistema detecta uma interação de risco, envia imediatamente avisos através de ecrãs para os condutores e altifalantes para os peões - sem depender de um servidor remoto ou de uma ligação de rede. Os testes em locais urbanos reais mostraram que o NAVIBox funciona suficientemente rápido para uma verdadeira resposta em tempo real e consegue identificar com precisão potenciais cenários de colisão, o que o torna uma ferramenta de segurança prática para cruzamentos urbanos movimentados.

Fig. 5. Previsão do risco de colisão entre veículos e peões.(Fonte)

‍

Prós e contras da deteção e previsão de colisões

Eis algumas vantagens da utilização de sistemas de previsão de colisões com base em IA:

Melhora a consciência situacional: Os sistemas de IA mapeiam continuamente a forma como os objectos se movem num ambiente, proporcionando uma compreensão mais rica do fluxo de multidões em grande escala, do comportamento do tráfego ou dos percursos das máquinas.
‍
Informações baseadas em dados para planeamento a longo prazo: Ao registar as detecções, os quase-acidentes e os padrões de movimento, os sistemas de IA fornecem análises que os planeadores urbanos, as equipas de segurança e os operadores de frotas podem utilizar para redesenhar os cruzamentos, melhorar a sinalização ou aperfeiçoar as políticas operacionais.

Prevenção de riscos com boa relação custo-benefício: Ao detetar os riscos antes que estes se agravem, estes sistemas podem permitir evitar acidentes dispendiosos, reclamações de seguros ou reparações de equipamentos.

Apesar das suas vantagens, os sistemas sem colisão também enfrentam algumas limitações. Eis alguns desafios a considerar:

Restrições de colocação do sensor e da câmara: As câmaras mal posicionadas ou inclinadas podem distorcer o tamanho ou a distância do objeto, tornando a estimativa da profundidade e a previsão da trajetória menos fiáveis.
‍
Oclusão: Os objectos podem ficar parcial ou totalmente escondidos atrás de outros. Isto dificulta a localização do objeto, uma vez que o modelo perde a continuidade visual.
‍
Condições ambientais: Pouca iluminação, luz solar intensa, chuva, nevoeiro ou má qualidade da câmara podem reduzir a capacidade do modelo para ver a cena claramente, afectando a precisão.

Principais conclusões

A previsão de colisões junta duas capacidades poderosas: a visão por computador, que permite aos sistemas compreender o que está a acontecer no ambiente neste momento, e a previsão de trajectórias, que os ajuda a antecipar o que é provável que aconteça a seguir.

Combinando estes pontos fortes, as máquinas podem detect objectos em movimento em tempo real e prever como esses objectos podem interagir nos segundos seguintes. À medida que a visão computacional e as técnicas de previsão continuam a evoluir, a previsão de colisões tornar-se-á provavelmente a chave para a construção de sistemas autónomos mais seguros, fiáveis e escaláveis.

Consulte a nossa comunidade e o repositório GitHub para saber mais sobre IA. Explore aplicações como a IA nos cuidados de saúde e a visão por computador no fabrico nas nossas páginas de soluções. Descubra as nossas opções de licenciamento e comece a construir hoje mesmo!

Melhorar a previsão de colisões com os modelos Ultralytics YOLO

O que é a previsão de colisão?