O que é o YOLOE? Leva os modelos de visão por computador mais longe

Aprende como o YOLOE te permite encontrar objectos através de uma simples mensagem ou fotografia. Permite uma visão computacional mais inteligente e mais rápida, sem necessidade de reciclar ou afinar modelos.

Escrito por

Abirami Vina

min ler

8 de maio de 2025

Uma visão geral do YOLOE

Caraterísticas principais do YOLOE

Comparação do YOLOE com outros modelos YOLO

Utilizar o YOLOE com o pacote Ultralytics Python

Instalar o pacote Ultralytics

Detetar objectos específicos com avisos de texto ou imagem

Deteção geral de objectos utilizando YOLOE

Aplicações em tempo real do YOLOE

Melhora o tratamento das bagagens: Deteção de bagagem em tempo real

Monitoriza os espaços públicos com o YOLOE

Prós e contras do YOLOE

Principais conclusões

A deteção de objectos é uma tarefa fundamental da visão por computador, em que o objetivo é identificar e localizar objectos em imagens ou vídeos. É uma parte crucial da visão por computador, um campo da inteligência artificial (IA) que permite às máquinas compreender e interpretar dados visuais. Por exemplo, a deteção de objectos pode ajudar a identificar um carro numa fotografia ou a localizar uma pessoa num vídeo.

Uma das séries mais conhecidas de modelos de apoio a tarefas de visão por computador, como a deteção de objectos, é a série de modelos YOLO (You Only Look Once). Concebidos para velocidade e precisão, os modelos YOLO têm sido continuamente melhorados ao longo do tempo. Por exemplo, uma das versões mais recentes, Ultralytics YOLO11tem um bom desempenho em situações do mundo real, fornecendo resultados precisos mesmo em ambientes mais complexos.

Para continuar este progresso, um novo modelo chamado YOLOE tem como objetivo expandir as capacidades dos modelos YOLO . Ao contrário dos modelos tradicionais que requerem reciclagem para reconhecer novos objectos, o YOLOE pode seguir instruções simples de texto ou imagem para detetar objectos que nunca viu antes, tornando-o muito mais adaptável a ambientes em mudança.

Neste artigo, vamos analisar mais detalhadamente o que torna o YOLOE único, como se compara com os modelos YOLO anteriores e como podes começar a utilizá-lo hoje mesmo. Toca a começar!

Uma visão geral do YOLOE

O YOLOE é um modelo de visão por computador que leva a deteção de objectos um passo à frente. Foi introduzido em março de 2025 por investigadores da Universidade de Tsinghua. O que distingue o YOLOE dos modelos tradicionais é a sua utilização da deteção de vocabulário aberto.

Enquanto a maioria dos modelos são treinados para reconhecer uma lista fixa de objectos, o YOLOE permite-te especificar o que procurar utilizando uma breve descrição ou uma imagem de exemplo. Por exemplo, se estiveres à procura de uma "mochila verde", podes escrever essa descrição ou mostrar ao modelo uma fotografia, e o YOLOE localizá-la-á na cena.

Além disso, mesmo sem qualquer aviso, a YOLOE consegue detetar muitos objectos do quotidiano por si só. Esta capacidade de reconhecer objectos que nunca viu antes é designada por deteção de zero-shot. É particularmente útil em ambientes dinâmicos onde a tarefa ou os objectos de interesse podem mudar inesperadamente.

‍

Caraterísticas principais do YOLOE

O YOLOE suporta uma vasta gama de funcionalidades concebidas para melhorar o seu desempenho em aplicações do mundo real. Com a sua capacidade de lidar com dados estruturados e não estruturados, o YOLOE abre novas possibilidades para a deteção e segmentação de objectos.

Eis algumas das principais caraterísticas que o modelo traz para a mesa:

Deteção baseada em mensagens: O YOLOE pode procurar objectos com base numa breve mensagem de texto ou numa imagem de exemplo. Isto significa que não precisas de voltar a treinar o modelo sempre que a tua tarefa muda; basta descrever ou mostrar ao modelo o que procuras.
‍
Segmentação da instância: Para além de desenhar caixas delimitadoras à volta dos objectos, o YOLOE pode delinear a sua forma exacta utilizando a segmentação de instâncias. Isto é especialmente útil quando os objectos se sobrepõem ou quando precisas de saber os limites exactos de um objeto.
‍
Reconhecimento de objectos sem instruções: O YOLOE consegue reconhecer objectos mesmo sem instruções específicas. Utiliza um conjunto de descrições pré-aprendidas para identificar rapidamente os objectos, tornando o processo mais rápido e eficiente.

Comparação do YOLOE com outros modelos YOLO

Agora que compreendemos melhor o que é o YOLOE, vamos dar uma vista de olhos a alguns dos modelos da família YOLO que são semelhantes.

À medida que a visão por computador progrediu, o mesmo aconteceu com os modelos YOLO . Por exemplo, Ultralytics YOLOv8 trouxe suporte para novas tarefas, como segmentação e classificação, enquanto versões posteriores, como o Ultralytics YOLO11, se concentraram em melhorar a precisão e o desempenho para uma gama mais ampla de tarefas.

Além disso, YOLO foi lançado em janeiro de 2024 e introduziu a capacidade de utilizar avisos escritos, permitindo aos utilizadores descrever os objectos que pretendem encontrar. Apesar de YOLO ser uma óptima opção para a deteção de zero disparos, faltavam-lhe funcionalidades como a segmentação de instâncias e o suporte de instruções visuais.

O YOLOE baseia-se no YOLO, acrescentando estas capacidades, melhorando a flexibilidade e o desempenho e oferecendo uma ferramenta com maior impacto para aplicações de visão computacional do mundo real.

Figura 2. YOLO e o YOLOE suportam ambos a deteção de zero-shot.

‍

Utilizar o YOLOE com o pacote Ultralytics Python

Quer queiras detetar objectos específicos ou explorar tudo numa imagem, começar a utilizar o YOLOE é simples. Este modelo é suportado pelo pacote Ultralytics Python , tornando-o fácil de integrar nos teus projectos. De seguida, vamos ver como o utilizar.

Instalar o pacote Ultralytics

O primeiro passo é instalar o pacoteUltralytics Python usando um gerenciador de pacotes como o 'pip'. Podes fazê-lo executando o comando "pip install ultralytics" no teu terminal ou na linha de comandos.

Assim que o pacote estiver instalado, terás tudo o que precisas para carregar o modelo, fazer previsões e experimentar diferentes modos de deteção. Se tiveres algum problema durante a instalação, a documentação oficial Ultralytics oferece uma secção útil de resolução de problemas.

Existem algumas formas diferentes de utilizar o YOLOE para executar previsões. Executar previsões significa utilizar o modelo treinado para identificar e localizar objectos em imagens ou vídeos. Estes diferentes métodos permitem-te personalizar a forma como interages com o modelo com base nas tuas necessidades específicas.

Vamos discutir cada um destes métodos, um de cada vez.

Detetar objectos específicos com avisos de texto ou imagem

O YOLOE pode detetar objectos com base numa breve descrição de texto. Por exemplo, se estiveres à procura de um cavalo em movimento, podes usar uma mensagem como "cavalo a andar".

Para começar, carrega primeiro o modelo YOLOE pré-treinado e define o teu prompt (a descrição do que queres que o modelo procure), como mostra o fragmento de código abaixo.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

‍

Assim que o teu modelo e prompt estiverem definidos, podes executar o modelo numa imagem ou vídeo. Substitui o caminho do ficheiro no código pelo caminho do teu ficheiro de imagem ou vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

‍

Isto irá mostrar a imagem com o objeto detectado claramente marcado com base na tua pergunta. Podes alterar o comando para procurar objectos diferentes, como "mala vermelha", "bicicleta" ou "zebra", dependendo do que procuras.

Fig. 3. Um exemplo de utilização do YOLOE para detetar objectos específicos através de uma mensagem de texto.

‍

Da mesma forma, podes utilizar uma imagem para solicitar o YOLOE com o pacote Ultralytics Python . No modo de aviso visual, o modelo utiliza a imagem para encontrar objectos de aspeto semelhante noutra cena. Isto é particularmente útil para objectos que são difíceis de descrever ou que não têm etiquetas claras.

Para explorares o código com mais pormenor, podes consultar a documentaçãoUltralytics .

Deteção geral de objectos utilizando YOLOE

Em alguns casos, podes não saber exatamente o que procurar, ou podes não estar à procura de um objeto específico. É aí que o modo sem mensagens é útil.

Com esta opção, não precisas de escrever uma descrição nem de fornecer uma imagem de exemplo. O YOLOE analisa simplesmente as imagens por si próprio e detecta tudo o que consegue reconhecer, como pessoas, animais, mobiliário ou objectos do quotidiano.

É uma forma útil de explorar uma cena sem dar ao modelo quaisquer instruções específicas. Quer estejas a analisar uma sala cheia de gente ou a rever filmagens com muita atividade, o modo sem instruções dá-te uma visão rápida do que está presente numa imagem.

Podes utilizar o seguinte código para executar o YOLOE em modo livre de comandos. Primeiro, o modelo é carregado, depois processa a imagem e detecta automaticamente os objectos nela contidos. Finalmente, mostra os resultados e destaca os objectos detectados.

Não te esqueças de substituir o caminho do ficheiro pelo caminho real da tua imagem.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

‍

A imagem mostrada abaixo é um exemplo do que o YOLOE pode detetar em modo livre de mensagens.

Figura 4. Utiliza o YOLOE em modo livre de mensagens.

‍

Aplicações em tempo real do YOLOE

A capacidade do YOLOE para responder a pedidos de texto e imagem torna-o uma ferramenta fiável para aplicações em tempo real. A sua flexibilidade é particularmente útil em ambientes de ritmo acelerado, onde o tempo e a precisão são essenciais.

Vamos explorar alguns exemplos do mundo real de como o YOLOE pode ser utilizado.

Melhora o tratamento das bagagens: Deteção de bagagem em tempo real

Em aeroportos movimentados, localizar uma bagagem específica pode ser um desafio, especialmente quando se trata de malas desaparecidas. O YOLOE pode simplificar este processo, ajudando-te a digitalizar vídeos em direto e a identificar rapidamente os artigos com base em indicações simples como "mala vermelha".

Se uma mala estiver em falta ou for extraviada, o pessoal pode facilmente alterar a solicitação para procurar um item diferente, como uma "mala preta". Esta capacidade de adaptação instantânea pode ajudar o pessoal do aeroporto a localizar rapidamente a bagagem correta, sem ter de rever longas horas de filmagens ou de voltar a treinar o modelo, tornando o manuseamento de bagagens e a resolução de problemas de bagagem desaparecida muito mais rápidos e eficientes.

Monitoriza os espaços públicos com o YOLOE

As filmagens de vigilância de espaços públicos, como mercados e cafés cheios, incluem frequentemente uma mistura de pessoas, objectos e actividades que mudam ao longo do dia. O YOLOE pode analisar estas filmagens em tempo real utilizando o modo sem comandos, detectando automaticamente itens como sacos, mesas ou bicicletas sem necessitar de instruções específicas.

Fig. 5. O YOLOE consegue detetar vários objectos num espaço público movimentado.

‍

Isto é particularmente útil para as equipas de segurança detectarem objectos sem vigilância ou acompanharem o movimento de multidões. A capacidade do YOLOE para detetar vários objectos em simultâneo facilita a gestão de espaços públicos durante eventos ou períodos de grande afluência, ajudando as equipas a manterem-se informadas e a reagir.

Prós e contras do YOLOE

Eis algumas das principais vantagens da utilização do YOLOE para aplicações de visão por computador:

Desempenho em tempo real: O YOLOE está optimizado para um processamento rápido e eficiente, permitindo a deteção em tempo real, mesmo em ambientes dinâmicos como transmissões de vídeo em direto ou espaços públicos movimentados.
‍
Escalabilidade: O YOLOE é escalável e funciona bem para uma grande variedade de aplicações, desde segurança e vigilância a retalho, cuidados de saúde e veículos autónomos.
‍
Fácil de utilizar: Uma vez que o YOLOE é suportado pelo pacote Ultralytics Python , é fácil de integrar nos teus projectos de visão computacional existentes.

No entanto, existem algumas limitações a ter em conta quando utilizas o YOLOE. Eis alguns factores a ter em conta:

Requer dados de treino suficientes: Embora o YOLOE suporte a deteção de zero disparos, o seu desempenho em objectos não vistos depende de quão bem generaliza a partir dos seus dados de treino. Em alguns casos, pode precisar de dados adicionais ou de um ajuste fino para ter um bom desempenho em tarefas altamente especializadas.
‍
Sensível à qualidade da entrada: A precisão do modelo pode ser afetada por imagens ou vídeos de baixa qualidade. Uma entrada desfocada ou mal iluminada pode reduzir a capacidade do modelo para detetar objectos com precisão, pelo que uma entrada de alta qualidade é importante para um desempenho ótimo.

Principais conclusões

O YOLOE traz mais flexibilidade à visão por computador, permitindo que os utilizadores guiem a deteção com texto ou imagens. Funciona bem em situações do mundo real em que os cenários mudam rapidamente e a reciclagem não é uma opção.

Desde o manuseamento de bagagens à monitorização de espaços públicos, o YOLOE adapta-se facilmente a novas tarefas. À medida que a IA se torna mais acessível, modelos como o YOLOE estão a ajudar mais indústrias a utilizar a tecnologia de visão de forma prática e eficiente.

Junta-te à nossa comunidade e explora o nosso repositório GitHub para saberes mais sobre as inovações de IA. Descobre os últimos avanços em áreas como a IA no retalho e a visão por computador nos cuidados de saúde nas nossas páginas de soluções. Consulta as nossas opções de licenciamento e começa a utilizar a visão computacional hoje mesmo!

O que é o YOLOE? Leva os modelos de visão por computador mais longe

Uma visão geral do YOLOE

Caraterísticas principais do YOLOE

Comparação do YOLOE com outros modelos YOLO

Utilizar o YOLOE com o pacote Ultralytics Python

Instalar o pacote Ultralytics

Detetar objectos específicos com avisos de texto ou imagem

Deteção geral de objectos utilizando YOLOE

Aplicações em tempo real do YOLOE

Melhora o tratamento das bagagens: Deteção de bagagem em tempo real

Monitoriza os espaços públicos com o YOLOE

Prós e contras do YOLOE

Principais conclusões

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

O que é o YOLOE? Leva os modelos de visão por computador mais longe

Uma visão geral do YOLOE

Caraterísticas principais do YOLOE

Comparação do YOLOE com outros modelos YOLO

Utilizar o YOLOE com o pacote Ultralytics Python

Instalar o pacote Ultralytics

Detetar objectos específicos com avisos de texto ou imagem

Deteção geral de objectos utilizando YOLOE

Aplicações em tempo real do YOLOE

Melhora o tratamento das bagagens: Deteção de bagagem em tempo real

Monitoriza os espaços públicos com o YOLOE

Prós e contras do YOLOE

Principais conclusões

Ler mais nesta categoria

Vamos construir juntos o futuro da IA!

Vamos construir juntos o futuro
da IA!