Yolo Vision Shenzhen
Shenzhen
Junte-se agora

O que é YOLOE? Levando os modelos de visão computacional adiante

Abirami Vina

Leitura de 5 minutos

8 de maio de 2025

Descubra como o YOLOE permite encontrar objetos usando um prompt ou foto simples. Ele permite uma visão computacional mais inteligente e rápida, sem retreinar ou ajustar modelos.

A detecção de objetos é uma tarefa chave da visão computacional, onde o objetivo é identificar e localizar objetos em imagens ou vídeos. É uma parte crucial da visão computacional, um campo da inteligência artificial (IA) que permite que as máquinas entendam e interpretem dados visuais. Por exemplo, a detecção de objetos pode ajudar a identificar um carro em uma imagem ou identificar uma pessoa em um vídeo.

Uma das séries mais conhecidas de modelos de apoio a tarefas de visão por computador, como a deteção de objectos, é a série de modelos YOLO (You Only Look Once). Concebidos para velocidade e precisão, os modelos YOLO têm vindo a ser continuamente melhorados ao longo do tempo. Por exemplo, uma das versões mais recentes, Ultralytics YOLO11tem um bom desempenho em situações do mundo real, fornecendo resultados exactos mesmo em ambientes mais complexos.

Para continuar este progresso, um novo modelo chamado YOLOE tem como objetivo expandir as capacidades dos modelos YOLO . Ao contrário dos modelos tradicionais, que requerem treino para reconhecer novos objectos, o YOLOE pode seguir instruções simples de texto ou imagem para detect objectos que nunca viu antes, o que o torna muito mais adaptável a ambientes em mudança.

Neste artigo, vamos analisar mais detalhadamente o que torna o YOLOE único, como se compara aos modelos YOLO anteriores e como pode começar a utilizá-lo hoje mesmo. Vamos começar!

Uma visão geral do YOLOE

O YOLOE é um modelo de visão computacional que leva a detecção de objetos um passo adiante. Foi apresentado em março de 2025 por pesquisadores da Universidade de Tsinghua. O que diferencia o YOLOE dos modelos tradicionais é o uso da detecção de vocabulário aberto. 

Enquanto a maioria dos modelos são treinados para reconhecer uma lista fixa de objetos, o YOLOE permite que você especifique o que procurar usando uma breve descrição ou uma imagem de exemplo. Por exemplo, se você estiver procurando por uma “cochila verde,” você pode digitar essa descrição ou mostrar ao modelo uma foto, e o YOLOE irá localizá-la dentro da cena.

Além disso, mesmo sem qualquer aviso, a YOLOE consegue detect muitos objectos do quotidiano por si só. Esta capacidade de reconhecer objectos que nunca viu antes é designada por deteção de zero-shot. É particularmente útil em ambientes dinâmicos onde a tarefa ou os objectos de interesse podem mudar inesperadamente.

Fig 1. Uma olhada nas capacidades do YOLOE.

Principais características do YOLOE

O YOLOE suporta uma vasta gama de funcionalidades concebidas para melhorar o seu desempenho em aplicações do mundo real. Com a sua capacidade de lidar com entradas estruturadas e não estruturadas, o YOLOE abre novas possibilidades para a deteção e segmentação de objetos. 

Aqui estão alguns dos principais recursos que o modelo oferece:

  • Detecção baseada em prompt: O YOLOE pode procurar objetos com base em um pequeno prompt de texto ou em uma imagem de exemplo. Isso significa que você não precisa treinar novamente o modelo cada vez que sua tarefa muda; basta descrever ou mostrar ao modelo o que você está procurando.
  • Segmentação de instância: Além de desenhar bounding boxes ao redor dos objetos, o YOLOE pode delinear sua forma exata usando a segmentação de instância. Isso é especialmente útil quando os objetos estão sobrepostos ou quando você precisa conhecer os limites precisos de um objeto.
  • Reconhecimento de objetos sem prompt: O YOLOE pode reconhecer objetos mesmo sem instruções específicas. Ele usa um conjunto de descrições pré-aprendidas para identificar rapidamente os objetos, tornando o processo mais rápido e eficiente.

Comparação do YOLOE com outros modelos YOLO

Agora que compreendemos melhor o que é o YOLOE, vamos ver alguns dos modelos da família YOLO que são semelhantes. 

Com o progresso da visão por computador, o mesmo aconteceu com os modelos YOLO . Por exemplo, Ultralytics YOLOv8 trouxe suporte para novas tarefas, como segmentação e classificação, enquanto versões posteriores, como o Ultralytics YOLO11, se concentraram em melhorar a precisão e o desempenho para uma gama mais ampla de tarefas.

Além disso, YOLO foi lançado em janeiro de 2024 e introduziu a capacidade de utilizar avisos escritos, permitindo aos utilizadores descrever os objectos que pretendem encontrar. Embora YOLO fosse uma óptima opção para a deteção de zero disparos, não possuía funcionalidades como a segmentação de instâncias e o suporte de instruções visuais. 

O YOLOE baseia-se no YOLO, acrescentando estas capacidades, melhorando a flexibilidade e o desempenho e oferecendo uma ferramenta com maior impacto para aplicações de visão computacional do mundo real.

Figura 2. YOLO e o YOLOE suportam ambos a deteção de "zero-shot".

Utilizar o YOLOE com o pacote Ultralytics Python

Quer pretenda detect objectos específicos ou explorar tudo numa imagem, começar a utilizar o YOLOE é simples. Este modelo é suportado pelo pacote Ultralytics Python , tornando-o fácil de integrar nos seus projectos. De seguida, vamos ver como o utilizar.

Instalar o pacote Ultralytics

O primeiro passo é instalar o pacoteUltralytics Python usando um gerenciador de pacotes como o 'pip'. Pode fazê-lo executando o comando "pip install ultralytics" no seu terminal ou na linha de comandos.

Assim que o pacote estiver instalado, terá tudo o que precisa para carregar o modelo, fazer previsões e experimentar diferentes modos de deteção. Se encontrar algum problema durante a instalação, a documentação oficial Ultralytics oferece uma secção útil de resolução de problemas

Existem algumas maneiras diferentes de usar o YOLOE para executar previsões. Executar previsões significa usar o modelo treinado para identificar e localizar objetos dentro de imagens ou vídeos. Esses diferentes métodos permitem que você personalize como interage com o modelo com base em suas necessidades específicas.

Vamos discutir cada um desses métodos, um de cada vez.

Detecção de objetos específicos com texto ou prompts de imagem

O YOLOE pode detect objectos com base numa breve descrição de texto. Por exemplo, se estiver à procura de um cavalo em movimento, pode utilizar uma mensagem como "cavalo a andar".

Para começar, primeiro, carregue o modelo YOLOE pré-treinado e defina seu prompt (a descrição do que você quer que o modelo procure), conforme mostrado no trecho de código abaixo.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Depois que seu modelo e prompt estiverem definidos, você pode executar o modelo em uma imagem ou vídeo. Substitua o caminho do arquivo no código pelo caminho para o seu arquivo de imagem ou vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Isso exibirá a imagem com o objeto detectado claramente marcado com base no seu prompt. Você pode alterar o prompt para procurar objetos diferentes, como "mala vermelha", "bicicleta" ou "zebra", dependendo do que você está procurando.

Fig. 3. Um exemplo de utilização do YOLOE para detect objectos específicos através de uma mensagem de texto.

Da mesma forma, pode utilizar uma imagem para solicitar o YOLOE com o pacote Ultralytics Python . No modo de solicitação visual, o modelo utiliza a imagem para encontrar objectos de aspeto semelhante noutra cena. Isto é particularmente útil para objectos que são difíceis de descrever ou que não têm etiquetas claras. 

Para explorar o código com mais pormenor, pode consultar a documentaçãoUltralytics .

Detecção geral de objetos usando YOLOE

Em alguns casos, você pode não saber exatamente o que procurar ou pode não estar procurando por um objeto específico. É aí que o modo sem prompt se torna útil. 

Com esta opção, você não precisa digitar uma descrição ou fornecer uma imagem de exemplo. O YOLOE simplesmente analisa as imagens por conta própria e detecta tudo o que consegue reconhecer, como pessoas, animais, móveis ou objetos do cotidiano.

É uma forma útil de explorar uma cena sem dar ao modelo quaisquer instruções específicas. Quer esteja a analisar uma sala cheia ou a rever filmagens com muita atividade, o modo sem prompts dá-lhe uma visão rápida do que está presente numa imagem. 

Pode usar o seguinte código para executar o YOLOE no modo prompt-free. Primeiro, o modelo é carregado, depois processa a imagem e deteta automaticamente os objetos nela. Finalmente, os resultados são exibidos e os objetos detetados são destacados. 

Certifique-se de substituir o caminho do arquivo pelo caminho real da sua imagem.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

A imagem mostrada abaixo é um exemplo do que o YOLOE pode detect em modo livre de mensagens.

Fig 4. Utilizando o YOLOE no modo sem prompt.

Aplicações em tempo real do YOLOE

A capacidade do YOLOE de responder a prompts de texto e imagem o torna uma ferramenta confiável para aplicações em tempo real. Sua flexibilidade é particularmente útil em ambientes de ritmo acelerado, onde tempo e precisão são essenciais. 

Vamos explorar alguns exemplos do mundo real de como o YOLOE pode ser usado.

Melhorando o manuseio de bagagens: Detecção de bagagem em tempo real

Em aeroportos movimentados, localizar bagagens específicas pode ser um desafio, especialmente ao lidar com malas extraviadas. O YOLOE pode agilizar este processo, ajudando a escanear vídeos ao vivo e a identificar rapidamente itens com base em prompts simples como “mala vermelha”. 

Se uma mala estiver em falta ou extraviada, a equipa pode facilmente alterar o pedido para procurar um item diferente, como uma “mala preta.” Esta capacidade de adaptação instantânea pode ajudar a equipa do aeroporto a localizar rapidamente a bagagem certa sem rever longas horas de filmagens ou a re-treinar o modelo, tornando o manuseamento de bagagens e a resolução de problemas de bagagem em falta muito mais rápidos e eficientes.

Monitoramento de espaços públicos com YOLOE

As filmagens de vigilância de espaços públicos, como mercados e cafés movimentados, geralmente incluem uma mistura de pessoas, objetos e atividades que mudam ao longo do dia. O YOLOE pode analisar essas filmagens em tempo real usando o modo sem prompt, detectando automaticamente itens como bolsas, mesas ou bicicletas sem a necessidade de instruções específicas.

Fig. 5. O YOLOE consegue detect vários objectos num espaço público movimentado.

Isto é particularmente útil para as equipas de segurança detectarem objectos sem vigilância ou track movimento de multidões. A capacidade do YOLOE para detect vários objectos em simultâneo facilita a gestão de espaços públicos durante eventos ou períodos de grande afluência, ajudando as equipas a manterem-se informadas e a reagirem rapidamente.

Prós e contras do YOLOE

Aqui estão alguns dos principais benefícios de usar o YOLOE para aplicações de visão computacional:

  • Desempenho em tempo real: O YOLOE é otimizado para processamento rápido e eficiente, permitindo a detecção em tempo real, mesmo em ambientes dinâmicos, como transmissões de vídeo ao vivo ou espaços públicos movimentados.
  • Escalabilidade: O YOLOE é escalável e funciona bem para uma ampla variedade de aplicações, desde segurança e vigilância até varejo, saúde e veículos autônomos.
  • Fácil de utilizar: Uma vez que o YOLOE é suportado pelo pacote Ultralytics Python , é fácil de integrar nos seus projectos de visão computacional existentes.

No entanto, existem algumas limitações a serem lembradas ao usar o YOLOE. Aqui estão alguns fatores a serem considerados:

  • Requer dados de treinamento suficientes: Embora o YOLOE suporte a detecção zero-shot, seu desempenho em objetos não vistos depende de quão bem ele generaliza a partir de seus dados de treinamento. Em alguns casos, pode precisar de dados adicionais ou ajuste fino para ter um bom desempenho em tarefas altamente especializadas.
  • Sensível à qualidade de entrada: A precisão do modelo pode ser afetada por imagens ou vídeos de baixa qualidade. Uma entrada desfocada ou mal iluminada pode reduzir a capacidade do modelo para detect objectos com precisão, pelo que uma entrada de alta qualidade é importante para um desempenho ótimo.

Principais conclusões

O YOLOE traz mais flexibilidade à visão computacional, permitindo que os usuários orientem a detecção com prompts de texto ou imagem. Ele funciona bem em situações do mundo real onde as cenas mudam rapidamente e o retreinamento não é uma opção.

Desde o manuseio de bagagens até o monitoramento de espaços públicos, o YOLOE se adapta a novas tarefas com facilidade. À medida que a IA se torna mais acessível, modelos como o YOLOE estão ajudando mais indústrias a usar a tecnologia de visão de maneiras práticas e eficientes.

Junte-se à nossa comunidade e explore o nosso repositório no GitHub para saber mais sobre inovações em IA. Descubra os mais recentes avanços em áreas como IA no varejo e visão computacional na área da saúde em nossas páginas de soluções. Consulte nossas opções de licenciamento e comece hoje mesmo com a visão computacional!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente