Yolo Vision Shenzhen
Shenzhen
Junte-se agora

O que é YOLOE? Levando os modelos de visão computacional adiante

Abirami Vina

Leitura de 5 minutos

8 de maio de 2025

Descubra como o YOLOE permite encontrar objetos usando um prompt ou foto simples. Ele permite uma visão computacional mais inteligente e rápida, sem retreinar ou ajustar modelos.

A detecção de objetos é uma tarefa chave da visão computacional, onde o objetivo é identificar e localizar objetos em imagens ou vídeos. É uma parte crucial da visão computacional, um campo da inteligência artificial (IA) que permite que as máquinas entendam e interpretem dados visuais. Por exemplo, a detecção de objetos pode ajudar a identificar um carro em uma imagem ou identificar uma pessoa em um vídeo.

Uma das séries de modelos mais conhecidas que suportam tarefas de visão computacional, como detecção de objetos, é a série de modelos YOLO (You Only Look Once). Projetados para velocidade e precisão, os modelos YOLO têm melhorado continuamente ao longo do tempo. Por exemplo, uma das versões mais recentes, o Ultralytics YOLO11, tem um bom desempenho em situações do mundo real, fornecendo resultados precisos mesmo em ambientes mais complexos.

Impulsionando ainda mais esse progresso, um novo modelo chamado YOLOE visa expandir as capacidades dos modelos YOLO. Ao contrário dos modelos tradicionais que exigem retreinamento para reconhecer novos objetos, o YOLOE pode seguir simples comandos de texto ou imagem para detectar objetos que ele nunca viu antes, tornando-o muito mais adaptável a ambientes em mudança.

Neste artigo, vamos analisar mais de perto o que torna o YOLOE único, como ele se compara aos modelos YOLO anteriores e como você pode começar a usá-lo hoje. Vamos começar!

Uma visão geral do YOLOE

O YOLOE é um modelo de visão computacional que leva a detecção de objetos um passo adiante. Foi apresentado em março de 2025 por pesquisadores da Universidade de Tsinghua. O que diferencia o YOLOE dos modelos tradicionais é o uso da detecção de vocabulário aberto. 

Enquanto a maioria dos modelos são treinados para reconhecer uma lista fixa de objetos, o YOLOE permite que você especifique o que procurar usando uma breve descrição ou uma imagem de exemplo. Por exemplo, se você estiver procurando por uma “cochila verde,” você pode digitar essa descrição ou mostrar ao modelo uma foto, e o YOLOE irá localizá-la dentro da cena.

Além disso, mesmo sem qualquer prompt, o YOLOE pode detectar muitos objetos cotidianos por conta própria. Essa capacidade de reconhecer objetos que nunca viu antes é chamada de detecção zero-shot. É particularmente útil em ambientes dinâmicos onde a tarefa ou os objetos de interesse podem mudar inesperadamente.

Fig 1. Uma olhada nas capacidades do YOLOE.

Principais características do YOLOE

O YOLOE suporta uma vasta gama de funcionalidades concebidas para melhorar o seu desempenho em aplicações do mundo real. Com a sua capacidade de lidar com entradas estruturadas e não estruturadas, o YOLOE abre novas possibilidades para a deteção e segmentação de objetos. 

Aqui estão alguns dos principais recursos que o modelo oferece:

  • Detecção baseada em prompt: O YOLOE pode procurar objetos com base em um pequeno prompt de texto ou em uma imagem de exemplo. Isso significa que você não precisa treinar novamente o modelo cada vez que sua tarefa muda; basta descrever ou mostrar ao modelo o que você está procurando.
  • Segmentação de instância: Além de desenhar bounding boxes ao redor dos objetos, o YOLOE pode delinear sua forma exata usando a segmentação de instância. Isso é especialmente útil quando os objetos estão sobrepostos ou quando você precisa conhecer os limites precisos de um objeto.
  • Reconhecimento de objetos sem prompt: O YOLOE pode reconhecer objetos mesmo sem instruções específicas. Ele usa um conjunto de descrições pré-aprendidas para identificar rapidamente os objetos, tornando o processo mais rápido e eficiente.

Comparando o YOLOE com outros modelos YOLO

Agora que temos uma melhor compreensão do que é o YOLOE, vamos dar uma olhada em alguns dos modelos da família YOLO que são semelhantes. 

À medida que a visão computacional progrediu, o mesmo aconteceu com os modelos YOLO. Por exemplo, o Ultralytics YOLOv8 trouxe suporte para novas tarefas como segmentação e classificação, enquanto versões posteriores, como o Ultralytics YOLO11, se concentraram em melhorar a precisão e o desempenho para uma gama mais ampla de tarefas.

Além disso, o YOLO-World foi lançado em janeiro de 2024 e introduziu a capacidade de usar prompts escritos, permitindo que os usuários descrevam os objetos que desejam encontrar. Embora o YOLO-World fosse uma ótima opção para detecção zero-shot, ele carecia de recursos como segmentação de instâncias e suporte a prompts visuais. 

O YOLOE se baseia no YOLO-World adicionando esses recursos, melhorando a flexibilidade e o desempenho e oferecendo uma ferramenta de maior impacto para aplicações de visão computacional no mundo real.

Fig. 2. YOLO-World e YOLOE suportam detecção zero-shot.

Usando o YOLOE com o pacote Python Ultralytics

Se você deseja detectar objetos específicos ou explorar tudo em uma imagem, começar com o YOLOE é simples. Este modelo é suportado pelo pacote Python Ultralytics, facilitando a integração em seus projetos. Em seguida, vamos explicar como usá-lo.

Instalando o pacote Ultralytics

O primeiro passo é instalar o pacote Python Ultralytics usando um gerenciador de pacotes como o ‘pip’. Você pode fazer isso executando o comando “pip install ultralytics” em seu terminal ou prompt de comando.

Após a instalação do pacote, você terá tudo o que precisa para carregar o modelo, fazer previsões e experimentar diferentes modos de detecção. Se você encontrar algum problema durante a instalação, a documentação oficial da Ultralytics oferece uma seção de solução de problemas útil. 

Existem algumas maneiras diferentes de usar o YOLOE para executar previsões. Executar previsões significa usar o modelo treinado para identificar e localizar objetos dentro de imagens ou vídeos. Esses diferentes métodos permitem que você personalize como interage com o modelo com base em suas necessidades específicas.

Vamos discutir cada um desses métodos, um de cada vez.

Detecção de objetos específicos com texto ou prompts de imagem

O YOLOE pode detectar objetos com base em uma breve descrição de texto. Por exemplo, se você estiver procurando um cavalo em movimento, pode usar um prompt como "cavalo andando".

Para começar, primeiro, carregue o modelo YOLOE pré-treinado e defina seu prompt (a descrição do que você quer que o modelo procure), conforme mostrado no trecho de código abaixo.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Depois que seu modelo e prompt estiverem definidos, você pode executar o modelo em uma imagem ou vídeo. Substitua o caminho do arquivo no código pelo caminho para o seu arquivo de imagem ou vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Isso exibirá a imagem com o objeto detectado claramente marcado com base no seu prompt. Você pode alterar o prompt para procurar objetos diferentes, como "mala vermelha", "bicicleta" ou "zebra", dependendo do que você está procurando.

Fig 3. Um exemplo de uso do YOLOE para detectar objetos específicos usando um prompt de texto.

Da mesma forma, você pode usar uma imagem para solicitar o YOLOE com o pacote Ultralytics Python. No modo de prompt visual, o modelo usa a imagem para encontrar itens de aparência semelhante em outra cena. Isso é particularmente útil para objetos difíceis de descrever ou que não têm rótulos claros. 

Para explorar o código para isso em mais detalhes, você pode consultar a documentação da Ultralytics.

Detecção geral de objetos usando YOLOE

Em alguns casos, você pode não saber exatamente o que procurar ou pode não estar procurando por um objeto específico. É aí que o modo sem prompt se torna útil. 

Com esta opção, você não precisa digitar uma descrição ou fornecer uma imagem de exemplo. O YOLOE simplesmente analisa as imagens por conta própria e detecta tudo o que consegue reconhecer, como pessoas, animais, móveis ou objetos do cotidiano.

É uma forma útil de explorar uma cena sem dar ao modelo quaisquer instruções específicas. Quer esteja a analisar uma sala cheia ou a rever filmagens com muita atividade, o modo sem prompts dá-lhe uma visão rápida do que está presente numa imagem. 

Pode usar o seguinte código para executar o YOLOE no modo prompt-free. Primeiro, o modelo é carregado, depois processa a imagem e deteta automaticamente os objetos nela. Finalmente, os resultados são exibidos e os objetos detetados são destacados. 

Certifique-se de substituir o caminho do arquivo pelo caminho real da sua imagem.

from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

A imagem mostrada abaixo é um exemplo do que o YOLOE pode detectar no modo sem prompt.

Fig 4. Utilizando o YOLOE no modo sem prompt.

Aplicações em tempo real do YOLOE

A capacidade do YOLOE de responder a prompts de texto e imagem o torna uma ferramenta confiável para aplicações em tempo real. Sua flexibilidade é particularmente útil em ambientes de ritmo acelerado, onde tempo e precisão são essenciais. 

Vamos explorar alguns exemplos do mundo real de como o YOLOE pode ser usado.

Melhorando o manuseio de bagagens: Detecção de bagagem em tempo real

Em aeroportos movimentados, localizar bagagens específicas pode ser um desafio, especialmente ao lidar com malas extraviadas. O YOLOE pode agilizar este processo, ajudando a escanear vídeos ao vivo e a identificar rapidamente itens com base em prompts simples como “mala vermelha”. 

Se uma mala estiver em falta ou extraviada, a equipa pode facilmente alterar o pedido para procurar um item diferente, como uma “mala preta.” Esta capacidade de adaptação instantânea pode ajudar a equipa do aeroporto a localizar rapidamente a bagagem certa sem rever longas horas de filmagens ou a re-treinar o modelo, tornando o manuseamento de bagagens e a resolução de problemas de bagagem em falta muito mais rápidos e eficientes.

Monitoramento de espaços públicos com YOLOE

As filmagens de vigilância de espaços públicos, como mercados e cafés movimentados, geralmente incluem uma mistura de pessoas, objetos e atividades que mudam ao longo do dia. O YOLOE pode analisar essas filmagens em tempo real usando o modo sem prompt, detectando automaticamente itens como bolsas, mesas ou bicicletas sem a necessidade de instruções específicas.

Fig 5. O YOLOE consegue detetar vários objetos num espaço público movimentado.

Isto é particularmente útil para as equipas de segurança detetarem itens não vigiados ou rastrearem o movimento da multidão. A capacidade do YOLOE de detetar vários objetos ao mesmo tempo facilita a gestão de espaços públicos durante eventos ou períodos de grande movimento, ajudando as equipas a manterem-se informadas e responsivas.

Prós e contras do YOLOE

Aqui estão alguns dos principais benefícios de usar o YOLOE para aplicações de visão computacional:

  • Desempenho em tempo real: O YOLOE é otimizado para processamento rápido e eficiente, permitindo a detecção em tempo real, mesmo em ambientes dinâmicos, como transmissões de vídeo ao vivo ou espaços públicos movimentados.
  • Escalabilidade: O YOLOE é escalável e funciona bem para uma ampla variedade de aplicações, desde segurança e vigilância até varejo, saúde e veículos autônomos.
  • Fácil de usar: Como o YOLOE é suportado pelo pacote Python Ultralytics, é fácil integrá-lo nos seus projetos de visão computacional existentes.

No entanto, existem algumas limitações a serem lembradas ao usar o YOLOE. Aqui estão alguns fatores a serem considerados:

  • Requer dados de treinamento suficientes: Embora o YOLOE suporte a detecção zero-shot, seu desempenho em objetos não vistos depende de quão bem ele generaliza a partir de seus dados de treinamento. Em alguns casos, pode precisar de dados adicionais ou ajuste fino para ter um bom desempenho em tarefas altamente especializadas.
  • Sensível à qualidade da entrada: A precisão do modelo pode ser afetada por imagens ou vídeos de baixa qualidade. Entradas borradas ou mal iluminadas podem reduzir a capacidade do modelo de detectar objetos com precisão, portanto, uma entrada de alta qualidade é importante para um desempenho ideal.

Principais conclusões

O YOLOE traz mais flexibilidade à visão computacional, permitindo que os usuários orientem a detecção com prompts de texto ou imagem. Ele funciona bem em situações do mundo real onde as cenas mudam rapidamente e o retreinamento não é uma opção.

Desde o manuseio de bagagens até o monitoramento de espaços públicos, o YOLOE se adapta a novas tarefas com facilidade. À medida que a IA se torna mais acessível, modelos como o YOLOE estão ajudando mais indústrias a usar a tecnologia de visão de maneiras práticas e eficientes.

Junte-se à nossa comunidade e explore o nosso repositório no GitHub para saber mais sobre inovações em IA. Descubra os mais recentes avanços em áreas como IA no varejo e visão computacional na área da saúde em nossas páginas de soluções. Consulte nossas opções de licenciamento e comece hoje mesmo com a visão computacional!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência