Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Guias

O que é YOLOE? Levando modelos de visão computacional mais longe

Aprenda como o YOLOE permite encontrar objetos usando um simples prompt ou foto. Ele possibilita uma visão computacional mais inteligente e rápida sem a necessidade de retreinar ou ajustar modelos.

ABAbirami Vina
5 min read
YOLOE detectando objetos a partir de prompts de texto e imagem

A detecção de objetos é uma tarefa essencial de visão computacional, onde o objetivo é identificar e localizar objetos em imagens ou vídeos. É uma parte crucial da visão computacional, um campo da inteligência artificial (IA) que permite às máquinas compreender e interpretar dados visuais. Por exemplo, a detecção de objetos pode ajudar a identificar um carro em uma imagem ou localizar uma pessoa em um feed de vídeo.

Uma das séries de modelos mais conhecidas que suportam tarefas de visão computacional, como a detecção de objetos, é a série de modelos YOLO (You Only Look Once). Projetados para velocidade e precisão, os modelos YOLO têm melhorado continuamente ao longo do tempo. Por exemplo, uma das versões mais recentes, o Ultralytics YOLO11, apresenta um bom desempenho em situações do mundo real, fornecendo resultados precisos mesmo em ambientes mais complexos.

Levando esse progresso ainda mais longe, um novo modelo chamado YOLOE visa expandir as capacidades dos modelos YOLO. Ao contrário dos modelos tradicionais que exigem retreinamento para reconhecer novos objetos, o YOLOE pode seguir simples prompts de texto ou imagem para detectar objetos que nunca viu antes, tornando-o muito mais adaptável a ambientes em constante mudança.

Neste artigo, veremos mais de perto o que torna o YOLOE único, como ele se compara aos modelos YOLO anteriores e como você pode começar a usá-lo hoje mesmo. Vamos começar!

Link to this sectionUma visão geral do YOLOE#

O YOLOE é um modelo de visão computacional que leva a detecção de objetos um passo adiante. Foi introduzido em março de 2025 por pesquisadores da Universidade de Tsinghua. O que diferencia o YOLOE dos modelos tradicionais é o uso da detecção de vocabulário aberto.

Embora a maioria dos modelos seja treinada para reconhecer uma lista fixa de objetos, o YOLOE permite que você especifique o que procurar usando uma breve descrição ou um exemplo de imagem. Por exemplo, se estiver procurando por uma “mochila verde”, você pode digitar essa descrição ou mostrar uma foto ao modelo, e o YOLOE a localizará dentro da cena.

Além disso, mesmo sem qualquer prompt, o YOLOE pode detectar muitos objetos do dia a dia por conta própria. Essa capacidade de reconhecer objetos que nunca viu antes é chamada de detecção zero-shot. É particularmente útil em ambientes dinâmicos onde a tarefa ou os objetos de interesse podem mudar inesperadamente.

Uma visão das capacidades do YOLOE

Fig 1. Um olhar sobre as capacidades do YOLOE.

Link to this sectionPrincipais recursos do YOLOE#

YOLOE suporta uma ampla gama de recursos projetados para aprimorar seu desempenho em aplicações do mundo real. Com sua capacidade de lidar com entradas estruturadas e não estruturadas, o YOLOE abre novas possibilidades para detecção e segmentação de objetos.

Aqui estão alguns dos principais recursos que o modelo traz:

  • Detecção baseada em prompt: O YOLOE pode procurar objetos com base em um pequeno prompt de texto ou em um exemplo de imagem. Isso significa que você não precisa retreinar o modelo sempre que sua tarefa mudar; basta descrever ou mostrar ao modelo o que você está procurando.
  • Segmentação de instâncias: Além de desenhar caixas delimitadoras ao redor dos objetos, o YOLOE pode delinear sua forma exata usando segmentação de instâncias. Isso é especialmente útil quando os objetos estão sobrepostos ou quando você precisa saber os limites precisos de um objeto.
  • Reconhecimento de objetos sem prompt: O YOLOE pode reconhecer objetos mesmo sem instruções específicas. Ele usa um conjunto de descrições pré-aprendidas para identificar objetos rapidamente, tornando o processo mais rápido e eficiente.

Link to this sectionComparando o YOLOE com outros modelos YOLO#

Agora que temos uma compreensão melhor do que é o YOLOE, vamos dar uma olhada em alguns dos modelos da família YOLO que são semelhantes.

À medida que a visão computacional progrediu, os modelos YOLO também progrediram. Por exemplo, o Ultralytics YOLOv8 trouxe suporte para novas tarefas, como segmentação e classificação, enquanto versões posteriores, como o Ultralytics YOLO11, focaram em melhorar a precisão e o desempenho para uma gama mais ampla de tarefas.

Além disso, o YOLO-World foi lançado em janeiro de 2024 e introduziu a capacidade de usar prompts escritos, permitindo que os usuários descrevessem os objetos que desejam encontrar. Embora o YOLO-World fosse uma ótima opção para detecção zero-shot, faltavam recursos como segmentação de instâncias e suporte a prompts visuais.

O YOLOE baseia-se no YOLO-World adicionando essas capacidades, melhorando a flexibilidade e o desempenho, e oferecendo uma ferramenta mais impactante para aplicações de visão computacional do mundo real.

YOLO-World e YOLOE suportam detecção zero-shot

Fig 2. YOLO-World e YOLOE suportam detecção zero-shot.

Link to this sectionUsando o YOLOE com o pacote Python do Ultralytics#

Se você quer detectar objetos específicos ou explorar tudo em uma imagem, começar com o YOLOE é simples. Este modelo é suportado pelo pacote Python do Ultralytics, facilitando a integração em seus projetos. A seguir, vamos ver como usá-lo.

Link to this sectionInstalando o pacote Ultralytics#

O primeiro passo é instalar o pacote Python do Ultralytics usando um gerenciador de pacotes como o 'pip'. Você pode fazer isso executando o comando “pip install ultralytics” em seu terminal ou prompt de comando.

Uma vez que o pacote esteja instalado, você terá tudo o que precisa para carregar o modelo, fazer previsões e experimentar diferentes modos de detecção. Se encontrar algum problema durante a instalação, a documentação oficial do Ultralytics oferece uma seção de solução de problemas muito útil.

Existem algumas maneiras diferentes de usar o YOLOE para realizar previsões. Executar previsões significa usar o modelo treinado para identificar e localizar objetos dentro de imagens ou vídeos. Esses métodos diferentes permitem que você personalize como interage com o modelo com base em suas necessidades específicas.

Vamos discutir cada um desses métodos, um por um.

Link to this sectionDetectando objetos específicos com prompts de texto ou imagem#

O YOLOE pode detectar objetos com base em uma breve descrição de texto. Por exemplo, se você está procurando por um cavalo em movimento, pode usar um prompt como "horse walking".

Para começar, primeiro carregue o modelo YOLOE pré-treinado e defina seu prompt (a descrição do que você quer que o modelo procure), como mostrado no trecho de código abaixo.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))

Uma vez que seu modelo e prompt estejam definidos, você pode executar o modelo em uma imagem ou vídeo. Substitua o caminho do arquivo no código pelo caminho para seu arquivo de imagem ou vídeo:

results = model.predict("path/to/your/image.jpg")
results[0].show()

Isso exibirá a imagem com o objeto detectado claramente marcado com base no seu prompt. Você pode alterar o prompt para procurar objetos diferentes, como "red suitcase", "bicycle" ou "zebra", dependendo do que você está procurando.

Usando o YOLOE para detectar objetos específicos com um prompt de texto

Fig 3. Um exemplo do uso do YOLOE para detectar objetos específicos usando um prompt de texto.

Da mesma forma, você pode usar uma imagem para solicitar o YOLOE com o pacote Python do Ultralytics. No modo de prompt visual, o modelo usa a imagem para encontrar itens de aparência semelhante em outra cena. Isso é particularmente útil para objetos difíceis de descrever ou que não possuem rótulos claros.

Para explorar o código disso com mais detalhes, você pode conferir a documentação do Ultralytics.

Link to this sectionDetecção geral de objetos usando o YOLOE#

Em alguns casos, você pode não saber exatamente o que procurar, ou pode não estar procurando por um objeto em particular. É aí que o modo sem prompt se torna útil.

Com essa opção, você não precisa digitar uma descrição ou fornecer um exemplo de imagem. O YOLOE simplesmente analisa imagens por conta própria e detecta tudo o que consegue reconhecer, como pessoas, animais, móveis ou objetos do cotidiano.

É uma maneira útil de explorar uma cena sem dar ao modelo instruções específicas. Seja examinando uma sala lotada ou revisando filmagens com muita atividade, o modo sem prompt lhe dá uma visão rápida do que está presente em uma imagem.

Você pode usar o código a seguir para executar o YOLOE no modo sem prompt. Primeiro, o modelo é carregado, então ele processa a imagem e detecta automaticamente os objetos nela. Finalmente, os resultados são exibidos e os objetos detectados são destacados.

Certifique-se de substituir o caminho do arquivo pelo caminho real para sua imagem.

from ultralytics import YOLOE

model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()

A imagem mostrada abaixo é um exemplo do que o YOLOE pode detectar no modo sem prompt.

Usando o YOLOE no modo sem prompt

Fig 4. Usando o YOLOE no modo sem prompt.

Link to this sectionAplicações em tempo real do YOLOE#

A capacidade do YOLOE de responder a prompts de texto e imagem o torna uma ferramenta confiável para aplicações em tempo real. Sua flexibilidade é particularmente útil em ambientes dinâmicos onde o tempo e a precisão são essenciais.

Vamos explorar alguns exemplos do mundo real de como o YOLOE pode ser usado.

Link to this sectionMelhorando o manuseio de bagagem: detecção de bagagem em tempo real#

Em aeroportos movimentados, localizar bagagens específicas pode ser um desafio, especialmente ao lidar com malas perdidas. O YOLOE pode agilizar esse processo ajudando a digitalizar vídeos ao vivo e identificando rapidamente os itens com base em prompts simples como "red bag".

Se uma mala estiver perdida ou extraviada, a equipe pode facilmente alterar o prompt para procurar um item diferente, como uma “black suitcase”. Essa capacidade de adaptação instantânea pode ajudar a equipe do aeroporto a localizar rapidamente a bagagem certa sem precisar revisar longas horas de filmagem ou retreinar o modelo, tornando o manuseio de bagagem e a resolução de problemas de malas perdidas muito mais rápidos e eficientes.

Link to this sectionMonitorando espaços públicos com o YOLOE#

Filmagens de segurança de espaços públicos, como mercados e cafés lotados, geralmente incluem uma mistura de pessoas, objetos e atividades que mudam ao longo do dia. O YOLOE pode analisar essas filmagens em tempo real usando o modo sem prompt, detectando automaticamente itens como malas, mesas ou bicicletas sem precisar de instruções específicas.

YOLOE detectando vários objetos em um espaço público movimentado

Fig 5. O YOLOE pode detectar vários objetos em um espaço público movimentado.

Isso é particularmente útil para equipes de segurança identificarem itens deixados sem vigilância ou rastrearem o movimento da multidão. A capacidade do YOLOE de detectar múltiplos objetos ao mesmo tempo facilita o gerenciamento de espaços públicos durante eventos ou períodos movimentados, ajudando as equipes a se manterem informadas e responsivas.

Link to this sectionPrós e contras do YOLOE#

Aqui estão alguns dos principais benefícios de usar o YOLOE para aplicações de visão computacional:

  • Desempenho em tempo real: O YOLOE é otimizado para um processamento rápido e eficiente, permitindo a detecção em tempo real, mesmo em ambientes dinâmicos como transmissões de vídeo ao vivo ou espaços públicos movimentados.
  • Escalabilidade: O YOLOE é escalável e funciona bem para uma grande variedade de aplicações, desde segurança e vigilância até varejo, saúde e veículos autônomos.
  • Fácil de usar: Como o YOLOE é suportado pelo pacote Python do Ultralytics, é fácil integrá-lo aos seus projetos de visão computacional existentes.

No entanto, existem algumas limitações a serem lembradas ao usar o YOLOE. Aqui estão alguns fatores a considerar:

  • Requer dados de treinamento suficientes: Embora o YOLOE suporte detecção zero-shot, seu desempenho em objetos não vistos depende de quão bem ele generaliza a partir de seus dados de treinamento. Em alguns casos, pode ser necessário dados adicionais ou ajuste fino para ter um bom desempenho em tarefas altamente especializadas.
  • Sensível à qualidade da entrada: A precisão do modelo pode ser afetada por imagens ou vídeos de baixa qualidade. Entradas borradas ou com pouca iluminação podem reduzir a capacidade do modelo de detectar objetos com precisão, portanto, uma entrada de alta qualidade é importante para um desempenho ideal.

Link to this sectionPrincipais pontos#

O YOLOE traz mais flexibilidade para a visão computacional, permitindo que os usuários guiem a detecção com prompts de texto ou imagem. Ele funciona bem em situações do mundo real onde as cenas mudam rapidamente e o retreinamento não é uma opção.

Do manuseio de bagagem ao monitoramento de espaços públicos, o YOLOE se adapta a novas tarefas com facilidade. À medida que a IA se torna mais acessível, modelos como o YOLOE estão ajudando mais indústrias a usar a tecnologia de visão de maneiras práticas e eficientes.

Junte-se à nossa comunidade e explore nosso repositório GitHub para aprender mais sobre inovações em IA. Descubra os últimos avanços em áreas como IA no varejo e visão computacional na saúde em nossas páginas de soluções. Confira nossas opções de licenciamento e comece com a visão computacional hoje mesmo!

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática