Aprende como o YOLOE te permite encontrar objectos através de uma simples mensagem ou fotografia. Permite uma visão computacional mais inteligente e mais rápida, sem necessidade de reciclar ou afinar modelos.
A deteção de objectos é uma tarefa fundamental da visão por computador, em que o objetivo é identificar e localizar objectos em imagens ou vídeos. É uma parte crucial da visão por computador, um campo da inteligência artificial (IA) que permite às máquinas compreender e interpretar dados visuais. Por exemplo, a deteção de objectos pode ajudar a identificar um carro numa fotografia ou a localizar uma pessoa num vídeo.
Uma das séries mais conhecidas de modelos de apoio a tarefas de visão por computador, como a deteção de objectos, é a série de modelos YOLO (You Only Look Once). Concebidos para velocidade e precisão, os modelos YOLO têm sido continuamente melhorados ao longo do tempo. Por exemplo, uma das versões mais recentes, Ultralytics YOLO11tem um bom desempenho em situações do mundo real, fornecendo resultados precisos mesmo em ambientes mais complexos.
Para continuar este progresso, um novo modelo chamado YOLOE tem como objetivo expandir as capacidades dos modelos YOLO . Ao contrário dos modelos tradicionais que requerem reciclagem para reconhecer novos objectos, o YOLOE pode seguir instruções simples de texto ou imagem para detetar objectos que nunca viu antes, tornando-o muito mais adaptável a ambientes em mudança.
Neste artigo, vamos analisar mais detalhadamente o que torna o YOLOE único, como se compara com os modelos YOLO anteriores e como podes começar a utilizá-lo hoje mesmo. Toca a começar!
O YOLOE é um modelo de visão por computador que leva a deteção de objectos um passo à frente. Foi introduzido em março de 2025 por investigadores da Universidade de Tsinghua. O que distingue o YOLOE dos modelos tradicionais é a sua utilização da deteção de vocabulário aberto.
Enquanto a maioria dos modelos são treinados para reconhecer uma lista fixa de objectos, o YOLOE permite-te especificar o que procurar utilizando uma breve descrição ou uma imagem de exemplo. Por exemplo, se estiveres à procura de uma "mochila verde", podes escrever essa descrição ou mostrar ao modelo uma fotografia, e o YOLOE localizá-la-á na cena.
Além disso, mesmo sem qualquer aviso, a YOLOE consegue detetar muitos objectos do quotidiano por si só. Esta capacidade de reconhecer objectos que nunca viu antes é designada por deteção de zero-shot. É particularmente útil em ambientes dinâmicos onde a tarefa ou os objectos de interesse podem mudar inesperadamente.
O YOLOE suporta uma vasta gama de funcionalidades concebidas para melhorar o seu desempenho em aplicações do mundo real. Com a sua capacidade de lidar com dados estruturados e não estruturados, o YOLOE abre novas possibilidades para a deteção e segmentação de objectos.
Eis algumas das principais caraterísticas que o modelo traz para a mesa:
Agora que compreendemos melhor o que é o YOLOE, vamos dar uma vista de olhos a alguns dos modelos da família YOLO que são semelhantes.
À medida que a visão por computador progrediu, o mesmo aconteceu com os modelos YOLO . Por exemplo, Ultralytics YOLOv8 trouxe suporte para novas tarefas, como segmentação e classificação, enquanto versões posteriores, como o Ultralytics YOLO11, se concentraram em melhorar a precisão e o desempenho para uma gama mais ampla de tarefas.
Além disso, YOLO foi lançado em janeiro de 2024 e introduziu a capacidade de utilizar avisos escritos, permitindo aos utilizadores descrever os objectos que pretendem encontrar. Apesar de YOLO ser uma óptima opção para a deteção de zero disparos, faltavam-lhe funcionalidades como a segmentação de instâncias e o suporte de instruções visuais.
O YOLOE baseia-se no YOLO, acrescentando estas capacidades, melhorando a flexibilidade e o desempenho e oferecendo uma ferramenta com maior impacto para aplicações de visão computacional do mundo real.
Quer queiras detetar objectos específicos ou explorar tudo numa imagem, começar a utilizar o YOLOE é simples. Este modelo é suportado pelo pacote Ultralytics Python , tornando-o fácil de integrar nos teus projectos. De seguida, vamos ver como o utilizar.
O primeiro passo é instalar o pacoteUltralytics Python usando um gerenciador de pacotes como o 'pip'. Podes fazê-lo executando o comando "pip install ultralytics" no teu terminal ou na linha de comandos.
Assim que o pacote estiver instalado, terás tudo o que precisas para carregar o modelo, fazer previsões e experimentar diferentes modos de deteção. Se tiveres algum problema durante a instalação, a documentação oficial Ultralytics oferece uma secção útil de resolução de problemas.
Existem algumas formas diferentes de utilizar o YOLOE para executar previsões. Executar previsões significa utilizar o modelo treinado para identificar e localizar objectos em imagens ou vídeos. Estes diferentes métodos permitem-te personalizar a forma como interages com o modelo com base nas tuas necessidades específicas.
Vamos discutir cada um destes métodos, um de cada vez.
O YOLOE pode detetar objectos com base numa breve descrição de texto. Por exemplo, se estiveres à procura de um cavalo em movimento, podes usar uma mensagem como "cavalo a andar".
Para começar, carrega primeiro o modelo YOLOE pré-treinado e define o teu prompt (a descrição do que queres que o modelo procure), como mostra o fragmento de código abaixo.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Assim que o teu modelo e prompt estiverem definidos, podes executar o modelo numa imagem ou vídeo. Substitui o caminho do ficheiro no código pelo caminho do teu ficheiro de imagem ou vídeo:
results = model.predict("path/to/your/image.jpg")
results[0].show()
Isto irá mostrar a imagem com o objeto detectado claramente marcado com base na tua pergunta. Podes alterar o comando para procurar objectos diferentes, como "mala vermelha", "bicicleta" ou "zebra", dependendo do que procuras.
Da mesma forma, podes utilizar uma imagem para solicitar o YOLOE com o pacote Ultralytics Python . No modo de aviso visual, o modelo utiliza a imagem para encontrar objectos de aspeto semelhante noutra cena. Isto é particularmente útil para objectos que são difíceis de descrever ou que não têm etiquetas claras.
Para explorares o código com mais pormenor, podes consultar a documentaçãoUltralytics .
Em alguns casos, podes não saber exatamente o que procurar, ou podes não estar à procura de um objeto específico. É aí que o modo sem mensagens é útil.
Com esta opção, não precisas de escrever uma descrição nem de fornecer uma imagem de exemplo. O YOLOE analisa simplesmente as imagens por si próprio e detecta tudo o que consegue reconhecer, como pessoas, animais, mobiliário ou objectos do quotidiano.
É uma forma útil de explorar uma cena sem dar ao modelo quaisquer instruções específicas. Quer estejas a analisar uma sala cheia de gente ou a rever filmagens com muita atividade, o modo sem instruções dá-te uma visão rápida do que está presente numa imagem.
Podes utilizar o seguinte código para executar o YOLOE em modo livre de comandos. Primeiro, o modelo é carregado, depois processa a imagem e detecta automaticamente os objectos nela contidos. Finalmente, mostra os resultados e destaca os objectos detectados.
Não te esqueças de substituir o caminho do ficheiro pelo caminho real da tua imagem.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
A imagem mostrada abaixo é um exemplo do que o YOLOE pode detetar em modo livre de mensagens.
A capacidade do YOLOE para responder a pedidos de texto e imagem torna-o uma ferramenta fiável para aplicações em tempo real. A sua flexibilidade é particularmente útil em ambientes de ritmo acelerado, onde o tempo e a precisão são essenciais.
Vamos explorar alguns exemplos do mundo real de como o YOLOE pode ser utilizado.
Em aeroportos movimentados, localizar uma bagagem específica pode ser um desafio, especialmente quando se trata de malas desaparecidas. O YOLOE pode simplificar este processo, ajudando-te a digitalizar vídeos em direto e a identificar rapidamente os artigos com base em indicações simples como "mala vermelha".
Se uma mala estiver em falta ou for extraviada, o pessoal pode facilmente alterar a solicitação para procurar um item diferente, como uma "mala preta". Esta capacidade de adaptação instantânea pode ajudar o pessoal do aeroporto a localizar rapidamente a bagagem correta, sem ter de rever longas horas de filmagens ou de voltar a treinar o modelo, tornando o manuseamento de bagagens e a resolução de problemas de bagagem desaparecida muito mais rápidos e eficientes.
As filmagens de vigilância de espaços públicos, como mercados e cafés cheios, incluem frequentemente uma mistura de pessoas, objectos e actividades que mudam ao longo do dia. O YOLOE pode analisar estas filmagens em tempo real utilizando o modo sem comandos, detectando automaticamente itens como sacos, mesas ou bicicletas sem necessitar de instruções específicas.
Isto é particularmente útil para as equipas de segurança detectarem objectos sem vigilância ou acompanharem o movimento de multidões. A capacidade do YOLOE para detetar vários objectos em simultâneo facilita a gestão de espaços públicos durante eventos ou períodos de grande afluência, ajudando as equipas a manterem-se informadas e a reagir.
Eis algumas das principais vantagens da utilização do YOLOE para aplicações de visão por computador:
No entanto, existem algumas limitações a ter em conta quando utilizas o YOLOE. Eis alguns factores a ter em conta:
O YOLOE traz mais flexibilidade à visão por computador, permitindo que os utilizadores guiem a deteção com texto ou imagens. Funciona bem em situações do mundo real em que os cenários mudam rapidamente e a reciclagem não é uma opção.
Desde o manuseamento de bagagens à monitorização de espaços públicos, o YOLOE adapta-se facilmente a novas tarefas. À medida que a IA se torna mais acessível, modelos como o YOLOE estão a ajudar mais indústrias a utilizar a tecnologia de visão de forma prática e eficiente.
Junta-te à nossa comunidade e explora o nosso repositório GitHub para saberes mais sobre as inovações de IA. Descobre os últimos avanços em áreas como a IA no retalho e a visão por computador nos cuidados de saúde nas nossas páginas de soluções. Consulta as nossas opções de licenciamento e começa a utilizar a visão computacional hoje mesmo!
Começa a tua viagem com o futuro da aprendizagem automática