Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Ultralytics YOLO

Explorando a detecção de pequenos objetos com Ultralytics YOLO11

Descobre como o Ultralytics YOLO11 oferece detecção de pequenos objetos rápida e precisa em aplicações reais como vigilância e robótica.

ABAbirami Vina
5 min read
Ultralytics YOLO11 detectando pequenos objetos em imagens aéreas

Drones integrados com visão computacional por IA podem voar centenas de metros acima do solo e ainda assim espera-se que detectem uma pessoa que aparece como apenas alguns pixels em seu feed de vídeo. Na verdade, esse é um desafio comum em aplicações como robótica, vigilância e sensoriamento remoto, onde os sistemas precisam identificar objetos muito pequenos dentro de uma imagem.

Mas os modelos tradicionais de detecção de objetos podem ter dificuldade em fazer isso. Objetos pequenos em imagens e vídeos representam informações visuais muito limitadas. Simplificando, quando um modelo olha para eles, não há muitos detalhes para aprender ou reconhecer.

Basicamente, esses modelos geralmente dependem de uma arquitetura baseada em rede neural convolucional (CNN). As imagens passam por camadas da rede e são transformadas em mapas de características ou representações simplificadas que destacam padrões relevantes em vez de pixels brutos.

À medida que a imagem avança pela rede, esses mapas de características tornam-se menores. Isso torna a computação mais rápida, mas também significa que detalhes finos podem desaparecer.

Para objetos minúsculos, esses detalhes são cruciais. Uma vez que esses detalhes desaparecem, um modelo de visão computacional pode ter dificuldade em detectar o objeto, o que pode levar a caixas delimitadoras (bounding boxes) menos precisas ou inconsistentes.

Sistemas de visão computacional de ponta a ponta em tempo real tornam isso ainda mais complicado. Imagens de alta resolução ajudam a preservar detalhes, mas diminuem a velocidade da inferência e exigem mais potência de GPU. Resoluções mais baixas rodam mais rápido, mas objetos pequenos tornam-se ainda mais difíceis de detectar.

Torna-se um ato de equilíbrio constante entre velocidade, precisão e limites de hardware. Graças aos recentes avanços tecnológicos, modelos de visão computacional como Ultralytics YOLO11 e o próximo Ultralytics YOLO26 são projetados para gerenciar essa compensação de forma mais eficaz.

Usando YOLO11 para detectar objetos pequenos em imagens aéreas

Fig 1. Usando o YOLO11 para detectar pequenos objetos em imagens aéreas (Fonte)

Neste artigo, exploraremos por que a detecção de objetos pequenos é difícil e como o YOLO11 pode torná-la mais fácil. Vamos começar!

Link to this sectionO que é a detecção de objetos pequenos e por que ela é importante?#

A detecção de objetos pequenos é uma tarefa em visão computacional, um ramo da IA, que se concentra em identificar e localizar objetos que ocupam uma parte muito pequena de uma imagem. Esses objetos são frequentemente representados dentro da imagem por um número limitado de pixels, que são as menores unidades de uma imagem digital. Isso os torna mais difíceis de detectar do que alvos maiores e mais claros (que geralmente contêm mais pixels).

Por exemplo, veículos em imagens aéreas, ferramentas em uma fábrica ou pessoas capturadas por câmeras de vigilância grande angular podem aparecer como objetos pequenos dentro da imagem. Detectá-los é importante porque eles geralmente contêm informações críticas, e muitas aplicações do mundo real, como vigilância, dependem dessas detecções para funcionar corretamente.

Quando objetos pequenos não são detectados, o desempenho do sistema e a tomada de decisão podem ser afetados. O monitoramento por veículo aéreo não tripulado (UAV) é um bom exemplo, onde perder um pequeno objeto em movimento no solo pode afetar a precisão da navegação ou do rastreamento.

Link to this sectionDesafios relacionados à detecção de objetos pequenos#

Sistemas anteriores usavam características feitas à mão e métodos tradicionais de visão computacional, que tinham problemas em cenas movimentadas ou variadas. Mesmo hoje, com modelos de aprendizado profundo (deep learning) com desempenho muito superior, detectar alvos pequenos ainda é difícil quando eles ocupam apenas uma parte minúscula da imagem.

A seguir, vamos analisar alguns dos desafios comuns que aparecem em diferentes cenários do mundo real ao detectar objetos pequenos.

Link to this sectionTamanho, pixels e perda de informação#

Objetos pequenos contêm poucos pixels, o que limita a quantidade de detalhes visuais que um modelo pode aprender durante estágios como extração de características. Como resultado, padrões como bordas, formas e texturas são mais difíceis de detectar, tornando os objetos pequenos mais propensos a se misturarem ao fundo.

À medida que as imagens passam pelas camadas convolucionais de uma rede neural, a informação visual nos pixels é gradualmente comprimida em mapas de características. Isso ajuda o modelo a ser eficiente, mas também significa que detalhes finos desaparecem.

Mapas de características representando padrões visuais em uma imagem

Fig 2. Mapas de características representam padrões visuais em uma imagem (Fonte)

Para alvos pequenos, pistas importantes podem desaparecer antes que a rede de detecção tenha a chance de agir. Quando isso acontece, a localização torna-se menos confiável e as caixas delimitadoras podem se deslocar, sobrepor ou perder os objetos alvo completamente.

Link to this sectionOclusão, variação de escala e contexto#

Desafios relacionados ao tamanho também são frequentemente causados por oclusão. A oclusão ocorre quando objetos, especialmente os menores, ficam parcialmente escondidos por outros objetos na cena.

Isso reduz a área visível de um alvo, o que limita a informação disponível para o detector de objetos. Mesmo uma pequena oclusão pode confundir as redes de detecção, especialmente quando combinada com entrada de baixa resolução. Um exemplo interessante disso pode ser visto em conjuntos de dados de UAV como o VisDrone, onde pedestres, bicicletas ou veículos podem ser parcialmente bloqueados por edifícios, árvores ou outros objetos em movimento.

Um exemplo do conjunto de dados VisDrone mostrando objetos pequenos

Fig 3. Um exemplo do conjunto de dados VisDrone mostrando objetos pequenos (Fonte)

Da mesma forma, a variação de escala introduz outra camada de dificuldade quando o mesmo objeto parece muito pequeno ou relativamente grande dependendo da distância e da posição da câmera. Apesar desses obstáculos, os algoritmos de detecção devem reconhecer esses objetos pequenos em diferentes escalas sem perder a precisão.

O contexto também desempenha um papel importante na detecção. Por exemplo, objetos grandes geralmente aparecem com arredores claros que fornecem pistas visuais úteis. Por outro lado, alvos pequenos geralmente carecem dessa informação contextual, o que torna o reconhecimento de padrões mais difícil.

Link to this sectionO problema da métrica oculta na detecção de pequenos objetos#

Métricas de avaliação comuns, como Intersection over Union (IoU), medem o quão bem uma caixa delimitadora prevista se sobrepõe à caixa de verdade (ground-truth). Embora o IoU funcione bem para objetos maiores, seu comportamento é bem diferente para os pequenos.

Objetos pequenos ocupam apenas alguns pixels, então mesmo um pequeno deslocamento na caixa prevista pode criar um grande erro proporcional e reduzir drasticamente a pontuação de IoU. Isso significa que objetos pequenos frequentemente não atingem o limite padrão de IoU usado para contar uma previsão como correta, mesmo quando o objeto é visível na imagem.

Como resultado, erros de localização são mais propensos a serem classificados como falsos positivos ou falsos negativos. Essas limitações levaram os pesquisadores a repensar como os sistemas de detecção de objetos avaliam e lidam com alvos pequenos e difíceis de detectar.

Link to this sectionCaracterísticas multiescala: A chave para a detecção de pequenos objetos em tempo real#

À medida que os pesquisadores trabalhavam para melhorar a detecção de pequenos objetos, ficou claro que preservar e representar informações visuais em várias escalas é essencial. Esse insight é ecoado em pesquisas recentes no arXiv e em artigos apresentados em locais como conferências internacionais da IEEE e a European Computer Vision Association (ECCV).

À medida que as imagens avançam por uma rede neural, objetos pequenos podem perder detalhes ou desaparecer completamente, e é por isso que modelos modernos de visão computacional como o YOLO11 colocam um forte foco em uma melhor extração de características. A seguir, vamos percorrer os conceitos centrais por trás dos mapas de características e redes de pirâmide de características para entendê-los melhor.

Link to this sectionMapas de características e representação de escala#

Quando uma imagem de entrada, como uma imagem de sensoriamento remoto, entra em uma rede neural, ela é gradualmente transformada em mapas de características. Essas são representações simplificadas da imagem que destacam padrões visuais como bordas, formas e texturas.

À medida que a rede se aprofunda, esses mapas de características tornam-se menores em tamanho espacial. Essa redução ajuda o modelo a rodar com eficiência e a focar em informações de alto nível. No entanto, o encolhimento e os mapas de características profundas também reduzem o detalhe espacial.

A extração de características é fundamental para a detecção de objetos pequenos

Fig 4. A extração de características é a chave para a detecção de pequenos objetos. (Fonte)

Embora objetos grandes retenham informações visuais suficientes para uma detecção precisa, alvos pequenos podem perder detalhes cruciais após apenas algumas camadas da rede. Quando isso acontece, um modelo pode ter dificuldade em reconhecer que um objeto pequeno sequer existe. Essa é uma das principais razões pelas quais objetos pequenos são perdidos em modelos de detecção de objetos profundos.

Link to this sectionRedes de pirâmide de características e aprendizado multiescala#

Redes de pirâmide de características, frequentemente chamadas de FPN, foram introduzidas para lidar com a perda de detalhe espacial, e funcionam como um módulo de suporte que combina informações de várias camadas para que os modelos possam detectar objetos pequenos de forma mais eficaz. Esse processo também é conhecido como agregação e fusão de características.

Camadas rasas fornecem detalhes espaciais finos, enquanto camadas mais profundas adicionam contexto semântico, permitindo um aprendizado eficaz de características multiescala. Diferente do upsampling ingênuo, que simplesmente amplia os mapas de características, a FPN preserva informações significativas e melhora a detecção de objetos pequenos.

Abordagens modernas baseiam-se nessa ideia usando fusão adaptativa de características e projetos conscientes do contexto para melhorar ainda mais a detecção de alvos pequenos. Em outras palavras, a FPN ajuda os modelos a verem tanto o panorama geral quanto os detalhes minúsculos ao mesmo tempo. Essa otimização é essencial quando os objetos são pequenos.

Link to this sectionComo os modelos de detecção de objetos evoluíram para lidar com objetos pequenos#

Aqui está um vislumbre de como os modelos de detecção de objetos evoluíram e avançaram ao longo do tempo para detectar melhor objetos de diferentes tamanhos, incluindo os muito pequenos:

  • Primeiros métodos de detecção: As primeiras abordagens de detecção de objetos baseavam-se em características projetadas manualmente e algoritmos baseados em regras enraizados no processamento clássico de imagem. Como essas características eram fixas, o desempenho degradava com imagens diferentes.
  • Introdução do aprendizado de máquina e aprendizado profundo: A adoção do aprendizado de máquina e do aprendizado profundo marcou uma grande mudança na pesquisa de detecção de objetos. Em vez de depender de regras predefinidas, as redes neurais aprenderam representações visuais diretamente a partir de dados de treinamento, melhorando a adaptabilidade entre diferentes tamanhos de objetos e cenas.
  • Redes convolucionais: Essas redes neurais aprendem a ver padrões em imagens. Cada camada captura detalhes diferentes, começando com bordas e cores simples, depois formas e, eventualmente, objetos completos, tornando-as essenciais para a visão computacional moderna.
  • Detectores de objetos de dois estágios: Detectores de dois estágios, como o Faster R-CNN, introduzido por Girshick e Ren, primeiro geravam regiões candidatas e depois as classificavam. Essa abordagem melhorou a precisão para objetos pequenos, mas aumentou o custo computacional e reduziu o desempenho em tempo real.
  • Detectores de objetos de um estágio: Detectores de um estágio, como o SSD (Single-Shot Detector) e a família YOLO (You Only Look Once), incluindo YOLOv3, Ultralytics YOLOv5 e, mais tarde, Ultralytics YOLOv8, realizam a detecção em uma única passagem. Esse design melhora significativamente a velocidade de inferência enquanto mantém uma precisão competitiva.
  • Últimos modelos de ponta: Modelos de detecção de objetos mais novos colocam um foco mais forte no desempenho em tempo real e na implantação em borda (edge deployment). Lançamentos recentes do modelo Ultralytics YOLO, como o Ultralytics YOLO11 e o próximo Ultralytics YOLO26, são projetados para equilibrar alta precisão com inferência de baixa latência, tornando-os bem adequados para detectar objetos de todos os tamanhos, incluindo alvos pequenos, em dispositivos com potência de computação limitada.

Link to this sectionUsando o YOLO11 para casos de uso de detecção de objetos pequenos#

Agora que temos uma melhor compreensão de como funciona a detecção de objetos pequenos, vejamos algumas aplicações do mundo real onde o YOLO11 pode ser aplicado.

Link to this sectionUAV e imagens aéreas#

Imagine um drone voando alto acima de uma rua movimentada. Dessa altura, carros, bicicletas e até pessoas encolhem para apenas alguns pixels em uma tela.

Módulos de UAV e imagens aéreas frequentemente capturam cenas como esta, onde objetos de interesse são minúsculos e cercados por fundos confusos, o que os torna desafiadores para modelos de visão computacional detectarem.

Nesses tipos de cenários, o YOLO11 pode ser uma escolha de modelo ideal. Por exemplo, um drone equipado com um modelo como o YOLO11 poderia monitorar o tráfego em tempo real, detectando veículos, ciclistas e pedestres enquanto se movem pela cena, mesmo quando cada objeto ocupa apenas uma pequena parte da imagem. Isso permite uma tomada de decisão mais rápida e insights mais precisos em aplicações como gerenciamento de tráfego, segurança pública ou planejamento urbano.

Link to this sectionRobótica e automação#

Robôs são frequentemente usados em ambientes onde a precisão e o tempo são críticos. Em ambientes como armazéns, fábricas e fazendas, um robô pode precisar reconhecer objetos muito pequenos, como uma peça em uma linha de montagem, um rótulo em um pacote ou um pequeno broto de planta em um campo, e responder rapidamente.

Detectar objetos desse tamanho pode ser complicado, especialmente quando eles aparecem como apenas alguns pixels no feed da câmera ou são parcialmente ocultados por outros objetos. Perder esses pequenos detalhes pode atrasar a automação ou afetar a capacidade do robô de completar uma tarefa.

O YOLO11 pode fazer a diferença nessas situações. Sua extração de características aprimorada e inferência rápida permitem que os robôs detectem pequenos objetos em tempo real e ajam imediatamente.

O YOLO11 também suporta segmentação de instância, que pode ajudar os robôs a entender as bordas do objeto e os pontos de agarrar com mais precisão, em vez de apenas localizar caixas delimitadoras gerais. Por exemplo, um braço robótico integrado ao YOLO11 poderia localizar componentes pequenos em uma correia transportadora, segmentar sua forma exata e pegá-los antes que saiam do alcance, ajudando o sistema a permanecer eficiente e confiável.

Link to this sectionO que torna o YOLO11 eficaz para a detecção de pequenos objetos#

Com tantos modelos de visão computacional disponíveis hoje, você pode estar se perguntando o que faz o Ultralytics YOLO11 se destacar.

Aqui estão algumas razões pelas quais o Ultralytics YOLO11 é uma ótima opção para aplicações onde objetos pequenos precisam ser detectados:

  • Melhor extração de características: O YOLO11 usa uma arquitetura de backbone e pescoço (neck) aprimorada para melhorar a extração de características, permitindo uma detecção de objetos mais precisa.
  • Ecossistema e facilidade de uso: O pacote Python da Ultralytics é uma biblioteca que fornece funções integradas para carregar, treinar, validar e implantar modelos como o YOLO11. Como esses fluxos de trabalho exigem apenas algumas linhas de código, as equipes podem experimentar rapidamente e ajustar modelos para a detecção de pequenos objetos.
  • Otimizado para implantação em borda: O YOLO11 pode rodar com eficiência em dispositivos de borda como NVIDIA Jetson, Raspberry Pi e sistemas de câmeras industriais. Simplificando, ele permite tarefas de visão computacional por IA em tempo real diretamente no dispositivo.

Link to this sectionEstratégias práticas para usar ao detectar pequenos objetos com o YOLO11#

Além de usar um modelo como o YOLO11, a maneira como você prepara suas anotações, o conjunto de dados geral e o procedimento de treinamento do modelo podem fazer uma diferença significativa no desempenho da detecção.

Aqui está uma visão geral rápida do que focar:

  • Aumento de dados adequado (data augmentation): Aumento de dados leve, como escalonamento ou recorte, pode ajudar o modelo a generalizar para novas imagens. No entanto, um aumento agressivo em larga escala pode distorcer ou remover pequenos objetos, tornando-os mais difíceis para o modelo aprender.
  • Analisando casos de falha: Analisar onde o modelo erra ou identifica incorretamente objetos ajuda a criar uma base e revelar se os problemas decorrem do conjunto de dados, perda de informações durante a extração de características ou necessidade de ajustar as configurações de treinamento.
  • Composição do conjunto de dados: Seu conjunto de dados deve conter exemplos suficientes de objetos pequenos para que o modelo possa aprender padrões significativos, e deve permanecer equilibrado para que objetos maiores não ofusquem os menores durante o treinamento.

Link to this sectionPrincipais pontos#

A detecção de pequenos objetos é difícil porque alvos pequenos perdem detalhes à medida que as imagens avançam por um modelo de visão computacional. O YOLO11 melhora a forma como esses detalhes são preservados, tornando a detecção de pequenos objetos mais confiável sem sacrificar o desempenho em tempo real. Esse equilíbrio permite que o YOLO11 suporte uma detecção precisa e eficiente em aplicações do mundo real.

Junte-se à nossa crescente comunidade! Explore nosso repositório no GitHub para aprender mais sobre IA. Descubra inovações como visão computacional no varejo e IA na indústria automotiva visitando nossas páginas de soluções. Para começar a construir com visão computacional hoje, confira nossas opções de licenciamento.

Explore solutions

Real-time defect detection with Ultralytics YOLO

Defect Detection

YOLO-based vision AI detects defects in steel, PCBs, fabric, solar panels, and welds, with peer-reviewed accuracy up to 99.4% and up to 94.5% lower inspection cost.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time defect detection with Ultralytics YOLO

Defect Detection

YOLO-based vision AI detects defects in steel, PCBs, fabric, solar panels, and welds, with peer-reviewed accuracy up to 99.4% and up to 94.5% lower inspection cost.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time defect detection with Ultralytics YOLO

Defect Detection

YOLO-based vision AI detects defects in steel, PCBs, fabric, solar panels, and welds, with peer-reviewed accuracy up to 99.4% and up to 94.5% lower inspection cost.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática