A evolução da deteção de objetos e dos modelos YOLO da Ultralytics
Junta-te a nós enquanto olhamos para a evolução da deteção de objetos. Vamos focar-nos em como os modelos YOLO (You Only Look Once) avançaram nos últimos anos.

Visão computacional é um subcampo da inteligência artificial (IA) que foca em ensinar máquinas a ver e entender imagens e vídeos, de forma semelhante a como os humanos percebem o mundo real. Embora reconhecer objetos ou identificar ações seja algo natural para os humanos, essas tarefas exigem técnicas de visão computacional específicas e especializadas quando se trata de máquinas. Por exemplo, uma tarefa fundamental na visão computacional é a detecção de objetos, que envolve identificar e localizar objetos dentro de imagens ou vídeos.
Desde a década de 1960, pesquisadores têm trabalhado para melhorar a forma como os computadores conseguem detectar objetos. Os primeiros métodos, como o template matching, envolviam deslizar um modelo predefinido sobre uma imagem para encontrar correspondências. Embora inovadoras, essas abordagens enfrentavam dificuldades com mudanças no tamanho, orientação do objeto e iluminação. Hoje, temos modelos avançados como o Ultralytics YOLO11, que conseguem detectar até mesmo objetos pequenos e parcialmente escondidos, conhecidos como objetos ocluídos, com uma precisão impressionante.
À medida que a visão computacional continua a evoluir, é importante olhar para trás e ver como essas tecnologias se desenvolveram. Neste artigo, vamos explorar a evolução da detecção de objetos e destacar a transformação dos modelos YOLO (You Only Look Once). Vamos começar!
Link to this sectionAs origens da visão computacional#
Antes de mergulhar na detecção de objetos, vamos dar uma olhada em como a visão computacional começou. As origens da visão computacional remontam ao final da década de 1950 e início da de 1960, quando cientistas começaram a explorar como o cérebro processa informações visuais. Em experimentos com gatos, os pesquisadores David Hubel e Torsten Wiesel descobriram que o cérebro reage a padrões simples como bordas e linhas. Isso formou a base para a ideia por trás da extração de características — o conceito de que sistemas visuais detectam e reconhecem características básicas em imagens, como bordas, antes de passar para padrões mais complexos.

Fig 1. Aprender como o cérebro de um gato reage a barras de luz ajudou a desenvolver a extração de características em visão computacional.
Na mesma época, surgiu uma nova tecnologia capaz de transformar imagens físicas em formatos digitais, despertando o interesse sobre como as máquinas poderiam processar informações visuais. Em 1966, o Summer Vision Project do Massachusetts Institute of Technology (MIT) impulsionou ainda mais o avanço. Embora o projeto não tenha tido sucesso total, o objetivo era criar um sistema que pudesse separar o primeiro plano do fundo em imagens. Para muitos na comunidade de visão computacional, este projeto marca o início oficial da visão computacional como campo científico.
Link to this sectionEntendendo a história da detecção de objetos#
À medida que a visão computacional avançava no final dos anos 90 e início dos anos 2000, os métodos de detecção de objetos mudaram de técnicas básicas como o template matching para abordagens mais avançadas. Um método popular foi o Haar Cascade, que se tornou amplamente utilizado para tarefas como detecção de rostos. Ele funcionava escaneando imagens com uma janela deslizante, verificando características específicas como bordas ou texturas em cada seção da imagem e, em seguida, combinando essas características para detectar objetos como rostos. O Haar Cascade era muito mais rápido do que os métodos anteriores.

Fig 2. Usando Haar Cascade para Detecção de Rostos.
Junto com eles, métodos como Histogram of Oriented Gradients (HOG) e Support Vector Machines (SVMs) também foram introduzidos. O HOG usava a técnica de janela deslizante para analisar como a luz e as sombras mudavam em pequenas seções de uma imagem, ajudando a identificar objetos com base em suas formas. Os SVMs então classificavam essas características para determinar a identidade do objeto. Esses métodos melhoraram a precisão, mas ainda tinham dificuldades em ambientes do mundo real e eram mais lentos comparados às técnicas atuais.
Link to this sectionA necessidade de detecção de objetos em tempo real#
Na década de 2010, o surgimento do deep learning e das Convolutional Neural Networks (CNNs) trouxe uma grande mudança na object detection. As CNNs possibilitaram que computadores aprendessem automaticamente características importantes a partir de grandes quantidades de data, o que tornou a detecção muito mais precisa.
Modelos iniciais como R-CNN (Region-based Convolutional Neural Networks) foram uma grande melhoria na precision, ajudando a identificar objetos com mais precisão do que os métodos anteriores.
No entanto, esses modelos eram lentos porque processavam imagens em vários estágios, tornando-os impraticáveis para aplicações em tempo real em áreas como carros autônomos ou vigilância por vídeo.
Com foco em aumentar a velocidade, modelos mais eficientes foram desenvolvidos. Modelos como Fast R-CNN e Faster R-CNN ajudaram a refinar como as regiões de interesse eram escolhidas e a reduzir o número de etapas necessárias para a detecção. Embora isso tenha tornado a object detection mais rápida, ainda não era rápida o suficiente para muitas real-world applications que precisavam de resultados instantâneos. A crescente demanda por detecção em tempo real impulsionou o desenvolvimento de soluções ainda mais rápidas e eficientes que conseguissem equilibrar velocidade e precisão.

Fig 3. Comparando as Velocidades de R-CNN, Fast R-CNN e Faster R-CNN.
Link to this sectionModelos YOLO (You Only Look Once): um marco importante#
YOLO é um modelo de detecção de objetos que redefiniu a visão computacional ao permitir a detecção em tempo real de múltiplos objetos em imagens e vídeos, tornando-o bastante único em relação aos métodos de detecção anteriores. Em vez de analisar cada objeto detectado individualmente, a arquitetura do YOLO trata a detecção de objetos como uma única tarefa, prevendo tanto a localização quanto a classe dos objetos de uma só vez usando CNNs.
O modelo funciona dividindo uma imagem em uma grade, sendo que cada parte é responsável por detectar objetos em sua respectiva área. Ele faz múltiplas previsões para cada seção e filtra os resultados com menor confiança, mantendo apenas os precisos.

Fig 4. Uma Visão Geral de Como o YOLO Funciona.
A introdução do YOLO para aplicações de visão computacional tornou a detecção de objetos muito mais rápida e eficiente do que nos modelos anteriores. Devido à sua velocidade e precisão, o YOLO rapidamente se tornou uma escolha popular para soluções em tempo real em setores como manufatura, saúde e robótica.
Outro ponto importante a notar é que, como o YOLO era open-source, desenvolvedores e pesquisadores puderam melhorá-lo continuamente, levando a versões ainda mais avançadas.
Link to this sectionO caminho do YOLO ao YOLO11#
Os modelos YOLO melhoraram de forma constante ao longo do tempo, baseando-se nos avanços de cada versão. Juntamente com um melhor desempenho, essas melhorias tornaram os modelos mais fáceis de usar para pessoas com diferentes níveis de experiência técnica.
Por exemplo, quando o Ultralytics YOLOv5 foi introduzido, a implantação de modelos tornou-se mais simples com PyTorch, permitindo que um leque maior de usuários trabalhasse com IA avançada. Ele uniu precisão e usabilidade, dando a mais pessoas a capacidade de implementar a detecção de objetos sem precisar serem especialistas em programação.

Fig 5. A Evolução dos modelos YOLO.
O Ultralytics YOLOv8 continuou esse progresso ao adicionar suporte para tarefas como segmentação de instâncias e tornar os modelos mais flexíveis. Ficou mais fácil usar o YOLO para aplicações tanto básicas quanto complexas, tornando-o útil em diversos cenários.
Com o modelo mais recente, o Ultralytics YOLO11, outras otimizações foram feitas. Ao reduzir o número de parâmetros e, ao mesmo tempo, melhorar a precisão, ele se tornou mais eficiente para tarefas em tempo real. Se você é um desenvolvedor experiente ou novo em IA, o YOLO11 oferece uma abordagem avançada para a detecção de objetos que é facilmente acessível.
Link to this sectionConhecendo o YOLO11: novos recursos e melhorias#
O YOLO11, lançado no evento híbrido anual da Ultralytics, YOLO Vision 2024 (YV24), suporta as mesmas tarefas de visão computacional que o YOLOv8, como detecção de objetos, segmentação de instâncias, classificação de imagens e estimativa de pose. Assim, os usuários podem mudar facilmente para este novo modelo sem precisar ajustar seus fluxos de trabalho. Além disso, a arquitetura aprimorada do YOLO11 torna as previsões ainda mais precisas. De fato, o YOLO11m alcança uma maior precisão média (mAP) no conjunto de dados COCO com 22% menos parâmetros do que o YOLOv8m.
O YOLO11 também foi desenvolvido para rodar de forma eficiente em uma variedade de plataformas, desde smartphones e outros dispositivos de borda até sistemas em nuvem mais potentes. Essa flexibilidade garante um desempenho estável em diferentes configurações de hardware para aplicações em tempo real. Além disso, o YOLO11 é mais rápido e eficiente, reduzindo os custos computacionais e acelerando os tempos de inferência. Se você estiver usando o pacote Python da Ultralytics ou o Ultralytics HUB sem código, é fácil integrar o YOLO11 aos seus fluxos de trabalho existentes.
Link to this sectionO futuro dos modelos YOLO e da detecção de objetos#
O impacto da detecção de objetos avançada em aplicações em tempo real e na edge AI já está sendo sentido em vários setores. À medida que setores como óleo e gás, saúde e varejo dependem cada vez mais de IA, a demanda por uma detecção de objetos rápida e precisa continua a aumentar. O YOLO11 visa atender a essa demanda ao possibilitar uma detecção de alto desempenho, mesmo em dispositivos com poder computacional limitado.
À medida que a edge AI cresce, é provável que modelos de detecção de objetos como o YOLO11 se tornem ainda mais essenciais para a tomada de decisões em tempo real, em ambientes onde velocidade e precisão são cruciais. Com melhorias contínuas em design e adaptabilidade, o futuro da detecção de objetos parece destinado a trazer ainda mais inovações em diversas aplicações.
Link to this sectionPrincipais pontos#
A detecção de objetos percorreu um longo caminho, evoluindo de métodos simples para as técnicas avançadas de deep learning que vemos hoje. Os modelos YOLO têm estado no centro desse progresso, proporcionando uma detecção em tempo real mais rápida e precisa em diferentes setores. O YOLO11 baseia-se nesse legado, melhorando a eficiência, reduzindo custos computacionais e aumentando a precisão, tornando-o uma escolha confiável para uma variedade de aplicações em tempo real. Com os avanços contínuos em IA e visão computacional, o futuro da detecção de objetos parece brilhante, com espaço para ainda mais melhorias em velocidade, precisão e adaptabilidade.
Curioso sobre IA? Fique conectado com nossa comunidade para continuar aprendendo! Confira nosso repositório no GitHub para descobrir como estamos usando a IA para criar soluções inovadoras em setores como manufatura e saúde. 🚀






