Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

A evolução da detecção de objetos e os modelos YOLO da Ultralytics

Abirami Vina

4 min de leitura

18 de outubro de 2024

Junte-se a nós enquanto revemos a evolução da detecção de objetos. Vamos nos concentrar em como os modelos YOLO (You Only Look Once) avançaram nos últimos anos.

A visão computacional é um subcampo da inteligência artificial (IA) que se concentra em ensinar as máquinas a ver e entender imagens e vídeos, de forma semelhante a como os humanos percebem o mundo real. Embora reconhecer objetos ou identificar ações seja algo natural para os humanos, essas tarefas exigem técnicas de visão computacional específicas e especializadas quando se trata de máquinas. Por exemplo, uma tarefa fundamental na visão computacional é a detecção de objetos, que envolve identificar e localizar objetos dentro de imagens ou vídeos. 

Desde a década de 1960 que os investigadores têm trabalhado para melhorar a forma como os computadores conseguem detetar objetos. Os primeiros métodos, como a correspondência de modelos, envolviam deslizar um modelo predefinido sobre uma imagem para encontrar correspondências. Embora inovadoras, estas abordagens tinham dificuldades com as mudanças no tamanho, orientação e iluminação dos objetos. Atualmente, temos modelos avançados como o Ultralytics YOLO11 que conseguem detetar até objetos pequenos e parcialmente escondidos, conhecidos como objetos oclusos, com uma precisão impressionante.

À medida que a visão computacional continua a evoluir, é importante olhar para trás e ver como essas tecnologias se desenvolveram. Neste artigo, exploraremos a evolução da detecção de objetos e lançaremos luz sobre a transformação dos modelos YOLO (You Only Look Once). Vamos começar!

As origens da visão computacional

Antes de mergulharmos na detecção de objetos, vamos dar uma olhada em como a visão computacional começou. As origens da visão computacional remontam ao final dos anos 1950 e início dos anos 1960, quando os cientistas começaram a explorar como o cérebro processa informações visuais. Em experimentos com gatos, os pesquisadores David Hubel e Torsten Wiesel descobriram que o cérebro reage a padrões simples como bordas e linhas. Isso formou a base para a ideia por trás da extração de características - o conceito de que os sistemas visuais detectam e reconhecem características básicas em imagens, como bordas, antes de passar para padrões mais complexos.

Fig 1. Aprender como o cérebro de um gato reage a barras de luz ajudou a desenvolver a extração de características na visão computacional.

Quase ao mesmo tempo, surgiu uma nova tecnologia que podia transformar imagens físicas em formatos digitais, despertando o interesse em como as máquinas poderiam processar informações visuais. Em 1966, o Summer Vision Project do Massachusetts Institute of Technology (MIT) impulsionou ainda mais as coisas. Embora o projeto não tenha tido total sucesso, ele visava criar um sistema que pudesse separar o primeiro plano do fundo em imagens. Para muitos na comunidade de Visão de IA, este projeto marca o início oficial da visão computacional como um campo científico.

Compreendendo a história da detecção de objetos

À medida que a visão computacional avançava no final da década de 1990 e início dos anos 2000, os métodos de detecção de objetos mudaram de técnicas básicas, como correspondência de modelos, para abordagens mais avançadas. Um método popular era o Haar Cascade, que se tornou amplamente utilizado para tarefas como detecção de rostos. Ele funcionava escaneando imagens com uma janela deslizante, verificando características específicas, como bordas ou texturas em cada seção da imagem, e então combinando essas características para detectar objetos como rostos. O Haar Cascade era muito mais rápido do que os métodos anteriores.

Fig. 2. Usando Haar Cascade para Detecção de Face.

Além destes, métodos como Histogram of Oriented Gradients (HOG) e Support Vector Machines (SVMs) também foram introduzidos. O HOG usava a técnica de janela deslizante para analisar como a luz e as sombras mudavam em pequenas seções de uma imagem, ajudando a identificar objetos com base em suas formas. Os SVMs então classificavam esses recursos para determinar a identidade do objeto. Esses métodos melhoraram a precisão, mas ainda enfrentavam dificuldades em ambientes do mundo real e eram mais lentos em comparação com as técnicas de hoje.

A necessidade de detecção de objetos em tempo real

Na década de 2010, a ascensão do deep learning e das Redes Neurais Convolucionais (CNNs) trouxe uma grande mudança na detecção de objetos. As CNNs tornaram possível para os computadores aprenderem automaticamente características importantes de grandes quantidades de dados, o que tornou a detecção muito mais precisa. 

Os primeiros modelos como R-CNN (Redes Neurais Convolucionais Baseadas em Regiões) foram uma grande melhoria na precisão, ajudando a identificar objetos com mais precisão do que os métodos mais antigos. 

No entanto, esses modelos eram lentos porque processavam imagens em vários estágios, tornando-os impraticáveis para aplicações em tempo real em áreas como carros autônomos ou videovigilância.

Com foco em acelerar as coisas, modelos mais eficientes foram desenvolvidos. Modelos como Fast R-CNN e Faster R-CNN ajudaram refinando como as regiões de interesse eram escolhidas e reduzindo o número de etapas necessárias para a detecção. Embora isso tenha tornado a detecção de objetos mais rápida, ainda não era rápido o suficiente para muitas aplicações do mundo real que precisavam de resultados instantâneos. A crescente demanda por detecção em tempo real impulsionou o desenvolvimento de soluções ainda mais rápidas e eficientes que pudessem equilibrar velocidade e precisão.

Fig. 3. Comparando as velocidades de R-CNN, Fast R-CNN e Faster R-CNN.

Modelos YOLO (You Only Look Once): Um grande marco

YOLO é um modelo de deteção de objetos que redefiniu a visão computacional ao permitir a deteção em tempo real de múltiplos objetos em imagens e vídeos, tornando-o bastante único em relação aos métodos de deteção anteriores. Em vez de analisar cada objeto detetado individualmente, a arquitetura do YOLO trata a deteção de objetos como uma única tarefa, prevendo tanto a localização como a classe dos objetos de uma só vez, utilizando CNNs. 

O modelo funciona dividindo uma imagem em uma grade, com cada parte responsável por detectar objetos em sua respectiva área. Ele faz múltiplas previsões para cada seção e filtra os resultados menos confiantes, mantendo apenas os precisos. 

Fig 4. Uma Visão Geral de Como o YOLO Funciona.

A introdução do YOLO para aplicações de visão computacional tornou a detecção de objetos muito mais rápida e eficiente do que os modelos anteriores. Por causa de sua velocidade e precisão, o YOLO rapidamente se tornou uma escolha popular para soluções em tempo real em indústrias como manufatura, saúde e robótica.

Outro ponto importante a notar é que, como o YOLO era de código aberto, desenvolvedores e pesquisadores puderam aprimorá-lo continuamente, levando a versões ainda mais avançadas.

O caminho do YOLO para o YOLO11

Os modelos YOLO têm melhorado continuamente ao longo do tempo, com base nos avanços de cada versão. Juntamente com um melhor desempenho, essas melhorias tornaram os modelos mais fáceis de usar para pessoas com diferentes níveis de experiência técnica.

Por exemplo, quando o Ultralytics YOLOv5 foi introduzido, o deploy de modelos tornou-se mais simples com o PyTorch, permitindo que uma gama mais ampla de utilizadores trabalhasse com IA avançada. Ele reuniu precisão e usabilidade, dando a mais pessoas a capacidade de implementar a deteção de objetos sem precisar ser especialistas em programação.

Fig 5. A Evolução dos modelos YOLO.

O Ultralytics YOLOv8 continuou esse progresso adicionando suporte para tarefas como segmentação de instâncias e tornando os modelos mais flexíveis. Tornou-se mais fácil usar o YOLO para aplicações básicas e mais complexas, tornando-o útil em uma variedade de cenários.

Com o modelo mais recente, Ultralytics YOLO11, otimizações adicionais foram feitas. Ao reduzir o número de parâmetros e, ao mesmo tempo, melhorar a precisão, agora é mais eficiente para tarefas em tempo real. Seja você um desenvolvedor experiente ou novo em IA, o YOLO11 oferece uma abordagem avançada para detecção de objetos que é facilmente acessível.

Conhecendo o YOLO11: Novos recursos e melhorias

O YOLO11, lançado no evento híbrido anual da Ultralytics, YOLO Vision 2024 (YV24), oferece suporte às mesmas tarefas de visão computacional que o YOLOv8, como detecção de objetos, segmentação de instâncias, classificação de imagens e estimativa de pose. Assim, os usuários podem mudar facilmente para este novo modelo sem precisar ajustar seus fluxos de trabalho. Além disso, a arquitetura atualizada do YOLO11 torna as previsões ainda mais precisas. De fato, o YOLO11m atinge uma precisão média mais alta (mAP) no conjunto de dados COCO com 22% menos parâmetros do que o YOLOv8m.

O YOLO11 também foi construído para ser executado de forma eficiente em uma variedade de plataformas, desde smartphones e outros dispositivos de borda até sistemas de nuvem mais poderosos. Essa flexibilidade garante um desempenho suave em diferentes configurações de hardware para aplicações em tempo real. Além disso, o YOLO11 é mais rápido e eficiente, reduzindo os custos computacionais e acelerando os tempos de inferência. Quer você esteja usando o pacote Ultralytics Python ou o Ultralytics HUB sem código, é fácil integrar o YOLO11 em seus fluxos de trabalho existentes.

O futuro dos modelos YOLO e da detecção de objetos

O impacto da detecção de objetos avançada em aplicações em tempo real e edge AI já está sendo sentido em todos os setores. À medida que setores como petróleo e gás, saúde e varejo dependem cada vez mais da IA, a demanda por detecção de objetos rápida e precisa continua a aumentar. O YOLO11 visa responder a essa demanda, permitindo a detecção de alto desempenho, mesmo em dispositivos com poder de computação limitado. 

À medida que a IA de borda cresce, é provável que os modelos de detecção de objetos como o YOLO11 se tornem ainda mais essenciais para a tomada de decisões em tempo real em ambientes onde velocidade e precisão são críticas. Com as melhorias contínuas no design e na adaptabilidade, o futuro da detecção de objetos parece trazer ainda mais inovações em uma variedade de aplicações.

Principais conclusões

A detecção de objetos percorreu um longo caminho, evoluindo de métodos simples para as avançadas técnicas de aprendizado profundo que vemos hoje. Os modelos YOLO têm estado no centro desse progresso, oferecendo detecção em tempo real mais rápida e precisa em diferentes setores. O YOLO11 se baseia nesse legado, melhorando a eficiência, reduzindo os custos computacionais e aumentando a precisão, tornando-o uma escolha confiável para uma variedade de aplicações em tempo real. Com os avanços contínuos em IA e visão computacional, o futuro da detecção de objetos parece brilhante, com espaço para ainda mais melhorias em velocidade, precisão e adaptabilidade.

Curioso sobre IA? Mantenha-se conectado com a nossa comunidade para continuar aprendendo! Confira nosso repositório GitHub para descobrir como estamos usando a IA para criar soluções inovadoras em setores como manufatura e saúde. 🚀

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência