Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Um guia para mergulhar na detecção de objetos em 2025

Abirami Vina

Leitura de 6 min

6 de fevereiro de 2025

Aprenda sobre detecção de objetos, sua importância na IA e como modelos como o YOLO11 estão transformando setores como carros autônomos, saúde e segurança.

Muitas indústrias estão integrando rapidamente soluções de inteligência artificial (IA) em suas operações. Entre as muitas tecnologias de IA disponíveis atualmente, a visão computacional é uma das mais populares. A visão computacional é um ramo da IA que ajuda os computadores a ver e entender o conteúdo de imagens e vídeos, assim como os humanos. Ela possibilita que as máquinas reconheçam objetos, identifiquem padrões e compreendam o que estão vendo. 

Estima-se que o valor de mercado global da visão computacional cresça para 175,72 bilhões de dólares até 2032. A visão computacional engloba várias tarefas que permitem que os sistemas de Visão de IA analisem e interpretem dados visuais. Uma das tarefas mais utilizadas e essenciais da visão computacional é a detecção de objetos. 

A detecção de objetos se concentra em localizar e classificar objetos em dados visuais. Por exemplo, se você mostrar a um computador uma imagem de uma vaca, ele pode detectar a vaca e desenhar uma caixa delimitadora ao redor dela. Essa capacidade é útil em aplicações do mundo real, como monitoramento de animais, carros autônomos e vigilância. 

Então, como é que a detecção de objetos pode ser realizada? Uma forma é através de modelos de visão computacional. Por exemplo, o Ultralytics YOLO11 é um modelo de visão computacional que suporta tarefas de visão computacional como a detecção de objetos. 

Neste guia, exploraremos a deteção de objetos e como ela funciona. Também discutiremos algumas aplicações do mundo real da deteção de objetos e do Ultralytics YOLO11.

__wf_reserved_inherit
Fig. 1. Usando o suporte do YOLO11 para detecção de objetos para monitorar o gado.

O que é detecção de objetos? 

A deteção de objetos é uma tarefa de visão computacional que identifica e localiza objetos em imagens ou vídeos. Responde a duas questões-chave: 'Que objetos estão na imagem?' e 'Onde estão localizados?'

Você pode pensar na detecção de objetos como um processo que envolve duas etapas principais. A primeira, a classificação de objetos, permite que o sistema reconheça e rotule objetos, como identificar um gato, um carro ou uma pessoa com base em padrões aprendidos. A segunda, a localização, determina a posição do objeto desenhando uma caixa delimitadora ao redor dele, indicando onde ele aparece na imagem. Juntas, essas etapas permitem que as máquinas detectem e entendam objetos em uma cena.

O aspecto da detecção de objetos que a torna única é sua capacidade de reconhecer objetos e identificar sua localização com precisão. Outras tarefas de visão computacional se concentram em diferentes objetivos.

Por exemplo, a classificação de imagem atribui um rótulo a uma imagem inteira. Enquanto isso, a segmentação de imagem fornece uma compreensão em nível de pixel de diferentes elementos. Por outro lado, a detecção de objetos combina reconhecimento com localização. Isso o torna especialmente útil para tarefas como contar vários objetos em tempo real.

__wf_reserved_inherit
Fig. 2. Comparação de tarefas de visão computacional.

Reconhecimento de objetos vs. deteção de objetos

Ao explorar vários termos de visão computacional, você pode sentir que reconhecimento de objetos e detecção de objetos são intercambiáveis - mas eles servem a propósitos diferentes. Uma ótima maneira de entender a diferença é observar a detecção de rosto e o reconhecimento facial.

A detecção de rosto é um tipo de detecção de objetos. Ela identifica a presença de um rosto em uma imagem e marca sua localização usando uma caixa delimitadora. Ela responde à pergunta: “Onde está o rosto na imagem?” Essa tecnologia é comumente usada em câmeras de smartphones que focam automaticamente nos rostos ou em câmeras de segurança que detectam quando uma pessoa está presente.

O reconhecimento facial, por outro lado, é uma forma de reconhecimento de objetos. Ele não apenas detecta um rosto, mas identifica de quem é o rosto, analisando características únicas e comparando-as a um banco de dados. Ele responde à pergunta: “Quem é essa pessoa?” Essa é a tecnologia por trás do desbloqueio do seu telefone com o Face ID ou dos sistemas de segurança do aeroporto que verificam identidades.

Simplificando, a detecção de objetos encontra e localiza objetos, enquanto o reconhecimento de objetos os classifica e identifica. 

__wf_reserved_inherit
Fig 3. Detecção de objetos vs reconhecimento de objetos. Imagem do autor.

Muitos modelos de detecção de objetos, como o YOLO11, são projetados para suportar a detecção de faces, mas não o reconhecimento facial. O YOLO11 pode identificar eficientemente a presença de uma face em uma imagem e desenhar uma caixa delimitadora ao redor dela, tornando-o útil para aplicações como sistemas de vigilância, monitoramento de multidões e marcação automatizada de fotos. No entanto, ele não pode determinar de quem é a face. O YOLO11 pode ser integrado com modelos especificamente treinados para reconhecimento facial, como Facenet ou DeepFace, para permitir tanto a detecção quanto a identificação em um único sistema.

Entendendo como funciona a detecção de objetos

Antes de discutirmos como a detecção de objetos funciona, vamos primeiro analisar mais de perto como um computador analisa uma imagem. Em vez de ver uma imagem como nós, um computador a divide em uma grade de pequenos quadrados chamados pixels. Cada pixel contém informações de cor e brilho que os computadores podem processar para interpretar dados visuais.

Para dar sentido a esses pixels, os algoritmos os agrupam em regiões significativas com base na forma, cor e proximidade entre si. Modelos de detecção de objetos, como o YOLO11, podem reconhecer padrões ou características nesses grupos de pixels. 

Por exemplo, um carro autônomo não vê um pedestre da mesma forma que nós - ele detecta formas e padrões que correspondem às características de um pedestre. Esses modelos dependem de um extenso treinamento com conjuntos de dados de imagens rotulados, permitindo que aprendam as características distintivas de objetos como carros, sinais de trânsito e pessoas.

Um modelo típico de detecção de objetos tem três partes principais: backbone, neck e head. O backbone extrai características importantes de uma imagem. O neck processa e refina essas características, enquanto o head é responsável por prever a localização dos objetos e classificá-los.

Aprimorando detecções e apresentando resultados

Uma vez que as detecções iniciais são feitas, técnicas de pós-processamento são aplicadas para melhorar a precisão e filtrar previsões redundantes. Por exemplo, as caixas delimitadoras sobrepostas são removidas, garantindo que apenas as detecções mais relevantes sejam retidas. Além disso, pontuações de confiança (valores numéricos que representam o quão seguro o modelo está de que um objeto detectado pertence a uma determinada classe) são atribuídas a cada objeto detectado para indicar a certeza do modelo em suas previsões.

Finalmente, a saída é apresentada com bounding boxes desenhadas ao redor dos objetos detectados, juntamente com seus rótulos de classe previstos e scores de confiança. Esses resultados podem então ser usados para aplicações no mundo real.

Modelos populares de detecção de objetos 

Atualmente, existem muitos modelos de visão computacional disponíveis, e alguns dos mais populares são os modelos YOLO da Ultralytics. São conhecidos pela sua velocidade, precisão e versatilidade. Ao longo dos anos, estes modelos tornaram-se mais rápidos, mais precisos e capazes de lidar com uma gama mais vasta de tarefas. O lançamento do Ultralytics YOLOv5 facilitou a implementação com frameworks como o PyTorch, permitindo que mais pessoas utilizassem a IA de Visão avançada sem necessidade de conhecimentos técnicos profundos.

Com base nessa fundação, o Ultralytics YOLOv8 introduziu novos recursos como segmentação de instâncias, estimativa de pose e classificação de imagens. Agora, o YOLO11 está indo ainda mais longe com melhor desempenho em várias tarefas. Com 22% menos parâmetros do que o YOLOv8m, o YOLO11m alcança uma precisão média (mAP) mais alta no conjunto de dados COCO. Em termos simples, o YOLO11 pode reconhecer objetos com maior precisão enquanto usa menos recursos, tornando-o mais rápido e confiável.

Seja você um especialista em IA ou esteja apenas começando, o YOLO11 oferece uma solução poderosa e fácil de usar para aplicações de visão computacional.

Treino personalizado de um modelo para deteção de objetos

O treinamento de modelos de IA de Visão envolve ajudar os computadores a reconhecer e entender imagens e vídeos. No entanto, o treinamento pode ser um processo demorado. Em vez de começar do zero, a transferência de aprendizado acelera as coisas usando modelos pré-treinados que já reconhecem padrões comuns.

Por exemplo, o YOLO11 já foi treinado no conjunto de dados COCO, que contém um conjunto diversificado de objetos cotidianos. Este modelo pré-treinado pode ser ainda mais treinado sob medida para detectar objetos específicos que podem não estar incluídos no conjunto de dados original. 

Para treinar de forma personalizada o YOLO11, você precisa de um conjunto de dados rotulado que contenha imagens dos objetos que deseja detectar. Por exemplo, se você quiser construir um modelo para identificar diferentes tipos de frutas em um supermercado, você criaria um conjunto de dados com imagens rotuladas de maçãs, bananas, laranjas, etc. Uma vez que o conjunto de dados esteja preparado, o YOLO11 pode ser treinado, ajustando parâmetros como tamanho do lote, taxa de aprendizado e épocas para otimizar o desempenho.

Com esta abordagem, as empresas podem treinar o YOLO11 para detetar qualquer coisa, desde peças defeituosas na produção até espécies selvagens em projetos de conservação, adaptando o modelo às suas necessidades exatas.

Aplicações da detecção de objetos

Em seguida, vamos dar uma olhada em alguns dos casos de uso no mundo real da detecção de objetos e como ela está transformando vários setores.

Detecção de perigo para direção autônoma

Os carros autônomos usam tarefas de visão computacional, como detecção de objetos, para navegar com segurança e evitar obstáculos. Essa tecnologia ajuda-os a reconhecer pedestres, outros veículos, buracos e perigos na estrada, tornando possível que eles entendam melhor o que os rodeia. Eles podem tomar decisões rápidas e mover-se com segurança pelo tráfego, analisando constantemente o seu ambiente.

__wf_reserved_inherit
Fig 4. Um exemplo de uso da detecção de objetos para detectar buracos com YOLO11.

Análise de imagem médica na área da saúde

Técnicas de imagem médica, como raios-X, ressonâncias magnéticas, tomografias computadorizadas e ultrassons, criam imagens altamente detalhadas do corpo humano para ajudar a diagnosticar e tratar doenças. Esses exames produzem grandes quantidades de dados que os médicos, como radiologistas e patologistas, devem analisar cuidadosamente para detectar doenças. No entanto, revisar cada imagem em detalhes pode ser demorado, e especialistas humanos podem, às vezes, perder detalhes devido à fadiga ou restrições de tempo.

Modelos de deteção de objetos como o YOLO11 podem ajudar, identificando automaticamente características-chave em exames médicos, como órgãos, tumores ou anomalias, com elevada precisão. Modelos treinados à medida podem destacar áreas de preocupação com caixas delimitadoras, ajudando os médicos a concentrarem-se mais rapidamente em potenciais problemas. Isto reduz a carga de trabalho, melhora a eficiência e fornece insights rápidos.

__wf_reserved_inherit
Fig. 5. Análise de imagens médicas usando YOLO11.

Aumentando a segurança com a deteção de pessoas e anomalias

O rastreamento de objetos é uma tarefa de visão computacional suportada pelo YOLO11, permitindo monitoramento em tempo real e melhorias de segurança. Ele se baseia na detecção de objetos, identificando objetos e rastreando continuamente seu movimento em quadros. Essa tecnologia é amplamente utilizada em sistemas de vigilância para melhorar a segurança em vários ambientes.

Por exemplo, em escolas e creches, o rastreamento de objetos pode ajudar a monitorar as crianças e evitar que elas se percam. Em aplicações de segurança, desempenha um papel fundamental na detecção de intrusos em áreas restritas, no monitoramento de multidões para evitar superlotação ou comportamento suspeito e no envio de alertas em tempo real quando atividades não autorizadas são detectadas. Ao rastrear objetos enquanto eles se movem, os sistemas de rastreamento alimentados por YOLO11 aprimoram a segurança, automatizam o monitoramento e permitem respostas mais rápidas a ameaças potenciais.

Prós e contras da detecção de objetos

Aqui estão alguns dos principais benefícios que a detecção de objetos pode trazer para vários setores:

  • Automação: A detecção de objetos pode ajudar a reduzir a necessidade de supervisão humana em tarefas como o monitoramento de imagens de CFTV.
  • Funciona com outros modelos de IA: Pode ser integrado com sistemas de reconhecimento facial, reconhecimento de ação e rastreamento para melhorar a precisão e a funcionalidade.
  • Processamento em tempo real: Muitos modelos de detecção de objetos, como o YOLO11, são rápidos e eficientes, tornando-os ideais para aplicações em tempo real que exigem resultados instantâneos. 

Embora estes benefícios destaquem como a deteção de objetos impacta diferentes casos de uso, também é importante considerar os desafios envolvidos na sua implementação. Aqui estão alguns dos principais desafios:

  • Privacidade de dados: O uso de dados visuais, especialmente em áreas sensíveis como vigilância ou assistência médica, pode levantar questões de privacidade e preocupações com a segurança.
  • Oclusão: A oclusão na detecção de objetos ocorre quando os objetos são parcialmente bloqueados ou escondidos da vista, tornando difícil para o modelo detectá-los e classificá-los com precisão.
  • Computacionalmente caro: Modelos de alto desempenho geralmente exigem GPUs (Unidades de Processamento Gráfico) poderosas para processamento, tornando a implementação em tempo real dispendiosa.

Principais conclusões

A deteção de objetos é uma ferramenta revolucionária na visão computacional que ajuda as máquinas a detetar e localizar objetos em imagens e vídeos. Está a ser utilizada em setores que vão desde carros autónomos a cuidados de saúde, tornando as tarefas mais fáceis, seguras e eficientes. Com modelos mais recentes como o YOLO11, as empresas podem criar facilmente modelos de deteção de objetos personalizados para criar aplicações especializadas de visão computacional. 

Embora existam alguns desafios, como preocupações com a privacidade e objetos escondidos da vista, a detecção de objetos é uma tecnologia confiável. Sua capacidade de automatizar tarefas, processar dados visuais em tempo real e integrar-se com outras ferramentas de Visão de IA a torna uma parte essencial das inovações de ponta.

Para saber mais, visite nosso repositório GitHub e interaja com nossa comunidade. Explore as inovações em setores como IA em carros autônomos e visão computacional na agricultura em nossas páginas de soluções. Confira nossas opções de licenciamento YOLO e dê vida aos seus projetos de Visão de IA. 🚀

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência