Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

ImageNet

Descubra o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a pesquisa, os modelos e as aplicações de IA.

ImageNet é um conjunto de dados massivo e acessível ao público de mais de 14 milhões de imagens que foram anotadas manualmente para indicar quais objetos elas retratam. Organizado de acordo com a hierarquia WordNet, ele contém mais de 20.000 categorias, com uma categoria típica, como "balão" ou "morango", consistindo em várias centenas de imagens. Esta vasta e diversificada coleção tem sido fundamental para o avanço dos campos de visão computacional (CV) e aprendizado profundo (DL), servindo como um padrão para treinamento e avaliação de modelos.

A criação do ImageNet por investigadores da Universidade de Stanford foi um momento crucial para a inteligência artificial (IA). Antes do ImageNet, os conjuntos de dados eram muitas vezes demasiado pequenos para treinar redes neurais (NN) complexas de forma eficaz, levando a problemas como o overfitting. O ImageNet forneceu a escala necessária para treinar modelos profundos, abrindo caminho para a moderna revolução da IA. Pode saber mais lendo o artigo de investigação original do ImageNet.

O Desafio de Reconhecimento Visual em Larga Escala do Imagenet (ILSVRC)

A influência do ImageNet foi ampliada pelo ImageNet Large Scale Visual Recognition Challenge (ILSVRC), uma competição anual realizada de 2010 a 2017. Este desafio se tornou um benchmark crucial para avaliar o desempenho de algoritmos de visão computacional. Em 2012, uma rede neural convolucional (CNN) chamada AlexNet alcançou uma vitória inovadora, superando significativamente todos os modelos anteriores. Este sucesso demonstrou o poder do aprendizado profundo e da computação em GPU, desencadeando uma onda de inovação no campo. O ILSVRC tem sido um motor chave no desenvolvimento de muitas arquiteturas modernas, e você pode ver como os modelos de hoje se comportam em vários benchmarks em sites como Papers with Code.

Aplicações no Mundo Real do Imagenet

O principal uso do ImageNet é como um recurso para modelos de pré-treinamento. Ao treinar um modelo neste vasto conjunto de dados, ele aprende a reconhecer um rico conjunto de recursos visuais. Esse conhecimento pode então ser transferido para novas tarefas mais específicas. Esta técnica é conhecida como transfer learning.

  1. Análise de Imagens Médicas: Um modelo pré-treinado no ImageNet, como um modelo Ultralytics YOLO, pode ser ajustado (fine-tuned) em um conjunto de dados de exames médicos especializado muito menor para detectar condições específicas, como tumores. O treinamento inicial no ImageNet fornece uma base sólida de compreensão visual geral, o que é crucial para alcançar alta precisão em tarefas de análise de imagens médicas onde os dados rotulados são escassos. Esta é uma aplicação chave para IA na área da saúde.
  2. Reconhecimento de Produtos no Varejo: No varejo, os modelos podem ser adaptados para identificar milhares de produtos diferentes numa prateleira para gestão automatizada de inventário. Em vez de treinar do zero, um modelo pré-treinado no ImageNet pode ser rapidamente adaptado aos produtos específicos de uma loja. Isso reduz a necessidade de grandes quantidades de dados de treinamento personalizados e acelera a implantação do modelo. Muitas soluções poderosas de IA no varejo aproveitam esta abordagem.

Imagenet vs. Conceitos Relacionados

É importante diferenciar ImageNet de outros termos e conjuntos de dados relacionados:

  • ImageNet vs. Tarefas de CV: ImageNet em si é um conjunto de dados—uma coleção de imagens rotuladas. Não é uma tarefa. Em vez disso, é usado para treinar e avaliar modelos que executam tarefas como classificação de imagem, onde um único rótulo é atribuído a uma imagem. Isso difere da detecção de objetos, que envolve a localização de objetos com bounding boxes, ou segmentação de imagem, que classifica cada pixel em uma imagem.
  • ImageNet vs. COCO: Embora o ImageNet seja o padrão ouro para classificação, outros conjuntos de dados de visão computacional são mais adequados para outras tarefas. O conjunto de dados COCO (Objetos Comuns em Contexto), por exemplo, é o benchmark preferido para detecção de objetos e segmentação de instâncias. Isso ocorre porque o COCO fornece anotações mais detalhadas, como bounding boxes e máscaras de segmentação por pixel para vários objetos em cada imagem. Em contraste, a maioria das imagens do ImageNet tem apenas um único rótulo no nível da imagem.

Modelos como o YOLO11 são frequentemente pré-treinados no ImageNet para sua base de classificação antes de serem treinados no COCO para tarefas de detecção. Este processo de treinamento em vários estágios aproveita os pontos fortes de ambos os conjuntos de dados. Você pode ver como diferentes modelos se comparam nesses benchmarks em nossas páginas de comparação de modelos. Embora altamente influente, vale a pena notar que o ImageNet tem limitações, incluindo vieses de conjunto de dados conhecidos que são importantes de considerar de uma perspectiva de ética de IA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência