Glossário

ImageNet

Descubra o ImageNet, o conjunto de dados inovador que está a impulsionar os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.

A ImageNet é um conjunto de dados maciço, acessível ao público, com mais de 14 milhões de imagens que foram anotadas manualmente para indicar os objectos que representam. Organizado de acordo com a hierarquia WordNet, contém mais de 20.000 categorias, sendo que uma categoria típica, como "balão" ou "morango", é composta por várias centenas de imagens. Esta vasta e diversificada coleção tem sido fundamental para o avanço dos campos da visão computacional (CV) e da aprendizagem profunda (DL), servindo de padrão para modelos de formação e avaliação comparativa.

A criação do ImageNet por investigadores da Universidade de Stanford foi um momento crucial para a inteligência artificial (IA). Antes do ImageNet, os conjuntos de dados eram muitas vezes demasiado pequenos para treinar redes neuronais (NN) complexas de forma eficaz, o que levava a problemas como o sobreajuste. O ImageNet forneceu a escala necessária para treinar modelos profundos, abrindo caminho para a revolução moderna da IA. Pode saber mais lendo o documento de investigação original do ImageNet.

O Desafio Imagenet de Reconhecimento Visual em Grande Escala (ILSVRC)

A influência do ImageNet foi ampliada pelo ImageNet Large Scale Visual Recognition Challenge (ILSVRC), um concurso anual realizado de 2010 a 2017. Este desafio tornou-se uma referência crucial para avaliar o desempenho dos algoritmos de visão computacional. Em 2012, uma rede neural convolucional (CNN) chamada AlexNet alcançou uma vitória inovadora, superando significativamente todos os modelos anteriores. Este sucesso demonstrou o poder da aprendizagem profunda e da computação GPU, desencadeando uma onda de inovação neste domínio. O ILSVRC tem sido um motor fundamental no desenvolvimento de muitas arquitecturas modernas, e pode ver o desempenho dos modelos actuais em vários parâmetros de referência em sítios como o Papers with Code.

Aplicações do Imagenet no mundo real

A principal utilização do ImageNet é como recurso para modelos de pré-treino. Ao treinar um modelo neste vasto conjunto de dados, este aprende a reconhecer um conjunto rico de caraterísticas visuais. Este conhecimento pode então ser transferido para tarefas novas e mais específicas. Esta técnica é conhecida como aprendizagem por transferência.

  1. Análise de imagens médicas: Um modelo pré-treinado no ImageNet, como um modelo Ultralytics YOLO, pode ser ajustado num conjunto de dados muito mais pequeno e especializado de exames médicos para detetar condições específicas, como tumores. A formação inicial no ImageNet fornece uma base sólida de compreensão visual geral, que é crucial para alcançar uma elevada precisão em tarefas de análise de imagens médicas em que os dados rotulados são escassos. Esta é uma aplicação chave para a IA nos cuidados de saúde.
  2. Reconhecimento de produtos de retalho: No retalho, os modelos podem ser adaptados para identificar milhares de produtos diferentes numa prateleira para uma gestão automatizada do inventário. Em vez de treinar do zero, um modelo pré-treinado no ImageNet pode ser rapidamente adaptado aos produtos específicos de uma loja. Isto reduz a necessidade de grandes quantidades de dados de formação personalizados e acelera a implementação do modelo. Muitas soluções poderosas de IA no retalho tiram partido desta abordagem.

Imagenet vs. Conceitos relacionados

É importante diferenciar o ImageNet de outros termos e conjuntos de dados relacionados:

  • ImageNet vs. Tarefas CV: O ImageNet em si é um conjuntode dados - umacoleção de imagens rotuladas. Não é uma tarefa. Em vez disso, é utilizado para treinar e aferir modelos que executam tarefas como a classificação de imagens, em que é atribuído um único rótulo a uma imagem. Isto difere da deteção de objectos, que envolve a localização de objectos com caixas delimitadoras, ou da segmentação de imagens, que classifica cada pixel de uma imagem.
  • ImageNet vs. COCO: Embora o ImageNet seja o padrão de ouro para classificação, outros conjuntos de dados de visão computacional são mais adequados para outras tarefas. O conjunto de dados COCO (Common Objects in Context), por exemplo, é a referência preferida para deteção de objectos e segmentação de instâncias. Isto deve-se ao facto de o COCO fornecer anotações mais detalhadas, como caixas delimitadoras e máscaras de segmentação por pixel para vários objectos em cada imagem. Em contrapartida, a maioria das imagens ImageNet tem apenas uma única etiqueta ao nível da imagem.

Modelos como o YOLO11 são frequentemente pré-treinados no ImageNet para a sua base de classificação antes de serem treinados no COCO para tarefas de deteção. Este processo de formação em várias fases aproveita os pontos fortes de ambos os conjuntos de dados. Pode ver como os diferentes modelos se comparam nestes parâmetros de referência nas nossas páginas de comparação de modelos. Embora altamente influente, vale a pena notar que o ImageNet tem limitações, incluindo vieses conhecidos do conjunto de dados que são importantes a considerar numa perspetiva de ética da IA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência