Descubra o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a pesquisa, os modelos e as aplicações de IA.
ImageNet é um conjunto de dados massivo e acessível ao público de mais de 14 milhões de imagens que foram anotadas manualmente para indicar quais objetos elas retratam. Organizado de acordo com a hierarquia WordNet, ele contém mais de 20.000 categorias, com uma categoria típica, como "balão" ou "morango", consistindo em várias centenas de imagens. Esta vasta e diversificada coleção tem sido fundamental para o avanço dos campos de visão computacional (CV) e aprendizado profundo (DL), servindo como um padrão para treinamento e avaliação de modelos.
A criação do ImageNet por investigadores da Universidade de Stanford foi um momento crucial para a inteligência artificial (IA). Antes do ImageNet, os conjuntos de dados eram muitas vezes demasiado pequenos para treinar redes neurais (NN) complexas de forma eficaz, levando a problemas como o overfitting. O ImageNet forneceu a escala necessária para treinar modelos profundos, abrindo caminho para a moderna revolução da IA. Pode saber mais lendo o artigo de investigação original do ImageNet.
A influência do ImageNet foi ampliada pelo ImageNet Large Scale Visual Recognition Challenge (ILSVRC), uma competição anual realizada de 2010 a 2017. Este desafio se tornou um benchmark crucial para avaliar o desempenho de algoritmos de visão computacional. Em 2012, uma rede neural convolucional (CNN) chamada AlexNet alcançou uma vitória inovadora, superando significativamente todos os modelos anteriores. Este sucesso demonstrou o poder do aprendizado profundo e da computação em GPU, desencadeando uma onda de inovação no campo. O ILSVRC tem sido um motor chave no desenvolvimento de muitas arquiteturas modernas, e você pode ver como os modelos de hoje se comportam em vários benchmarks em sites como Papers with Code.
O principal uso do ImageNet é como um recurso para modelos de pré-treinamento. Ao treinar um modelo neste vasto conjunto de dados, ele aprende a reconhecer um rico conjunto de recursos visuais. Esse conhecimento pode então ser transferido para novas tarefas mais específicas. Esta técnica é conhecida como transfer learning.
É importante diferenciar ImageNet de outros termos e conjuntos de dados relacionados:
Modelos como o YOLO11 são frequentemente pré-treinados no ImageNet para sua base de classificação antes de serem treinados no COCO para tarefas de detecção. Este processo de treinamento em vários estágios aproveita os pontos fortes de ambos os conjuntos de dados. Você pode ver como diferentes modelos se comparam nesses benchmarks em nossas páginas de comparação de modelos. Embora altamente influente, vale a pena notar que o ImageNet tem limitações, incluindo vieses de conjunto de dados conhecidos que são importantes de considerar de uma perspectiva de ética de IA.