Descubra o ImageNet, o conjunto de dados inovador que está a impulsionar os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.
A ImageNet é um conjunto de dados maciço, acessível ao público, com mais de 14 milhões de imagens que foram anotadas manualmente para indicar os objectos que representam. Organizado de acordo com a hierarquia WordNet, contém mais de 20.000 categorias, sendo que uma categoria típica, como "balão" ou "morango", é composta por várias centenas de imagens. Esta vasta e diversificada coleção tem sido fundamental para o avanço dos campos da visão computacional (CV) e da aprendizagem profunda (DL), servindo de padrão para modelos de formação e avaliação comparativa.
A criação do ImageNet por investigadores da Universidade de Stanford foi um momento crucial para a inteligência artificial (IA). Antes do ImageNet, os conjuntos de dados eram muitas vezes demasiado pequenos para treinar redes neuronais (NN) complexas de forma eficaz, o que levava a problemas como o sobreajuste. O ImageNet forneceu a escala necessária para treinar modelos profundos, abrindo caminho para a revolução moderna da IA. Pode saber mais lendo o documento de investigação original do ImageNet.
A influência do ImageNet foi ampliada pelo ImageNet Large Scale Visual Recognition Challenge (ILSVRC), um concurso anual realizado de 2010 a 2017. Este desafio tornou-se uma referência crucial para avaliar o desempenho dos algoritmos de visão computacional. Em 2012, uma rede neural convolucional (CNN) chamada AlexNet alcançou uma vitória inovadora, superando significativamente todos os modelos anteriores. Este sucesso demonstrou o poder da aprendizagem profunda e da computação GPU, desencadeando uma onda de inovação neste domínio. O ILSVRC tem sido um motor fundamental no desenvolvimento de muitas arquitecturas modernas, e pode ver o desempenho dos modelos actuais em vários parâmetros de referência em sítios como o Papers with Code.
A principal utilização do ImageNet é como recurso para modelos de pré-treino. Ao treinar um modelo neste vasto conjunto de dados, este aprende a reconhecer um conjunto rico de caraterísticas visuais. Este conhecimento pode então ser transferido para tarefas novas e mais específicas. Esta técnica é conhecida como aprendizagem por transferência.
É importante diferenciar o ImageNet de outros termos e conjuntos de dados relacionados:
Modelos como o YOLO11 são frequentemente pré-treinados no ImageNet para a sua base de classificação antes de serem treinados no COCO para tarefas de deteção. Este processo de formação em várias fases aproveita os pontos fortes de ambos os conjuntos de dados. Pode ver como os diferentes modelos se comparam nestes parâmetros de referência nas nossas páginas de comparação de modelos. Embora altamente influente, vale a pena notar que o ImageNet tem limitações, incluindo vieses conhecidos do conjunto de dados que são importantes a considerar numa perspetiva de ética da IA.