Descobre o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.
O ImageNet é um conjunto de dados muito grande e fundamental, amplamente utilizado na investigação e desenvolvimento da visão computacional (CV). Contém mais de 14 milhões de imagens que foram anotadas manualmente para indicar os objectos retratados. Estas imagens estão organizadas de acordo com a hierarquia WordNet, uma grande base de dados lexical de substantivos, verbos, adjectivos e advérbios English agrupados em conjuntos de sinónimos cognitivos (synsets). Com mais de 20.000 categorias, a ImageNet constitui um recurso rico e diversificado para a formação e avaliação de modelos de aprendizagem automática (ML), nomeadamente para tarefas como a classificação e o reconhecimento de imagens. A sua escala e anotações detalhadas têm sido cruciais para o avanço do campo da inteligência artificial (IA). Podes saber mais sobre a utilização do conjunto de dados com modelos Ultralytics na página de documentação do conjunto de dados ImageNet.
A introdução do ImageNet marcou um momento crucial para a aprendizagem profunda (DL), especialmente na visão computacional. Antes do ImageNet, a falta de conjuntos de dados grandes, diversificados e bem rotulados era um grande obstáculo que impedia o progresso. Conjuntos de dados de alta qualidade como o ImageNet permitiram o treinamento de modelos muito mais profundos e complexos, como as Redes Neurais Convolucionais (CNNs), levando a avanços significativos em tarefas de compreensão visual. O ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que decorreu de 2010 a 2017, utilizou um subconjunto do ImageNet e tornou-se o conjunto de dados de referência padrão para avaliar a classificação de imagens e os algoritmos de deteção de objectos. Modelos inovadores como o AlexNet e o ResNet, que obtiveram resultados de última geração no ImageNet, influenciaram fortemente as arquitecturas CV modernas e demonstraram o poder da aprendizagem profunda em dados de grande escala. O artigo original do ILSVRC fornece mais pormenores sobre o desafio e o seu impacto.
A principal aplicação do ImageNet é servir de referência padrão para avaliar o desempenho(exatidão, velocidade) de novos modelos e algoritmos de visão por computador, em especial para a classificação de imagens. A sua adoção generalizada permite aos investigadores comparar resultados de forma justa. Para além da avaliação comparativa, o ImageNet é amplamente utilizado para modelos de pré-treino. O pré-treinamento envolve o treinamento de um modelo no grande e geral conjunto de dados ImageNet, permitindo que ele aprenda caraterísticas visuais robustas. Estes modelos pré-treinados, muitas vezes disponíveis através de estruturas como PyTorch e TensorFlowpodem depois ser afinados em conjuntos de dados mais pequenos e mais específicos para várias tarefas a jusante, utilizando a aprendizagem por transferência. Isto reduz significativamente a quantidade de dados e a computação necessária para a tarefa-alvo e conduz frequentemente a um melhor desempenho, especialmente quando o conjunto de dados-alvo é pequeno. Muitos Ultralytics YOLO do Ultralytics, por exemplo, utilizam estratégias de pré-treino. Plataformas como o Ultralytics HUB facilitam o processo de formação de modelos utilizando essas técnicas.
O impacto do ImageNet estende-se muito para além da investigação académica, chegando às aplicações práticas:
É importante distinguir o ImageNet das tarefas que suporta e de outros conjuntos de dados relacionados:
Embora incrivelmente influente, o ImageNet também tem limitações, incluindo potenciais enviesamentos do conjunto de dados que reflectem o período e as fontes de recolha de dados, o que é uma consideração importante na ética da IA.