Glossário

ImageNet

Descobre o ImageNet, o conjunto de dados inovador que impulsiona os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O ImageNet é um conjunto de dados muito grande e fundamental, amplamente utilizado na investigação e desenvolvimento da visão computacional (CV). Contém mais de 14 milhões de imagens que foram anotadas manualmente para indicar os objectos retratados. Estas imagens estão organizadas de acordo com a hierarquia WordNet, uma grande base de dados lexical de substantivos, verbos, adjectivos e advérbios English agrupados em conjuntos de sinónimos cognitivos (synsets). Com mais de 20.000 categorias, a ImageNet constitui um recurso rico e diversificado para a formação e avaliação de modelos de aprendizagem automática (ML), nomeadamente para tarefas como a classificação e o reconhecimento de imagens. A sua escala e anotações detalhadas têm sido cruciais para o avanço do campo da inteligência artificial (IA). Podes saber mais sobre a utilização do conjunto de dados com modelos Ultralytics na página de documentação do conjunto de dados ImageNet.

Importância e relevância

A introdução do ImageNet marcou um momento crucial para a aprendizagem profunda (DL), especialmente na visão computacional. Antes do ImageNet, a falta de conjuntos de dados grandes, diversificados e bem rotulados era um grande obstáculo que impedia o progresso. Conjuntos de dados de alta qualidade como o ImageNet permitiram o treinamento de modelos muito mais profundos e complexos, como as Redes Neurais Convolucionais (CNNs), levando a avanços significativos em tarefas de compreensão visual. O ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que decorreu de 2010 a 2017, utilizou um subconjunto do ImageNet e tornou-se o conjunto de dados de referência padrão para avaliar a classificação de imagens e os algoritmos de deteção de objectos. Modelos inovadores como o AlexNet e o ResNet, que obtiveram resultados de última geração no ImageNet, influenciaram fortemente as arquitecturas CV modernas e demonstraram o poder da aprendizagem profunda em dados de grande escala. O artigo original do ILSVRC fornece mais pormenores sobre o desafio e o seu impacto.

Aplicações do ImageNet

A principal aplicação do ImageNet é servir de referência padrão para avaliar o desempenho(exatidão, velocidade) de novos modelos e algoritmos de visão por computador, em especial para a classificação de imagens. A sua adoção generalizada permite aos investigadores comparar resultados de forma justa. Para além da avaliação comparativa, o ImageNet é amplamente utilizado para modelos de pré-treino. O pré-treinamento envolve o treinamento de um modelo no grande e geral conjunto de dados ImageNet, permitindo que ele aprenda caraterísticas visuais robustas. Estes modelos pré-treinados, muitas vezes disponíveis através de estruturas como PyTorch e TensorFlowpodem depois ser afinados em conjuntos de dados mais pequenos e mais específicos para várias tarefas a jusante, utilizando a aprendizagem por transferência. Isto reduz significativamente a quantidade de dados e a computação necessária para a tarefa-alvo e conduz frequentemente a um melhor desempenho, especialmente quando o conjunto de dados-alvo é pequeno. Muitos Ultralytics YOLO do Ultralytics, por exemplo, utilizam estratégias de pré-treino. Plataformas como o Ultralytics HUB facilitam o processo de formação de modelos utilizando essas técnicas.

Exemplos do mundo real

O impacto do ImageNet estende-se muito para além da investigação académica, chegando às aplicações práticas:

  • Análise de imagens médicas: Os modelos pré-treinados no ImageNet são frequentemente ajustados para tarefas especializadas na análise de imagens médicas. Embora as imagens médicas difiram significativamente das fotografias do ImageNet, as caraterísticas visuais fundamentais aprendidas (como arestas, texturas, formas básicas) fornecem um ponto de partida sólido. Esta abordagem acelera o desenvolvimento de ferramentas de IA para tarefas como a deteção de tumores em imagens médicas ou a identificação de anomalias em radiografias ou tomografias computorizadas, contribuindo para os avanços da IA nos cuidados de saúde.
  • Sistemas autónomos: Os sistemas de perceção em veículos autónomos e robótica dependem muito da identificação precisa de objectos como peões, carros, sinais de trânsito e obstáculos. O pré-treinamento dos componentes de reconhecimento de objectos destes sistemas no ImageNet ajuda-os a aprender caraterísticas gerais dos objectos, melhorando a sua robustez e fiabilidade quando afinados em dados específicos de condução ou de ambiente operacional. Isto contribui para o desenvolvimento de tecnologias como as utilizadas pela Waymo e integradas na IA em soluções automóveis.

ImageNet vs. Conceitos relacionados

É importante distinguir o ImageNet das tarefas que suporta e de outros conjuntos de dados relacionados:

  • ImageNet vs. Tarefas CV: O ImageNet em si é um conjunto de dados, uma coleção de imagens rotuladas. Não é uma tarefa como a Classificação de Imagens (atribuir um único rótulo a uma imagem), a Deteção de Objectos (localizar objectos com caixas delimitadoras) ou a Segmentação de Imagens (atribuir um rótulo a cada pixel, incluindo a segmentação de instâncias e a segmentação semântica). Em vez disso, o ImageNet é utilizado principalmente para treinar e aferir modelos que executam estas tarefas, especialmente a classificação.
  • ImageNet vs. COCO: Embora o ImageNet seja o padrão para classificação, conjuntos de dados como o COCO (Common Objects in Context) são mais comumente usados para aferir a deteção e segmentação de objetos. Isso ocorre porque o COCO inclui anotações mais detalhadas necessárias para essas tarefas, como caixas delimitadoras precisas e máscaras de segmentação por pixel para vários objetos por imagem, enquanto o ImageNet fornece principalmente rótulos no nível da imagem (embora existam alguns dados de localização de objetos). Ultralytics suporta uma variedade de conjuntos de dados de visão computacional para diferentes tarefas.

Embora incrivelmente influente, o ImageNet também tem limitações, incluindo potenciais enviesamentos do conjunto de dados que reflectem o período e as fontes de recolha de dados, o que é uma consideração importante na ética da IA.

Lê tudo