Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

ImageNet

Descubra o ImageNet, o conjunto de dados inovador que está a impulsionar os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.

ImageNet é uma base de dados visual maciça e amplamente citada, concebida para ser utilizada na investigação de software de reconhecimento de objectos visuais. Contém mais de 14 milhões de imagens que foram anotadas à mão para indicar quais os objectos retratados e, em mais de um milhão de imagens, onde os objectos estão localizados com caixas delimitadoras. Organizado de acordo com a hierarquia hierarquia do WordNet, ImageNet mapeia imagens para conceitos específicos ou específicos ou "synsets", tornando-o um recurso fundamental para a formação e avaliação de modelos de visão computacional (CV). A sua imensa escala e diversidade permitiram aos investigadores ir além das experiências de pequena escala, dando efetivamente o pontapé de saída para a era moderna da aprendizagem profunda (DL).

A evolução do reconhecimento visual

Antes do ImageNet, os investigadores debatiam-se com conjuntos de dados demasiado pequenos para treinar redes neurais profundas redes neurais profundas (NN) sem encontrar sobreajuste. Criado por investigadores do Stanford Vision and Learning Lab, ImageNet resolveu este problema de escassez de dados. Ganhou proeminência mundial através do ImageNet Large Scale Visual Recognition Challenge (ILSVRC), um concurso anual competição anual que decorreu de 2010 a 2017.

Este concurso tornou-se o campo de ensaio de arquitecturas famosas. Em 2012, a arquitetura arquitetura AlexNet venceu o concurso por uma margem significativa utilizando uma Rede Neuronal Convolucional (CNN), provando a viabilidade da aprendizagem profunda em unidades de processamento gráfico (GPU). Nos anos seguintes, assistiu-se ao aparecimento de modelos mais profundos e complexos, como o VGG e ResNet, que reduziram ainda mais as taxas de erro e ultrapassaram o desempenho a nível humano em tarefas de classificação específicas.

Aprendizagem por transferência e pré-treino

Embora ImageNet seja um conjunto de dados, a sua utilidade mais prática atualmente reside na aprendizagem por transferência. Treinar uma rede neural profunda profunda a partir do zero requer quantidades enormes de dados de treino e poder computacional. Em vez disso, os programadores utilizam frequentemente modelos que já foram "pré-treinados" no ImageNet.

Como ImageNet abrange uma vasta gama de mais de 20.000 categorias - desde raças de cães a artigos domésticos - um modelo treinado nele aprende representações de caraterísticas ricas e de alto nível. Estas caraterísticas aprendidas actuam como uma poderosa poderosa para novos modelos. Ao ajustando esses pesos pré-treinados, os desenvolvedores podem alcançar uma elevada precisão nos seus conjuntos de dados personalizados específicos com um número significativamente menor de imagens.

Aplicações no Mundo Real

A influência do ImageNet estende-se a praticamente todos os sectores que utilizam inteligência artificial (IA).

  1. Diagnóstico médico: Na análise de imagens médicas, os dados rotulados são são muitas vezes escassos e dispendiosos de obter. Os investigadores utilizam modelos pré-treinados no ImageNet para identificar formas e texturas gerais e texturas gerais e, em seguida, afinam-nos para detect tumores ou fracturas em raios X. Esta abordagem acelera o desenvolvimento da IA que salva vidas em ferramentas de cuidados de saúde.
  2. Sistemas de retalho inteligentes: Os sistemas de caixa automatizados dependem da identificação de milhares de produtos. Em vez de em vez de recolher milhões de imagens de caixas de cereais, os engenheiros utilizam classificadores ImageNet para reconhecer formas básicas de produtos e marcas. Isso permite uma rápida rápida implementação de modelos para uma IA na gestão do inventário de retalho.

Utilizar modelos pré-treinados ImageNet

Os programadores podem aceder facilmente a modelos pré-treinados no ImageNet utilizando a biblioteca Ultralytics . O seguinte exemplo demonstra como carregar um modelo YOLO11 que vem com pesos do ImageNet por padrão, e usá-lo para prever o modelo de classificação YOLO11 que vem com pesos ImageNet por padrão, e usá-lo para prever a classe de uma imagem.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet vs. COCO

É importante distinguir ImageNet do conjunto de dados conjunto de dados COCO (Objectos Comuns em Contexto).

  • ImageNet é principalmente uma referência para a classificação de imagens, em que o objetivo é atribuir uma única etiqueta (por exemplo, "gato malhado") a uma imagem inteira. As anotações centram-se no o que está na imagem.
  • COCO é o padrão de referência para deteção de objectos e segmentação de instâncias. Contém menos imagens totais, mas oferece anotações complexas com com caixas delimitadoras e máscaras de píxeis para múltiplos objectos por imagem, concentrando-se na localização dos objectos.

Enquanto ImageNet é utilizado para ensinar os modelos a "ver", conjuntos de dados como o COCO são utilizados para os ensinar a localizar e separar objectos em cenas complexas. Muitas vezes, o codificador de um modelo é pré-treinado no ImageNet antes de ser treinado no COCO para tarefas de deteção.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora