Descubra o ImageNet, o conjunto de dados inovador que está a impulsionar os avanços da visão computacional com mais de 14 milhões de imagens, alimentando a investigação, os modelos e as aplicações de IA.
ImageNet é uma base de dados visual maciça e amplamente citada, concebida para ser utilizada na investigação de software de reconhecimento de objectos visuais. Contém mais de 14 milhões de imagens que foram anotadas à mão para indicar quais os objectos retratados e, em mais de um milhão de imagens, onde os objectos estão localizados com caixas delimitadoras. Organizado de acordo com a hierarquia hierarquia do WordNet, ImageNet mapeia imagens para conceitos específicos ou específicos ou "synsets", tornando-o um recurso fundamental para a formação e avaliação de modelos de visão computacional (CV). A sua imensa escala e diversidade permitiram aos investigadores ir além das experiências de pequena escala, dando efetivamente o pontapé de saída para a era moderna da aprendizagem profunda (DL).
Antes do ImageNet, os investigadores debatiam-se com conjuntos de dados demasiado pequenos para treinar redes neurais profundas redes neurais profundas (NN) sem encontrar sobreajuste. Criado por investigadores do Stanford Vision and Learning Lab, ImageNet resolveu este problema de escassez de dados. Ganhou proeminência mundial através do ImageNet Large Scale Visual Recognition Challenge (ILSVRC), um concurso anual competição anual que decorreu de 2010 a 2017.
Este concurso tornou-se o campo de ensaio de arquitecturas famosas. Em 2012, a arquitetura arquitetura AlexNet venceu o concurso por uma margem significativa utilizando uma Rede Neuronal Convolucional (CNN), provando a viabilidade da aprendizagem profunda em unidades de processamento gráfico (GPU). Nos anos seguintes, assistiu-se ao aparecimento de modelos mais profundos e complexos, como o VGG e ResNet, que reduziram ainda mais as taxas de erro e ultrapassaram o desempenho a nível humano em tarefas de classificação específicas.
Embora ImageNet seja um conjunto de dados, a sua utilidade mais prática atualmente reside na aprendizagem por transferência. Treinar uma rede neural profunda profunda a partir do zero requer quantidades enormes de dados de treino e poder computacional. Em vez disso, os programadores utilizam frequentemente modelos que já foram "pré-treinados" no ImageNet.
Como ImageNet abrange uma vasta gama de mais de 20.000 categorias - desde raças de cães a artigos domésticos - um modelo treinado nele aprende representações de caraterísticas ricas e de alto nível. Estas caraterísticas aprendidas actuam como uma poderosa poderosa para novos modelos. Ao ajustando esses pesos pré-treinados, os desenvolvedores podem alcançar uma elevada precisão nos seus conjuntos de dados personalizados específicos com um número significativamente menor de imagens.
A influência do ImageNet estende-se a praticamente todos os sectores que utilizam inteligência artificial (IA).
Os programadores podem aceder facilmente a modelos pré-treinados no ImageNet utilizando a biblioteca Ultralytics . O seguinte exemplo demonstra como carregar um modelo YOLO11 que vem com pesos do ImageNet por padrão, e usá-lo para prever o modelo de classificação YOLO11 que vem com pesos ImageNet por padrão, e usá-lo para prever a classe de uma imagem.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
É importante distinguir ImageNet do conjunto de dados conjunto de dados COCO (Objectos Comuns em Contexto).
Enquanto ImageNet é utilizado para ensinar os modelos a "ver", conjuntos de dados como o COCO são utilizados para os ensinar a localizar e separar objectos em cenas complexas. Muitas vezes, o codificador de um modelo é pré-treinado no ImageNet antes de ser treinado no COCO para tarefas de deteção.