Descubra ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes y que potencia la investigación, los modelos y las aplicaciones de IA.
ImageNet es una base de datos visuales masiva y ampliamente citada, diseñada para su uso en la investigación de software de reconocimiento visual de objetos. Contiene más de 14 millones de imágenes que han sido anotadas a mano para indicar qué objetos aparecen en ellas y, en más de un millón de imágenes, dónde se encuentran con recuadros delimitadores. en más de un millón de imágenes, dónde se encuentran los objetos con recuadros delimitadores. Organizada según la jerarquía jerarquía de WordNet, ImageNet asigna imágenes a conceptos específicos o conceptos o "synsets", lo que la convierte en un recurso fundamental para modelos de visión por ordenador (VC ). Su inmensa escala Su inmensa escala y diversidad permitió a los investigadores ir más allá de los experimentos a pequeña escala, dando el pistoletazo de salida a la era moderna del aprendizaje profundo (deep learning, DL). aprendizaje profundo (AD).
Antes de ImageNet, los investigadores se enfrentaban a conjuntos de datos demasiado pequeños para entrenar redes neuronales profundas (NN) sin encontrar problemas. redes neuronales profundas (NN) sin sobreajuste. Creada por investigadores del Stanford Vision and Learning Lab, ImageNet resolvió este problema de escasez de datos. Ganó fama mundial gracias a la ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competición competición anual que se celebró de 2010 a 2017.
Este concurso se convirtió en el campo de pruebas de famosas arquitecturas. En 2012, la arquitectura arquitectura AlexNet ganó el concurso por un margen significativo utilizando una Convolutional Neural Network (CNN), demostrando la viabilidad del aprendizaje profundo en unidades de procesamiento gráfico (GPU). En los años siguientes surgieron modelos más profundos y complejos como VGG y ResNet, que redujeron aún más las tasas de error y superaron el rendimiento humano en tareas de clasificación específicas.
Aunque ImageNet es un conjunto de datos, su mayor utilidad práctica hoy en día reside en el aprendizaje por transferencia. Entrenar una red neuronal profunda desde cero requiere grandes cantidades de datos de entrenamiento y potencia de cálculo. Por eso los desarrolladores suelen utilizar modelos que ya han sido "preentrenados" en ImageNet.
Dado que ImageNet abarca una amplia gama de más de 20.000 categorías (desde razas de perros hasta artículos domésticos), un modelo entrenado en ella aprende representaciones de características ricas y de alto nivel. Estas características aprendidas actúan como columna vertebral de los nuevos modelos. En mediante el ajuste de estos pesos preentrenados, los desarrolladores pueden lograr una alta precisión en sus conjuntos de datos personalizados específicos con un número significativamente menor de imágenes.
La influencia de ImageNet se extiende a prácticamente todos los sectores que utilizan la inteligencia artificial (IA).
Los desarrolladores pueden acceder fácilmente a modelos preentrenados en ImageNet utilizando la biblioteca Ultralytics . El siguiente ejemplo muestra cómo cargar un modelo YOLO11 modelo de clasificación, que viene con los pesos de ImageNet por defecto, y utilizarlo para predecir la clase de una imagen.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Es importante distinguir ImageNet del conjunto de datos COCO (Common Objects in Context).
Mientras que ImageNet se utiliza para enseñar a los modelos "cómo ver", conjuntos de datos como COCO se utilizan para enseñarles a localizar y separar objetos en escenas complejas. A menudo, el codificador de un modelo se entrena previamente en ImageNet antes de entrenarse en COCO para tareas de detección. COCO para tareas de detección.