¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

ImageNet

Descubra ImageNet, el innovador conjunto de datos que impulsa los avances de la visión artificial con más de 14 millones de imágenes, potenciando la investigación, los modelos y las aplicaciones de la IA.

ImageNet es un conjunto de datos masivo y de acceso público de más de 14 millones de imágenes que han sido anotadas manualmente para indicar qué objetos representan. Organizado de acuerdo con la jerarquía de WordNet, contiene más de 20,000 categorías, con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. Esta vasta y diversa colección ha sido fundamental para avanzar en los campos de la visión artificial (CV) y el aprendizaje profundo (DL), sirviendo como un estándar para el entrenamiento y la evaluación comparativa de modelos.

La creación de ImageNet por investigadores de la Universidad de Stanford fue un momento crucial para la inteligencia artificial (IA). Antes de ImageNet, los conjuntos de datos a menudo eran demasiado pequeños para entrenar redes neuronales (NN) complejas de manera efectiva, lo que conducía a problemas como el sobreajuste. ImageNet proporcionó la escala necesaria para entrenar modelos profundos, allanando el camino para la revolución moderna de la IA. Puede obtener más información leyendo el artículo de investigación original de ImageNet.

El desafío Imagenet Large Scale Visual Recognition Challenge (ILSVRC)

La influencia de ImageNet se vio amplificada por el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competición anual celebrada entre 2010 y 2017. Este desafío se convirtió en un punto de referencia crucial para evaluar el rendimiento de los algoritmos de visión artificial. En 2012, una red neuronal convolucional (CNN) llamada AlexNet logró una victoria sin precedentes, superando significativamente a todos los modelos anteriores. Este éxito demostró el poder del aprendizaje profundo y la computación con GPU, lo que desató una ola de innovación en el campo. El ILSVRC ha sido un impulsor clave en el desarrollo de muchas arquitecturas modernas, y se puede ver cómo los modelos actuales se comportan en varios puntos de referencia en sitios como Papers with Code.

Aplicaciones del mundo real de Imagenet

El uso principal de ImageNet es como un recurso para modelos de preentrenamiento. Al entrenar un modelo en este vasto conjunto de datos, aprende a reconocer un rico conjunto de características visuales. Este conocimiento puede luego transferirse a tareas nuevas y más específicas. Esta técnica se conoce como aprendizaje por transferencia.

  1. Análisis de imágenes médicas: Un modelo pre-entrenado en ImageNet, como un modelo Ultralytics YOLO, puede ser ajustado en un conjunto de datos mucho más pequeño y especializado de escaneos médicos para detectar condiciones específicas como tumores. El entrenamiento inicial en ImageNet proporciona una base sólida de comprensión visual general, que es crucial para lograr una alta precisión en las tareas de análisis de imágenes médicas donde los datos etiquetados son escasos. Esta es una aplicación clave para la IA en la atención médica.
  2. Reconocimiento de productos en el sector minorista: En el comercio minorista, los modelos se pueden adaptar para identificar miles de productos diferentes en un estante para la gestión automatizada del inventario. En lugar de entrenar desde cero, un modelo pre-entrenado en ImageNet se puede adaptar rápidamente a los productos específicos de una tienda. Esto reduce la necesidad de cantidades masivas de datos de entrenamiento personalizados y acelera la implementación del modelo. Muchas soluciones potentes de IA en el sector minorista aprovechan este enfoque.

Imagenet vs. Conceptos relacionados

Es importante diferenciar ImageNet de otros términos y conjuntos de datos relacionados:

  • ImageNet vs. Tareas de CV: ImageNet en sí mismo es un conjunto de datos, una colección de imágenes etiquetadas. No es una tarea. En cambio, se utiliza para entrenar y evaluar modelos que realizan tareas como la clasificación de imágenes, donde se asigna una sola etiqueta a una imagen. Esto difiere de la detección de objetos, que implica la localización de objetos con bounding boxes, o la segmentación de imágenes, que clasifica cada píxel en una imagen.
  • ImageNet vs. COCO: Si bien ImageNet es el estándar de oro para la clasificación, otros conjuntos de datos de visión artificial son más adecuados para otras tareas. El conjunto de datos COCO (Objetos comunes en contexto), por ejemplo, es el benchmark preferido para la detección de objetos y la segmentación de instancias. Esto se debe a que COCO proporciona anotaciones más detalladas, como bounding boxes y máscaras de segmentación por píxel para múltiples objetos en cada imagen. En contraste, la mayoría de las imágenes de ImageNet tienen solo una única etiqueta a nivel de imagen.

Modelos como YOLO11 a menudo se preentrenan en ImageNet para su backbone de clasificación antes de ser entrenados en COCO para tareas de detección. Este proceso de entrenamiento multietapa aprovecha las fortalezas de ambos conjuntos de datos. Puede ver cómo se comparan los diferentes modelos en estos benchmarks en nuestras páginas de comparación de modelos. Si bien es muy influyente, vale la pena señalar que ImageNet tiene limitaciones, incluidos los sesgos conocidos del conjunto de datos que son importantes tener en cuenta desde una perspectiva de ética de la IA.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles