Glosario

ImageNet

Descubra ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes y que potencia la investigación, los modelos y las aplicaciones de IA.

ImageNet es un enorme conjunto de datos de acceso público con más de 14 millones de imágenes que han sido anotadas a mano para indicar qué objetos representan. Organizada según la jerarquía WordNet, contiene más de 20 000 categorías, y una categoría típica, como "globo" o "fresa", consta de varios cientos de imágenes. Esta vasta y diversa colección ha sido fundamental para el avance de los campos de la visión por ordenador (CV) y el aprendizaje profundo (DL), sirviendo como estándar para el entrenamiento y la evaluación comparativa de modelos.

La creación de ImageNet por investigadores de la Universidad de Stanford fue un momento crucial para la inteligencia artificial (IA). Antes de ImageNet, los conjuntos de datos eran a menudo demasiado pequeños para entrenar redes neuronales (NN) complejas con eficacia, lo que provocaba problemas como el sobreajuste. ImageNet proporcionó la escala necesaria para entrenar modelos profundos, allanando el camino para la revolución moderna de la IA. Puede obtener más información leyendo el documento de investigación original de ImageNet.

Desafío de reconocimiento visual a gran escala de Imagenet (ILSVRC)

La influencia de ImageNet se amplificó con el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competición anual celebrada entre 2010 y 2017. Este reto se convirtió en una referencia crucial para evaluar el rendimiento de los algoritmos de visión por ordenador. En 2012, una red neuronal convolucional (CNN ) llamada AlexNet logró una victoria innovadora, superando significativamente a todos los modelos anteriores. Este éxito demostró el poder del aprendizaje profundo y la computación en la GPU, desencadenando una ola de innovación en este campo. El ILSVRC ha sido un motor clave en el desarrollo de muchas arquitecturas modernas, y puedes ver el rendimiento de los modelos actuales en diversas pruebas de referencia en sitios como Papers with Code.

Aplicaciones reales de Imagenet

ImageNet se utiliza principalmente como recurso para el preentrenamiento de modelos. Al entrenar un modelo en este vasto conjunto de datos, aprende a reconocer un rico conjunto de características visuales. Este conocimiento puede transferirse a tareas nuevas y más específicas. Esta técnica se conoce como aprendizaje por transferencia.

  1. Análisis de imágenes médicas: Un modelo preentrenado en ImageNet, como el modelo YOLO de Ultralytics, puede perfeccionarse en un conjunto de datos mucho más pequeño y especializado de exploraciones médicas para detectar afecciones específicas como tumores. El entrenamiento inicial en ImageNet proporciona una base sólida de comprensión visual general, que es crucial para lograr una gran precisión en tareas de análisis de imágenes médicas en las que escasean los datos etiquetados. Se trata de una aplicación clave de la IA en la atención sanitaria.
  2. Reconocimiento de productos en el comercio minorista: En el comercio minorista, los modelos pueden adaptarse para identificar miles de productos diferentes en una estantería para la gestión automatizada del inventario. En lugar de entrenar desde cero, un modelo preentrenado en ImageNet puede adaptarse rápidamente a los productos específicos de una tienda. Esto reduce la necesidad de grandes cantidades de datos de entrenamiento personalizados y acelera el despliegue del modelo. Muchas potentes soluciones de IA en el comercio minorista aprovechan este enfoque.

Imagenet frente a conceptos relacionados

Es importante diferenciar ImageNet de otros términos y conjuntos de datos relacionados:

  • ImageNet frente a tareas de CV: ImageNet es un conjunto de datos:una colección de imágenes etiquetadas. No es una tarea. En cambio, se utiliza para entrenar y evaluar modelos que realizan tareas como la clasificación de imágenes, en la que se asigna una única etiqueta a una imagen. Esto difiere de la detección de objetos, que implica localizar objetos con cuadros delimitadores, o de la segmentación de imágenes, que clasifica cada píxel de una imagen.
  • ImageNet frente a COCO: aunque ImageNet es el patrón oro para la clasificación, otros conjuntos de datos de visión por ordenador son más adecuados para otras tareas. El conjunto de datos COCO (Common Objects in Context), por ejemplo, es la referencia preferida para la detección de objetos y la segmentación de instancias. Esto se debe a que COCO proporciona anotaciones más detalladas, como cuadros delimitadores y máscaras de segmentación por píxel para múltiples objetos en cada imagen. En cambio, la mayoría de las imágenes de ImageNet sólo tienen una etiqueta a nivel de imagen.

Los modelos como YOLO11 a menudo se entrenan previamente en ImageNet para su base de clasificación antes de entrenarse en COCO para las tareas de detección. Este proceso de entrenamiento en varias fases aprovecha los puntos fuertes de ambos conjuntos de datos. En nuestras páginas de comparación de modelos puede ver cómo se comparan los distintos modelos en estas pruebas de referencia. Aunque es muy influyente, cabe señalar que ImageNet tiene limitaciones, como los conocidos sesgos del conjunto de datos, que es importante tener en cuenta desde una perspectiva ética de la IA.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles