Glosario

ImageNet

Descubre ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes, potenciando la investigación, los modelos y las aplicaciones de IA.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

ImageNet es un conjunto de datos fundacional muy grande, ampliamente utilizado en la investigación y el desarrollo de la visión por ordenador (VC). Contiene más de 14 millones de imágenes que han sido anotadas manualmente para indicar los objetos fotografiados. Estas imágenes están organizadas según la jerarquía WordNet, una gran base de datos léxica de sustantivos, verbos, adjetivos y adverbios English agrupados en conjuntos de sinónimos cognitivos (synsets). Con más de 20.000 categorías, ImageNet proporciona un recurso rico y diverso para entrenar y evaluar modelos de aprendizaje automático (AM ), en particular para tareas como la clasificación y el reconocimiento de imágenes. Su enorme escala y sus detalladas anotaciones han sido cruciales para el avance del campo de la inteligencia artificial (IA). Puedes obtener más información sobre el uso del conjunto de datos con los modelos Ultralytics en la página de documentación del conjunto de datos ImageNet.

Importancia y relevancia

La introducción de ImageNet marcó un momento crucial para el aprendizaje profundo (AD), especialmente en visión por ordenador. Antes de ImageNet, la falta de conjuntos de datos grandes, diversos y bien etiquetados era un importante cuello de botella que obstaculizaba el progreso. Los conjuntos de datos de alta calidad como ImageNet permitieron el entrenamiento de modelos mucho más profundos y complejos, como las Redes Neuronales Convolucionales (CNN), lo que condujo a importantes avances en las tareas de comprensión visual. El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que se celebró de 2010 a 2017, utilizó un subconjunto de ImageNet y se convirtió en el conjunto de datos de referencia estándar para evaluar la clasificación de imágenes y los algoritmos de detección de objetos. Modelos revolucionarios como AlexNet y ResNet, que obtuvieron resultados de vanguardia en ImageNet, influyeron enormemente en las arquitecturas modernas de CV y demostraron la potencia del aprendizaje profundo en datos a gran escala. El documento original del ILSVRC proporciona más detalles sobre el reto y su impacto.

Aplicaciones de ImageNet

La principal aplicación de ImageNet es servir como punto de referencia estándar para evaluar el rendimiento(precisión, velocidad) de nuevos modelos y algoritmos de visión por ordenador, en particular para la clasificación de imágenes. Su adopción generalizada permite a los investigadores comparar los resultados de forma equitativa. Más allá de la evaluación comparativa, ImageNet se utiliza ampliamente para el preentrenamiento de modelos. El preentrenamiento consiste en entrenar primero un modelo en el amplio y general conjunto de datos ImageNet, lo que le permite aprender características visuales sólidas. Estos modelos preentrenados, a menudo disponibles a través de marcos como PyTorch y TensorFlowpueden afinarse en conjuntos de datos más pequeños y específicos para diversas tareas posteriores utilizando el aprendizaje por transferencia. Esto reduce significativamente la cantidad de datos y cálculos necesarios para la tarea de destino y a menudo conduce a un mejor rendimiento, especialmente cuando el conjunto de datos de destino es pequeño. Muchos Ultralytics YOLO por ejemplo, aprovechan las estrategias de preentrenamiento. Plataformas como Ultralytics HUB facilitan el proceso de entrenamiento de los modelos mediante tales técnicas.

Ejemplos reales

El impacto de ImageNet va mucho más allá de la investigación académica y se extiende a las aplicaciones prácticas:

  • Análisis de imágenes médicas: Los modelos preentrenados en ImageNet suelen afinarse para tareas especializadas en el análisis de imágenes médicas. Aunque las imágenes médicas difieren significativamente de las fotos de ImageNet, las características visuales fundamentales aprendidas (como bordes, texturas, formas básicas) proporcionan un sólido punto de partida. Este enfoque acelera el desarrollo de herramientas de IA para tareas como la detección de tumores en imágenes médicas o la identificación de anomalías en radiografías o tomografías computarizadas, contribuyendo a los avances de la IA en la atención sanitaria.
  • Sistemas autónomos: Los sistemas de percepción de los vehículos autónomos y la robótica dependen en gran medida de la identificación precisa de objetos como peatones, coches, señales de tráfico y obstáculos. El preentrenamiento de los componentes de reconocimiento de objetos de estos sistemas en ImageNet les ayuda a aprender características generales de los objetos, mejorando su robustez y fiabilidad cuando se ajustan con datos específicos de la conducción o del entorno operativo. Esto contribuye al desarrollo de tecnologías como las utilizadas por Waymo e integradas en soluciones de IA en automoción.

ImageNet vs. Conceptos relacionados

Es importante distinguir ImageNet de las tareas que soporta y de otros conjuntos de datos relacionados:

  • ImageNet vs. Tareas CV: ImageNet en sí es un conjunto de datos, una colección de imágenes etiquetadas. No es una tarea como la Clasificación de Imágenes (asignar una única etiqueta a una imagen), la Detección de Objetos (localizar objetos con cuadros delimitadores) o la Segmentación de Imágenes (asignar una etiqueta a cada píxel, incluyendo la segmentación de instancias y la segmentación semántica). En cambio, ImageNet se utiliza principalmente para entrenar y evaluar modelos que realizan estas tareas, especialmente la clasificación.
  • ImageNet vs. COCO: Aunque ImageNet es el estándar para la clasificación, los conjuntos de datos como COCO (Common Objects in Context) se utilizan más comúnmente para evaluar la detección y segmentación de objetos. Esto se debe a que COCO incluye anotaciones más detalladas necesarias para estas tareas, como cuadros delimitadores precisos y máscaras de segmentación por píxel para múltiples objetos por imagen, mientras que ImageNet proporciona principalmente etiquetas a nivel de imagen (aunque existen algunos datos de localización de objetos). Ultralytics admite diversos conjuntos de datos de visión por ordenador para diferentes tareas.

Aunque es increíblemente influyente, ImageNet también tiene limitaciones, como los posibles sesgos del conjunto de datos que reflejan el período y las fuentes de recopilación de datos, lo cual es una consideración importante en la ética de la IA.

Leer todo