Descubre ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes, potenciando la investigación, los modelos y las aplicaciones de IA.
ImageNet es un conjunto de datos fundacional muy grande, ampliamente utilizado en la investigación y el desarrollo de la visión por ordenador (VC). Contiene más de 14 millones de imágenes que han sido anotadas manualmente para indicar los objetos fotografiados. Estas imágenes están organizadas según la jerarquía WordNet, una gran base de datos léxica de sustantivos, verbos, adjetivos y adverbios English agrupados en conjuntos de sinónimos cognitivos (synsets). Con más de 20.000 categorías, ImageNet proporciona un recurso rico y diverso para entrenar y evaluar modelos de aprendizaje automático (AM ), en particular para tareas como la clasificación y el reconocimiento de imágenes. Su enorme escala y sus detalladas anotaciones han sido cruciales para el avance del campo de la inteligencia artificial (IA). Puedes obtener más información sobre el uso del conjunto de datos con los modelos Ultralytics en la página de documentación del conjunto de datos ImageNet.
La introducción de ImageNet marcó un momento crucial para el aprendizaje profundo (AD), especialmente en visión por ordenador. Antes de ImageNet, la falta de conjuntos de datos grandes, diversos y bien etiquetados era un importante cuello de botella que obstaculizaba el progreso. Los conjuntos de datos de alta calidad como ImageNet permitieron el entrenamiento de modelos mucho más profundos y complejos, como las Redes Neuronales Convolucionales (CNN), lo que condujo a importantes avances en las tareas de comprensión visual. El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC), que se celebró de 2010 a 2017, utilizó un subconjunto de ImageNet y se convirtió en el conjunto de datos de referencia estándar para evaluar la clasificación de imágenes y los algoritmos de detección de objetos. Modelos revolucionarios como AlexNet y ResNet, que obtuvieron resultados de vanguardia en ImageNet, influyeron enormemente en las arquitecturas modernas de CV y demostraron la potencia del aprendizaje profundo en datos a gran escala. El documento original del ILSVRC proporciona más detalles sobre el reto y su impacto.
La principal aplicación de ImageNet es servir como punto de referencia estándar para evaluar el rendimiento(precisión, velocidad) de nuevos modelos y algoritmos de visión por ordenador, en particular para la clasificación de imágenes. Su adopción generalizada permite a los investigadores comparar los resultados de forma equitativa. Más allá de la evaluación comparativa, ImageNet se utiliza ampliamente para el preentrenamiento de modelos. El preentrenamiento consiste en entrenar primero un modelo en el amplio y general conjunto de datos ImageNet, lo que le permite aprender características visuales sólidas. Estos modelos preentrenados, a menudo disponibles a través de marcos como PyTorch y TensorFlowpueden afinarse en conjuntos de datos más pequeños y específicos para diversas tareas posteriores utilizando el aprendizaje por transferencia. Esto reduce significativamente la cantidad de datos y cálculos necesarios para la tarea de destino y a menudo conduce a un mejor rendimiento, especialmente cuando el conjunto de datos de destino es pequeño. Muchos Ultralytics YOLO por ejemplo, aprovechan las estrategias de preentrenamiento. Plataformas como Ultralytics HUB facilitan el proceso de entrenamiento de los modelos mediante tales técnicas.
El impacto de ImageNet va mucho más allá de la investigación académica y se extiende a las aplicaciones prácticas:
Es importante distinguir ImageNet de las tareas que soporta y de otros conjuntos de datos relacionados:
Aunque es increíblemente influyente, ImageNet también tiene limitaciones, como los posibles sesgos del conjunto de datos que reflejan el período y las fuentes de recopilación de datos, lo cual es una consideración importante en la ética de la IA.