Descubra ImageNet, el innovador conjunto de datos que impulsa los avances de la visión artificial con más de 14 millones de imágenes, potenciando la investigación, los modelos y las aplicaciones de la IA.
ImageNet es un conjunto de datos masivo y de acceso público de más de 14 millones de imágenes que han sido anotadas manualmente para indicar qué objetos representan. Organizado de acuerdo con la jerarquía de WordNet, contiene más de 20,000 categorías, con una categoría típica, como "globo" o "fresa", que consta de varios cientos de imágenes. Esta vasta y diversa colección ha sido fundamental para avanzar en los campos de la visión artificial (CV) y el aprendizaje profundo (DL), sirviendo como un estándar para el entrenamiento y la evaluación comparativa de modelos.
La creación de ImageNet por investigadores de la Universidad de Stanford fue un momento crucial para la inteligencia artificial (IA). Antes de ImageNet, los conjuntos de datos a menudo eran demasiado pequeños para entrenar redes neuronales (NN) complejas de manera efectiva, lo que conducía a problemas como el sobreajuste. ImageNet proporcionó la escala necesaria para entrenar modelos profundos, allanando el camino para la revolución moderna de la IA. Puede obtener más información leyendo el artículo de investigación original de ImageNet.
La influencia de ImageNet se vio amplificada por el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competición anual celebrada entre 2010 y 2017. Este desafío se convirtió en un punto de referencia crucial para evaluar el rendimiento de los algoritmos de visión artificial. En 2012, una red neuronal convolucional (CNN) llamada AlexNet logró una victoria sin precedentes, superando significativamente a todos los modelos anteriores. Este éxito demostró el poder del aprendizaje profundo y la computación con GPU, lo que desató una ola de innovación en el campo. El ILSVRC ha sido un impulsor clave en el desarrollo de muchas arquitecturas modernas, y se puede ver cómo los modelos actuales se comportan en varios puntos de referencia en sitios como Papers with Code.
El uso principal de ImageNet es como un recurso para modelos de preentrenamiento. Al entrenar un modelo en este vasto conjunto de datos, aprende a reconocer un rico conjunto de características visuales. Este conocimiento puede luego transferirse a tareas nuevas y más específicas. Esta técnica se conoce como aprendizaje por transferencia.
Es importante diferenciar ImageNet de otros términos y conjuntos de datos relacionados:
Modelos como YOLO11 a menudo se preentrenan en ImageNet para su backbone de clasificación antes de ser entrenados en COCO para tareas de detección. Este proceso de entrenamiento multietapa aprovecha las fortalezas de ambos conjuntos de datos. Puede ver cómo se comparan los diferentes modelos en estos benchmarks en nuestras páginas de comparación de modelos. Si bien es muy influyente, vale la pena señalar que ImageNet tiene limitaciones, incluidos los sesgos conocidos del conjunto de datos que son importantes tener en cuenta desde una perspectiva de ética de la IA.