Descubra ImageNet, el revolucionario conjunto de datos que impulsa los avances en visión por ordenador con más de 14 millones de imágenes y que potencia la investigación, los modelos y las aplicaciones de IA.
ImageNet es un enorme conjunto de datos de acceso público con más de 14 millones de imágenes que han sido anotadas a mano para indicar qué objetos representan. Organizada según la jerarquía WordNet, contiene más de 20 000 categorías, y una categoría típica, como "globo" o "fresa", consta de varios cientos de imágenes. Esta vasta y diversa colección ha sido fundamental para el avance de los campos de la visión por ordenador (CV) y el aprendizaje profundo (DL), sirviendo como estándar para el entrenamiento y la evaluación comparativa de modelos.
La creación de ImageNet por investigadores de la Universidad de Stanford fue un momento crucial para la inteligencia artificial (IA). Antes de ImageNet, los conjuntos de datos eran a menudo demasiado pequeños para entrenar redes neuronales (NN) complejas con eficacia, lo que provocaba problemas como el sobreajuste. ImageNet proporcionó la escala necesaria para entrenar modelos profundos, allanando el camino para la revolución moderna de la IA. Puede obtener más información leyendo el documento de investigación original de ImageNet.
La influencia de ImageNet se amplificó con el ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competición anual celebrada entre 2010 y 2017. Este reto se convirtió en una referencia crucial para evaluar el rendimiento de los algoritmos de visión por ordenador. En 2012, una red neuronal convolucional (CNN ) llamada AlexNet logró una victoria innovadora, superando significativamente a todos los modelos anteriores. Este éxito demostró el poder del aprendizaje profundo y la computación en la GPU, desencadenando una ola de innovación en este campo. El ILSVRC ha sido un motor clave en el desarrollo de muchas arquitecturas modernas, y puedes ver el rendimiento de los modelos actuales en diversas pruebas de referencia en sitios como Papers with Code.
ImageNet se utiliza principalmente como recurso para el preentrenamiento de modelos. Al entrenar un modelo en este vasto conjunto de datos, aprende a reconocer un rico conjunto de características visuales. Este conocimiento puede transferirse a tareas nuevas y más específicas. Esta técnica se conoce como aprendizaje por transferencia.
Es importante diferenciar ImageNet de otros términos y conjuntos de datos relacionados:
Los modelos como YOLO11 a menudo se entrenan previamente en ImageNet para su base de clasificación antes de entrenarse en COCO para las tareas de detección. Este proceso de entrenamiento en varias fases aprovecha los puntos fuertes de ambos conjuntos de datos. En nuestras páginas de comparación de modelos puede ver cómo se comparan los distintos modelos en estas pruebas de referencia. Aunque es muy influyente, cabe señalar que ImageNet tiene limitaciones, como los conocidos sesgos del conjunto de datos, que es importante tener en cuenta desde una perspectiva ética de la IA.