Exploración de los mejores conjuntos de datos de visión por ordenador en 2025

Abirami Vina

5 minutos de lectura

21 de febrero de 2025

Acompáñenos en este análisis de los mejores conjuntos de datos de visión por ordenador de 2025. Descubra cómo los conjuntos de datos diversos y de alta calidad impulsan soluciones de IA de visión más inteligentes.

¿Sabías que los datos intervienen en casi todo lo que haces a diario? Ver un vídeo, hacer una foto o consultar Google Maps contribuye al flujo constante de información captada por más de 75.000 millones de dispositivos conectados. Estos datos constituyen la base de la inteligencia artificial (IA). De hecho, los modelos avanzados de visión por ordenador como Ultralytics YOLO11 se basan en datos visuales para identificar patrones, interpretar imágenes y dar sentido al mundo que nos rodea.

Curiosamente, el valor de los datos no es sólo cuantitativo. Es más importante lo bien que estén organizados y preparados. Si un conjunto de datos está desordenado o incompleto, puede dar lugar a errores. Sin embargo, cuando los conjuntos de datos están limpios y son diversos, ayudan a que los modelos de visión por ordenador funcionen mejor, tanto si se trata de reconocer objetos en una multitud como de analizar imágenes complejas. Los conjuntos de datos de alta calidad marcan la diferencia.

En este artículo, exploraremos los mejores conjuntos de datos de visión por ordenador de 2025 y veremos cómo contribuyen a crear modelos de visión por ordenador más precisos y eficientes. Empecemos.

¿Qué son los conjuntos de datos de visión artificial?

Un conjunto de datos de visión por ordenador es una colección de imágenes o vídeos que ayudan a los sistemas de visión por ordenador a aprender a comprender y reconocer la información visual. Estos conjuntos de datos incluyen etiquetas o anotaciones que ayudan a los modelos a reconocer objetos, personas, escenas y patrones en los datos.

Pueden utilizarse para entrenar modelos de visión por ordenador, ayudándoles a mejorar tareas como la identificación de rostros, la detección de objetos o el análisis de escenas. Cuanto mejor sea el conjunto de datos -bien organizado, diverso y preciso-, mejor será el rendimiento del modelo de IA de visión, lo que dará lugar a una tecnología más inteligente y útil en la vida cotidiana.

Cómo crear un conjunto de datos de visión por ordenador

Crear un conjunto de datos de visión por ordenador es como preparar unos apuntes de estudio para enseñar a alguien a ver y entender el mundo. Todo comienza con la recopilación de imágenes y vídeos que se ajusten a la aplicación específica que estás desarrollando. 

Un conjunto de datos ideal incluye diversos ejemplos de los objetos de interés, capturados desde distintos ángulos, bajo diversas condiciones de iluminación y a través de múltiples fondos y entornos. Esta variedad garantiza que el modelo de visión por ordenador aprenda a reconocer patrones con precisión y funcione con fiabilidad en situaciones reales.

__wf_reserved_inherit
Fig. 1. Creación del conjunto de datos de visión perfecta. Imagen del autor.

Tras recopilar las imágenes y vídeos pertinentes, el siguiente paso es el etiquetado de los datos. Este proceso consiste en añadir etiquetas, anotaciones o descripciones a los datos para que la IA pueda entender qué contiene cada imagen o vídeo. 

Las etiquetas pueden incluir nombres de objetos, ubicaciones, límites u otros detalles relevantes que ayuden a entrenar el modelo para que reconozca e interprete la información visual con precisión. El etiquetado de datos transforma una simple colección de imágenes en un conjunto de datos estructurados que pueden utilizarse para entrenar un modelo de visión por ordenador.

El entrenamiento de modelos requiere datos de alta calidad

Quizá se pregunte qué hace que un conjunto de datos sea de alta calidad. Hay muchos factores implicados, como el etiquetado preciso, la diversidad y la coherencia. Por ejemplo, si varios anotadores etiquetan un conjunto de datos de detección de objetos para identificar orejas de gato, es posible que uno las etiquete como parte de la cabeza mientras que otro las etiquete por separado como orejas. Esta incoherencia puede confundir al modelo y afectar a su capacidad para aprender correctamente.

He aquí un rápido resumen de las cualidades de un conjunto de datos de visión por ordenador ideal:

  • Etiquetas claras: Cada imagen está anotada con precisión con etiquetas coherentes y precisas.
  • Datos diversos: El conjunto de datos incluye diferentes objetos, fondos, condiciones de iluminación y ángulos para que el modelo funcione bien en diversas situaciones.
  • Imágenes de alta resolución: Las imágenes nítidas y detalladas facilitan al modelo el aprendizaje y el reconocimiento de rasgos.

Ultralytics admite varios conjuntos de datos

Los modelos YOLO de Ultralytics, como YOLO11, están diseñados para trabajar con conjuntos de datos en un formato de archivo YOLO específico. Aunque es fácil convertir sus propios datos a este formato, también ofrecemos una opción sin complicaciones para aquellos que quieran empezar a experimentar de inmediato. 

El paquete Ultralytics Python es compatible con una amplia gama de conjuntos de datos de visión por ordenador, lo que le permite sumergirse en proyectos que utilizan tareas como la detección de objetos, la segmentación de instancias o la estimación de poses sin ninguna configuración adicional.  

Los usuarios pueden acceder fácilmente a conjuntos de datos listos para usar como COCO, DOTA-v2.0, Open Images V7 e ImageNet especificando el nombre del conjunto de datos como uno de los parámetros de la función de entrenamiento. Al hacerlo, el conjunto de datos se descarga automáticamente y se preconfigura, para que el usuario pueda centrarse en construir y perfeccionar sus modelos.

Los 5 principales conjuntos de datos de visión por ordenador en 2025

Los avances en la IA de visión se basan en diversos conjuntos de datos a gran escala que impulsan la innovación y permiten realizar grandes avances. Echemos un vistazo a algunos de los conjuntos de datos más importantes, respaldados por Ultralytics, que están influyendo en los modelos de visión por ordenador.

Conjunto de datos ImageNet 

ImageNet, creada por Fei-Fei Li y su equipo de la Universidad de Princeton en 2007 y presentada en 2009, es un gran conjunto de datos con más de 14 millones de imágenes etiquetadas. Se utiliza ampliamente para entrenar sistemas de reconocimiento y categorización de diferentes objetos. Su diseño estructurado lo hace especialmente útil para enseñar a los modelos a clasificar imágenes con precisión. Aunque está bien documentado, se centra principalmente en la clasificación de imágenes y carece de anotaciones detalladas para tareas como la detección de objetos. 

He aquí algunos de los puntos fuertes de ImageNet:

  • Diversidad: Con imágenes que abarcan más de 20.000 categorías, ImageNet ofrece un conjunto de datos amplio y variado que mejora el entrenamiento y la generalización de modelos.
  • Organización estructurada: Las imágenes se clasifican meticulosamente utilizando la jerarquía WordNet, lo que facilita la recuperación eficaz de datos y el entrenamiento sistemático de modelos.
  • Documentación exhaustiva: Una amplia investigación y años de estudio hacen que ImageNet sea accesible tanto para principiantes como para expertos, proporcionando valiosos conocimientos y orientación para proyectos de visión por ordenador.

Sin embargo, como cualquier conjunto de datos, tiene sus limitaciones. He aquí algunos de los retos a tener en cuenta:

  • Exigencias informáticas: Su enorme tamaño puede plantear problemas a equipos más pequeños con recursos informáticos limitados.
  • Falta de datos temporales: Al contener sólo imágenes estáticas, puede no satisfacer las necesidades de las aplicaciones que requieren datos de vídeo o temporales.
  • Imágenes obsoletas: Algunas imágenes del conjunto de datos son antiguas y pueden no reflejar objetos, estilos o entornos actuales, lo que puede reducir su relevancia para las aplicaciones modernas.

Conjunto de datos DOTA-v2.0

El conjunto de datos DOTA-v2.0, donde DOTA significa Dataset for Object Detection in Aerial Images (conjunto de datos para la detección de objetos en imágenes aéreas), es una amplia colección de imágenes aéreas creadas especialmente para la detección de objetos mediante recuadros delimitadores orientados(OBB). En la detección OBB, se utilizan cuadros delimitadores rotados para alinearlos con mayor precisión con la orientación real de los objetos de la imagen. Este método funciona especialmente bien con imágenes aéreas, en las que los objetos suelen aparecer en distintos ángulos, lo que permite una localización más precisa y una mejor detección en general.

Este conjunto de datos consta de más de 11.000 imágenes y más de 1,7 millones de cuadros delimitadores orientados de 18 categorías de objetos. Las imágenes oscilan entre 800×800 y 20.000×20.000 píxeles, e incluyen objetos como aviones, barcos y edificios. 

__wf_reserved_inherit
Fig. 2. Ejemplos de imágenes y anotaciones del conjunto de datos DOTA-v2.0. Imagen del autor.

Gracias a sus detalladas anotaciones, DOTA-v2.0 se ha convertido en una opción popular para proyectos de teledetección y vigilancia aérea. Estas son algunas de las principales características de DOTA-v2.0:

  • Diversas categorías de objetos: Abarca muchos tipos de objetos diferentes, como vehículos, puertos y tanques de almacenamiento, lo que proporciona a los modelos exposición a diversos objetos del mundo real.
  • Anotaciones de alta calidad: Anotadores expertos han proporcionado cuadros delimitadores orientados con precisión que muestran claramente las formas y direcciones de los objetos.
  • Imágenes multiescala: El conjunto de datos incluye imágenes de distintos tamaños, lo que ayuda a los modelos a aprender a detectar objetos tanto a pequeña como a gran escala.

Aunque DOTA-v2 tiene muchos puntos fuertes, he aquí algunas limitaciones que los usuarios deben tener en cuenta:

  • Pasos adicionales de descarga: Debido a la forma en que se mantiene el conjunto de datos DOTA, DOTA-v2.0 requiere un paso de configuración adicional. Primero debe descargar las imágenes de DOTA-v1.0 y, a continuación, añadir las imágenes adicionales y las anotaciones actualizadas de DOTA-v2.0 para completar el conjunto de datos.
  • Anotaciones complejas: Los cuadros delimitadores orientados pueden requerir un esfuerzo adicional durante el entrenamiento del modelo.
  • Alcance limitado: DOTA-v2 está diseñado para imágenes aéreas, lo que lo hace menos útil para tareas generales de detección de objetos fuera de este dominio.

Conjunto de datos Roboflow 100 

El conjunto de datos Roboflow 100 (RF100) fue creado por Roboflow con el apoyo de Intel. Puede utilizarse para probar y evaluar el funcionamiento de los modelos de detección de objetos. Este conjunto de datos de referencia incluye 100 conjuntos de datos diferentes elegidos entre más de 90.000 conjuntos de datos públicos. Contiene más de 224.000 imágenes y 800 clases de objetos de ámbitos como la sanidad, las vistas aéreas y los juegos. 

Estas son algunas de las principales ventajas de utilizar RF100:

  • Amplia cobertura de dominios: Incluye conjuntos de datos de siete campos, como imágenes médicas, vistas aéreas y exploración submarina.
  • Fomenta la mejora de los modelos: La variabilidad y los retos específicos del ámbito de RF100 ponen de manifiesto las lagunas de los modelos actuales, lo que impulsa la investigación hacia soluciones de detección de objetos más adaptables y robustas.
  • Formato de imagen coherente: Todas las imágenes se redimensionan a 640x640 píxeles. Esto ayuda a los usuarios a entrenar modelos sin necesidad de ajustar el tamaño de las imágenes.

A pesar de sus puntos fuertes, la RF100 también presenta ciertos inconvenientes que hay que tener en cuenta:

  • Limitado en cuanto a tareas: RF100 está diseñado para la detección de objetos, por lo que no puede realizar tareas como la segmentación o la clasificación.
  • Enfoque centrado en la evaluación comparativa: RF100 se ha diseñado principalmente como herramienta de evaluación comparativa y no para la formación de modelos para aplicaciones reales, por lo que sus resultados pueden no ser totalmente trasladables a escenarios de implantación práctica.
  • Variabilidad de las anotaciones: Dado que RF100 agrega conjuntos de datos de origen colectivo, puede haber incoherencias en la calidad de la anotación y las prácticas de etiquetado, lo que puede afectar a la evaluación y el ajuste del modelo.

Conjunto de datos COCO (objetos comunes en contexto)

El conjunto de datos COCO es uno de los más utilizados en visión por ordenador y ofrece más de 330.000 imágenes con anotaciones detalladas. Está diseñado para la detección de objetos, la segmentación y el subtitulado de imágenes, lo que lo convierte en un recurso valioso para muchos proyectos. Sus detalladas etiquetas, que incluyen recuadros delimitadores y máscaras de segmentación, ayudan a los sistemas a aprender a analizar imágenes con precisión.

Este conjunto de datos es conocido por su flexibilidad y resulta útil para diversas tareas, desde proyectos sencillos a complejos. Se ha convertido en un estándar en el campo de la IA de visión, utilizado con frecuencia en retos y concursos para evaluar el rendimiento de los modelos.

Algunos de sus puntos fuertes son:

  • Datos diversos y realistas: El conjunto de datos incluye imágenes de escenarios reales con múltiples objetos, oclusiones y condiciones de iluminación variadas.
  • Fuerte adopción por parte de la comunidad y la investigación: Utilizado en las principales competiciones de aprendizaje automático y en investigación, el conjunto de datos COCO cuenta con una amplia documentación, modelos preentrenados y el apoyo activo de la comunidad.
  • Anotaciones ricas y detalladas: El conjunto de datos COCO proporciona anotaciones muy detalladas, incluida la segmentación de objetos, puntos clave y leyendas, lo que lo hace ideal para proyectos que requieren una comprensión visual precisa.

También hay que tener en cuenta algunos factores limitantes:

  • Altos requisitos computacionales: Debido a su tamaño y complejidad, el entrenamiento de modelos en COCO puede requerir importantes recursos computacionales, lo que supone un reto para equipos con hardware limitado.
  • Desequilibrio de datos: Algunas categorías de objetos tienen muchas más imágenes que otras, lo que puede sesgar el entrenamiento del modelo.
  • Estructura de anotación compleja: Las anotaciones detalladas del conjunto de datos, aunque valiosas, pueden resultar abrumadoras para los principiantes o los equipos más pequeños que carecen de experiencia en el trabajo con conjuntos de datos estructurados de Vision AI.

Conjunto de datos Open images V7

Open Images V7 es un enorme conjunto de datos de código abierto elaborado por Google, que contiene más de 9 millones de imágenes con anotaciones para 600 categorías de objetos. Incluye diversos tipos de anotaciones y es ideal para abordar tareas complejas de visión por ordenador. Su escala y profundidad proporcionan un recurso completo para entrenar y probar modelos de visión por ordenador.

__wf_reserved_inherit
Fig. 3. Un vistazo al conjunto de datos Open Images V7. Imagen del autor.

Además, la popularidad del conjunto de datos Open Images V7 en el campo de la investigación proporciona muchos recursos y ejemplos de los que los usuarios pueden aprender. Sin embargo, su enorme tamaño puede hacer que la descarga y el procesamiento lleven mucho tiempo, especialmente para los equipos más pequeños. Otro problema es que algunas anotaciones pueden ser incoherentes, lo que requiere un esfuerzo adicional para limpiar los datos, y la integración no siempre es perfecta, por lo que puede ser necesaria una preparación adicional. 

Elegir el conjunto de datos adecuado 

Elegir el conjunto de datos adecuado es una parte importante del éxito de su proyecto de visión por ordenador. La mejor elección depende de su tarea específica: encontrar una buena combinación ayuda a su modelo a aprender las habilidades adecuadas. También debe integrarse fácilmente con sus herramientas, para que pueda centrarse más en la construcción de su modelo y menos en la solución de problemas.

__wf_reserved_inherit
Fig. 4. Factores para elegir el conjunto de datos adecuado. Imagen del autor.

Principales conclusiones

Los conjuntos de datos de alta calidad son la columna vertebral de cualquier modelo de visión por ordenador, ya que ayudan a los sistemas a aprender a interpretar imágenes con precisión. Los conjuntos de datos diversos y bien anotados son especialmente importantes, ya que permiten que los modelos funcionen con fiabilidad en situaciones reales y reducen los errores causados por datos limitados o de mala calidad.

Ultralytics simplifica el proceso de acceso y trabajo con conjuntos de datos de visión por ordenador, facilitando la búsqueda de los datos adecuados para su proyecto. Elegir el conjunto de datos adecuado es un paso crucial en la construcción de un modelo de alto rendimiento, lo que conduce a resultados más precisos e impactantes.

Únase a nuestra comunidad y explore nuestro repositorio de GitHub para obtener más información sobre la IA. Descubra avances como la visión por ordenador para la atención sanitaria y la IA en los coches autoconducidos en nuestras páginas de soluciones. Eche un vistazo a nuestras opciones de licencia y dé el primer paso para iniciarse en la visión computerizada hoy mismo.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles