Best Computer Vision Datasets 2025

¿Sabías que los datos intervienen en casi todo lo que haces a diario? Ver un vídeo, hacer una foto o consultar Google Maps contribuye al flujo constante de información captada por más de 75.000 millones de dispositivos conectados. Estos datos constituyen la base de la inteligencia artificial (IA). De hecho, modelos avanzados de visión por ordenador como Ultralytics YOLO11 se basan en datos visuales para identificar patrones, interpretar imágenes y dar sentido al mundo que nos rodea.

Curiosamente, el valor de los datos no se trata solo de cantidad. Es más importante qué tan bien está organizado y preparado. Si un conjunto de datos es desordenado o incompleto, puede conducir a errores. Sin embargo, cuando los conjuntos de datos son limpios y diversos, ayudan a que los modelos de visión artificial funcionen mejor, ya sea reconociendo objetos en una multitud o analizando imágenes complejas. Los conjuntos de datos de alta calidad marcan la diferencia.

En este artículo, exploraremos los mejores conjuntos de datos de visión artificial de 2025 y veremos cómo contribuyen a la creación de modelos de visión artificial más precisos y eficientes. ¡Empecemos!

¿Qué son los conjuntos de datos de visión artificial?

Un conjunto de datos de visión artificial es una colección de imágenes o vídeos que ayudan a los sistemas de visión artificial a aprender a comprender y reconocer información visual. Estos conjuntos de datos vienen con etiquetas o anotaciones que ayudan a los modelos a reconocer objetos, personas, escenas y patrones dentro de los datos.

Se pueden utilizar para entrenar modelos de visión artificial, ayudándoles a mejorar tareas como la identificación de rostros, la detección de objetos o el análisis de escenas. Cuanto mejor sea el conjunto de datos (bien organizado, diverso y preciso), mejor será el rendimiento del modelo de Visión Artificial, lo que conducirá a una tecnología más inteligente y útil en la vida cotidiana.

Cómo construir un dataset de visión artificial

Construir un conjunto de datos de visión artificial es como preparar apuntes de estudio para enseñar a alguien a ver y entender el mundo. Todo comienza con la recopilación de imágenes y vídeos que coincidan con la aplicación específica que estás desarrollando.

Un conjunto de datos ideal incluye diversos ejemplos de los objetos de interés, capturados desde diferentes ángulos, en diversas condiciones de iluminación y en múltiples fondos y entornos. Esta variedad asegura que el modelo de visión artificial aprenda a reconocer patrones con precisión y funcione de manera fiable en escenarios del mundo real.

__wf_reserved_inherit — Fig. 1. Construyendo el dataset de visión perfecto. Imagen del autor.

‍

Después de recopilar imágenes y vídeos relevantes, el siguiente paso es el etiquetado de datos. Este proceso implica añadir etiquetas, anotaciones o descripciones a los datos para que la IA pueda entender lo que contiene cada imagen o vídeo.

Las etiquetas pueden incluir nombres de objetos, ubicaciones, límites u otros detalles relevantes que ayudan a entrenar el modelo para reconocer e interpretar la información visual con precisión. El etiquetado de datos transforma una simple colección de imágenes en un conjunto de datos estructurado que se puede utilizar para entrenar un modelo de visión artificial.

El entrenamiento del modelo requiere datos de alta calidad

Puede que se pregunte qué hace que un conjunto de datos sea de alta calidad. Hay muchos factores implicados, como el etiquetado preciso, la diversidad y la coherencia. Por ejemplo, si varios anotadores están etiquetando un conjunto de datos de detección de objetos para identificar orejas de gato, uno podría etiquetarlas como parte de la cabeza, mientras que otro las etiqueta por separado como orejas. Esta incoherencia puede confundir al modelo y afectar a su capacidad de aprender correctamente.

Aquí tienes una descripción general rápida de las cualidades de un dataset ideal de visión artificial:

Etiquetas claras: Cada imagen se anota con precisión con etiquetas consistentes y exactas.
‍
Datos diversos: El conjunto de datos incluye diferentes objetos, fondos, condiciones de iluminación y ángulos para ayudar al modelo a funcionar bien en diversas situaciones.
‍
Imágenes de alta resolución: Las imágenes nítidas y detalladas facilitan que el modelo aprenda y reconozca las características.

Ultralytics admite varios conjuntos de datos

Los modelosYOLO Ultralytics , como YOLO11, están diseñados para trabajar con conjuntos de datos en un formato de archivo YOLO específico. Aunque es fácil convertir sus propios datos a este formato, también ofrecemos una opción sin complicaciones para aquellos que quieran empezar a experimentar de inmediato.

El paqueteUltralytics Python es compatible con una amplia gama de conjuntos de datos de visión por ordenador, lo que le permite sumergirse en proyectos que utilizan tareas como la detección de objetos, la segmentación de instancias o la estimación de poses sin ninguna configuración adicional.

Los usuarios pueden acceder fácilmente a conjuntos de datos listos para usar como COCO, DOTA-v2.0, Open Images V7 e ImageNet especificando el nombre del conjunto de datos como uno de los parámetros de la función de entrenamiento. Al hacerlo, el conjunto de datos se descarga automáticamente y se preconfigura, para que el usuario pueda centrarse en construir y perfeccionar sus modelos.

Los 5 principales conjuntos de datos de visión artificial en 2025

Los avances en la IA de visión se basan en diversos conjuntos de datos a gran escala que impulsan la innovación y permiten realizar grandes avances. Echemos un vistazo a algunos de los conjuntos de datos más importantes, respaldados por Ultralytics, que están influyendo en los modelos de visión por ordenador.

Conjunto de datos ImageNet

ImageNetcreado por Fei-Fei Li y su equipo de la Universidad de Princeton en 2007 y presentado en 2009, es un gran conjunto de datos con más de 14 millones de imágenes etiquetadas. Se utiliza ampliamente para entrenar sistemas de reconocimiento y categorización de diferentes objetos. Su diseño estructurado lo hace especialmente útil para enseñar a los modelos a classify imágenes con precisión. Aunque está bien documentado, se centra principalmente en la clasificación de imágenes y carece de anotaciones detalladas para tareas como la detección de objetos.

He aquí algunos de los puntos fuertes de ImageNet:

Diversidad: Con imágenes que abarcan más de 20.000 categorías, ImageNet ofrece un conjunto de datos amplio y variado que mejora el entrenamiento y la generalización de modelos.
‍
Organización estructurada: Las imágenes se clasifican meticulosamente utilizando la jerarquía WordNet, lo que facilita la recuperación eficiente de datos y el entrenamiento sistemático de modelos.
‍
Documentación exhaustiva: Una amplia investigación y años de estudio hacen que ImageNet sea accesible tanto para principiantes como para expertos, proporcionando valiosos conocimientos y orientación para proyectos de visión por ordenador.

Sin embargo, como cualquier conjunto de datos, tiene sus limitaciones. Estos son algunos de los desafíos a tener en cuenta:

Demandas computacionales: Su enorme tamaño puede suponer un reto para los equipos más pequeños con recursos informáticos limitados.
‍
Falta de datos temporales: Dado que solo contiene imágenes estáticas, es posible que no satisfaga las necesidades de las aplicaciones que requieren video o datos basados en el tiempo.
‍
Imágenes obsoletas: Algunas imágenes del conjunto de datos son antiguas y pueden no reflejar los objetos, estilos o entornos actuales, lo que podría reducir la relevancia para las aplicaciones modernas.

Conjunto de datos DOTA-v2.0

El conjunto de datos DOTA-v2.0, donde DOTA significa Dataset for Object Detection in Aerial Images (Conjunto de datos para la detección de objetos en imágenes aéreas), es una extensa colección de imágenes aéreas creadas especialmente para la detección de objetos con cuadros delimitadores orientados (OBB). En la detección OBB, se utilizan cuadros delimitadores rotados para alinearse con mayor precisión con la orientación real de los objetos en la imagen. Este método funciona especialmente bien para imágenes aéreas, donde los objetos a menudo aparecen en varios ángulos, lo que lleva a una localización más precisa y una mejor detección en general.

Este conjunto de datos consta de más de 11.000 imágenes y más de 1,7 millones de cajas delimitadoras orientadas en 18 categorías de objetos. Las imágenes varían de 800×800 a 20.000×20.000 píxeles, e incluyen objetos como aviones, barcos y edificios.

‍

Debido a sus anotaciones detalladas, DOTA-v2.0 se ha convertido en una opción popular para proyectos de teledetección y vigilancia aérea. Estas son algunas de las características clave de DOTA-v2.0:

Diversas categorías de objetos: Cubre muchos tipos de objetos diferentes, como vehículos, puertos y tanques de almacenamiento, lo que permite a los modelos exponerse a varios objetos del mundo real.
‍
Anotaciones de alta calidad: Anotadores expertos han proporcionado bounding boxes orientados con precisión que muestran claramente las formas y direcciones de los objetos.
‍
Imágenes multiescala: El conjunto de datos incluye imágenes de distintos tamaños, lo que ayuda a los modelos a aprender a detect objetos tanto a pequeña como a gran escala.

Aunque DOTA-v2 tiene muchos puntos fuertes, estas son algunas limitaciones que los usuarios deben tener en cuenta:

Pasos de descarga adicionales: Debido a la forma en que se mantiene el conjunto de datos DOTA, DOTA-v2.0 requiere un paso de configuración adicional. Primero debe descargar las imágenes de DOTA-v1.0 y luego agregar las imágenes adicionales y las anotaciones actualizadas para DOTA-v2.0 para completar el conjunto de datos.
‍
Anotaciones complejas: Los bounding boxes orientados pueden requerir un esfuerzo adicional para manejarlos durante el entrenamiento del modelo.
‍
Alcance limitado: DOTA-v2 está diseñado para imágenes aéreas, lo que lo hace menos útil para tareas generales de detección de objetos fuera de este dominio.

Conjunto de datos Roboflow 100

El conjunto de datos Roboflow 100 (RF100) fue creado por Roboflow con el apoyo de Intel. Puede utilizarse para probar y evaluar el funcionamiento de los modelos de detección de objetos. Este conjunto de datos de referencia incluye 100 conjuntos de datos diferentes elegidos entre más de 90.000 conjuntos de datos públicos. Contiene más de 224.000 imágenes y 800 clases de objetos de ámbitos como la sanidad, las vistas aéreas y los juegos.

Estas son algunas de las ventajas clave de usar RF100:

Amplia cobertura de dominio: Incluye conjuntos de datos de siete campos, como imágenes médicas, vistas aéreas y exploración submarina.
‍
Fomenta la mejora del modelo: La variabilidad y los desafíos específicos del dominio en RF100 revelan lagunas en los modelos actuales, lo que impulsa la investigación hacia soluciones de detección de objetos más adaptables y robustas.
‍
Formato de imagen consistente: Todas las imágenes se redimensionan a 640x640 píxeles. Esto ayuda a los usuarios a entrenar modelos sin necesidad de ajustar los tamaños de las imágenes.

A pesar de sus fortalezas, RF100 también viene con ciertos inconvenientes a tener en cuenta:

Limitado en términos de tareas: RF100 está diseñado para la detección de objetos, por lo que no puede realizar tareas como la segmentación o la clasificación.
‍
Enfoque centrado en el benchmark: RF100 está diseñado principalmente como una herramienta de evaluación comparativa en lugar de para entrenar modelos para aplicaciones del mundo real, por lo que sus resultados pueden no traducirse completamente en escenarios de implementación práctica.
‍
Variabilidad de la anotación: Dado que RF100 agrega conjuntos de datos de origen colectivo, puede haber inconsistencias en la calidad de la anotación y las prácticas de etiquetado, lo que puede afectar la evaluación y el ajuste fino del modelo.

Conjunto de datos COCO (Common objects in context)

El conjunto de datosCOCO es uno de los más utilizados en visión por ordenador y ofrece más de 330.000 imágenes con anotaciones detalladas. Está diseñado para la detección de objetos, la segmentación y el subtitulado de imágenes, lo que lo convierte en un recurso valioso para muchos proyectos. Sus detalladas etiquetas, que incluyen recuadros delimitadores y máscaras de segmentación, ayudan a los sistemas a aprender a analizar imágenes con precisión.

Este conjunto de datos es conocido por su flexibilidad y es útil para diversas tareas, desde proyectos sencillos hasta complejos. Se ha convertido en un estándar en el campo de la IA de visión, utilizado con frecuencia en desafíos y competiciones para evaluar el rendimiento de los modelos.

Algunas de sus ventajas son:

Datos diversos y realistas: El conjunto de datos incluye imágenes de escenarios del mundo real con múltiples objetos, oclusiones y condiciones de iluminación variadas.
‍
Fuerte adopción por parte de la comunidad y la investigación: Utilizado en las principales competiciones de aprendizaje automático y en investigación, el conjunto de datos COCO cuenta con una amplia documentación, modelos preentrenados y el apoyo activo de la comunidad.
‍
Anotaciones ricas y detalladas: El conjunto de datos COCO proporciona anotaciones muy detalladas, incluida la segmentación de objetos, puntos clave y leyendas, lo que lo hace ideal para proyectos que requieren una comprensión visual precisa.

Aquí hay algunos factores limitantes que también debes tener en cuenta:

Altos requisitos computacionales: Debido a su tamaño y complejidad, el entrenamiento de modelos en COCO puede requerir importantes recursos computacionales, lo que supone un reto para equipos con hardware limitado.
‍
Desequilibrio de datos: Algunas categorías de objetos tienen significativamente más imágenes que otras, lo que puede generar sesgos en el entrenamiento del modelo.
‍
Estructura de anotación compleja: Las anotaciones detalladas del conjunto de datos, aunque valiosas, pueden ser abrumadoras para los principiantes o los equipos más pequeños que carecen de experiencia en el trabajo con conjuntos de datos estructurados de Visión Artificial.

Conjunto de datos Open Images V7

Open Images V7 es un enorme conjunto de datos de código abierto elaborado por Google, que contiene más de 9 millones de imágenes con anotaciones para 600 categorías de objetos. Incluye diversos tipos de anotaciones y es ideal para abordar tareas complejas de visión por ordenador. Su escala y profundidad proporcionan un recurso completo para entrenar y probar modelos de visión por ordenador.

‍

Además, la popularidad del conjunto de datos Open Images V7 en la investigación proporciona muchos recursos y ejemplos para que los usuarios aprendan. Sin embargo, su tamaño masivo puede hacer que la descarga y el procesamiento requieran mucho tiempo, especialmente para los equipos más pequeños. Otro problema es que algunas anotaciones pueden ser inconsistentes, lo que requiere un esfuerzo adicional para limpiar los datos, y la integración no siempre es perfecta, lo que significa que puede ser necesaria una preparación adicional.

Elegir el conjunto de datos adecuado

Elegir el conjunto de datos adecuado es una parte importante para configurar su proyecto de visión artificial para el éxito. La mejor opción depende de su tarea específica: encontrar una buena coincidencia ayuda a su modelo a aprender las habilidades correctas. También debe integrarse fácilmente con sus herramientas, para que pueda concentrarse más en construir su modelo y menos en la resolución de problemas.

‍

Conclusiones clave

Los datasets de alta calidad son la columna vertebral de cualquier modelo de visión artificial, ya que ayudan a los sistemas a aprender a interpretar las imágenes con precisión. Los datasets diversos y bien anotados son especialmente importantes, ya que permiten que los modelos funcionen de manera fiable en escenarios del mundo real y reducen los errores causados por datos limitados o de baja calidad.

Ultralytics simplifica el proceso de acceso y trabajo con conjuntos de datos de visión por ordenador, facilitando la búsqueda de los datos adecuados para su proyecto. Elegir el conjunto de datos adecuado es un paso crucial en la construcción de un modelo de alto rendimiento, lo que conduce a resultados más precisos e impactantes.

Únase a nuestra comunidad y explore nuestro repositorio de GitHub para obtener más información sobre la IA. Descubra avances como la visión artificial para la atención médica y la IA en los coches autónomos en nuestras páginas de soluciones. Consulte nuestras opciones de licencia y dé el primer paso para comenzar hoy mismo con la visión artificial.

Explorando los mejores conjuntos de datos de visión artificial en 2025

¿Qué son los conjuntos de datos de visión artificial?

Cómo construir un dataset de visión artificial

El entrenamiento del modelo requiere datos de alta calidad

Ultralytics admite varios conjuntos de datos