Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Guías

Explorando los mejores conjuntos de datos de visión artificial en 2025

Únete a nosotros para echar un vistazo a los mejores conjuntos de datos de visión artificial de 2025. Aprende cómo los conjuntos de datos diversos y de alta calidad impulsan soluciones de IA de visión más inteligentes.

ABAbirami Vina
5 min read
Conjuntos de datos de visión artificial para entrenar modelos

¿Sabías que los datos desempeñan un papel en casi todo lo que haces a diario? Ver un vídeo, tomar una foto o consultar Google Maps contribuye al flujo constante de información capturada por más de 75 mil millones de dispositivos conectados. Estos datos forman la base de la inteligencia artificial (IA). De hecho, los modelos avanzados de visión artificial como Ultralytics YOLO11 dependen de datos visuales para identificar patrones, interpretar imágenes y dar sentido al mundo que nos rodea.

Curiosamente, el valor de los datos no reside solo en la cantidad. Es más importante qué tan bien organizados y preparados estén. Si un dataset es desordenado o incompleto, puede provocar errores. Sin embargo, cuando los datasets están limpios y son diversos, ayudan a que los modelos de visión artificial funcionen mejor, ya sea reconociendo objetos en una multitud o analizando visuales complejos. Los datasets de alta calidad marcan toda la diferencia.

En este artículo, exploraremos los mejores datasets de visión artificial de 2025 y veremos cómo contribuyen a construir modelos más precisos y eficientes. ¡Empecemos!

Link to this section¿Qué son los datasets de visión artificial?#

Un dataset de visión artificial es una colección de imágenes o vídeos que ayuda a los sistemas de visión artificial a aprender a entender y reconocer información visual. Estos datasets incluyen etiquetas o anotaciones que ayudan a los modelos a reconocer objetos, personas, escenas y patrones dentro de los datos.

Pueden usarse para entrenar modelos de visión artificial, ayudándoles a mejorar tareas como la identificación de rostros, la detección de objetos o el análisis de escenas. Cuanto mejor sea el dataset (bien organizado, diverso y preciso), mejor funcionará el modelo de IA de visión, lo que lleva a una tecnología más inteligente y útil en la vida cotidiana.

Link to this sectionCómo construir un dataset de visión artificial#

Construir un dataset de visión artificial es como preparar notas de estudio para enseñar a alguien a ver y entender el mundo. Todo comienza con la recopilación de imágenes y vídeos que coincidan con la aplicación específica que estás desarrollando.

Un dataset ideal incluye ejemplos diversos de los objetos de interés, capturados desde diferentes ángulos, bajo diversas condiciones de iluminación y a través de múltiples fondos y entornos. Esta variedad asegura que el modelo de visión artificial aprenda a reconocer patrones con precisión y funcione de manera fiable en escenarios del mundo real.

Diagrama de la creación del conjunto de datos de visión perfecto

Fig 1. Construcción del dataset de visión perfecto. Imagen del autor.

Tras recopilar imágenes y vídeos relevantes, el siguiente paso es el etiquetado de datos. Este proceso implica añadir etiquetas, anotaciones o descripciones a los datos para que la IA pueda entender qué contiene cada imagen o vídeo.

Las etiquetas pueden incluir nombres de objetos, ubicaciones, límites u otros detalles relevantes que ayuden a entrenar al modelo a reconocer e interpretar la información visual con precisión. El etiquetado de datos transforma una simple colección de imágenes en un dataset estructurado que puede utilizarse para entrenar un modelo de visión artificial.

Link to this sectionEl entrenamiento de modelos requiere datos de alta calidad#

Quizás te preguntes qué hace que un dataset sea de alta calidad. Hay muchos factores involucrados, como la precisión del etiquetado, la diversidad y la consistencia. Por ejemplo, si varios anotadores están etiquetando un dataset de detección de objetos para identificar orejas de gato, uno podría etiquetarlas como parte de la cabeza mientras que otro las etiqueta por separado como orejas. Esta inconsistencia puede confundir al modelo y afectar a su capacidad para aprender correctamente.

Aquí tienes un resumen rápido de las cualidades de un dataset de visión artificial ideal:

  • Etiquetas claras: Cada imagen está anotada con precisión con etiquetas consistentes y precisas.
  • Datos diversos: El dataset incluye diferentes objetos, fondos, condiciones de iluminación y ángulos para ayudar a que el modelo funcione bien en diversas situaciones.
  • Imágenes de alta resolución: Las imágenes nítidas y detalladas facilitan que el modelo aprenda y reconozca características.

Link to this sectionUltralytics admite varios datasets#

Los modelos Ultralytics YOLO, como YOLO11, están creados para funcionar con datasets en un formato de archivo YOLO específico. Aunque es sencillo convertir tus propios datos a este formato, también ofrecemos una opción sin complicaciones para aquellos que quieran empezar a experimentar de inmediato.

El paquete de Python de Ultralytics admite una amplia gama de datasets de visión artificial, lo que te permite sumergirte en proyectos utilizando tareas como detección de objetos, segmentación de instancias o estimación de poses sin ninguna configuración adicional.

Los usuarios pueden acceder fácilmente a datasets listos para usar como COCO, DOTA-v2.0, Open Images V7 e ImageNet especificando el nombre del dataset como uno de los parámetros en la función de entrenamiento. Cuando lo haces, el dataset se descarga y preconfigura automáticamente, para que puedas centrarte en construir y refinar tus modelos.

Link to this sectionLos 5 mejores datasets de visión artificial en 2025#

Los avances en la IA de visión dependen de datasets diversos y a gran escala que impulsan la innovación y permiten avances. Echemos un vistazo a algunos de los datasets más importantes, respaldados por Ultralytics, que están influyendo en los modelos de visión artificial.

Link to this sectionDataset ImageNet#

ImageNet, creado por Fei-Fei Li y su equipo en la Universidad de Princeton en 2007 e introducido en 2009, es un gran dataset con más de 14 millones de imágenes etiquetadas. Se utiliza ampliamente para entrenar sistemas a reconocer y categorizar diferentes objetos. Su diseño estructurado lo hace especialmente útil para enseñar a los modelos a clasificar imágenes con precisión. Aunque está bien documentado, se centra principalmente en la clasificación de imágenes y carece de anotaciones detalladas para tareas como la detección de objetos.

Aquí tienes un vistazo a algunos de los puntos fuertes clave de ImageNet:

  • Diversidad: Con imágenes que abarcan más de 20 000 categorías, ImageNet ofrece un dataset vasto y variado que mejora el entrenamiento y la generalización de los modelos.
  • Organización estructurada: Las imágenes están meticulosamente categorizadas utilizando la jerarquía de WordNet, lo que facilita la recuperación eficiente de datos y el entrenamiento sistemático de modelos.
  • Documentación completa: Una investigación extensa y años de estudio hacen que ImageNet sea accesible tanto para principiantes como para expertos, proporcionando información y orientación valiosas para proyectos de visión artificial.

Sin embargo, como cualquier dataset, tiene sus limitaciones. Aquí tienes algunos de los desafíos a considerar:

  • Demandas computacionales: Su tamaño masivo puede plantear desafíos para equipos más pequeños con recursos informáticos limitados.
  • Falta de datos temporales: Dado que solo contiene imágenes estáticas, puede no satisfacer las necesidades de aplicaciones que requieran vídeo o datos basados en el tiempo.
  • Imágenes obsoletas: Algunas imágenes del dataset son antiguas y pueden no reflejar objetos, estilos o entornos actuales, lo que reduce potencialmente la relevancia para aplicaciones modernas.

Link to this sectionDataset DOTA-v2.0#

El dataset DOTA-v2.0, donde DOTA significa Dataset para Detección de Objetos en Imágenes Aéreas, es una amplia colección de imágenes aéreas creada especialmente para la detección de objetos con bounding boxes orientados (OBB). En la detección OBB, se utilizan bounding boxes rotados para alinearse con mayor precisión con la orientación real de los objetos en la imagen. Este método funciona especialmente bien para imágenes aéreas, donde los objetos suelen aparecer en varios ángulos, lo que lleva a una localización más precisa y a una mejor detección en general.

Este dataset consta de más de 11 000 imágenes y más de 1,7 millones de bounding boxes orientados en 18 categorías de objetos. Las imágenes varían de 800×800 a 20 000×20 000 píxeles e incluyen objetos como aviones, barcos y edificios.

Imágenes de muestra y anotaciones del conjunto de datos DOTA-v2.0

Fig 2. Ejemplos de imágenes y anotaciones del dataset DOTA-v2.0. Imagen del autor.

Debido a sus anotaciones detalladas, DOTA-v2.0 se ha convertido en una opción popular para proyectos de teledetección y vigilancia aérea. Aquí tienes algunas de las características clave de DOTA-v2.0:

  • Diversas categorías de objetos: Cubre muchos tipos diferentes de objetos, como vehículos, puertos y tanques de almacenamiento, dando a los modelos exposición a diversos objetos del mundo real.
  • Anotaciones de alta calidad: Anotadores expertos han proporcionado bounding boxes orientados con precisión que muestran claramente las formas y direcciones de los objetos.
  • Imágenes multiescala: El dataset incluye imágenes de diferentes tamaños, lo que ayuda a los modelos a aprender cómo detectar objetos tanto a pequeña como a gran escala.

Aunque DOTA-v2 tiene muchas fortalezas, aquí hay algunas limitaciones que los usuarios deben tener en cuenta:

  • Pasos de descarga adicionales: Debido a la forma en que se mantiene el dataset DOTA, DOTA-v2.0 requiere un paso de configuración adicional. Primero debes descargar las imágenes de DOTA-v1.0 y luego añadir las imágenes adicionales y las anotaciones actualizadas para DOTA-v2.0 para completar el dataset.
  • Anotaciones complejas: Los bounding boxes orientados pueden requerir un esfuerzo adicional para manejarlos durante el entrenamiento del modelo.
  • Alcance limitado: DOTA-v2 está diseñado para imágenes aéreas, lo que lo hace menos útil para tareas generales de detección de objetos fuera de este dominio.

Link to this sectionDataset Roboflow 100#

El dataset Roboflow 100 (RF100) fue creado por Roboflow con el apoyo de Intel. Puede utilizarse para probar y comparar el funcionamiento de los modelos de detección de objetos. Este dataset de referencia incluye 100 datasets diferentes elegidos de entre más de 90 000 datasets públicos. Tiene más de 224 000 imágenes y 800 clases de objetos de áreas como la atención médica, vistas aéreas y juegos.

Aquí tienes algunas de las ventajas clave de usar RF100:

  • Amplia cobertura de dominios: Incluye datasets de siete campos, como imágenes médicas, vistas aéreas y exploración submarina.
  • Fomenta la mejora de los modelos: La variabilidad y los desafíos específicos del dominio en RF100 revelan lagunas en los modelos actuales, impulsando la investigación hacia soluciones de detección de objetos más adaptables y robustas.
  • Formato de imagen consistente: Todas las imágenes se redimensionan a 640x640 píxeles. Esto ayuda a los usuarios a entrenar modelos sin necesidad de ajustar los tamaños de imagen.

A pesar de sus puntos fuertes, RF100 también conlleva ciertos inconvenientes a tener en cuenta:

  • Limitado en cuanto a tareas: RF100 está diseñado para la detección de objetos, por lo que no puede acomodar tareas como la segmentación o la clasificación.
  • Enfoque centrado en benchmarks: RF100 está diseñado principalmente como una herramienta de evaluación comparativa en lugar de para entrenar modelos para aplicaciones del mundo real, por lo que es posible que sus resultados no se traduzcan totalmente en escenarios de implementación práctica.
  • Variabilidad en la anotación: Dado que RF100 agrega datasets de origen colectivo, pueden existir inconsistencias en la calidad de la anotación y en las prácticas de etiquetado, lo que puede afectar a la evaluación y al ajuste fino de los modelos.

Link to this sectionDataset COCO (Common Objects in Context)#

El dataset COCO es uno de los datasets de visión artificial más utilizados, ofreciendo más de 330 000 imágenes con anotaciones detalladas. Está diseñado para la detección de objetos, la segmentación y el subtitulado de imágenes, lo que lo convierte en un recurso valioso para muchos proyectos. Sus etiquetas detalladas, incluidos los bounding boxes y las máscaras de segmentación, ayudan a los sistemas a aprender a analizar imágenes con precisión.

Este dataset es conocido por su flexibilidad y es útil para diversas tareas, desde proyectos simples hasta complejos. Se ha convertido en un estándar en el campo de la IA de visión, utilizándose con frecuencia en desafíos y competiciones para evaluar el rendimiento de los modelos.

Algunas de sus fortalezas incluyen:

  • Datos diversos y realistas: El dataset incluye imágenes de escenarios del mundo real con múltiples objetos, oclusiones y condiciones de iluminación variadas.
  • Fuerte adopción por parte de la comunidad y la investigación: Utilizado en importantes competiciones y estudios de aprendizaje automático, el dataset COCO cuenta con documentación extensa, modelos preentrenados y un apoyo activo de la comunidad.
  • Anotaciones ricas y detalladas: El dataset COCO proporciona anotaciones muy detalladas, incluyendo segmentación de objetos, puntos clave y pies de foto, lo que lo hace ideal para proyectos que requieren una comprensión visual precisa.

Aquí tienes algunos factores limitantes a tener en cuenta también:

  • Altos requisitos computacionales: Debido a su tamaño y complejidad, entrenar modelos en COCO puede requerir recursos computacionales significativos, lo que lo convierte en un reto para equipos con hardware limitado.
  • Desequilibrio de datos: Algunas categorías de objetos tienen significativamente más imágenes que otras, lo que puede llevar a sesgos en el entrenamiento del modelo.
  • Estructura de anotación compleja: Las anotaciones detalladas del dataset, aunque valiosas, pueden resultar abrumadoras para principiantes o equipos más pequeños que carecen de experiencia en el trabajo con datasets de IA de visión estructurados.

Link to this sectionDataset Open Images V7#

Open Images V7 es un dataset masivo de código abierto curado por Google, que cuenta con más de 9 millones de imágenes con anotaciones para 600 categorías de objetos. Incluye una variedad de tipos de anotación y es ideal para abordar tareas complejas de visión artificial. Su escala y profundidad proporcionan un recurso integral para entrenar y probar modelos de visión artificial.

Imágenes de muestra del conjunto de datos Open Images V7

Fig 3. Un vistazo al dataset Open Images V7. Imagen del autor.

Además, la popularidad del dataset Open Images V7 en la investigación proporciona abundantes recursos y ejemplos de los que los usuarios pueden aprender. Sin embargo, su tamaño masivo puede hacer que la descarga y el procesamiento requieran mucho tiempo, especialmente para equipos más pequeños. Otro problema es que algunas anotaciones pueden ser inconsistentes, lo que requiere un esfuerzo adicional para limpiar los datos, y la integración no siempre es sencilla, lo que significa que puede ser necesaria una preparación adicional.

Link to this sectionElegir el dataset adecuado#

Elegir el dataset adecuado es una gran parte de preparar tu proyecto de visión artificial para el éxito. La mejor opción depende de tu tarea específica: encontrar una buena coincidencia ayuda a que tu modelo aprenda las habilidades correctas. También debería integrarse fácilmente con tus herramientas, para que puedas centrarte más en construir tu modelo y menos en la resolución de problemas.

Diagrama de factores para elegir el conjunto de datos adecuado

Fig 4. Factores para elegir el dataset adecuado. Imagen del autor.

Link to this sectionConclusiones clave#

Los datasets de alta calidad son la columna vertebral de cualquier modelo de visión artificial, ayudando a los sistemas a aprender a interpretar imágenes con precisión. Los datasets diversos y bien anotados son especialmente importantes, ya que permiten a los modelos funcionar de forma fiable en escenarios del mundo real y reducir los errores causados por datos limitados o de baja calidad.

Ultralytics simplifica el proceso de acceso y trabajo con datasets de visión artificial, facilitando la búsqueda de los datos adecuados para tu proyecto. Elegir el dataset correcto es un paso crucial en la construcción de un modelo de alto rendimiento, lo que lleva a resultados más precisos e impactantes.

Únete a nuestra comunidad y explora nuestro repositorio de GitHub para aprender más sobre IA. Descubre avances como visión artificial para la atención médica y IA en coches autónomos en nuestras páginas de soluciones. ¡Consulta nuestras opciones de licencia y da el primer paso hacia el inicio con la visión artificial hoy mismo!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático