Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Únete a nosotros mientras analizamos más de cerca los mejores conjuntos de datos de visión artificial de 2025. Aprende cómo los conjuntos de datos diversos y de alta calidad impulsan soluciones de visión artificial más inteligentes.
¿Sabías que los datos juegan un papel en casi todo lo que haces a diario? Ver un vídeo, tomar una foto o consultar Google Maps contribuye al flujo constante de información capturada por más de 75 mil millones de dispositivos conectados. Estos datos forman la base de la inteligencia artificial (IA). De hecho, los modelos avanzados de visión artificial como Ultralytics YOLO11 se basan en datos visuales para identificar patrones, interpretar imágenes y dar sentido al mundo que nos rodea.
Curiosamente, el valor de los datos no se trata solo de cantidad. Es más importante qué tan bien está organizado y preparado. Si un conjunto de datos es desordenado o incompleto, puede conducir a errores. Sin embargo, cuando los conjuntos de datos son limpios y diversos, ayudan a que los modelos de visión artificial funcionen mejor, ya sea reconociendo objetos en una multitud o analizando imágenes complejas. Los conjuntos de datos de alta calidad marcan la diferencia.
En este artículo, exploraremos los mejores conjuntos de datos de visión artificial de 2025 y veremos cómo contribuyen a la creación de modelos de visión artificial más precisos y eficientes. ¡Empecemos!
¿Qué son los conjuntos de datos de visión artificial?
Un conjunto de datos de visión artificial es una colección de imágenes o vídeos que ayudan a los sistemas de visión artificial a aprender a comprender y reconocer información visual. Estos conjuntos de datos vienen con etiquetas o anotaciones que ayudan a los modelos a reconocer objetos, personas, escenas y patrones dentro de los datos.
Se pueden utilizar para entrenar modelos de visión artificial, ayudándoles a mejorar tareas como la identificación de rostros, la detección de objetos o el análisis de escenas. Cuanto mejor sea el conjunto de datos (bien organizado, diverso y preciso), mejor será el rendimiento del modelo de Visión Artificial, lo que conducirá a una tecnología más inteligente y útil en la vida cotidiana.
Cómo construir un dataset de visión artificial
Construir un conjunto de datos de visión artificial es como preparar apuntes de estudio para enseñar a alguien a ver y entender el mundo. Todo comienza con la recopilación de imágenes y vídeos que coincidan con la aplicación específica que estás desarrollando.
Un conjunto de datos ideal incluye diversos ejemplos de los objetos de interés, capturados desde diferentes ángulos, en diversas condiciones de iluminación y en múltiples fondos y entornos. Esta variedad asegura que el modelo de visión artificial aprenda a reconocer patrones con precisión y funcione de manera fiable en escenarios del mundo real.
Fig. 1. Construyendo el dataset de visión perfecto. Imagen del autor.
Después de recopilar imágenes y vídeos relevantes, el siguiente paso es el etiquetado de datos. Este proceso implica añadir etiquetas, anotaciones o descripciones a los datos para que la IA pueda entender lo que contiene cada imagen o vídeo.
Las etiquetas pueden incluir nombres de objetos, ubicaciones, límites u otros detalles relevantes que ayudan a entrenar el modelo para reconocer e interpretar la información visual con precisión. El etiquetado de datos transforma una simple colección de imágenes en un conjunto de datos estructurado que se puede utilizar para entrenar un modelo de visión artificial.
El entrenamiento del modelo requiere datos de alta calidad
Puede que se pregunte qué hace que un conjunto de datos sea de alta calidad. Hay muchos factores implicados, como el etiquetado preciso, la diversidad y la coherencia. Por ejemplo, si varios anotadores están etiquetando un conjunto de datos de detección de objetos para identificar orejas de gato, uno podría etiquetarlas como parte de la cabeza, mientras que otro las etiqueta por separado como orejas. Esta incoherencia puede confundir al modelo y afectar a su capacidad de aprender correctamente.
Aquí tienes una descripción general rápida de las cualidades de un dataset ideal de visión artificial:
Etiquetas claras: Cada imagen se anota con precisión con etiquetas consistentes y exactas.
Datos diversos: El conjunto de datos incluye diferentes objetos, fondos, condiciones de iluminación y ángulos para ayudar al modelo a funcionar bien en diversas situaciones.
Imágenes de alta resolución: Las imágenes nítidas y detalladas facilitan que el modelo aprenda y reconozca las características.
Ultralytics admite varios conjuntos de datos
Los modelos Ultralytics YOLO, como YOLO11, están diseñados para funcionar con conjuntos de datos en un formato de archivo YOLO específico. Si bien es fácil convertir sus propios datos a este formato, también ofrecemos una opción sin complicaciones para aquellos que desean comenzar a experimentar de inmediato.
El paquete de Python de Ultralytics admite una amplia gama de conjuntos de datos de visión artificial, lo que le permite sumergirse en proyectos que utilizan tareas como la detección de objetos, la segmentación de instancias o la estimación de poses sin ninguna configuración adicional.
Los usuarios pueden acceder fácilmente a conjuntos de datos listos para usar como COCO, DOTA-v2.0, Open Images V7 e ImageNet especificando el nombre del conjunto de datos como uno de los parámetros en la función de entrenamiento. Al hacerlo, el conjunto de datos se descarga y preconfigura automáticamente, para que pueda concentrarse en construir y perfeccionar sus modelos.
Los 5 principales conjuntos de datos de visión artificial en 2025
Los avances en la IA de visión se basan en conjuntos de datos diversos y a gran escala que impulsan la innovación y permiten avances. Echemos un vistazo a algunos de los conjuntos de datos más importantes, compatibles con Ultralytics, que están influyendo en los modelos de visión artificial.
Conjunto de datos ImageNet
ImageNet, creado por Fei-Fei Li y su equipo en la Universidad de Princeton en 2007 e introducido en 2009, es un conjunto de datos grande con más de 14 millones de imágenes etiquetadas. Es ampliamente utilizado para entrenar sistemas para reconocer y categorizar diferentes objetos. Su diseño estructurado lo hace particularmente útil para enseñar a los modelos a clasificar imágenes con precisión. Si bien está bien documentado, se centra principalmente en la clasificación de imágenes y carece de anotaciones detalladas para tareas como la detección de objetos.
Aquí hay una mirada a algunos de los puntos fuertes clave de ImageNet:
Diversidad: Con imágenes que abarcan más de 20.000 categorías, ImageNet ofrece un conjunto de datos vasto y variado que mejora el entrenamiento y la generalización del modelo.
Organización estructurada: Las imágenes se clasifican meticulosamente utilizando la jerarquía WordNet, lo que facilita la recuperación eficiente de datos y el entrenamiento sistemático de modelos.
Documentación completa: La extensa investigación y los años de estudio hacen que ImageNet sea accesible tanto para principiantes como para expertos, proporcionando valiosos conocimientos y orientación para proyectos de visión artificial.
Sin embargo, como cualquier conjunto de datos, tiene sus limitaciones. Estos son algunos de los desafíos a tener en cuenta:
Demandas computacionales: Su enorme tamaño puede suponer un reto para los equipos más pequeños con recursos informáticos limitados.
Falta de datos temporales: Dado que solo contiene imágenes estáticas, es posible que no satisfaga las necesidades de las aplicaciones que requieren video o datos basados en el tiempo.
Imágenes obsoletas: Algunas imágenes del conjunto de datos son antiguas y pueden no reflejar los objetos, estilos o entornos actuales, lo que podría reducir la relevancia para las aplicaciones modernas.
Conjunto de datos DOTA-v2.0
El conjunto de datos DOTA-v2.0, donde DOTA significa Dataset for Object Detection in Aerial Images (Conjunto de datos para la detección de objetos en imágenes aéreas), es una extensa colección de imágenes aéreas creadas especialmente para la detección de objetos con cuadros delimitadores orientados (OBB). En la detección OBB, se utilizan cuadros delimitadores rotados para alinearse con mayor precisión con la orientación real de los objetos en la imagen. Este método funciona especialmente bien para imágenes aéreas, donde los objetos a menudo aparecen en varios ángulos, lo que lleva a una localización más precisa y una mejor detección en general.
Este conjunto de datos consta de más de 11.000 imágenes y más de 1,7 millones de cajas delimitadoras orientadas en 18 categorías de objetos. Las imágenes varían de 800×800 a 20.000×20.000 píxeles, e incluyen objetos como aviones, barcos y edificios.
Fig 2. Ejemplos de imágenes y anotaciones del conjunto de datos DOTA-v2.0. Imagen del autor.
Debido a sus anotaciones detalladas, DOTA-v2.0 se ha convertido en una opción popular para proyectos de teledetección y vigilancia aérea. Estas son algunas de las características clave de DOTA-v2.0:
Diversas categorías de objetos: Cubre muchos tipos de objetos diferentes, como vehículos, puertos y tanques de almacenamiento, lo que permite a los modelos exponerse a varios objetos del mundo real.
Anotaciones de alta calidad: Anotadores expertos han proporcionado bounding boxes orientados con precisión que muestran claramente las formas y direcciones de los objetos.
Imágenes multiescala: El conjunto de datos incluye imágenes de diferentes tamaños, lo que ayuda a los modelos a aprender a detectar objetos tanto a pequeña como a gran escala.
Aunque DOTA-v2 tiene muchos puntos fuertes, estas son algunas limitaciones que los usuarios deben tener en cuenta:
Pasos de descarga adicionales: Debido a la forma en que se mantiene el conjunto de datos DOTA, DOTA-v2.0 requiere un paso de configuración adicional. Primero debe descargar las imágenes de DOTA-v1.0 y luego agregar las imágenes adicionales y las anotaciones actualizadas para DOTA-v2.0 para completar el conjunto de datos.
Anotaciones complejas: Los bounding boxes orientados pueden requerir un esfuerzo adicional para manejarlos durante el entrenamiento del modelo.
Alcance limitado: DOTA-v2 está diseñado para imágenes aéreas, lo que lo hace menos útil para tareas generales de detección de objetos fuera de este dominio.
Conjunto de datos Roboflow 100
El conjunto de datos Roboflow 100 (RF100) fue creado por Roboflow con el apoyo de Intel. Se puede utilizar para probar y evaluar el rendimiento de los modelos de detección de objetos. Este conjunto de datos de referencia incluye 100 conjuntos de datos diferentes elegidos entre más de 90,000 conjuntos de datos públicos. Tiene más de 224,000 imágenes y 800 clases de objetos de áreas como la atención médica, vistas aéreas y juegos.
Estas son algunas de las ventajas clave de usar RF100:
Amplia cobertura de dominio: Incluye conjuntos de datos de siete campos, como imágenes médicas, vistas aéreas y exploración submarina.
Fomenta la mejora del modelo: La variabilidad y los desafíos específicos del dominio en RF100 revelan lagunas en los modelos actuales, lo que impulsa la investigación hacia soluciones de detección de objetos más adaptables y robustas.
Formato de imagen consistente: Todas las imágenes se redimensionan a 640x640 píxeles. Esto ayuda a los usuarios a entrenar modelos sin necesidad de ajustar los tamaños de las imágenes.
A pesar de sus fortalezas, RF100 también viene con ciertos inconvenientes a tener en cuenta:
Limitado en términos de tareas: RF100 está diseñado para la detección de objetos, por lo que no puede realizar tareas como la segmentación o la clasificación.
Enfoque centrado en el benchmark: RF100 está diseñado principalmente como una herramienta de evaluación comparativa en lugar de para entrenar modelos para aplicaciones del mundo real, por lo que sus resultados pueden no traducirse completamente en escenarios de implementación práctica.
Variabilidad de la anotación: Dado que RF100 agrega conjuntos de datos de origen colectivo, puede haber inconsistencias en la calidad de la anotación y las prácticas de etiquetado, lo que puede afectar la evaluación y el ajuste fino del modelo.
Conjunto de datos COCO (Objetos comunes en contexto)
El conjunto de datos COCO es uno de los conjuntos de datos de visión artificial más utilizados, y ofrece más de 330,000 imágenes con anotaciones de imagen detalladas. Está diseñado para la detección de objetos, la segmentación y la descripción de imágenes, lo que lo convierte en un recurso valioso para muchos proyectos. Sus etiquetas detalladas, que incluyen cuadros delimitadores y máscaras de segmentación, ayudan a los sistemas a aprender a analizar imágenes con precisión.
Este conjunto de datos es conocido por su flexibilidad y es útil para diversas tareas, desde proyectos sencillos hasta complejos. Se ha convertido en un estándar en el campo de la IA de visión, utilizado con frecuencia en desafíos y competiciones para evaluar el rendimiento de los modelos.
Algunas de sus ventajas son:
Datos diversos y realistas: El conjunto de datos incluye imágenes de escenarios del mundo real con múltiples objetos, oclusiones y condiciones de iluminación variadas.
Fuerte adopción por parte de la comunidad y la investigación: Utilizado en las principales competiciones de aprendizaje automático e investigación, el conjunto de datos COCO tiene una amplia documentación, modelos preentrenados y un soporte activo de la comunidad.
Anotaciones ricas y detalladas: El conjunto de datos COCO proporciona anotaciones muy detalladas, incluyendo la segmentación de objetos, puntos clave y subtítulos, lo que lo hace ideal para proyectos que requieren una comprensión visual precisa.
Aquí hay algunos factores limitantes que también debes tener en cuenta:
Altos requisitos computacionales: Debido a su tamaño y complejidad, el entrenamiento de modelos en COCO puede requerir importantes recursos computacionales, lo que dificulta el trabajo de los equipos con hardware limitado.
Desequilibrio de datos: Algunas categorías de objetos tienen significativamente más imágenes que otras, lo que puede generar sesgos en el entrenamiento del modelo.
Estructura de anotación compleja: Las anotaciones detalladas del conjunto de datos, aunque valiosas, pueden ser abrumadoras para los principiantes o los equipos más pequeños que carecen de experiencia en el trabajo con conjuntos de datos estructurados de Visión Artificial.
Conjunto de datos Open Images V7
Open Images V7 es un conjunto de datos masivo de código abierto creado por Google, que contiene más de 9 millones de imágenes con anotaciones para 600 categorías de objetos. Incluye una variedad de tipos de anotaciones y es ideal para abordar tareas complejas de visión artificial. Su escala y profundidad proporcionan un recurso completo para el entrenamiento y la prueba de modelos de visión artificial.
Fig. 3. Un vistazo al conjunto de datos Open Images V7. Imagen del autor.
Además, la popularidad del conjunto de datos Open Images V7 en la investigación proporciona muchos recursos y ejemplos para que los usuarios aprendan. Sin embargo, su tamaño masivo puede hacer que la descarga y el procesamiento requieran mucho tiempo, especialmente para los equipos más pequeños. Otro problema es que algunas anotaciones pueden ser inconsistentes, lo que requiere un esfuerzo adicional para limpiar los datos, y la integración no siempre es perfecta, lo que significa que puede ser necesaria una preparación adicional.
Elegir el conjunto de datos adecuado
Elegir el conjunto de datos adecuado es una parte importante para configurar su proyecto de visión artificial para el éxito. La mejor opción depende de su tarea específica: encontrar una buena coincidencia ayuda a su modelo a aprender las habilidades correctas. También debe integrarse fácilmente con sus herramientas, para que pueda concentrarse más en construir su modelo y menos en la resolución de problemas.
Fig. 4. Factores para elegir el dataset adecuado. Imagen del autor.
Conclusiones clave
Los datasets de alta calidad son la columna vertebral de cualquier modelo de visión artificial, ya que ayudan a los sistemas a aprender a interpretar las imágenes con precisión. Los datasets diversos y bien anotados son especialmente importantes, ya que permiten que los modelos funcionen de manera fiable en escenarios del mundo real y reducen los errores causados por datos limitados o de baja calidad.
Ultralytics simplifica el proceso de acceso y trabajo con conjuntos de datos de visión artificial, facilitando la búsqueda de los datos adecuados para su proyecto. Elegir el conjunto de datos correcto es un paso crucial en la construcción de un modelo de alto rendimiento, lo que conduce a resultados más precisos e impactantes.