Plataforma Ultralytics

Gestión inteligente de conjuntos de datos en visión artificial con la Ultralytics Platform

Explora cómo puedes usar la Ultralytics Platform para una mejor gestión de conjuntos de datos en tus proyectos de visión artificial. Rastrea, compara y mejora tus conjuntos de datos con facilidad.

ABAbirami Vina6 min readMarch 31, 2026

Gestión inteligente de conjuntos de datos en visión artificial con la Ultralytics Platform

La IA de visión, o visión artificial, ha avanzado mucho desde sus inicios, evolucionando de una investigación experimental a una tecnología clave que impulsa aplicaciones en el mundo real. Hoy en día, los entusiastas de la IA pueden crear modelos potentes para tareas como la detección de objetos y la segmentación de instancias utilizando herramientas y frameworks accesibles.

Sin embargo, a medida que estas aplicaciones pasan de la fase de experimentación a la producción, la gestión de datasets sigue siendo un desafío crítico y, a menudo, pasado por alto. A medida que los datasets de visión artificial crecen en tamaño y complejidad, los equipos suelen tener dificultades para mantener anotaciones coherentes, realizar un seguimiento de los cambios entre versiones y garantizar la calidad general de los datos.

Incluso los modelos más punteros pueden ofrecer un rendimiento inferior en entornos reales si los datos con los que se entrenan están incompletos, desequilibrados o mal gestionados. Esta brecha creciente entre el rendimiento en el desarrollo y la fiabilidad en el mundo real es la razón por la que se necesita un enfoque más estructurado para la gestión de datasets.

Otra limitación común es que la recopilación, el etiquetado y el entrenamiento de los datos suelen gestionarse con herramientas separadas. Un flujo de trabajo fragmentado dificulta la gestión eficiente de los datasets, aumenta el riesgo de inconsistencias y ralentiza la iteración.

Para resolver los cuellos de botella de la IA de visión, como la gestión de datasets y los flujos de trabajo fragmentados, lanzamos recientemente Ultralytics Platform. Es un espacio de trabajo integral que unifica la gestión, el etiquetado, el entrenamiento, el despliegue y la monitorización de datasets en un único flujo de trabajo.

Al conectar cada etapa del ciclo de vida de la visión artificial, resulta más fácil realizar un seguimiento de los cambios en los datasets, comparar el rendimiento entre versiones y refinar continuamente tus datos para obtener mejores resultados.

Visualización de imágenes del dataset en Ultralytics Platform

Fig 1. Un ejemplo de cómo visualizar las imágenes de tu dataset en Ultralytics Platform (Fuente)

En este artículo, analizaremos cómo Ultralytics Platform te ayuda a realizar un seguimiento, comparar y mejorar tus datasets para crear modelos de visión artificial más fiables. ¡Empecemos!

Link to this sectionLa importancia de la gestión de datasets en visión artificial#

El rendimiento de un modelo de visión artificial está estrechamente ligado a los datos con los que se entrena. La precisión del modelo, es decir, con qué frecuencia sus predicciones son correctas, depende no solo del algoritmo, sino de qué tan bien represente el dataset las condiciones del mundo real.

En pocas palabras, un modelo aprende patrones directamente de los datos, por lo que cualquier laguna, sesgo o inconsistencia en el dataset puede influir en cómo realiza las predicciones. Dicho de otra forma, la baja calidad de los datos, las anotaciones incorrectas o la cobertura limitada de las variaciones del mundo real en las imágenes (como diferentes condiciones de iluminación, ángulos de los objetos, fondos o niveles de oclusión) pueden reducir significativamente la precisión, incluso si la arquitectura del modelo es sólida.

Esto también se aplica al ajuste fino (fine-tuning) de un modelo, donde un modelo preentrenado se entrena aún más con datos nuevos o actualizados para adaptarlo mejor a un caso de uso o entorno específico. Dado que la precisión del modelo depende tanto de los datos, gestionar dichos datos correctamente es esencial.

La gestión de datasets incluye organizar, etiquetar y actualizar continuamente los datos para que sigan siendo precisos y relevantes. Esto facilita la mejora del rendimiento a lo largo del tiempo, especialmente al reentrenar o realizar un ajuste fino de los modelos con nuevos datos.

Link to this sectionCómo afecta la calidad de los datos a la fiabilidad en el mundo real#

Los casos de uso de visión artificial, como los sistemas de monitorización de seguridad, son un excelente ejemplo de por qué es vital una correcta gestión de los datos. Estos sistemas deben funcionar de manera fiable en diversas condiciones del mundo real, incluyendo entornos con distinta iluminación, ángulos de cámara, niveles de afluencia y oclusiones parciales.

Si los datos de entrenamiento no cubren estas variaciones o carecen de diversidad en cuanto a cómo aparecen los objetos en diferentes escenas y condiciones, el modelo puede tener dificultades para detectar objetos con precisión. Por ejemplo, un modelo entrenado principalmente en escenas bien iluminadas y sin desorden puede funcionar mal en entornos con poca luz o lugares concurridos. En los sistemas de seguridad, esto puede provocar la omisión de eventos o falsas alertas.

Para evitarlo, es importante mantener datasets que no solo estén limpios y correctamente etiquetados, sino también equilibrados y actualizados continuamente. Esto implica identificar lagunas en los datos, añadir nuevos ejemplos a medida que cambian las condiciones y asegurarse de que las diferentes clases y entornos estén representados de manera uniforme.

Con un dataset más completo y estructurado, los modelos están mejor equipados para manejar la variabilidad del mundo real y generar predicciones más fiables.

Link to this sectionAspectos clave de la gestión de datasets#

Entonces, ¿cómo es realmente la gestión de datasets? Implica organizar, etiquetar y mantener los datos para que puedan utilizarse eficazmente a lo largo del proceso de desarrollo del modelo.

Organizar los datos, por ejemplo, incluye estructurar el dataset y dividirlo en conjuntos de entrenamiento, validación y prueba. El conjunto de entrenamiento se utiliza para enseñar al modelo, el de validación para supervisar el rendimiento y guiar los ajustes durante el desarrollo, y el de prueba para evaluar qué tan bien funciona el modelo final con datos totalmente desconocidos.

Por su parte, el etiquetado implica anotar las imágenes con detalles como etiquetas de clase, cuadros delimitadores (bounding boxes) o máscaras de segmentación. Dado que el modelo aprende de estas anotaciones, la precisión y la coherencia son cruciales para ayudarle a aprender patrones significativos y realizar predicciones fiables.

Además de esto, el mantenimiento del dataset implica revisar y actualizar los datos con el tiempo. Esto puede incluir corregir errores de anotación, eliminar datos de baja calidad o duplicados, y añadir nuevos ejemplos para cubrir casos faltantes o condiciones cambiantes.

En un sentido más amplio, la gestión de datasets es un proceso continuo. A medida que se evalúan los modelos y se recopilan nuevos datos, es necesario actualizar los datasets para reflejar las condiciones del mundo real y los casos extremos. Realizar un seguimiento de estas actualizaciones y comparar diferentes versiones ayuda a los equipos a entender qué está mejorando el rendimiento y dónde se necesitan más cambios.

Link to this sectionGestión de datasets con Ultralytics Platform#

Ultralytics Platform proporciona un flujo de trabajo estructurado para gestionar datasets dentro de un único entorno, cubriendo desde la preparación de datos hasta la exportación. Está diseñada para dar soporte tanto a desarrolladores individuales como a equipos, facilitando una gestión coherente de los datasets, tanto si trabajas de forma independiente como si colaboras en proyectos.

Cada etapa está diseñada para simplificar la forma en que se organizan, procesan y utilizan los datasets a lo largo del ciclo de vida del desarrollo del modelo. Al reunir estos pasos en un solo lugar, la plataforma reduce la fragmentación y facilita mantener la coherencia en los flujos de trabajo.

A continuación, recorramos los pasos clave y cómo la plataforma da soporte a cada uno de ellos.

Link to this sectionCarga de datasets en Ultralytics Platform#

Comenzar a trabajar con datasets en la plataforma es flexible, ya que existen múltiples formas de incorporar o reutilizar datos. Puedes cargar tus propios datos o empezar más rápido utilizando datasets públicos disponibles en la plataforma. También puedes clonar datasets existentes compartidos por la comunidad y basarte en ellos.

Las funciones comunitarias de la plataforma facilitan explorar y reutilizar el trabajo existente. Con acceso a datasets creados por otros usuarios, incluidos millones de imágenes y anotaciones, puedes empezar rápidamente sin tener que recopilar y etiquetar todo tú mismo. Al clonar un dataset, se crea una copia en tu espacio de trabajo, lo que te permite modificarlo y ampliarlo manteniendo el original.

Para las cargas, la plataforma admite imágenes individuales, vídeos y archivos de dataset como ZIP, TAR o GZ. También es compatible con formatos de dataset muy utilizados como YOLO y COCO, lo que facilita la importación de datasets y anotaciones existentes sin necesidad de conversiones adicionales. Además, puedes cargar un dataset mediante un archivo NDJSON exportado desde la plataforma, lo que hace que recrear o reutilizar datasets entre proyectos sea muy fluido.

Una vez cargados, la plataforma procesa los datos a través de una tubería (pipeline) estructurada. Esto incluye la validación de formatos y tamaños de archivo, el redimensionamiento de imágenes cuando es necesario, el análisis de anotaciones y la generación de estadísticas del dataset.

Por ejemplo, los vídeos se convierten en fotogramas para que puedan utilizarse en el entrenamiento, mientras que las imágenes se optimizan y preparan para facilitar su navegación y análisis. Tras el procesamiento, los datasets están listos para ser utilizados para el etiquetado, el análisis y el entrenamiento de modelos dentro de la plataforma.

Link to this sectionEtiquetado de datos en Ultralytics Platform#

Una vez cargados, los datasets pueden revisarse y etiquetarse directamente en la plataforma. La plataforma incluye herramientas integradas de etiquetado de imágenes para diversas tareas de visión artificial, como detección de objetos, segmentación de instancias, estimación de poses, detección de cajas delimitadoras orientadas (OBB) y clasificación de imágenes.

Uso de Ultralytics Platform para el etiquetado de datos

Fig 2. Uso de Ultralytics Platform para el etiquetado de datos (Fuente)

Las anotaciones pueden crearse manualmente usando estas herramientas o acelerarse con funciones asistidas por IA como el etiquetado inteligente basado en SAM. Con SAM, puedes generar máscaras, cajas delimitadoras o cajas orientadas interactuando con la imagen, lo que ayuda a acelerar el proceso de etiquetado mientras se mantiene la precisión.

Link to this sectionAnálisis de la calidad del dataset a través de Ultralytics Platform#

Además de preparar y etiquetar los datos, comprender la calidad del dataset es esencial para construir modelos de visión artificial fiables. Sin una visibilidad clara de factores como la distribución de clases, la calidad de las anotaciones, las divisiones del dataset y cómo se representan los datos en diferentes condiciones, puede resultar difícil detectar problemas que afectan al rendimiento del modelo.

Ultralytics Platform incluye funciones integradas para ayudar a analizar los datasets de forma más eficaz. Estas perspectivas están disponibles directamente en la interfaz del dataset, a través de pestañas como Imágenes, Clases y Gráficos.

En la pestaña Gráficos, puedes ver estadísticas a nivel de dataset, como la distribución de las divisiones (entrenamiento, validación y prueba), la frecuencia de las clases y mapas de calor de anotaciones que muestran dónde aparecen los objetos dentro de las imágenes.

La pestaña Clases proporciona un desglose del recuento de anotaciones por clase, lo que facilita la detección de desequilibrios en las clases. Por su parte, la pestaña Imágenes muestra detalles a nivel de imagen, como dimensiones, recuento de anotaciones y cómo se distribuyen las etiquetas en cada imagen individual.

Estos conocimientos facilitan la identificación de problemas como el desequilibrio de clases, escenarios faltantes o una distribución desigual de los datos. Por ejemplo, podrías notar que ciertas clases tienen muy pocos ejemplos o que la mayoría de las anotaciones se concentran en áreas específicas de una imagen.

Más allá del análisis de datos, la plataforma admite la curación y el aumento de datasets, lo que significa refinar los datasets corrigiendo o eliminando datos problemáticos y creando variaciones de los datos existentes para mejorar el rendimiento del modelo. Estas mejoras pueden realizarse directamente en la plataforma actualizando anotaciones, añadiendo nuevos datos o reorganizando las divisiones del dataset basándose en los resultados del análisis.

Link to this sectionExportación de datasets desde Ultralytics Platform#

Una vez que el conjunto de datos esté preparado y validado, puedes exportarlo para usarlo en diferentes entornos. Esto te da la flexibilidad de utilizar tus datos de computer vision donde prefieras, ya sea para entrenar modelos de forma local, en la nube o en otras herramientas y flujos de trabajo.

Ultralytics Platform admite múltiples formatos de exportación, incluidos YOLO, COCO y NDJSON, lo que facilita la integración de los datasets en diferentes flujos de trabajo y herramientas de entrenamiento.

Exportación de un dataset desde Ultralytics Platform

Fig 3. Exportación de un dataset desde Ultralytics Platform (Fuente)

La exportación de un dataset crea una instantánea fija de los datos en un momento determinado, incluyendo sus imágenes, anotaciones y estructura. Esto es útil porque los datasets suelen cambiar a medida que se añaden nuevos datos, se actualizan anotaciones o se ajustan las divisiones. Al exportar una instantánea, puedes preservar la versión exacta del dataset utilizada para una ejecución de entrenamiento concreta.

Esto hace más sencillo reproducir resultados más adelante, ya que puedes volver a entrenar un modelo con la misma configuración de datos y comparar el rendimiento entre diferentes versiones del dataset. Por ejemplo, puedes evaluar si añadir nuevas imágenes o corregir anotaciones realmente mejora la precisión del modelo, en lugar de adivinar qué es lo que ha cambiado.

Las exportaciones se gestionan de forma asíncrona y, una vez listas, los datasets pueden descargarse y utilizarse en entornos de entrenamiento locales, en la nube o fuera de línea.

Link to this sectionMejora de la calidad del dataset mediante iteraciones en Ultralytics Platform#

En los flujos de trabajo de aprendizaje automático y aprendizaje profundo, la gestión de datasets continúa incluso después del despliegue, porque los datos del mundo real suelen diferir de los utilizados durante el entrenamiento.

A medida que los modelos encuentran nuevas entradas, se hacen más evidentes las lagunas en el dataset (como condiciones faltantes, entornos con poca luz, ángulos de cámara diferentes, oclusiones o escenas concurridas) así como los errores de anotación, lo que hace necesario refinar los datos con el tiempo.

Existen varias formas de mejorar un dataset. Puedes añadir nuevas imágenes o vídeos para cubrir condiciones faltantes, como entornos con poca luz, ángulos de cámara diferentes, oclusiones o escenas concurridas, ayudando a reducir los puntos ciegos en los datos.

Al mismo tiempo, asegurar que las anotaciones sean precisas y coherentes, como objetos correctamente etiquetados y cajas delimitadoras o máscaras precisas, ayuda al modelo a aprender patrones más fiables.

Esto suele seguir un bucle sencillo: entrenar el modelo, evaluar los resultados, identificar errores, mejorar el dataset y reentrenar. Cada paso ayuda a resaltar problemas como anotaciones incorrectas, datos faltantes o casos subrepresentados.

Supongamos que trabajas en un sistema de monitorización de estanterías comerciales en tiempo real utilizado para detectar productos en tiendas. Las primeras versiones del dataset podrían no incluir ciertos tipos de productos, condiciones de iluminación o disposiciones de estanterías concurridas. Durante la evaluación, es posible que observes que el modelo tiene dificultades para detectar artículos en estas situaciones.

Para mejorar el rendimiento, puedes recopilar nuevas imágenes que cubran estos escenarios faltantes y actualizar las anotaciones donde sea necesario. Con el tiempo, repetir este proceso ayuda a que el modelo sea más preciso y fiable en las condiciones del mundo real.

Ultralytics Platform da soporte a este flujo de trabajo conectando las actualizaciones del dataset con el entrenamiento y la evaluación. Con el seguimiento de experimentos y las métricas de rendimiento integrados, resulta más fácil supervisar el progreso y mejorar continuamente los datasets a lo largo del tiempo.

Link to this sectionSeguimiento de los cambios en los datasets mediante Ultralytics Platform#

Hemos comentado brevemente cómo evolucionan los datasets con el tiempo como parte del proceso de desarrollo del modelo. A medida que se añaden nuevos datos, se refinan las anotaciones y se actualizan las clases, realizar un seguimiento de estos cambios se vuelve clave para mantener la calidad de los datos y garantizar un rendimiento constante del modelo.

Aquí tienes algunas de las funciones clave de Ultralytics Platform que admiten el seguimiento de datasets y el control de versiones:

Versionado de datasets: Puedes crear versiones fijas de datasets como instantáneas NDJSON. Cada versión captura detalles clave como el recuento de imágenes, el recuento de clases, el recuento de anotaciones y el tamaño del dataset en un momento específico. Estas versiones se almacenan y pueden descargarse más tarde, lo que facilita la reproducción de experimentos y la comparación de resultados entre diferentes estados del dataset.
Pestaña Versiones: Todas las versiones del dataset están organizadas en la pestaña Versiones, donde puedes ver el historial de versiones, añadir descripciones a los cambios y realizar un seguimiento de cómo evoluciona el dataset con el tiempo.
Vinculación con modelos: La pestaña Modelos muestra todos los modelos entrenados con un dataset, incluidas métricas como mAP y detalles del entrenamiento. Las versiones de los datasets están vinculadas a las ejecuciones de entrenamiento, lo que te ayuda a comprender cómo los cambios en los datos afectan al rendimiento del modelo.
Pestaña Errores: La pestaña Errores destaca los archivos que fallaron durante el procesamiento, junto con detalles del error y sugerencias. Esto te permite identificar y solucionar problemas como archivos dañados o formatos no compatibles antes del entrenamiento.
Interfaz de dataset (pestañas Imágenes y Clases): Estas vistas te permiten navegar por las imágenes, revisar anotaciones, gestionar etiquetas de clase y analizar la distribución de las clases. Funciones como el filtrado, la clasificación y la identificación de imágenes sin etiquetar hacen que sea más sencillo controlar la calidad del dataset a lo largo del tiempo.
Estadísticas y gráficos: Las visualizaciones de datos integradas, como la distribución de las divisiones, la frecuencia de las clases y los mapas de calor de anotaciones, ayudan a realizar un seguimiento de los cambios en la distribución de los datos e identificar desequilibrios a medida que evoluciona el dataset.

Análisis de la distribución de clases de un dataset en Ultralytics Platform

Fig 4. Un vistazo al análisis de la distribución de clases de un dataset en Ultralytics Platform (Fuente)

Link to this sectionConexión de datasets con el entrenamiento y el despliegue dentro de Ultralytics Platform#

Ultralytics Platform conecta diferentes etapas del desarrollo de modelos de IA en una única tubería. Esto agiliza el proceso de pasar de los datos en bruto a las aplicaciones de visión artificial listas para producción.

Una vez que los datasets están preparados y etiquetados, pueden utilizarse para entrenar modelos de visión artificial, como Ultralytics YOLO26, directamente en la plataforma. Durante el entrenamiento, puedes supervisar las métricas de rendimiento, realizar un seguimiento de los experimentos y evaluar cómo está aprendiendo el modelo mediante cuadros de mando integrados.

Visualización de las métricas de entrenamiento de modelos en Ultralytics Platform

Fig 5. Un vistazo a la visualización de las métricas de entrenamiento del modelo en Ultralytics Platform (Fuente)

Tras el entrenamiento, los modelos pueden probarse con nuevas imágenes directamente en el navegador para evaluar las predicciones e identificar áreas de mejora antes del despliegue. Cuando el modelo funciona bien, puede desplegarse en producción.

La plataforma admite la exportación de modelos a múltiples formatos o su despliegue a través de servicios de inferencia y puntos de conexión (endpoints) dedicados, lo que permite ejecutarlos en diferentes entornos.

Una vez desplegados, las herramientas de monitorización integradas ayudan a realizar un seguimiento del rendimiento del sistema a lo largo del tiempo, incluyendo métricas relacionadas con el uso y el comportamiento del modelo. Esto hace que sea más sencillo mantener y mejorar los sistemas de IA de visión en aplicaciones del mundo real.

Link to this sectionMejores prácticas para la gestión de datasets con Ultralytics Platform#

Aquí tienes algunos factores clave a tener en cuenta al gestionar tus datasets utilizando Ultralytics Platform:

Usa filtros para encontrar lagunas: Identifica datos no etiquetados o subrepresentados utilizando herramientas de filtrado, lo que hace más fluido completar anotaciones y mejorar la cobertura.
Corrige errores pronto: Utiliza la pestaña Errores para el control de calidad, a fin de detectar cargas fallidas, archivos dañados o formatos no compatibles antes del entrenamiento.
Actualiza continuamente los datasets: Añade nuevos datos, corrige anotaciones e incluye casos extremos a medida que aparezcan. Esto ayuda a mejorar la cobertura y garantiza que los modelos funcionen de forma fiable en escenarios del mundo real.
Gestiona cuidadosamente las divisiones de los datasets: Asegura un buen equilibrio entre los conjuntos de entrenamiento, validación y prueba. Puedes reorganizar las divisiones manualmente o utilizar la redistribución automática cuando sea necesario.

Para saber más sobre Ultralytics Platform, consulta la documentación oficial de Ultralytics.

Link to this sectionConclusiones clave#

A medida que los proyectos de visión artificial se escalan, gestionar los datasets con eficacia se vuelve tan importante como el desarrollo del modelo. Un enfoque estructurado para la gestión de datasets ayuda a mejorar la calidad de los datos, agilizar los flujos de trabajo y apoyar un mejor rendimiento del modelo a lo largo del tiempo.

Ultralytics Platform simplifica este proceso al llevar la gestión de datasets, el entrenamiento y el despliegue a un único flujo de trabajo. Al adoptar un enfoque estructurado para la gestión de datasets, los equipos pueden reducir la complejidad, mejorar la eficiencia y construir sistemas de visión artificial más escalables y fiables.

Únete a nuestra creciente comunidad y explora nuestro repositorio de GitHub para obtener recursos de IA. Para construir con IA de visión hoy mismo, consulta nuestras opciones de licencia. Descubre cómo la IA en la agricultura está transformando el campo y cómo la IA de visión en la atención sanitaria está dando forma al futuro visitando nuestras páginas de soluciones.

Explore solutions

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático

Solicitar licencia Empezar

Gestión inteligente de conjuntos de datos en visión artificial con la Ultralytics Platform

Link to this sectionLa importancia de la gestión de datasets en visión artificial#

Link to this sectionCómo afecta la calidad de los datos a la fiabilidad en el mundo real#

Link to this sectionAspectos clave de la gestión de datasets#

Link to this sectionGestión de datasets con Ultralytics Platform#

Link to this sectionCarga de datasets en Ultralytics Platform#

Link to this sectionEtiquetado de datos en Ultralytics Platform#

Link to this sectionAnálisis de la calidad del dataset a través de Ultralytics Platform#

Link to this sectionExportación de datasets desde Ultralytics Platform#

Link to this sectionMejora de la calidad del dataset mediante iteraciones en Ultralytics Platform#

Link to this sectionSeguimiento de los cambios en los datasets mediante Ultralytics Platform#

Link to this sectionConexión de datasets con el entrenamiento y el despliegue dentro de Ultralytics Platform#

Link to this sectionMejores prácticas para la gestión de datasets con Ultralytics Platform#

Link to this sectionConclusiones clave#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!