Ultralytics : automatización de la anotación mediante IA

¿Quieres poner en marcha un proyecto de visión artificial?

Las soluciones de visión artificial que analizan imágenes y vídeos se están convirtiendo en un elemento habitual de los flujos de trabajo en numerosos sectores, desde la fabricación hasta el diagnóstico por imagen. En el sector manufacturero, por ejemplo, la detección de defectos superficiales en los productos que se desplazan por una cinta transportadora depende de modelos de visión artificial capaces de identificar patrones sutiles.

Para que estos modelos funcionen correctamente, deben entrenarse con datos etiquetados en los que cada defecto esté claramente identificado. Esto permite que los modelos aprendan qué deben buscar y reconozcan patrones similares.

El proceso de creación de estas etiquetas se denomina «anotación de datos». En concreto, la anotación de imágenes y la anotación de vídeos consisten en dibujar cuadros delimitadores, trazar contornos de formas o etiquetar regiones específicas dentro de las imágenes y los fotogramas de vídeo.

Aunque esto resulta manejable con conjuntos de datos pequeños, se vuelve cada vez más complicado a medida que los datos aumentan. Etiquetar miles de imágenes requiere un esfuerzo manual constante, lo que convierte la anotación en un importante cuello de botella. Las herramientas tradicionales suelen ser lentas, fragmentadas y difíciles de escalar.

Ultralytics , una plataforma integral de inteligencia artificial aplicada a la visión, ayuda a resolver estos retos mediante la anotación asistida por IA. Al utilizar la IA para generar automáticamente etiquetas iniciales que pueden revisarse y perfeccionarse rápidamente, reduce el trabajo manual y mejora la eficiencia.

En este artículo, veremos cómo funciona la anotación asistida por IA en Ultralytics y cómo mejora el proceso de etiquetado. ¡Empecemos!

Resumen del proceso de anotación de datos

Antes de profundizar en cómo funciona la anotación basada en IA en Ultralytics , veamos primero en qué consiste la anotación de datos.

La anotación de datos, también conocida como etiquetado de datos, es el proceso de asignar etiquetas estructuradas a los datos sin procesar para que puedan utilizarse en el entrenamiento de modelos de aprendizaje automático. En la visión artificial, estas etiquetas definen los objetos, las regiones o las características de interés dentro de las imágenes o los vídeos.

Durante el entrenamiento, los modelos o algoritmos aprenden a asignar los datos de entrada a estas etiquetas, por lo que la calidad de las anotaciones es un factor clave para el rendimiento del modelo. Los conjuntos de datos etiquetados de forma precisa y coherente permiten que el modelo aprenda los patrones correctos, mientras que las anotaciones deficientes o incoherentes pueden dar lugar a predicciones poco fiables.

Por ejemplo, en un caso de uso de detección de defectos, se puede anotar una imagen de un producto en una cinta transportadora marcando dónde aparecen los defectos y indicando de qué tipo son. Esto ayuda al modelo a aprender cómo son los defectos para que pueda identificarlos en nuevas imágenes.

Un repaso a las tareas de anotación más habituales

A continuación, veamos algunas formas habituales de anotar imágenes en el ámbito de la visión artificial. Estos métodos se utilizan para etiquetar datos visuales con fines como la detección de objetos, la segmentación de instancias y la clasificación de imágenes. Cada método de anotación cumple una función diferente, como localizar objetos, capturar formas o identificar estructuras clave.

Bounding boxes (Cajas delimitadoras)

Los recuadros delimitadores son simples rectángulos que se dibujan alrededor de los objetos de una imagen para indicar su ubicación. Son una de las formas más habituales de etiquetar datos en la visión artificial.

Al entrenarse con imágenes que contienen estos recuadros, los modelos de detección de objetos aprenden a reconocer diferentes objetos y a comprender su ubicación dentro de una imagen. Esto les permite detect objetos a la vez e identificar dónde aparece cada uno.

Por ejemplo, imaginemos que se analiza un partido de béisbol mediante visión artificial. Se pueden dibujar recuadros alrededor de los jugadores, el bate y la pelota en cada fotograma, lo que permite al modelo detect identificar estos objetos a lo largo del partido.

Fig. 1. Los rectángulos delimitadores pueden utilizarse para etiquetar y localizar varios objetos. (Fuente)

Polígonos o máscaras de segmentación

Los polígonos, también conocidos como máscaras de segmentación, van un paso más allá que los rectángulos de delimitación, ya que etiquetan los objetos a nivel de píxel. En lugar de dibujar un rectángulo aproximado, capturan la forma y los bordes exactos de cada objeto de una imagen. Esto los hace útiles para tareas que requieren una comprensión más detallada.

Por ejemplo, en la conducción autónoma, las máscaras de segmentación se utilizan en tareas como la segmentación semántica, en la que a cada píxel se le asigna una categoría, como «carretera» o «cielo», y la segmentación de instancias, en la que se identifican por separado objetos individuales, como vehículos o peatones.

También se utilizan para tareas como la eliminación del fondo, en las que es necesario aislar un objeto, como una persona, del resto de la imagen.

Puntos clave

Los puntos clave se utilizan para marcar puntos específicos de un objeto, como las articulaciones del cuerpo humano o las partes de un animal. Al identificar estos puntos, los modelos pueden comprender la estructura de un objeto y cómo se posicionan sus partes unas respecto a otras.

En visión artificial, esto se conoce como estimación de la pose, cuyo objetivo es identificar la ubicación de estos puntos clave y comprender cómo se relacionan entre sí. El seguimiento de estos puntos a lo largo del tiempo permite analizar el movimiento y los cambios de postura.

Fig. 2. Las anotaciones de puntos clave pueden utilizarse para marcar las articulaciones con el fin de estimar la postura humana. (Fuente)

Un ejemplo habitual es marcar las articulaciones del cuerpo en un vídeo para analizar el movimiento humano. Al centrarse en estos puntos clave, los modelos pueden captar la posición de una persona y cómo cambia su postura con el paso del tiempo.

Caja delimitadora orientada (OBB)

No todos los objetos de una imagen están perfectamente alineados. En muchas situaciones de la vida real, los objetos aparecen inclinados, girados o se ven desde diferentes ángulos.

Los recuadros delimitadores estándar suelen tener dificultades en estos casos, ya que pueden incluir fondo innecesario o no ajustarse con precisión al objeto. Los recuadros delimitadores orientados resuelven este problema utilizando rectángulos girados que se alinean con la dirección del objeto. Esto da como resultado anotaciones más precisas y ajustadas.

Este enfoque se utiliza en la detección de cajas delimitadoras orientadas (OBB), en la que los modelos identifican tanto la ubicación de un objeto como su orientación. Un ejemplo son las imágenes aéreas, en las que objetos como edificios, barcos o vehículos suelen aparecer desde diferentes ángulos. Las cajas giradas facilitan la captura de su forma y orientación reales dentro de la escena.

Etiquetas de clasificación

Las etiquetas de clasificación adoptan un enfoque diferente al de otros métodos de anotación, ya que asignan una única etiqueta a toda la imagen, en lugar de marcar objetos o regiones concretos. Se utilizan cuando el objetivo es identificar qué elementos están presentes en una imagen, sin centrarse en dónde aparecen.

Por ejemplo, una imagen puede etiquetarse como «gato» o «perro» en función de su contenido general. Esto hace que la clasificación de imágenes resulte útil para tareas en las que basta con una comprensión general de la imagen.

Limitaciones de las herramientas de anotación tradicionales

Muchas herramientas de etiquetado tradicionales se basan en múltiples pasos y flujos de trabajo inconexos. Los equipos de desarrollo de IA a menudo tienen que cambiar de una plataforma de anotación a otra para el etiquetado, el almacenamiento y la validación, lo que ralentiza los proyectos de IA.

La mayoría de las herramientas solo admiten un conjunto limitado de tipos de anotaciones y de datos, por lo que los equipos acaban utilizando diferentes herramientas para los rectángulos de delimitación, la segmentación y los puntos clave. Esta configuración fragmentada puede resultar difícil de gestionar, especialmente para los equipos que se inician en la visión artificial.

El trabajo manual supone otro gran reto. Aunque anotar una sola imagen puede llevar solo unos minutos, trabajar con grandes conjuntos de datos se convierte rápidamente en una tarea que requiere mucho tiempo, sobre todo cuando las imágenes similares implican tareas repetitivas.

A medida que crecen los conjuntos de datos, los equipos también tienen que gestionar archivos, track las versiones track y garantizar la coherencia entre las anotaciones. Esto aumenta la carga de trabajo, lo que se traduce en más tiempo dedicado a la gestión de datos y menos tiempo para mejorar el rendimiento de los modelos.

Un enfoque más eficaz consiste en utilizar la anotación asistida por IA dentro de la Ultralytics , que emplea la IA para generar y perfeccionar las etiquetas, lo que reduce el trabajo manual y mejora la rapidez y la coherencia, todo ello en un único entorno que integra la gestión de conjuntos de datos, la anotación, el entrenamiento de modelos, la implementación y la supervisión.

Cómo facilita Ultralytics el proceso de anotación

Ultralytics simplifica el proceso de anotación al integrarlo directamente con el resto del flujo de trabajo de visión artificial. En lugar de depender de herramientas independientes, los equipos pueden trabajar con datos, anotaciones y modelos en un único entorno.

Admite una amplia gama de tareas de visión artificial, entre las que se incluyen la detección de objetos, la clasificación de imágenes, la segmentación de instancias, la estimación de poses y la detección de rectángulos delimitadores orientados.

En este contexto, la anotación puede realizarse de varias maneras. Los equipos pueden etiquetar los datos manualmente para tener un control total, utilizar la anotación inteligente SAM para realizar un etiquetado interactivo por puntos, o aplicar la anotación inteligente YOLO para generar anotaciones automáticamente que puedan revisarse y perfeccionarse. Esta flexibilidad facilita el trabajo con diferentes conjuntos de datos y requisitos de anotación.

Fig. 3. Vista general de la anotación en Ultralytics (Fuente)

Dado que la anotación asistida por IA y la anotación manual están integradas con la gestión de conjuntos de datos y el entrenamiento de modelos, los equipos pueden pasar sin problemas del etiquetado de datos a la organización de conjuntos de datos y al entrenamiento de modelos. Esto mantiene los flujos de trabajo estructurados y elimina la necesidad de cambiar de herramienta o de reformatear las anotaciones.

La plataforma también es compatible conYOLO Ultralytics , como Ultralytics YOLO11 y Ultralytics , lo que permite utilizar los datos anotados directamente para el entrenamiento y las pruebas. Esto facilita la identificación de lagunas en los conjuntos de datos, el perfeccionamiento de las anotaciones y el reentrenamiento de los modelos mediante iteraciones continuas.

Características principales de la anotación SAM en Ultralytics

La anotación inteligente SAM de Ultralytics está diseñada para agilizar la anotación en tareas de detección de objetos, segmentación de instancias y cajas delimitadoras orientadas (OBB).

La plataforma ofrece varias variantes SAM , entre las que se incluyen SAM .1 Tiny, SAM .1 Small, SAM .1 Base, SAM . SAM Large y SAM , lo que permite a los usuarios elegir entre velocidad y precisión.

Fig. 4. Anotación inteligente SAM en Ultralytics (Fuente)

Los modelos más pequeños, como Tiny y Small, son más rápidos y resultan ideales para flujos de trabajo de anotación rápidos, mientras que los modelos más grandes, como Large y SAM , ofrecen una mayor precisión para escenas más complejas. Al cambiar de modelo, el comportamiento de la anotación se actualiza de inmediato.

En el editor de anotaciones, una vez seleccionado un SAM , los anotadores humanos pueden activar el modo «Smart» para comenzar a etiquetar. En lugar de dibujar formas manualmente, el modelo se guía mediante sencillas entradas basadas en puntos.

Al hacer clic con el botón izquierdo se añade un punto positivo para incluir una zona, mientras que al hacer clic con el botón derecho se añade un punto negativo para excluir las zonas no deseadas. A partir de estos datos, el modelo genera una máscara precisa en tiempo real.

Para agilizar el flujo de trabajo, se puede activar el modo de aplicación automática. Cuando está activo, cada clic genera y guarda automáticamente una anotación sin necesidad de confirmación manual. En el caso de objetos más complejos, los anotadores pueden mantener pulsada la tecla «Shift» para colocar varios puntos antes de aplicar la máscara, o bien desactivar la aplicación automática para añadir puntos libremente y, a continuación, pulsar «Enter» para aplicar la máscara.

Comprender la anotación YOLO en Ultralytics

Al igual que la anotación inteligente SAM, la anotación YOLO de la Ultralytics utiliza la inteligencia artificial para agilizar el proceso de etiquetado. En lugar de guiar al modelo mediante clics, utiliza las predicciones del modelo para generar anotaciones de forma automática.

Este enfoque permite realizar tareas como la detección de objetos, la segmentación de instancias y la anotación de cuadros delimitadores orientados (OBB). Funciona específicamente conYOLO Ultralytics , incluidos los modelos preentrenados proporcionados por Ultralytics YOLO entrenados a medida.

En el editor de anotaciones, los anotadores pueden activar el modo inteligente, seleccionar un YOLO en el selector de modelos y hacer clic en «Predecir». El selector de modelos solo muestra YOLO que se ajustan a la tarea actual del conjunto de datos, lo que garantiza que las anotaciones generadas sean compatibles.

El modelo analiza la imagen y genera anotaciones basadas en sus predicciones, que luego se añaden directamente a la imagen. Si las predicciones se solapan con anotaciones existentes de la misma clase, las detecciones duplicadas se omiten automáticamente cuando el solapamiento supera un umbral establecido, lo que ayuda a mantener unas etiquetas limpias y coherentes.

Fig. 5. Anotación inteligente habilitada porYOLO Ultralytics en Ultralytics (Fuente)

Una vez generadas las predicciones, los anotadores humanos pueden revisarlas, ajustarlas o eliminarlas según sea necesario. Esto facilita el etiquetado rápido de grandes conjuntos de datos, ya que se parte de las anotaciones generadas por el modelo y se refinan, en lugar de anotarlo todo manualmente.

Con el tiempo, YOLO mejorados pueden reutilizarse para generar predicciones más precisas, lo que permite un flujo de trabajo iterativo de etiquetado automático.

Aplicación del etiquetado asistido por IA en flujos de trabajo reales

A continuación, veamos algunos ejemplos de cómo la Ultralytics permite la anotación de datos en casos de uso reales.

Segmentación en la conducción autónoma

Los vehículos autónomos equipados con modelos de visión artificial dependen de datos visuales bien etiquetados para comprender su entorno en tiempo real. Los modelos entrenados con estos datos pueden detect segment , peatones, señales de tráfico y los límites de la carretera.

Las tareas de segmentación requieren límites precisos a nivel de píxel, lo que hace que la anotación sea fundamental y, al mismo tiempo, requiera mucho tiempo. El etiquetado manual de grandes volúmenes de datos de sensores puede convertirse rápidamente en un cuello de botella, especialmente en situaciones de conducción complejas.

Ultralytics agiliza este proceso mediante la anotación asistida por IA, utilizando YOLO SAM YOLO . La anotación inteligente SAM permite una segmentación rápida mediante clics con máscaras precisas, mientras que YOLO se pueden utilizar para generar automáticamente anotaciones en todas las imágenes.

En conjunto, estos métodos facilitan el tratamiento de escenas complejas con objetos superpuestos.

Dado que la anotación está directamente relacionada con el entrenamiento de los modelos, los conjuntos de datos a gran escala actualizados pueden utilizarse de inmediato para volver a entrenar y evaluar los modelos. Esto permite a los equipos mejorar continuamente el rendimiento y adaptarse a las nuevas condiciones de conducción de forma más eficiente.

Mejora de los sistemas de garantía de calidad en el sector manufacturero

En el sector manufacturero, mantener un control de calidad constante depende de la detección precisa de defectos durante la producción. A menudo se utilizan modelos de visión artificial para identificar problemas en tiempo real, pero su rendimiento depende de hasta qué punto los datos de entrenamiento reflejan las condiciones reales de producción.

Los cambios en los entornos de fabricación, como las variaciones en las materias primas, los ajustes de las máquinas o la iluminación, pueden dar lugar a nuevos y poco frecuentes tipos de defectos que no formaban parte de los datos de entrenamiento originales. Esto crea una brecha entre lo que el modelo ha aprendido y lo que se observa en la línea de producción.

Para mantener la coherencia, los conjuntos de datos deben actualizarse periódicamente con anotaciones internas de alta calidad. Ultralytics facilita la actualización de las anotaciones y la ampliación de los conjuntos de datos a medida que surgen nuevos patrones de defectos. Estos conjuntos de datos actualizados pueden utilizarse para volver a entrenar los modelos, lo que ayuda a los equipos a adaptarse más rápidamente a las condiciones cambiantes de la producción.

Supervisión de obras y seguridad en la construcción

Las obras de construcción son entornos dinámicos, con múltiples equipos, maquinaria en movimiento y distribuciones que cambian constantemente. Mantener la seguridad en estas condiciones depende de disponer de datos visuales claros y bien documentados.

Las anotaciones precisas pueden mejorar la calidad de los datos y ayudar a los sistemas de IA a identificar a los trabajadores, los equipos, el material de seguridad y los posibles riesgos en diversas condiciones del lugar de trabajo, como entornos con mucha gente, fondos cambiantes y condiciones de iluminación variables.

Ultralytics facilita esta tarea al permitir actualizar y perfeccionar las anotaciones a medida que cambian las condiciones del lugar. Se pueden capturar nuevas imágenes e incorporarlas al conjunto de datos a medida que surgen, lo que garantiza que este se mantenga en consonancia con las situaciones reales.

Conclusiones clave

Una anotación de alta calidad es esencial para crear modelos fiables de visión artificial e inteligencia artificial, pero los flujos de trabajo tradicionales suelen ralentizar el trabajo de los equipos. Ultralytics agiliza este proceso con herramientas de anotación automatizadas y un flujo de trabajo escalable. Como resultado, los equipos pueden pasar más rápidamente de los datos al modelo sin perder precisión ni coherencia.

Echa un vistazo a nuestra comunidad, que no deja de crecer, y a nuestro repositorio de GitHub para obtener más información sobre la visión artificial. Si estás interesado en desarrollar soluciones de visión artificial, consulta nuestras opciones de licencia. Explora nuestras páginas de soluciones para conocer mejor las ventajas de la visión artificial en el sector manufacturero y de la inteligencia artificial en el sector sanitario.

Cómo utiliza Ultralytics la inteligencia artificial para automatizar la anotación