Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra cómo los datos anotados por humanos mejoran la precisión de los modelos de visión artificial y por qué la experiencia humana sigue siendo esencial para que los sistemas de IA visual sean fiables.
Hace veinte años, si alguien hubiera dicho que estaba pensando en comprar un robot para ayudar en las tareas domésticas, habría parecido algo realmente descabellado. Sin embargo, nos encontramos en pleno auge de la inteligencia artificial y se están probando robots en situaciones similares.
Un campo clave de la IA que impulsa este progreso es la visión artificial, que proporciona a las máquinas la capacidad de comprender imágenes y vídeos. En otras palabras, los modelos de visión artificial como Ultralytics YOLO11 y el próximo Ultralytics pueden entrenarse con conjuntos de datos que consisten en datos visuales y anotaciones.
Estas anotaciones ayudan al modelo a comprender los datos visuales. Por ejemplo, los conjuntos de datos de detección de objetos utilizan cuadros delimitadores para dibujar rectángulos alrededor de los objetos de interés. Esto permite al modelo detect localizar esos objetos en nuevas imágenes, incluso cuando la escena está abarrotada o el objeto está parcialmente oculto.
Otras tareas de visión artificial dependen de diferentes tipos de anotaciones. Los conjuntos de datos de segmentación etiquetan el contorno exacto de un objeto a nivel de píxeles, mientras que los conjuntos de datos de puntos clave marcan puntos de referencia específicos, como las articulaciones de una persona.
Sin embargo, en todos estos formatos, un factor crucial es la calidad y la coherencia de las etiquetas. Los modelos aprenden directamente de los datos con los que se entrenan, por lo que si las etiquetas son incoherentes o incorrectas, el modelo a menudo trasladará esos errores a sus predicciones.
Incluso con la automatización, los conjuntos de datos anotados por humanos siguen siendo cruciales, especialmente en áreas de alto riesgo como las imágenes médicas. Pequeños errores de etiquetado, como un límite impreciso de un tumor o una anomalía que se pasa por alto, pueden enseñar al modelo un patrón erróneo y dar lugar a predicciones poco seguras más adelante. Los expertos humanos proporcionan la verdad fundamental y el juicio precisos que requieren estas aplicaciones.
Fig. 1. Existe la necesidad de conjuntos de datos anotados por humanos. Imagen del autor.
En este artículo, analizaremos más detenidamente por qué los datos anotados por humanos son esenciales, incluso a medida que la IA sigue avanzando.
La necesidad de anotaciones en imágenes y vídeos
Los modelos de visión artificial aprenden de forma muy similar a como lo hacemos nosotros, observando muchos ejemplos. La diferencia es que aprenden mediante el entrenamiento con grandes conjuntos de datos de imágenes y vídeos que los humanos etiquetan previamente. Esas etiquetas actúan como referencia, enseñando al modelo cosas como que esto es un peatón, aquí está el límite de un tumor o ese objeto es un coche.
Las imágenes del mundo real rara vez son nítidas o uniformes. La iluminación puede cambiar y hacer que un mismo objeto se vea diferente. Las personas y los vehículos pueden superponerse o quedar parcialmente ocultos. Los fondos pueden ser recargados y distraer la atención. Cuando los conjuntos de datos incluyen etiquetas cuidadosas y coherentes en todas estas situaciones, los modelos están mucho mejor preparados para lo que se encontrarán fuera de entornos controlados.
La anotación de datos es mucho más que dibujar recuadros o trazar contornos. Implica aplicar directrices y tomar decisiones prácticas sobre qué se considera un objeto, dónde deben estar sus límites y qué hacer cuando algo no está claro. Ese juicio humano garantiza la precisión y la utilidad de los datos.
Al final, un sistema de visión artificial solo funciona tan bien como los datos etiquetados con los que aprende. En aplicaciones de gran impacto, como la detección de cáncer en escáneres o la detección de peligros en la carretera para los coches autónomos, las etiquetas precisas de personas cualificadas marcan una diferencia real en cuanto a precisión y seguridad.
El auge de la automatización en la anotación de datos
A medida que la visión artificial se expande y los conjuntos de datos crecen, la automatización se está convirtiendo en una forma habitual de acelerar la anotación. En lugar de etiquetar todo a mano, los equipos utilizan modelos de IA para producir una primera pasada de etiquetas.
A continuación, los seres humanos revisan los resultados, corrigen los errores y gestionan los casos que el modelo no puede etiquetar con seguridad. Este enfoque agiliza la anotación y mantiene un alto nivel de calidad.
A continuación se indican algunas formas en las que la automatización suele ayudar con la anotación de datos:
Segmentación automática: los modelos pueden sugerir automáticamente contornos de objetos o máscaras a nivel de píxeles, lo que reduce la cantidad de trazado manual que deben realizar los anotadores.
Seguimiento del flujo óptico: en lo que respecta a los vídeos, los métodos de seguimiento pueden seguir un objeto en movimiento a lo largo de los fotogramas y trasladar su etiqueta, lo que ayuda a mantener la coherencia de las anotaciones a lo largo del tiempo.
Interpolación de fotogramas: las herramientas pueden rellenar las etiquetas de los fotogramas entre dos fotogramas etiquetados utilizando señales de movimiento y seguimiento, de modo que los anotadores no tengan que etiquetar cada fotograma individualmente.
Aprendizaje activo: los procesos de formación pueden identificar ejemplos que el modelo considera inciertos o inusuales y enviarlos primero a los humanos, de modo que el esfuerzo manual se dedique a los datos que más mejoran el rendimiento.
¿Por qué sigue siendo tan importante la anotación de datos por parte de personas?
Aunque la automatización puede acelerar el etiquetado, los modelos de IA siguen necesitando el criterio humano para mantener su precisión y fiabilidad.
A continuación se indican algunas áreas clave en las que la experiencia humana tiene un impacto en la anotación de datos:
Comprender el contexto: las imágenes y los vídeos reales suelen ser confusos. Las sombras, los reflejos, el desenfoque por movimiento y los objetos superpuestos pueden confundir a las herramientas automatizadas. Los anotadores humanos pueden interpretar lo que realmente está sucediendo, por lo que las etiquetas son más precisas.
Mantener la coherencia de las etiquetas: a medida que los conjuntos de datos crecen, las etiquetas automatizadas pueden variar o diferir entre los distintos lotes. Los seres humanos pueden auditar, corregir y alinear las etiquetas para que el conjunto de datos mantenga su coherencia de principio a fin.
Reducir los prejuicios y los daños: las personas son más hábiles a la hora de detectar contenidos delicados, matices culturales y patrones que podrían introducir prejuicios. Su supervisión contribuye a que los conjuntos de datos sean más justos y evita daños involuntarios.
Aplicación de conocimientos especializados: algunas tareas requieren conocimientos específicos, como identificar anomalías médicas o defectos industriales. Los expertos pueden proporcionar etiquetas precisas y resolver casos ambiguos para que el modelo aprenda los detalles correctos.
Una visión general de la anotación con intervención humana
Las herramientas y plataformas de anotación como Roboflow la automatización para acelerar el etiquetado, a menudo utilizando modelos básicos como Segment Anything Model 3 o SAM3. SAM3 es el modelo básico de segmentación promptable de Meta AI.
Puede detect, segment y track en imágenes y vídeos a partir de indicaciones sencillas, como clics, cuadros delimitadores o frases cortas de texto, y generar máscaras de segmentación para objetos coincidentes sin necesidad de formación específica para cada nueva categoría.
Incluso con estos enfoques de vanguardia, se sigue necesitando la intervención de expertos humanos para revisar y finalizar las anotaciones. Cuando las herramientas automatizadas producen un primer borrador y los humanos lo verifican, corrigen y perfeccionan, el flujo de trabajo se conoce como anotación con intervención humana. Esto permite que la anotación sea rápida y, al mismo tiempo, garantiza que las etiquetas finales sean lo suficientemente precisas y coherentes como para entrenar modelos fiables.
Fig. 2. Una mirada a la anotación con intervención humana. (Fuente)
Cuándo funciona la automatización para la anotación y cuándo no
La anotación automatizada funciona mejor con datos procedentes de lugares controlados. Las imágenes recopiladas en fábricas, almacenes o pasillos de tiendas suelen tener una iluminación constante y una visión clara de los objetos, por lo que las herramientas automatizadas pueden etiquetarlas con precisión y ayudar a los equipos a escalar más rápidamente con menos trabajo manual.
Los datos procedentes de lugares menos controlados son más complejos. Las imágenes exteriores cambian según la hora del día y las condiciones meteorológicas, y las escenas de calles o viviendas suelen incluir desorden, desenfoque por movimiento, objetos que se bloquean entre sí y muchos solapamientos. Los objetos pequeños, los límites difusos o las situaciones poco habituales aumentan aún más el margen de error. Un modelo que funciona bien con datos limpios de interiores puede seguir teniendo dificultades con imágenes desordenadas del mundo real.
Por eso sigue siendo importante la intervención humana. Las personas pueden intervenir cuando el modelo es incierto, interpretar contextos complejos y corregir errores antes de que terminen en el conjunto de datos final. La anotación con intervención humana ayuda a que la automatización se mantenga basada en condiciones del mundo real y garantiza la fiabilidad de los modelos tras su implementación.
¿En qué casos puede marcar la diferencia la anotación con intervención humana?
Ahora que hemos visto dónde funciona bien la automatización y dónde se queda corta, exploremos algunas aplicaciones en las que la anotación con intervención humana desempeña un papel importante.
Detección de defectos en la fabricación
Pensemos en una cinta transportadora de una fábrica en la que cientos de piezas pasan por debajo de una cámara cada minuto. La mayoría de los defectos son evidentes, pero de vez en cuando aparece una pequeña grieta en un ángulo extraño o bajo el resplandor de una luz. Un sistema automatizado podría pasarla por alto o etiquetarla como una textura superficial inofensiva, pero un revisor humano puede detectar el defecto, corregir la anotación y asegurarse de que el modelo aprenda la diferencia.
Esa es la función de la anotación con intervención humana en la inspección industrial. La automatización puede preetiquetar los tipos de defectos comunes y acelerar el procesamiento de grandes volúmenes de imágenes, pero los seres humanos aún deben verificar los resultados, ajustar los límites y manejar fallas poco frecuentes que no suelen aparecer en el entrenamiento.
Vehículos autónomos y transporte inteligente
Del mismo modo, los vehículos autónomos utilizan la visión artificial para detectar peatones, leer señales y circular por el tráfico, pero las carreteras reales son impredecibles. Por ejemplo, un peatón que sale por detrás de un coche aparcado por la noche puede quedar parcialmente oculto y ser difícil de ver debido al resplandor.
Fig. 3. Ejemplo del uso de la visión artificial para analizar el tráfico. (Fuente)
Los anotadores humanos pueden etiquetar estos casos extremos poco frecuentes y críticos para la seguridad durante el entrenamiento, de modo que los modelos aprendan la respuesta correcta, no solo en condiciones normales, sino también en los momentos más importantes. Este paso, en el que interviene el ser humano, es fundamental para enseñar a los sistemas a gestionar eventos de baja frecuencia que son difíciles de captar solo con la automatización.
El camino por delante para los conjuntos de datos anotados por humanos
La anotación con intervención humana se está volviendo más colaborativa a medida que avanza la tecnología. Curiosamente, los modelos de lenguaje visual (VLM), que aprenden tanto de imágenes como de texto, se están utilizando ahora para crear una primera pasada de etiquetas y sugerir correcciones a partir de simples indicaciones.
Así, en lugar de escanear manualmente cada imagen para decidir qué etiquetar, un anotador puede solicitar a un VLM una frase como «etiquetar todos los peatones, coches y semáforos» osegment los defectos de esta pieza», y obtener un borrador de anotaciones para revisar.
Fig. 4. Los modelos multimodales de gran tamaño pueden funcionar con anotadores humanos (Fuente)
Esto reduce el tiempo de anotación, ya que el modelo puede gestionar muchos casos sencillos desde el principio, por lo que los humanos pueden centrarse en revisar los resultados, corregir los ejemplos más complicados y mantener la coherencia del conjunto de datos. Los grandes modelos multimodales también están empezando a guiar a los anotadores hacia las muestras más inciertas, lo que hace que el esfuerzo humano sea más específico y mejora la calidad general del conjunto de datos.
Conclusiones clave
La visión artificial ayuda a las máquinas a interpretar y reaccionar ante lo que ven, pero funciona mejor cuando se combina con la experiencia humana. Los datos anotados por humanos mantienen los modelos basados en condiciones del mundo real y mejoran su fiabilidad. Con la automatización y el juicio humano trabajando en conjunto, los equipos pueden crear sistemas de visión impactantes.