Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Lea nuestro análisis exhaustivo sobre el etiquetado de datos en relación con los proyectos de visión artificial y aprenda cómo etiquetar datos visuales y por qué es tan importante.
La inteligencia artificial (IA) se centra en dar a las máquinas habilidades similares a las humanas, y una de las formas más populares de hacerlo es a través del aprendizaje supervisado. En otras palabras, enseñar a los modelos de IA mostrándoles ejemplos etiquetados puede ayudarles a aprender de los patrones y a mejorar en las tareas. Es muy similar a cómo los humanos aprenden de la experiencia. Entonces, ¿cómo se crean estos ejemplos etiquetados?
La anotación de datos implica etiquetar o marcar datos para ayudar a los algoritmos de aprendizaje automático a comprenderlos. En la visión artificial, esto significa marcar imágenes o vídeos para reconocer y clasificar con precisión objetos, acciones o escenas. El etiquetado de datos es vital porque el éxito de un modelo de IA depende en gran medida de la calidad de los datos etiquetados con los que se entrena.
Los estudios demuestran que más del 80% del tiempo de los proyectos de IA se dedica a la gestión de datos, desde la recopilación y agregación hasta la limpieza y el etiquetado. Esto demuestra la importancia de la anotación de datos en el desarrollo de modelos de IA. El uso de datos anotados de alta calidad permite a los modelos de IA realizar tareas como el reconocimiento facial y la detección de objetos con mayor precisión y fiabilidad en situaciones del mundo real.
Por qué es necesaria la anotación de datos
La anotación de datos constituye la base del rendimiento de un modelo de visión artificial. Los datos etiquetados son la verdad fundamental que el modelo utiliza para aprender y hacer predicciones. Los datos de verdad fundamental son clave porque representan el mundo real que el modelo intenta comprender. Sin esta base fiable, el modelo de IA sería como un barco navegando sin brújula.
El etiquetado preciso ayuda a estos modelos a entender lo que están viendo y conduce a una mejor toma de decisiones. Si los datos están mal etiquetados o son incoherentes, el modelo tendrá dificultades para hacer predicciones y tomar decisiones correctas, al igual que un estudiante que aprende de libros de texto incorrectos. Gracias a los datos anotados, un modelo puede aprender tareas como la clasificación de imágenes, la segmentación de instancias y la estimación de la pose de objetos en imágenes y vídeos.
Los mejores recursos para conjuntos de datos
Antes de crear un nuevo conjunto de datos y etiquetar meticulosamente imágenes y vídeos, es una buena idea ver si puede utilizar conjuntos de datos preexistentes para su proyecto. Existen varios repositorios de código abierto fantásticos donde puede acceder a conjuntos de datos de alta calidad de forma gratuita. Algunos de los más populares son:
ImageNet: Se utiliza comúnmente para entrenar modelos de clasificación de imágenes.
COCO: Este conjunto de datos está diseñado para la detección de objetos, la segmentación y la descripción de imágenes.
PASCAL VOC: Es compatible con las tareas de detección y segmentación de objetos.
Fig 2. Ejemplos de datos en el conjunto de datos COCO.
Al elegir un conjunto de datos, es importante tener en cuenta factores como lo bien que se adapta a su proyecto, el tamaño del conjunto de datos, su diversidad y la calidad de las etiquetas. Además, asegúrese de revisar los términos de licencia del conjunto de datos para evitar cualquier repercusión legal, y compruebe si los datos están formateados de forma que se adapten a su flujo de trabajo y a sus herramientas.
Crear un conjunto de datos personalizado es una gran opción si los conjuntos de datos existentes no se ajustan del todo a sus necesidades. Puede recopilar imágenes utilizando herramientas como cámaras web, drones o teléfonos inteligentes, dependiendo de lo que requiera su proyecto. Lo ideal es que su conjunto de datos personalizado sea diverso, equilibrado y verdaderamente representativo del problema que está intentando resolver. Esto podría significar capturar imágenes en diferentes condiciones de iluminación, desde varios ángulos y en múltiples entornos.
Si solo puede recopilar un número menor de imágenes o vídeos, el aumento de datos es una técnica útil. Implica ampliar su conjunto de datos aplicando transformaciones como la rotación, el volteo o los ajustes de color a las imágenes existentes. Aumenta el tamaño de su conjunto de datos y hace que su modelo sea más robusto y capaz de manejar las variaciones en los datos. Mediante el uso de una combinación de conjuntos de datos de código abierto, conjuntos de datos personalizados y datos aumentados, puede aumentar significativamente el rendimiento de sus modelos de visión artificial.
Tipos de técnicas de anotación de imágenes
Antes de empezar a anotar imágenes, es importante familiarizarse con los diferentes tipos de anotaciones. Esto te ayudará a elegir la más adecuada para tu proyecto. A continuación, veremos algunos de los principales tipos de anotaciones.
Bounding boxes (Cajas delimitadoras)
Las bounding boxes (cajas delimitadoras) son el tipo más común de anotación en visión artificial. Son cajas rectangulares que se utilizan para marcar la ubicación de un objeto en una imagen. Estas cajas se definen por las coordenadas de sus esquinas y ayudan a los modelos de IA a identificar y localizar objetos. Las bounding boxes se utilizan principalmente para la detección de objetos.
A veces, es necesario detectar un objeto con mayor precisión que mediante una simple bounding box dibujada a su alrededor. Puede que te interese el contorno de los objetos en una imagen. En ese caso, las máscaras de segmentación te permiten delinear objetos complejos. Las máscaras de segmentación son una representación más detallada a nivel de píxel.
Estas máscaras se pueden utilizar para la segmentación semántica y la segmentación de instancias. La segmentación semántica implica etiquetar cada píxel de una imagen según el objeto o área que representa, como un peatón, un coche, una carretera o una acera. La segmentación de instancias, sin embargo, va un paso más allá al identificar y separar cada objeto individualmente, como distinguir entre cada coche en una imagen, incluso si todos son del mismo tipo.
Fig 4. Ejemplo de segmentación semántica (izquierda) y máscaras de segmentación de instancias (derecha).
Cuboides 3D
Los cuboides 3D son similares a las bounding boxes, lo que los hace únicos es que los cuboides 3D añaden información de profundidad y proporcionan una representación 3D de un objeto. Esta información adicional permite a los sistemas comprender la forma, el volumen y la posición de los objetos en un espacio 3D. Los cuboides 3D se utilizan a menudo en coches autónomos para medir la distancia de los objetos con respecto al vehículo.
Key-points (Puntos clave) y landmarks (puntos de referencia)
Otro tipo interesante de anotación son los key-points (puntos clave), donde se marcan puntos específicos como ojos, narices o articulaciones en los objetos. Los landmarks (puntos de referencia) van un paso más allá al conectar estos puntos para capturar la estructura y el movimiento de formas más complejas, como rostros o poses corporales. Estos tipos de anotaciones se utilizan para aplicaciones como el reconocimiento facial, la captura de movimiento y la realidad aumentada. También mejoran la precisión de los modelos de IA en tareas como el reconocimiento de gestos o el análisis del rendimiento deportivo.
Ahora que hemos hablado de los diferentes tipos de anotaciones, vamos a entender cómo se pueden anotar imágenes utilizando una herramienta popular, LabelImg. LabelImg es una herramienta de código abierto que simplifica la anotación de imágenes y se puede utilizar para crear conjuntos de datos en el formato YOLO (You Only Look Once). Es una gran opción para los principiantes que trabajan en pequeños proyectos Ultralytics YOLOv8.
La configuración de LabelImg es sencilla. Primero, asegúrate de tener Python 3 instalado en tu ordenador. A continuación, puedes instalar LabelImg con un comando rápido.
Una vez instalado, puedes iniciar la herramienta con el siguiente comando:
LabelImg funciona en múltiples plataformas, incluyendo Windows, macOS y Linux. Si encuentras algún problema durante la instalación, el repositorio oficial de LabelImg puede proporcionarte instrucciones más detalladas.
Fig 7. Uso de LabelImg para la anotación de imágenes.
Una vez que inicies la herramienta, sigue estos sencillos pasos para empezar a etiquetar tus imágenes:
Configura tus clases: Comienza definiendo la lista de clases (categorías) que quieres anotar en un archivo llamado “predefined_classes.txt”. Este archivo le indica al software qué objetos vas a etiquetar en tus imágenes.
Cambia al formato YOLO: Por defecto, LabelImg utiliza el formato PASCAL VOC, pero si estás trabajando con YOLO, tendrás que cambiar de formato. Simplemente haz clic en el botón “PascalVOC” de la barra de herramientas para cambiar a YOLO.
Empieza a anotar: Utiliza las opciones "Open" o "OpenDIR" para cargar tus imágenes. A continuación, dibuja bounding boxes alrededor de los objetos que quieras anotar y asigna la etiqueta de clase correcta. Después de etiquetar cada imagen, guarda tu trabajo. LabelImg creará un archivo de texto con el mismo nombre que tu imagen, que contendrá las anotaciones YOLO.
Guardar y revisar: Las anotaciones se guardan en un archivo .txt en formato YOLO. El software también guarda un archivo “classes.txt” que enumera todos los nombres de tus clases.
Estrategias eficientes para el etiquetado de datos
Para que el proceso de etiquetado de datos sea más fluido, hay algunas estrategias clave que debes tener en cuenta. Por ejemplo, unas directrices de anotación claras son cruciales. Sin ellas, diferentes anotadores podrían interpretar una tarea de forma distinta.
Digamos que la tarea consiste en anotar aves en imágenes con cuadros delimitadores. Un anotador podría etiquetar el ave entera, mientras que otro podría etiquetar solo la cabeza o las alas. Este tipo de inconsistencia puede confundir al modelo durante el entrenamiento. Al proporcionar definiciones claras, como "etiquetar todo el pájaro, incluyendo las alas y la cola", junto con ejemplos e instrucciones para los casos difíciles, puedes asegurarte de que los datos se etiqueten de forma precisa y coherente.
Las comprobaciones de calidad periódicas también son importantes para mantener altos estándares. Al establecer puntos de referencia y utilizar métricas específicas para revisar el trabajo, puedes mantener la precisión de los datos y perfeccionar el proceso mediante una retroalimentación continua.
El etiquetado de datos en pocas palabras
La anotación de datos es un concepto sencillo que puede tener un impacto significativo en tu modelo de visión artificial. Tanto si utilizas herramientas como LabelImg para anotar imágenes como si entrenas modelos con conjuntos de datos de código abierto, comprender el etiquetado de datos es clave. Las estrategias de etiquetado de datos pueden ayudar a agilizar todo el proceso y hacerlo más eficiente. Dedicar tiempo a perfeccionar tu enfoque de anotación puede conducir a resultados de IA mejores y más fiables.
¡Sigue explorando y ampliando tus habilidades! ¡Mantente conectado con nuestra comunidad para seguir aprendiendo sobre la IA! Consulta nuestro repositorio de GitHub para descubrir cómo estamos utilizando la IA para crear soluciones innovadoras en industrias como la manufactura y la atención médica. 🚀