Glosario

Mapas de características

Descubre cómo los mapas de características potencian los modelos Ultralytics YOLO , permitiendo la detección precisa de objetos y aplicaciones avanzadas de IA como la conducción autónoma.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los mapas de características son salidas fundamentales generadas por las capas de una Red Neuronal Convolucional (CNN), en particular las capas convolucionales. Representan características aprendidas o patrones detectados en los datos de entrada, como una imagen. Piensa en ellos como versiones filtradas de la entrada, en las que cada mapa destaca la presencia y la ubicación espacial de una característica específica -como bordes, esquinas, texturas o formas más complejas- que la red considera importante para la tarea en cuestión, como la detección de objetos, la segmentación de imágenes o la clasificación de imágenes. Estos mapas son componentes cruciales en la forma en que los modelos de aprendizaje profundo (AD ) interpretan la información visual.

Cómo se crean los mapas de características

Los mapas de características se generan mediante la operación matemática llamada convolución. Durante este proceso, una pequeña matriz conocida como filtro (o núcleo) se desliza por los datos de entrada (o el mapa de características de la capa anterior). En cada posición, el filtro realiza una multiplicación por elementos con la parte superpuesta de la entrada y suma los resultados para producir un único valor en el mapa de características de salida. Cada filtro se diseña o aprende durante el entrenamiento para detectar un patrón específico. Una capa convolucional suele utilizar varios filtros, cada uno de los cuales produce su propio mapa de características, capturando así un conjunto diverso de características de la entrada. La columna vertebral de la red, a menudo construida con marcos como PyTorch o TensorFlowes la principal responsable de generar estos ricos mapas de características a partir de los datos de entrada, a menudo visualizados mediante herramientas como OpenCV.

Representación jerárquica de rasgos

En una arquitectura típica de CNN, la imagen de entrada pasa a través de una serie de capas. Las primeras capas, más cercanas a la entrada, tienden a producir mapas de características que capturan rasgos simples y de bajo nivel (por ejemplo, líneas horizontales, contrastes de color simples, texturas básicas). A medida que los datos fluyen más profundamente en la red neuronal (RN), las capas posteriores combinan estas características simples para construir representaciones más complejas y abstractas. Los mapas de características de las capas más profundas pueden resaltar partes del objeto (como las ruedas de un coche o los ojos de una cara) o incluso objetos enteros. Este aprendizaje jerárquico de características permite a la red aprender patrones intrincados progresivamente, pasando de patrones generales a detalles específicos relevantes para la tarea. Puedes explorar los conceptos básicos en recursos como los apuntes del curso CS231n de Stanford sobre las CNN.

Importancia y función en la detección de objetos

Los mapas de características son la piedra angular de la forma en que las CNN realizan la extracción automática de características, eliminando la necesidad de la ingeniería manual de características que era habitual en la visión por ordenador (VC) tradicional. La calidad y relevancia de las características capturadas en estos mapas influyen directamente en el rendimiento del modelo, medido por métricas como la precisión y la Precisión Media Media (mAP). En los modelos de detección de objetos como Ultralytics YOLOconcretamente versiones como YOLOv8 y YOLO11los mapas de características generados por la columna vertebral suelen ser procesados posteriormente por una estructura de "cuello" (como FPN o PAN) antes de pasarlos al cabezal de detección. A continuación, la cabeza de detección utiliza estos mapas de características refinados para predecir los resultados finales: recuadros delimitadores que indican la ubicación de los objetos y probabilidades de clase que identifican los objetos encontrados en conjuntos de datos como COCO o ImageNet.

Mapas de características frente a conceptos relacionados

  • Extracción de rasgos: Los mapas de características son el resultado del proceso de extracción de características realizado por las capas convolucionales de una CNN. La extracción de características es el proceso general de transformación de datos brutos en características numéricas, y los mapas de características son un tipo específico de representación generada durante este proceso en los modelos de visión.
  • Mapas de activación: Los términos "mapa de características" y "mapa de activación" suelen utilizarse indistintamente. Un mapa de activación se refiere al resultado de aplicar una función de activación (como ReLU o SiLU) a la salida de una capa convolucional. Puesto que los mapas de características representan la presencia activada de características, son esencialmente mapas de activación.

Aplicaciones en el mundo real

Los mapas de características forman parte integral de innumerables aplicaciones de Inteligencia Artificial (IA) y Aprendizaje Automático (AM):

  1. Conducción autónoma: En los vehículos autónomos, las CNN procesan datos de cámaras y sensores. Los mapas de características generados en distintas capas ayudan a identificar peatones, otros vehículos, marcas de carril y señales de tráfico. Las primeras capas detectan bordes y texturas, mientras que las capas más profundas los combinan para reconocer objetos complejos como coches o semáforos, lo que es crucial para una navegación segura. Empresas como Waymo confían mucho en estas tecnologías para su IA en los coches autoconducidos.
  2. Análisis de imágenes médicas: Las CNN analizan exploraciones médicas (radiografías, TAC, IRM) para el diagnóstico. Los mapas de características destacan las posibles anomalías. Por ejemplo, en la detección de tumores, los primeros mapas de características pueden identificar texturas o bordes inusuales, mientras que los mapas más profundos aprenden a reconocer las formas y estructuras específicas características de los tumores, ayudando a los radiólogos en el diagnóstico. Se trata de una parte clave del análisis de imágenes médicas, con investigaciones en curso destacadas en revistas como Radiology: Inteligencia Artificial.

Visualización e Interpretación

Visualizar los mapas de características puede proporcionar información sobre lo que ha aprendido una CNN y cómo toma sus decisiones. Examinando qué partes de una imagen activan mapas de características específicos, los desarrolladores pueden comprender si el modelo se está centrando en características relevantes. Este es un componente de la IA explicable (XAI) y puede hacerse utilizando herramientas como TensorBoard u otras técnicas de visualización. Comprender los mapas de características ayuda a depurar los modelos y a mejorar su robustez y fiabilidad, lo que puede gestionarse y seguirse utilizando plataformas como Ultralytics HUB.

Leer todo