Glosario

Ingeniería de funciones

Aumente la precisión del aprendizaje automático con ingeniería de características experta. Aprenda técnicas para crear, transformar y seleccionar características impactantes.

La ingeniería de características es el proceso crucial de seleccionar, transformar y crear características a partir de datos brutos para hacerlos más adecuados para los modelos de aprendizaje automático (Machine Learning, ML). Consiste en utilizar el conocimiento del dominio y las técnicas de análisis de datos para crear entradas que representen mejor el problema subyacente y, en última instancia, mejorar el rendimiento, la precisión y la interpretabilidad del modelo. Es como preparar los mejores ingredientes para una receta; incluso el cocinero (o modelo) más experto tiene problemas con los ingredientes de mala calidad(datos de entrenamiento). Este paso suele considerarse una de las partes más críticas y lentas del flujo de trabajo de ML.

¿Por qué es importante la ingeniería de funciones?

Los datos en bruto recogidos en el mundo real rara vez están listos para su uso directo en algoritmos de ML. Pueden contener valores omitidos, incoherencias, información irrelevante o estar en formatos inadecuados para el consumo de modelos (como texto o datos categóricos). La ingeniería de características aborda estos problemas:

  • Mejora del rendimiento de los modelos: Las características bien diseñadas destacan los patrones relevantes para el problema, lo que facilita el aprendizaje y la generalización de los modelos.
  • Reducción de la complejidad: puede simplificar los modelos proporcionando entradas más informativas, lo que a veces reduce la necesidad de arquitecturas o algoritmos de detección de objetos muy complejos.
  • Manejo de diversos tipos de datos: Proporciona métodos para convertir diversos tipos de datos (texto, imágenes, categóricos) en representaciones numéricas comprensibles para los algoritmos. Para más información, consulta las técnicas de preprocesamiento de datos.
  • Mejora de la interpretabilidad: Las características significativas a veces pueden facilitar la comprensión de por qué un modelo hace ciertas predicciones, contribuyendo a la IA explicable (XAI).

Técnicas comunes de ingeniería de rasgos

La ingeniería de características engloba varias técnicas:

  • Imputación: Tratamiento de los datos que faltan rellenando los huecos con valores estimados (por ejemplo, media, mediana o métodos más sofisticados). El tratamiento de los datos que faltan es un primer paso habitual.
  • Escalado y normalización: Ajuste del rango o la distribución de las características numéricas (por ejemplo, escalado Min-Max, normalización Z-score) para evitar que las características con valores más grandes dominen el proceso de aprendizaje.
  • Codificación de variables categóricas: Conversión de datos no numéricos (como las categorías "rojo", "verde", "azul") en formatos numéricos (por ejemplo, codificación de una sola vez, codificación de etiquetas). Véase codificación de datos categóricos.
  • Creación de características (generación): Derivación de nuevas características a partir de otras existentes basadas en el conocimiento del dominio o en el análisis de interacciones (por ejemplo, creación de "edad" a partir de "fecha_de_nacimiento", combinación de "altura" y "peso" en "IMC", o extracción de características de texto mediante TF-IDF).
  • Binning (Discretización): Agrupación de datos numéricos continuos en intervalos discretos.
  • Transformación logarítmica: Aplicar una transformación logarítmica para manejar distribuciones de datos sesgadas. Explora las transformaciones de datos para más detalles.
  • Selección de características: Identificar y conservar sólo las características más relevantes, descartando las redundantes o irrelevantes para simplificar el modelo y mejorar potencialmente el rendimiento. Está estrechamente relacionado con la reducción de la dimensionalidad.

Ingeniería de características frente a extracción de características

Aunque a menudo se utilizan indistintamente, la ingeniería y la extracción de características tienen matices distintos.

  • Ingeniería de características: Un proceso más amplio que incluye la extracción de características, pero que también implica la creación manual de nuevas características, la transformación de las existentes sobre la base de la experiencia en el dominio y la selección de las mejores características. A menudo requiere creatividad y un profundo conocimiento de los datos y el problema.
  • Extracción de características: Se centra específicamente en la transformación automática de datos brutos, a menudo de alta dimensión (como imágenes o lecturas brutas de sensores), en un conjunto de características de menor dimensión y más manejables. Técnicas como el análisis de componentes principales (ACP) o el aprendizaje automático de características por capas en las redes neuronales convolucionales (CNN) son ejemplos de extracción de características.

En esencia, la extracción de rasgos suele ser una herramienta utilizada dentro del proceso más amplio de ingeniería de rasgos.

Aplicaciones reales

  1. Mantenimiento predictivo: En la fabricación, los datos brutos de los sensores (vibración, temperatura, presión) de las máquinas pueden ser ruidosos y tener muchas dimensiones. La ingeniería de características podría implicar el cálculo de medias móviles, desviaciones estándar en ventanas de tiempo, características de dominio de frecuencia (como FFT) o la creación de características que indiquen picos o cambios repentinos. Estas características de ingeniería facilitan a un modelo ML la predicción de posibles fallos de los equipos antes de que se produzcan, como se explica en AI in manufacturing.
  2. Predicción de la pérdida de clientes: Para predecir qué clientes podrían dejar de utilizar un servicio, los datos brutos incluyen registros de uso, datos demográficos, historial de tickets de soporte y registros de compra. La ingeniería de características podría implicar la creación de características como la "duración media de la sesión", el "tiempo transcurrido desde la última compra", el "número de solicitudes de asistencia en el último mes", la "proporción de comentarios positivos y negativos" o el "valor del ciclo de vida del cliente". Estas características derivadas proporcionan señales más ricas para predecir la pérdida de clientes en comparación con los registros sin procesar. Esto es relevante para la IA en las finanzas y el comercio minorista.

Ingeniería de funciones y Ultralytics

Aunque los modelos avanzados como Ultralytics YOLO destacan en tareas como la detección de objetos y la segmentación de imágenes mediante el aprendizaje automático de características visuales relevantes a través de sus arquitecturas de redes neuronales profundas(columna vertebral, cuello, cabeza), los principios de ingeniería de características siguen siendo relevantes. Por ejemplo, el preprocesamiento de las imágenes de entrada (por ejemplo, ecualización del histograma para variar la iluminación, reducción del ruido mediante bibliotecas como OpenCV o aplicación de aumentos de datos específicos adaptados al dominio del problema) antes de introducirlas en un modelo YOLO es una forma de ingeniería de características que puede mejorar la solidez y el rendimiento del modelo. Además, los resultados de YOLO (como las coordenadas del cuadro delimitador, las clases de objetos o los recuentos) pueden convertirse en características para tareas posteriores o combinarse con otras fuentes de datos para análisis más complejos, quizá gestionados dentro de plataformas como Ultralytics HUB, que ayuda a organizar conjuntos de datos y modelos. Consulte la documentación y los tutoriales de Ultralytics para obtener más información sobre el uso de modelos, la formación personalizada y el preprocesamiento de datos anotados. Herramientas como Featuretools también pueden ayudar a automatizar partes del proceso de ingeniería de características, en consonancia con los conceptos del aprendizaje automático automatizado (AutoML). La ingeniería de características eficaz, incluso junto con potentes modelos de aprendizaje profundo, sigue siendo un aspecto clave de las prácticas MLOps de éxito.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles