¿Qué es la optimización de modelos? Una guía rápida
Aprende cómo las técnicas de optimización de modelos, como el ajuste de hiperparámetros, la poda de modelos y la cuantización, ayudan a que los modelos de visión artificial funcionen de forma más eficiente.

La optimización de modelos es un proceso que tiene como objetivo mejorar la eficiencia y el rendimiento de los modelos de aprendizaje automático. Al refinar la estructura y el funcionamiento de un modelo, la optimización permite que los modelos ofrezcan mejores resultados con mínimos recursos computacionales y un tiempo reducido de entrenamiento y evaluación.
Este proceso es especialmente importante en campos como la visión artificial, donde los modelos a menudo requieren recursos considerables para analizar imágenes complejas. En entornos con recursos limitados, como dispositivos móviles o sistemas de borde, los modelos optimizados pueden funcionar bien con recursos limitados sin perder precisión.
Se utilizan comúnmente varias técnicas para lograr la optimización de modelos, incluyendo el ajuste de hiperparámetros, la poda de modelos, la cuantización de modelos y la precisión mixta. En este artículo, exploraremos estas técnicas y los beneficios que aportan a las aplicaciones de visión artificial. ¡Empecemos!
Link to this sectionEntender la optimización de modelos#
Los modelos de visión artificial suelen tener capas profundas y estructuras complejas que son excelentes para reconocer patrones intrincados en imágenes, pero también pueden ser muy exigentes en términos de potencia de procesamiento. Cuando estos modelos se despliegan en dispositivos con hardware limitado, como teléfonos móviles o dispositivos de borde, pueden enfrentar ciertos desafíos o limitaciones.
La limitada potencia de procesamiento, memoria y energía en estos dispositivos puede conducir a caídas notables en el rendimiento, ya que los modelos tienen dificultades para seguir el ritmo. Las técnicas de optimización de modelos son clave para abordar estas preocupaciones. Ayudan a agilizar el modelo, reducir sus necesidades computacionales y garantizar que pueda seguir funcionando de manera efectiva, incluso con recursos limitados. La optimización de modelos puede realizarse simplificando la arquitectura del modelo, reduciendo la precisión de los cálculos o eliminando componentes innecesarios para hacer que el modelo sea más ligero y rápido.

Fig 1. Razones para optimizar tus modelos. Imagen del autor.
Aquí tienes algunas de las técnicas de optimización de modelos más comunes, que exploraremos con más detalle en las siguientes secciones:
- Ajuste de hiperparámetros: implica ajustar sistemáticamente los hiperparámetros, como la tasa de aprendizaje y el tamaño del lote, para mejorar el rendimiento del modelo.
- Poda de modelos: esta técnica elimina pesos y conexiones innecesarias de la red neuronal, reduciendo su complejidad y coste computacional.
- Cuantización de modelos: la cuantización implica reducir la precisión de los pesos y activaciones del modelo, típicamente de 32 bits a 16 bits u 8 bits, reduciendo significativamente la huella de memoria y los requisitos computacionales.
- Ajustes de precisión: también conocido como entrenamiento de precisión mixta, implica el uso de diferentes formatos de precisión para diferentes partes del modelo y optimizar el uso de recursos sin comprometer la precisión.
Link to this sectionExplicado: Los hiperparámetros en los modelos de aprendizaje automático#
Puedes ayudar a un modelo a aprender y rendir mejor ajustando sus hiperparámetros, que son configuraciones que definen cómo aprende el modelo a partir de los datos. El ajuste de hiperparámetros es una técnica para optimizar estas configuraciones, mejorando la eficiencia y la precisión del modelo. A diferencia de los parámetros que el modelo aprende durante el entrenamiento, los hiperparámetros son valores preestablecidos que guían el proceso de entrenamiento.
Repasemos algunos ejemplos de hiperparámetros que pueden ajustarse:
- Tasa de aprendizaje: este parámetro controla el tamaño del paso que toma el modelo para ajustar sus pesos internos. Una tasa de aprendizaje más alta puede acelerar el aprendizaje, pero corre el riesgo de no encontrar la solución óptima, mientras que una tasa más baja puede ser más precisa, pero más lenta.
- Tamaño del lote: define cuántas muestras de datos se procesan en cada paso de entrenamiento. Tamaños de lote más grandes ofrecen un aprendizaje más estable, pero necesitan más memoria. Los lotes más pequeños entrenan más rápido, pero pueden ser menos estables.
- Épocas: puedes determinar cuántas veces ve el modelo el conjunto de datos completo usando este parámetro. Más épocas pueden mejorar la precisión, pero arriesgan el sobreajuste.
- Tamaño del kernel: define el tamaño del filtro en Redes Neuronales Convolucionales (CNNs). Los kernels más grandes capturan patrones más amplios, pero necesitan más procesamiento; los kernels más pequeños se centran en detalles más finos.
Link to this sectionCómo funciona el ajuste de hiperparámetros#
El ajuste de hiperparámetros generalmente comienza con la definición de un rango de valores posibles para cada hiperparámetro. Luego, un algoritmo de búsqueda explora diferentes combinaciones dentro de estos rangos para identificar las configuraciones que producen el mejor rendimiento.
Los métodos de ajuste comunes incluyen la búsqueda en cuadrícula, la búsqueda aleatoria y la optimización bayesiana. La búsqueda en cuadrícula prueba cada combinación posible de valores dentro de los rangos especificados. La búsqueda aleatoria selecciona combinaciones al azar, a menudo encontrando configuraciones efectivas más rápidamente. La optimización bayesiana utiliza un modelo probabilístico para predecir valores de hiperparámetros prometedores basados en resultados previos. Este enfoque normalmente reduce el número de pruebas necesarias.
En última instancia, para cada combinación de hiperparámetros, se evalúa el rendimiento del modelo. El proceso se repite hasta alcanzar los resultados deseados.
Link to this sectionHiperparámetros frente a parámetros del modelo#
Mientras trabajas en el ajuste de hiperparámetros, quizás te preguntes cuál es la diferencia entre los hiperparámetros y los parámetros del modelo.
Los hiperparámetros son valores establecidos antes del entrenamiento que controlan cómo aprende el modelo, como la tasa de aprendizaje o el tamaño del lote. Estas configuraciones son fijas durante el entrenamiento e influyen directamente en el proceso de aprendizaje. Por otro lado, los parámetros del modelo son aprendidos por el propio modelo durante el entrenamiento. Estos incluyen pesos y sesgos, que se ajustan a medida que el modelo entrena y finalmente guían sus predicciones. En esencia, los hiperparámetros dan forma al viaje de aprendizaje, mientras que los parámetros del modelo son los resultados de ese proceso de aprendizaje.

Fig 2. Comparación de parámetros e hiperparámetros.
Link to this sectionPor qué la poda de modelos es importante en el aprendizaje profundo#
La poda de modelos es una técnica de reducción de tamaño que elimina pesos y parámetros innecesarios de un modelo, haciéndolo más eficiente. En visión artificial, especialmente con redes neuronales profundas, un gran número de parámetros, como pesos y activaciones (salidas intermedias que ayudan a calcular la salida final), puede aumentar tanto la complejidad como las demandas computacionales. La poda ayuda a agilizar el modelo al identificar y eliminar parámetros que contribuyen mínimamente al rendimiento, lo que resulta en un modelo más ligero y eficiente.

Fig 3. Antes y después de la poda de modelos.
Después de entrenar el modelo, técnicas como la poda basada en magnitud o el análisis de sensibilidad pueden evaluar la importancia de cada parámetro. Los parámetros de baja importancia se podan utilizando una de las tres técnicas principales: poda de pesos, poda de neuronas o poda estructurada.
La poda de pesos elimina conexiones individuales con un impacto mínimo en la salida. La poda de neuronas elimina neuronas enteras cuyas salidas contribuyen poco a la función del modelo. La poda estructurada elimina secciones más grandes, como filtros convolucionales o neuronas en capas totalmente conectadas, optimizando la eficiencia del modelo. Una vez completada la poda, el modelo se reentrena para ajustar con precisión los parámetros restantes, asegurando que retenga una alta precisión en una forma reducida.
Link to this sectionReducción de la latencia en modelos de IA con cuantización#
La cuantización de modelos reduce el número de bits utilizados para representar los pesos y activaciones de un modelo. Normalmente convierte los valores de punto flotante de 32 bits de alta precisión a una menor precisión, como enteros de 16 bits u 8 bits. Al reducir la precisión de bits, la cuantización disminuye significativamente el tamaño del modelo, la huella de memoria y el coste computacional.
En visión artificial, los números de punto flotante de 32 bits son estándar, pero convertir a 16 u 8 bits puede mejorar la eficiencia. Existen dos tipos principales de cuantización: cuantización de pesos y cuantización de activaciones. La cuantización de pesos reduce la precisión de los pesos del modelo, equilibrando la reducción de tamaño con la precisión. La cuantización de activaciones reduce la precisión de las activaciones, disminuyendo aún más las demandas de memoria y computación.

Fig 4. Un ejemplo de cuantización de punto flotante de 32 bits a entero de 8 bits.
Link to this sectionCómo la precisión mixta acelera las inferencias de IA#
La precisión mixta es una técnica que utiliza diferentes precisiones numéricas para varias partes de una red neuronal. Al combinar valores de mayor precisión, como números de punto flotante de 32 bits, con valores de menor precisión, como números de punto flotante de 16 u 8 bits, la precisión mixta hace posible que los modelos de visión artificial aceleren el entrenamiento y reduzcan el uso de memoria sin sacrificar la precisión.
Durante el entrenamiento, la precisión mixta se logra utilizando una precisión más baja en capas específicas mientras se mantiene una precisión más alta donde sea necesario en toda la red. Esto se hace mediante la conversión de tipos y el escalado de pérdidas. La conversión de tipos cambia los tipos de datos entre diferentes precisiones según lo requiera el modelo. El escalado de pérdidas ajusta la precisión reducida para evitar el desbordamiento numérico (underflow), asegurando un entrenamiento estable. La precisión mixta es especialmente útil para modelos grandes y tamaños de lote grandes.

Fig 5. El entrenamiento de precisión mixta utiliza tipos de punto flotante de 16 bits (FP16) y 32 bits (FP32).
Link to this sectionEquilibrar la precisión y la eficiencia del modelo#
Ahora que hemos cubierto varias técnicas de optimización de modelos, discutamos cómo decidir cuál usar según tus necesidades específicas. La elección depende de factores como el hardware disponible, las restricciones computacionales y de memoria del entorno de despliegue y el nivel de precisión requerido.
Por ejemplo, los modelos más pequeños y rápidos son más adecuados para dispositivos móviles con recursos limitados, mientras que los modelos más grandes y precisos pueden utilizarse en sistemas de alto rendimiento. Aquí te mostramos cómo cada técnica se alinea con diferentes objetivos:
- Poda: Es ideal para reducir el tamaño del modelo sin afectar significativamente la precisión, lo que la hace perfecta para dispositivos con recursos limitados, como teléfonos móviles o dispositivos del Internet de las Cosas (IoT).
- Cuantización: Una gran opción para reducir el tamaño del modelo y acelerar la inferencia, particularmente en dispositivos móviles y sistemas embebidos con memoria y potencia de procesamiento limitadas. Funciona bien para aplicaciones donde son aceptables pequeñas reducciones en la precisión.
- Precisión mixta: Diseñada para modelos a gran escala, esta técnica reduce el uso de memoria y acelera el entrenamiento en hardware como GPUs y TPUs que admiten operaciones de precisión mixta. A menudo se utiliza en tareas de alto rendimiento donde la eficiencia importa.
- Ajuste de hiperparámetros: Aunque requiere muchos recursos computacionales, es esencial para aplicaciones que requieren una alta precisión, como el diagnóstico por imagen médica o la conducción autónoma.
Link to this sectionConclusiones clave#
La optimización de modelos es una parte vital del aprendizaje automático, especialmente para desplegar IA en aplicaciones del mundo real. Técnicas como el ajuste de hiperparámetros, la poda de modelos, la cuantización y la precisión mixta ayudan a mejorar el rendimiento, la eficiencia y el uso de recursos de los modelos de visión artificial. Estas optimizaciones hacen que los modelos sean más rápidos y menos intensivos en recursos, lo cual es ideal para dispositivos con memoria y potencia de procesamiento limitadas. Los modelos optimizados también son más fáciles de escalar y desplegar a través de diferentes plataformas, permitiendo soluciones de IA que sean tanto efectivas como adaptables a una amplia gama de usos.
Visita el repositorio de GitHub de Ultralytics y únete a nuestra comunidad para aprender más sobre las aplicaciones de IA en la fabricación y la agricultura.






