Glosario

Destilación del conocimiento

Descubra cómo la destilación del conocimiento comprime los modelos de IA para una inferencia más rápida, una precisión mejorada y una eficiencia en la implementación de dispositivos periféricos.

La destilación del conocimiento es una técnica de optimización de modelos y compresión en el aprendizaje automático (ML) en la que se entrena a un modelo "estudiante" compacto para reproducir el rendimiento de un modelo "profesor" más grande y complejo. La idea principal es transferir el "conocimiento" del modelo profesor, potente pero engorroso, al modelo estudiante, más pequeño y eficiente. Esto permite la implementación de modelos de gran precisión en entornos con recursos limitados, como en dispositivos de borde o teléfonos móviles, sin una caída significativa del rendimiento. El proceso cierra la brecha entre los modelos de investigación masivos y de última generación y la implementación de modelos práctica en el mundo real.

Cómo funciona la destilación del conocimiento

El modelo maestro, típicamente una gran red neuronal o un ensamble de modelos, se entrena primero en un gran conjunto de datos para lograr una alta precisión. Durante el proceso de destilación, el modelo estudiante aprende intentando imitar las salidas del maestro. En lugar de aprender solo de las etiquetas de verdad fundamental en los datos de entrenamiento, el estudiante también se entrena en las distribuciones de probabilidad completas del maestro para cada predicción, a menudo llamadas "etiquetas suaves". Estas etiquetas suaves proporcionan información más rica que las "etiquetas duras" (las respuestas correctas), ya que revelan cómo el modelo maestro "piensa" y generaliza. Por ejemplo, un modelo maestro podría predecir que una imagen de un gato es "gato" con un 90% de confianza, pero también asignar pequeñas probabilidades a "perro" (5%) y "zorro" (2%). Esta información matizada ayuda al modelo estudiante a aprender de manera más efectiva, lo que a menudo conduce a una mejor generalización que si se entrenara solo con las etiquetas duras. Esta técnica es una parte clave del conjunto de herramientas de aprendizaje profundo para crear modelos eficientes.

Aplicaciones en el mundo real

La destilación del conocimiento se utiliza ampliamente en diversos ámbitos para que la IA potente sea accesible.

Procesamiento del Lenguaje Natural (PNL): Los modelos de lenguaje grandes (LLM) como BERT son increíblemente poderosos pero demasiado grandes para muchas aplicaciones. DistilBERT es un ejemplo famoso de una versión destilada de BERT. Es un 40% más pequeño y un 60% más rápido, al tiempo que conserva más del 97% del rendimiento de BERT, lo que lo hace adecuado para tareas como el análisis de sentimientos y el question answering en dispositivos de consumo.
Visión artificial en dispositivos Edge: En visión artificial, un modelo grande y de alta precisión para la clasificación de imágenes o la detección de objetos puede destilarse en un modelo más pequeño. Esto permite que tareas de visión complejas, como la detección de personas en tiempo real para una cámara de seguridad inteligente, se ejecuten directamente en hardware con potencia computacional limitada, como una Raspberry Pi, mejorando la velocidad y la privacidad de los datos. Los modelos YOLO de Ultralytics como YOLO11 pueden formar parte de estos flujos de trabajo, donde el conocimiento de modelos más grandes podría influir en el entrenamiento de versiones más pequeñas y desplegables.