Descubra cómo el aprendizaje semisupervisado combina datos etiquetados y no etiquetados para mejorar los modelos de IA, reducir los costes de etiquetado y aumentar la precisión.
El aprendizaje semisupervisado (SSL) representa un poderoso término medio en el aprendizaje automático (ML), ya que combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados durante el entrenamiento. Este enfoque es especialmente valioso en situaciones en las que la adquisición de datos etiquetados es cara, lenta o poco práctica, pero los datos no etiquetados son abundantes. SSL pretende aprovechar la estructura subyacente en los datos no etiquetados para mejorar el rendimiento del modelo más allá de lo que podría lograrse utilizando sólo los limitados datos etiquetados, por lo que es una técnica práctica para muchos problemas de Inteligencia Artificial (IA) del mundo real.
Los algoritmos SSL funcionan haciendo ciertas suposiciones sobre la relación entre los datos etiquetados y los no etiquetados. Entre las hipótesis más comunes se encuentran la "hipótesis de suavidad" (es probable que los puntos cercanos entre sí compartan una etiqueta) o la "hipótesis de conglomerados" (los datos tienden a formar conglomerados distintos y es probable que los puntos de un mismo conglomerado compartan una etiqueta). Las técnicas suelen consistir en entrenar un modelo inicial con los datos etiquetados y, a continuación, utilizarlo para generar pseudoetiquetas para los datos sin etiquetar basadas en predicciones de alta confianza. A continuación, se vuelve a entrenar el modelo tanto con los datos originales etiquetados como con los nuevos datos pseudoetiquetados. Otro enfoque es la regularización de la consistencia, en la que se anima al modelo a producir el mismo resultado para un ejemplo sin etiquetar incluso si su entrada está ligeramente perturbada, lo que a menudo se consigue mediante el aumento de datos. Estos métodos permiten al modelo aprender de los patrones y la distribución inherentes a la gran cantidad de muestras sin etiquetar. En recursos como las entradas del blog de Google AI sobre SSL se exploran técnicas más avanzadas.
El aprendizaje semisupervisado ocupa un espacio único entre otros tipos de aprendizaje primario:
SSL es muy eficaz en dominios donde el etiquetado es un cuello de botella:
La principal ventaja de SSL es su capacidad para reducir la dependencia de grandes conjuntos de datos etiquetados, ahorrando tiempo y recursos asociados al etiquetado de datos. Suele mejorar la generalización de los modelos en comparación con los modelos puramente supervisados entrenados con datos limitados, ya que explota la información de las muestras no etiquetadas. Sin embargo, el éxito de SSL depende en gran medida de que los supuestos subyacentes sobre los datos sean correctos. Si estas suposiciones no se cumplen (por ejemplo, la distribución de los datos no etiquetados es muy diferente de la de los datos etiquetados), los métodos SSL podrían incluso degradar el rendimiento. La selección y aplicación cuidadosas de las técnicas SSL son cruciales, y a menudo requieren experiencia en prácticas de MLOps.
Muchos marcos modernos de aprendizaje profundo (Deep Learning, DL), incluidos PyTorch(sitio oficial de PyTorch) y TensorFlow(sitio oficial de TensorFlow), ofrecen funcionalidades o pueden adaptarse para implementar algoritmos SSL. Bibliotecas como Scikit-learn proporcionan algunos métodos SSL. Plataformas como Ultralytics HUB agilizan el proceso facilitando la gestión de conjuntos de datos(Ultralytics HUB Datasets documentation) que pueden contener mezclas de datos etiquetados y no etiquetados, simplificando la formación(Ultralytics HUB Cloud Training) y el despliegue(model deployment options guide) de modelos diseñados para aprovechar tales estructuras de datos. La investigación en SSL sigue evolucionando, con contribuciones que se presentan a menudo en las principales conferencias de IA, como NeurIPS e ICML.