Glosario

CLIP (preentrenamiento contrastivo lenguaje-imagen)

Descubra cómo CLIP de OpenAI revoluciona la IA con el aprendizaje sin disparos, la alineación imagen-texto y las aplicaciones en el mundo real de la visión por ordenador.

CLIP (Contrastive Language-Image Pre-training) es un innovador modelo multimodal desarrollado por OpenAI que conecta texto e imágenes dentro de un espacio compartido de comprensión. A diferencia de los modelos tradicionales entrenados para una única tarea, como la clasificación de imágenes, CLIP aprende conceptos visuales directamente a partir de descripciones en lenguaje natural. Se entrena con un enorme conjunto de datos de pares imagen-texto procedentes de Internet, lo que le permite realizar una amplia variedad de tareas sin necesidad de un entrenamiento específico para cada una de ellas, una capacidad conocida como aprendizaje sin disparos. Este enfoque lo convierte en un potente modelo básico para una nueva generación de aplicaciones de IA.

Cómo funciona

La idea central de CLIP es aprender un espacio de incrustación compartido en el que tanto las imágenes como el texto puedan representarse como vectores. Utiliza dos codificadores distintos: un Transformador de Visión (ViT) o una arquitectura similar para las imágenes y un Transformador de Texto para el texto. Durante el entrenamiento, el modelo recibe un lote de pares imagen-texto y aprende a predecir qué pie de texto corresponde a cada imagen. Esto se consigue mediante el aprendizaje contrastivo, en el que el objetivo del modelo es maximizar la similitud de las incrustaciones para los pares correctos y minimizarla para los pares incorrectos. El resultado, detallado en el artículo de investigación original, es una sólida comprensión de conceptos que vincula los datos visuales con el contexto lingüístico. Una aplicación de código abierto, OpenCLIP, entrenada en conjuntos de datos como LAION-5B, ha hecho que esta tecnología sea ampliamente accesible.

Aplicaciones reales

Las capacidades únicas de CLIP se prestan a varios usos prácticos:

  • Búsqueda semántica de imágenes: CLIP impulsa sistemas de búsqueda avanzada en los que los usuarios pueden encontrar imágenes utilizando consultas de lenguaje natural en lugar de etiquetas de palabras clave. Por ejemplo, un usuario puede buscar en un catálogo de comercio electrónico "una camisa azul a rayas para hombre" y obtener resultados relevantes aunque los productos no estén etiquetados explícitamente con esas palabras exactas. Ultralytics ofrece una solución de búsqueda semántica de imágenes que utiliza CLIP y FAISS (Facebook AI Similarity Search) para una recuperación rápida y precisa en grandes bibliotecas de imágenes.
  • Moderación de contenidos: Las plataformas de redes sociales pueden utilizar CLIP para marcar automáticamente las imágenes que muestren contenidos descritos en sus políticas, como símbolos de odio o violencia gráfica. Esto es más flexible que los métodos tradicionales porque puede identificar infracciones basándose en una descripción textual, sin necesidad de un conjunto de datos preetiquetados para cada tipo posible de contenido prohibido.
  • Guiar la IA generativa: los codificadores de CLIP son cruciales para dirigir modelos de IA generativa como DALL-E o Stable Diffusion. Cuando un usuario proporciona una instrucción de texto, CLIP evalúa la imagen generada para ver hasta qué punto coincide con el significado de la instrucción, guiando el modelo para producir visuales más precisos y relevantes.
  • Mejora de la accesibilidad: El modelo puede generar automáticamente subtítulos ricos y descriptivos para las imágenes, que pueden ser utilizados por los lectores de pantalla para describir el contenido visual a los usuarios con discapacidad visual, mejorando significativamente la accesibilidad web.

CLIP vs. YOLO

Es importante distinguir CLIP de los modelos especializados de visión por ordenador (CV) como Ultralytics YOLO.

  • CLIP destaca en la comprensión semántica. Sabe lo que contiene una imagen en un sentido amplio y conceptual (por ejemplo, entiende el concepto de "fiesta de cumpleaños"). Su punto fuerte es conectar el lenguaje con lo visual para tareas como la clasificación y la búsqueda, lo que lo convierte en un potente modelo de lenguaje visual.
  • Los modelos YOLO destacan en localización. Están diseñados para la detección y segmentación de objetos, identificando la ubicación precisa y los límites de los objetos dentro de una imagen (por ejemplo, localizar a cada persona, la tarta y los globos en una fiesta de cumpleaños).

Aunque distintos, estos modelos son complementarios. El futuro de la CV puede pasar por combinar el contexto semántico de modelos como CLIP con la precisión de localización de detectores como YOLO11 para construir sistemas de IA más sofisticados.

Limitaciones y perspectivas

A pesar de su potencia, CLIP tiene limitaciones. Como se entrena a partir de una gran cantidad de datos no seleccionados de Internet, puede absorber y reproducir los sesgos sociales que se encuentran en esos datos, lo que suscita dudas sobre la equidad en la IA y los posibles sesgos algorítmicos. También tiene dificultades con ciertas tareas que requieren detalles finos o razonamiento espacial, como contar objetos con precisión. La investigación en curso, que incluye trabajos en instituciones como el Center for Research on Foundation Models (CRFM) de Stanford, se centra en mitigar estos sesgos y mejorar sus capacidades. La integración de los conocimientos de CLIP en distintos flujos de trabajo puede gestionarse con plataformas como Ultralytics HUB, que simplifica la gestión de modelos y conjuntos de datos.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles