Glosario

CLIP (Preentrenamiento Contrastivo Lenguaje-Imagen)

Descubre cómo el CLIP de OpenAI revoluciona la IA con el aprendizaje sin disparos, la alineación imagen-texto y las aplicaciones en el mundo real de la visión por ordenador.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

CLIP (Contrastive Language-Image Pre-training) es una versátil red neuronal (NN ) desarrollada por OpenAI que destaca en la comprensión de conceptos visuales descritos utilizando el lenguaje cotidiano. A diferencia de los modelos tradicionales de clasificación de imágenes, que requieren conjuntos de datos meticulosamente etiquetados, CLIP aprende analizando cientos de millones de pares imagen-texto extraídos de Internet. Emplea una técnica llamada aprendizaje contrastivo para captar las intrincadas relaciones entre las imágenes y sus correspondientes descripciones textuales. Este enfoque de entrenamiento único permite a CLIP rendir excepcionalmente bien en varias tareas sin un entrenamiento específico para ellas, una potente capacidad conocida como aprendizaje cero.

Cómo funciona Clip

La arquitectura de CLIP consta de dos partes principales: un codificador de imágenes y un codificador de texto. El codificador de imágenes, que suele utilizar arquitecturas como el Transformador de Visión (ViT) o ResNet, procesa las imágenes para extraer las características visuales clave. Paralelamente, el codificador de texto, normalmente basado en el modelo Transformer predominante en el Procesamiento del Lenguaje Natural (PLN), analiza las descripciones de texto asociadas para captar su significado semántico. Durante la fase de entrenamiento, CLIP aprende a proyectar las representaciones(embeddings) tanto de las imágenes como del texto en un espacio multidimensional compartido. El objetivo central del proceso de aprendizaje contrastivo es maximizar la similitud (a menudo medida por similitud coseno) entre las incrustaciones de pares imagen-texto correctos, minimizando simultáneamente la similitud para los pares incorrectos dentro de un lote determinado. Este método enseña eficazmente al modelo a vincular patrones visuales con palabras y frases relevantes, como se detalla en el artículo original del CLIP.

Principales características y ventajas

La ventaja más significativa de CLIP es su notable capacidad de aprendizaje sin disparos. Como aprende una amplia conexión entre los datos visuales y el lenguaje en lugar de categorías fijas, puede clasificar imágenes basándose en descripciones de texto totalmente nuevas que nunca ha encontrado durante el entrenamiento, eliminando la necesidad de un ajuste fino específico de la tarea en muchos casos. Por ejemplo, CLIP podría identificar una imagen descrita como "un boceto de un perro azul" aunque no se hubiera entrenado explícitamente con imágenes etiquetadas como tales, combinando sus conceptos aprendidos de "boceto", "azul" y "perro". Esta adaptabilidad hace que CLIP sea muy valioso para diversas aplicaciones de visión por ordenador (VC). A menudo consigue un rendimiento competitivo, incluso cuando se compara con modelos entrenados con paradigmas de aprendizaje supervisado en conjuntos de datos de referencia estándar como ImageNet.

Clip frente a otros modelos

El enfoque del CLIP difiere de otros modelos habituales de Inteligencia Artificial (IA):

  • Clasificadores de imágenes supervisados: Los clasificadores tradicionales aprenden de conjuntos de datos en los que cada imagen tiene una etiqueta específica (por ejemplo, "gato", "perro"). Destacan en categorías predefinidas, pero tienen dificultades con conceptos desconocidos. CLIP aprende de pares imagen-texto no estructurados, lo que permite una clasificación sin disparos para indicaciones de texto arbitrarias.
  • Modelos de detección de objetos: Modelos como Ultralytics YOLO se centran en la detección de objetos, identificando la ubicación de los objetos dentro de una imagen mediante cuadros delimitadores y clasificándolos. Aunque son potentes para tareas de localización como detectar o segmentar, no poseen la comprensión intrínseca de CLIP de las descripciones de lenguaje arbitrario para la clasificación. Puedes ver comparaciones entre los modelos YOLO para el rendimiento de detección.
  • Otros modelos de visión-lenguaje (VLM): CLIP es un tipo de modelo multimodal. Mientras que otros VLM pueden centrarse en tareas como la respuesta a preguntas visuales (VQA) o el subtitulado detallado de imágenes, la principal fuerza de CLIP reside en su robusta clasificación de imágenes sin disparos y en la concordancia de similitud imagen-texto. Más información sobre los distintos tipos de VLM en el blog Ultralytics .
  • Modelos Generativos: Los modelos como Difusión Estable o DALL-E se centran en crear imágenes a partir de texto(texto-a-imagen). Aunque CLIP no genera imágenes por sí mismo, su codificador de texto se utiliza a menudo dentro de los modelos generativos para garantizar que la imagen de salida se alinea bien con el texto de entrada.

Aplicaciones en el mundo real

Las capacidades únicas de CLIP se prestan a varios usos prácticos:

  • Moderación de contenidos: Filtrar o marcar automáticamente imágenes basándose en descripciones textuales de contenido inapropiado o no deseado, sin necesidad de ejemplos preetiquetados de cada posible infracción. OpenAI utiliza CLIP como parte de sus herramientas de moderación de contenidos.
  • Búsqueda semántica de imágenes: Permitir a los usuarios buscar en vastas bibliotecas de imágenes (como sitios de fotos de archivo como Unsplash o colecciones de fotos personales) utilizando consultas de lenguaje natural en lugar de sólo palabras clave o etiquetas. Por ejemplo, buscar "una playa serena al atardecer con palmeras".
  • Mejorar la accesibilidad: Generar automáticamente descripciones de imágenes relevantes para usuarios con discapacidad visual.
  • Guiar la IA Generativa : Como ya se ha dicho, los codificadores de CLIP ayudan a dirigir los modelos de IA generativa para producir imágenes que reflejen con precisión indicaciones textuales complejas.

Limitaciones y orientaciones futuras

A pesar de su capacidad innovadora, el CLIP no está exento de limitaciones. Su dependencia de datos de Internet amplios y sin procesar significa que puede heredar prejuicios sociales presentes en el texto y las imágenes, lo que suscita preocupación sobre la equidad en la IA y el posible sesgo algorítmico. Además, el CLIP puede tener problemas con tareas que requieran un razonamiento espacial preciso (por ejemplo, contar objetos con exactitud) o reconocer detalles visuales extremadamente finos. La investigación está explorando activamente métodos para mitigar estos sesgos, mejorar la comprensión detallada e integrar el conocimiento semántico de CLIP con los puntos fuertes de localización de modelos como YOLOv11. La combinación de diferentes tipos de modelos y la gestión de experimentos pueden agilizarse utilizando plataformas como Ultralytics HUB. Mantente al día de los últimos avances en IA a través de recursos como el blog de Ultralytics .

Leer todo