Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

CLIP (Pre-entrenamiento de Lenguaje-Imagen Contrastivo)

Descubra cómo CLIP de OpenAI revoluciona la IA con el aprendizaje zero-shot, la alineación imagen-texto y las aplicaciones del mundo real en la visión artificial.

CLIP (Contrastive Language-Image Pre-training) es una innovadora arquitectura de modelos arquitectura de modelo multimodal introducida por OpenAI que tiende un puente entre la visión por ordenador y el procesamiento de lenguaje natural. A diferencia de los sistemas tradicionales de visión por ordenador que se entrenan con conjuntos fijos de categorías preetiquetadas, CLIP aprende a asociar imágenes con descripciones de texto entrenándose con cientos de millones de pares imagen-texto recogidos de Internet. Internet. Este método permite al modelo entender conceptos visuales a través de la lente del lenguaje natural. lo que se conoce como aprendizaje sin disparos. el modelo puede classify correctamente imágenes en categorías que nunca ha visto explícitamente durante el entrenamiento. Al alinear información visual y textual en un espacio de características compartido, CLIP es un modelo versátil para una amplia gama de tareas de IA. posteriores.

Cómo funciona CLIP

El mecanismo central de CLIP se basa en dos codificadores distintos: un transformador de visión (ViT) o una ResNet para procesar imágenes, y un transformador de texto el lenguaje. El modelo emplea aprendizaje contrastivo para sincronizar estas dos modalidades. Durante el entrenamiento, CLIP recibe un lote de pares (imagen, texto) y aprende a predecir qué descripción de texto corresponde a cada imagen. Optimiza sus parámetros para maximizar la similitud coseno entre las incrustaciones de los pares correctos y minimiza la similitud de los emparejamientos incorrectos.

Este proceso de formación da lugar a un espacio latente compartido en el que las imágenes y los textos semánticamente similares se sitúan cerca unos de otros. entre sí. Por ejemplo, la representación vectorial de una imagen de un "golden retriever" estará muy próxima a la representación vectorial de la cadena de texto "una foto de un golden retriever". a la representación vectorial de la cadena de texto "una foto de un golden retriever". Esta alineación permite realizar una clasificación de imágenes de texto, que el modelo compara con la imagen de entrada para encontrar la mejor coincidencia. mejor.

Aplicaciones en el mundo real

La flexibilidad de CLIP ha propiciado su adopción en numerosos sectores y aplicaciones:

  • Búsqueda semántica de imágenes: La búsqueda tradicional se basa en metadatos o etiquetas, pero CLIP permite búsqueda semántica en la que los usuarios pueden imágenes mediante descripciones en lenguaje natural. Por ejemplo, buscar "una playa abarrotada al atardecer" de imágenes relevantes basándose en el contenido visual y no en palabras clave. AI en el comercio minorista y la gestión de activos digitales.
  • Orientación de modelos generativos: CLIP desempeña un papel crucial en la evaluación y orientación de generadores de texto a imagen. Al puntuar la adecuación de una imagen imagen generada se corresponde con la petición del usuario, actúa como métrica de orientación para modelos como Stable Diffusion y VQGAN. Stable Diffusion y VQGAN, garantizando que el resultado visual se ajuste a la intención textual. textual.
  • Moderación de contenidos: Las plataformas utilizan CLIP para filtrar contenidos inapropiados comparando imágenes con descripciones de texto de categorías prohibidas. Esta medida medida de seguridad de datos automatizada es más eficaz que revisión manual.

CLIP en la detección de objetos

Aunque CLIP se diseñó originalmente para la clasificación, sus capacidades de codificación de texto se han integrado en las modernas arquitecturas de detección de objetos la detección de vocabulario abierto. El modelo YOLO permite usuarios definir clases personalizadas en tiempo de ejecución mediante mensajes en lenguaje natural, aprovechando la comprensión lingüística de CLIP para identificar objetos sin necesidad de reentrenamiento. para identificar objetos sin necesidad de reentrenamiento.

El siguiente ejemplo muestra cómo utilizar un modelo YOLO con la función ultralytics para detect objetos personalizados definidos por texto:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")

# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])

# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")

# Display the detection results
results[0].show()

CLIP frente a los modelos de visión tradicionales

Es importante distinguir CLIP de los modelos supervisados estándar como ResNet o las versiones anteriores de YOLO.

  • Los modelos tradicionales suelen entrenarse en conjuntos de datos cerrados como ImageNet con un número fijo de clases (por ejemplo, 1.000 categorías). Si se necesita una nueva categoría, el modelo requiere con nuevos datos etiquetados.
  • CLIP es un aprendiz de vocabulario abierto. Puede generalizar a cualquier concepto que pueda describirse en un texto. Mientras que los modelos especializados como YOLO11 ofrecen mayor velocidad y precisión de localización para tareas específicas, CLIP ofrece una versatilidad inigualable para la comprensión generalizada.

Las investigaciones recientes suelen combinar estos enfoques. Por ejemplo, modelos de lenguaje visual (VLM) suelen utilizar CLIP como columna vertebral para aportar riqueza semántica, mientras que las mejoras arquitectónicas de modelos como YOLO26 pretenden aumentar la velocidad y precisión de estos sistemas multimodales.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora