Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

CLIP (Contrastive Language-Image Pre-training)

Explora CLIP (Preentrenamiento Contrastivo de Lenguaje e Imagen) para tender un puente entre la visión y el lenguaje. Aprende cómo permite el aprendizaje zero-shot y potencia Ultralytics YOLO26.

CLIP (Contrastive Language-Image Pre-training) es una arquitectura de red neuronal revolucionaria desarrollada por OpenAI que salva la brecha entre los datos visuales y el lenguaje natural. A diferencia de los sistemas tradicionales de visión artificial (CV) que requieren un etiquetado de datos intensivo para un conjunto fijo de categorías, CLIP aprende a entender las imágenes entrenándose con millones de pares de imagen-texto recopilados de internet. Este enfoque permite al modelo realizar aprendizaje zero-shot, lo que significa que puede identificar objetos, conceptos o estilos que nunca ha visto explícitamente durante el entrenamiento, simplemente leyendo una descripción de texto. Al mapear información visual y lingüística en un espacio de características compartido, CLIP sirve como un potente modelo base para una amplia variedad de tareas posteriores sin necesidad de un ajuste fino específico y extenso.

Link to this sectionCómo funciona la arquitectura#

El mecanismo central de CLIP involucra dos codificadores paralelos: un codificador de imagen, normalmente basado en un Vision Transformer (ViT) o una ResNet, y un Transformer de texto similar a los utilizados en los grandes modelos de lenguaje (LLM) modernos. A través de un proceso conocido como aprendizaje contrastivo, el sistema se entrena para predecir qué fragmento de texto coincide con qué imagen dentro de un lote.

Durante el entrenamiento, el modelo optimiza sus parámetros para acercar los embeddings vectoriales de los pares de imagen-texto que coinciden, mientras aleja los pares que no coinciden. Esto crea un espacio latente multimodal donde la representación matemática de la imagen de un "golden retriever" se sitúa espacialmente cerca del embedding de texto de "una foto de un perro". Al calcular la similitud de coseno entre estos vectores, el modelo puede cuantificar qué tan bien corresponde una imagen a un prompt de lenguaje natural, permitiendo una clasificación de imágenes y recuperación flexibles.

Link to this sectionAplicaciones en el mundo real#

La capacidad de vincular la visión y el lenguaje ha convertido a CLIP en una tecnología fundamental en las aplicaciones de IA modernas:

  • Búsqueda semántica inteligente: CLIP permite a los usuarios buscar en grandes bases de datos de imágenes utilizando consultas complejas de procesamiento de lenguaje natural (NLP). Por ejemplo, en IA en el comercio minorista, un comprador podría buscar "vestido de verano floral vintage" y obtener resultados visualmente precisos sin que las imágenes tengan esas etiquetas de metadatos específicas. Esto a menudo se impulsa mediante bases de datos vectoriales de alto rendimiento.
  • Control de IA generativa: Modelos como Stable Diffusion dependen de CLIP para interpretar los prompts del usuario y guiar el proceso de generación. CLIP actúa como un evaluador, juzgando qué tan bien se alinea la salida visual generada con la descripción de texto, lo cual es esencial para una síntesis de texto a imagen de alta calidad.
  • Detección de objetos de vocabulario abierto: Arquitecturas avanzadas como YOLO-World integran embeddings de CLIP para detectar objetos basados en entradas de texto arbitrarias. Esto permite una detección dinámica en campos como la IA en el cuidado de la salud, donde es necesario identificar equipos nuevos o anomalías sin necesidad de reentrenamiento.

Link to this sectionUso de las características de CLIP con Ultralytics#

Aunque los detectores de objetos estándar se limitan a sus clases de entrenamiento, utilizar características basadas en CLIP permite la detección de vocabulario abierto. El siguiente código de Python demuestra cómo utilizar el paquete ultralytics para detectar objetos mediante prompts de texto personalizados:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")

# Display the results
results[0].show()

Link to this sectionDistinguir conceptos relacionados#

Es útil diferenciar CLIP de otros paradigmas de IA comunes para entender su utilidad específica:

  • CLIP vs. Aprendizaje supervisado: Los modelos supervisados tradicionales requieren definiciones estrictas y ejemplos etiquetados para cada categoría (p. ej., "gato", "coche"). CLIP aprende de pares de texto-imagen sin procesar encontrados en la web, ofreciendo una mayor flexibilidad y eliminando el cuello de botella de la anotación manual que a menudo se gestiona mediante herramientas como la Plataforma Ultralytics.
  • CLIP vs. YOLO26: Mientras que CLIP proporciona una comprensión generalizada de los conceptos, YOLO26 es un detector de objetos especializado y en tiempo real, optimizado para la velocidad y la localización precisa. CLIP se utiliza a menudo como extractor de características o clasificador zero-shot, mientras que YOLO26 es el motor para la inferencia en tiempo real de alta velocidad en entornos de producción.
  • CLIP vs. Aprendizaje contrastivo estándar: Métodos como SimCLR generalmente comparan dos vistas aumentadas de la misma imagen para aprender características. CLIP contrasta una imagen contra una descripción de texto, uniendo dos modalidades de datos distintas en lugar de solo una.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático