Descubra cómo CLIP de OpenAI revoluciona la IA con el aprendizaje zero-shot, la alineación imagen-texto y las aplicaciones del mundo real en la visión artificial.
CLIP (Contrastive Language-Image Pre-training) es una innovadora arquitectura de modelos arquitectura de modelo multimodal introducida por OpenAI que tiende un puente entre la visión por ordenador y el procesamiento de lenguaje natural. A diferencia de los sistemas tradicionales de visión por ordenador que se entrenan con conjuntos fijos de categorías preetiquetadas, CLIP aprende a asociar imágenes con descripciones de texto entrenándose con cientos de millones de pares imagen-texto recogidos de Internet. Internet. Este método permite al modelo entender conceptos visuales a través de la lente del lenguaje natural. lo que se conoce como aprendizaje sin disparos. el modelo puede classify correctamente imágenes en categorías que nunca ha visto explícitamente durante el entrenamiento. Al alinear información visual y textual en un espacio de características compartido, CLIP es un modelo versátil para una amplia gama de tareas de IA. posteriores.
El mecanismo central de CLIP se basa en dos codificadores distintos: un transformador de visión (ViT) o una ResNet para procesar imágenes, y un transformador de texto el lenguaje. El modelo emplea aprendizaje contrastivo para sincronizar estas dos modalidades. Durante el entrenamiento, CLIP recibe un lote de pares (imagen, texto) y aprende a predecir qué descripción de texto corresponde a cada imagen. Optimiza sus parámetros para maximizar la similitud coseno entre las incrustaciones de los pares correctos y minimiza la similitud de los emparejamientos incorrectos.
Este proceso de formación da lugar a un espacio latente compartido en el que las imágenes y los textos semánticamente similares se sitúan cerca unos de otros. entre sí. Por ejemplo, la representación vectorial de una imagen de un "golden retriever" estará muy próxima a la representación vectorial de la cadena de texto "una foto de un golden retriever". a la representación vectorial de la cadena de texto "una foto de un golden retriever". Esta alineación permite realizar una clasificación de imágenes de texto, que el modelo compara con la imagen de entrada para encontrar la mejor coincidencia. mejor.
La flexibilidad de CLIP ha propiciado su adopción en numerosos sectores y aplicaciones:
Aunque CLIP se diseñó originalmente para la clasificación, sus capacidades de codificación de texto se han integrado en las modernas arquitecturas de detección de objetos la detección de vocabulario abierto. El modelo YOLO permite usuarios definir clases personalizadas en tiempo de ejecución mediante mensajes en lenguaje natural, aprovechando la comprensión lingüística de CLIP para identificar objetos sin necesidad de reentrenamiento. para identificar objetos sin necesidad de reentrenamiento.
El siguiente ejemplo muestra cómo utilizar un modelo YOLO con la función ultralytics para detect
objetos personalizados definidos por texto:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model utilizing CLIP-based text features
model = YOLO("yolov8s-world.pt")
# Define custom classes using natural language prompts
model.set_classes(["person wearing a hat", "red backpack"])
# Run inference on an image to detect the specified objects
results = model.predict("bus_stop.jpg")
# Display the detection results
results[0].show()
Es importante distinguir CLIP de los modelos supervisados estándar como ResNet o las versiones anteriores de YOLO.
Las investigaciones recientes suelen combinar estos enfoques. Por ejemplo, modelos de lenguaje visual (VLM) suelen utilizar CLIP como columna vertebral para aportar riqueza semántica, mientras que las mejoras arquitectónicas de modelos como YOLO26 pretenden aumentar la velocidad y precisión de estos sistemas multimodales.