Explora los fundamentos básicos de la IA. Aprende a conectar el lenguaje natural con los datos visuales utilizando Ultralytics y YOLO para la detección de vocabulario abierto.
El «grounding» se refiere a la capacidad de un sistema de inteligencia artificial para conectar conceptos abstractos —normalmente derivados del lenguaje natural— con representaciones específicas y concretas del mundo físico, como datos visuales o entradas sensoriales . En el contexto de la visión artificial, esto significa que un modelo no se limita a procesar texto, sino que puede analizar una frase como «una persona paseando a un perro» y localizar con precisión esas entidades dentro de una imagen o un vídeo. Este proceso salva la brecha entre el razonamiento simbólico y la percepción a nivel de píxeles, abordando el problema fundamental de la base simbólica en la ciencia cognitiva. Al vincular los tokens lingüísticos con las características visuales, la base sirve como piedra angular de la IA multimodal moderna, lo que permite a las máquinas interactuar de forma más intuitiva con los entornos humanos dinámicos.
A nivel técnico, el grounding implica alinear datos de diferentes modalidades en un espacio vectorial compartido de alta dimensión . Las arquitecturas avanzadas, a menudo construidas sobre el marco Transformer utilizado en el procesamiento del lenguaje natural (NLP), generan representaciones numéricas conocidas como incrustaciones tanto para descripciones de texto como para entradas visuales. Durante el entrenamiento, el modelo aprende a minimizar la distancia entre la incrustación de una indicación de texto (por ejemplo, «mochila azul ») y la incrustación de la región visual correspondiente.
Esta alineación permite la detección de vocabulario abierto. A diferencia del aprendizaje supervisado tradicional, en el que un modelo se limita a un conjunto fijo de categorías, el grounding permite el aprendizaje sin disparos. Un modelo con grounding puede identificar objetos que nunca ha visto explícitamente durante el entrenamiento, siempre que comprenda el lenguaje que los describe. Esta flexibilidad está respaldada por marcos de aprendizaje profundo como PyTorch, que facilitan las complejas operaciones matriciales necesarias para estas alineaciones multimodales.
La tecnología de conexión a tierra está transformando las industrias al permitir que los sistemas interpreten la intención del usuario y se desplacen por entornos no estructurados de manera eficaz.
El Ultralytics admite el anclaje a través de arquitecturas especializadas como YOLO. Mientras que los modelos estándar requieren entrenamiento en conjuntos de datos específicos, YOLO permite a los usuarios definir clases de detección personalizadas al instante mediante indicaciones de texto. Esto «ancla» eficazmente la entrada de lenguaje natural a la imagen sin necesidad de reentrenamiento.
El siguiente ejemplo muestra cómo utilizar la función ultralytics Paquete para detect basándose en descripciones de texto personalizadas
:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Para apreciar plenamente la utilidad del grounding, es útil diferenciarlo de tareas similares de visión artificial:
A pesar de los avances, el entrenamiento sigue siendo computacionalmente intensivo. Alinear modelos de lenguaje masivos con codificadores de visión requiere importantes GPU y una gestión eficiente de la memoria , un reto que a menudo abordan innovadores en hardware como NVIDIA. Además, los modelos pueden tener dificultades con la ambigüedad lingüística, lo que requiere grandes ventanas de contexto para resolver si la palabra «bat» se refiere a un instrumento deportivo o a un animal.
Los desarrollos futuros avanzan hacia modelos de base unificados que son nativamente multimodales. Herramientas como Ultralytics están evolucionando para ayudar a los desarrolladores a gestionar los conjuntos de datos complejos que requieren estas tareas, ofreciendo flujos de trabajo optimizados para la anotación de datos y la implementación de modelos. A medida que estas tecnologías maduren, podemos esperar una integración perfecta de la base en los dispositivos periféricos, lo que permitirá aplicaciones de IA más inteligentes y con mayor capacidad de respuesta.