Descubra cómo el grounding en la IA vincula conceptos abstractos con datos del mundo real, mejorando el contexto, la precisión y la confianza en aplicaciones dinámicas.
El enraizamiento es el proceso en Inteligencia Artificial (IA) de conectar conceptos abstractos, normalmente palabras o frases del lenguaje natural, con representaciones concretas del mundo físico, como los píxeles de una imagen o los datos sensoriales de un robot. mundo físico, como los píxeles de una imagen o los datos sensoriales de un robot. En términos más sencillos, si un ordenador lee el texto texto "un gato durmiendo", la base es la capacidad de ver una fotografía e identificar la región concreta en la que se encuentra el gato. en la que se encuentra el gato. Esta capacidad salva la distancia semántica entre los símbolos lingüísticos y la información perceptiva. perceptiva, un reto conocido como el en la ciencia cognitiva. Mientras que Los sistemas tradicionales pueden procesar texto e imágenes por separado. permite a la IA multimodal entender la relación entre entre ambos, lo que facilita una interacción más intuitiva entre el hombre y la máquina.
A nivel técnico, la conexión a tierra se basa en la alineación de espacios vectoriales de alta dimensión. Los modelos modernos utilizan arquitecturas de aprendizaje profundo (Deep Learning, DL), en particular el Transformer, para convertir tanto texto como imágenes en representaciones numéricas llamadas incrustaciones. Durante el entrenamiento de Durante el entrenamiento, el modelo aprende a mapear la incrustación de una frase de texto (por ejemplo, "coche rojo") cerca de la incrustación de las características visuales correspondientes a ese objeto.
Este proceso permite la detección de vocabulario abierto. A diferencia de la que se limita a una lista fija de clases de clases preentrenadas (como las 80 clases de COCO), los modelos de base pueden identificar cualquier objeto descrito por un mensaje de texto. texto. Para ello se utiliza el aprendizaje sin disparos, en el que el modelo identifica objetos que nunca antes ha visto explícitamente durante el entrenamiento, simplemente entendiendo el lenguaje que los describe. La investigación de organizaciones como OpenAI sobre CLIP sentó las bases para alinear estas representaciones visuales y textuales.
La conexión a tierra transforma el modo en que las máquinas interpretan la intención del usuario e interactúan con su entorno.
En ultralytics admite la conexión a tierra a través del YOLO modelo. Este modelo
permite a los usuarios definir clases personalizadas sobre la marcha utilizando indicaciones de texto, "conectando" eficazmente el texto a la imagen sin necesidad de volver a entrenar.
imagen sin necesidad de reentrenamiento.
El siguiente ejemplo muestra cómo cargar un modelo preentrenado y definir avisos personalizados para detect objetos específicos. específicos:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Para entender el grounding, es útil diferenciarlo de tareas similares de visión por ordenador:
A pesar de los avances, la conexión a tierra sigue siendo intensiva desde el punto de vista computacional. Alinear modelos lingüísticos masivos con codificadores codificadores de visión recursos deGPU . Además, los modelos pueden tener problemas con la ambigüedad: la frase "el banco" puede referirse a la orilla de un río o a una institución financiera, lo que obliga a la IA a recurrir a ventanas contextuales resolver la base visual correcta.
Garantizar el funcionamiento eficaz de estos modelos inferencia en tiempo real es un área de desarrollo. Los investigadores también están abordando los datos para garantizar que los modelos de base generalicen en diferentes culturas y contextos, un tema que se debate con frecuencia en la la ética en la literatura sobre IA.