Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Grounding

Explora los fundamentos del "grounding" en IA. Aprende a conectar lenguaje natural con datos visuales usando Ultralytics YOLO26 y YOLO-World para detección de vocabulario abierto.

Grounding se refiere a la capacidad de un sistema de inteligencia artificial para conectar conceptos abstractos, habitualmente derivados del lenguaje natural, con representaciones específicas y concretas en el mundo físico, como datos visuales o entradas sensoriales. En el contexto de la visión artificial, esto significa que un modelo no solo procesa texto; puede analizar una frase como "una persona paseando a un perro" y localizar con precisión esas entidades dentro de una imagen o una transmisión de vídeo. Este proceso tiende un puente entre el razonamiento simbólico y la percepción a nivel de píxel, abordando el problema del grounding simbólico fundamental en la ciencia cognitiva. Al vincular tokens lingüísticos con características visuales, el grounding sirve como piedra angular para la IA multimodal moderna, permitiendo que las máquinas interactúen de forma más intuitiva con entornos humanos dinámicos.

Link to this sectionLa mecánica del Grounding#

A nivel técnico, el grounding implica alinear datos de distintas modalidades en un espacio vectorial compartido de alta dimensión. Las arquitecturas avanzadas, a menudo construidas sobre el marco de trabajo Transformer utilizado en el procesamiento de lenguaje natural (NLP), generan representaciones numéricas conocidas como embeddings tanto para descripciones de texto como para entradas visuales. Durante el entrenamiento, el modelo aprende a minimizar la distancia entre el embedding de una instrucción de texto (por ejemplo, "mochila azul") y el embedding de la región visual correspondiente.

Esta alineación permite la detección de vocabulario abierto. A diferencia del aprendizaje supervisado tradicional, donde un modelo se limita a un conjunto fijo de categorías, el grounding permite el aprendizaje zero-shot. Un modelo basado en grounding puede identificar objetos que nunca ha visto explícitamente durante el entrenamiento, siempre que entienda el lenguaje que los describe. Esta flexibilidad cuenta con el respaldo de marcos de trabajo de aprendizaje profundo como PyTorch, que facilitan las complejas operaciones matriciales necesarias para estas alineaciones multimodales.

Link to this sectionAplicaciones en el mundo real#

La tecnología de grounding está transformando industrias al permitir que los sistemas interpreten la intención del usuario y naveguen por entornos no estructurados de forma eficaz.

  • IA en robótica: El grounding es esencial para los agentes autónomos que ejecutan instrucciones verbales. Si a un robot de almacén se le dice que "recoja el paquete del estante superior", debe vincular los conceptos "paquete" y "estante superior" a coordenadas 3D específicas en su campo de visión. Esta capacidad es un foco central de la investigación en robótica en el MIT CSAIL, lo que permite a los robots operar de forma segura junto a los humanos.
  • Búsqueda semántica y recuperación de contenido multimedia: El grounding potencia motores de búsqueda avanzados que van más allá de la coincidencia de palabras clave. Los usuarios pueden consultar archivos de vídeo con descripciones complejas como "un ciclista girando a la izquierda al atardecer", y el sistema utiliza el grounding para recuperar marcas de tiempo específicas. Esto mejora significativamente la comprensión de vídeo para la seguridad y la gestión de medios.
  • Tecnología de asistencia: Para usuarios con discapacidad visual, el grounding permite que las aplicaciones describan el entorno en tiempo real o respondan preguntas sobre él, basándose en un reconocimiento de imágenes sólido vinculado a la generación de voz.

Link to this sectionGrounding con Ultralytics YOLO-World#

El ecosistema Ultralytics admite el grounding mediante arquitecturas especializadas como YOLO-World. Mientras que los modelos estándar requieren entrenamiento en conjuntos de datos específicos, YOLO-World permite a los usuarios definir clases de detección personalizadas al instante mediante instrucciones de texto. Esto "vincula" eficazmente la entrada de lenguaje natural a la imagen sin necesidad de reentrenamiento.

El siguiente ejemplo demuestra cómo utilizar el paquete ultralytics para detectar objetos basados en descripciones de texto personalizadas:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Link to this sectionDistinguir el Grounding de conceptos relacionados#

Para valorar plenamente la utilidad del grounding, resulta útil diferenciarlo de tareas similares de visión artificial:

  • vs. Detección de objetos: Los modelos de detección tradicionales, como el vanguardista YOLO26, identifican objetos de un conjunto cerrado y predefinido de categorías (por ejemplo, las 80 clases de COCO). El grounding es de final abierto e identifica objetos basados en texto de formato libre.
  • vs. Generación de subtítulos de imágenes: La generación de subtítulos (captioning) crea una frase descriptiva para toda una imagen (Imagen $\to$ Texto). El grounding suele operar en la dirección inversa o de forma bidireccional, localizando elementos visuales específicos basados en la entrada de texto (Texto $\to$ Región de imagen).
  • vs. Respuesta a preguntas visuales (VQA): VQA implica responder a una pregunta específica sobre una imagen (por ejemplo, "¿De qué color es el coche?"). El grounding se centra específicamente en el paso de localización: dibujar un cuadro delimitador (bounding box) alrededor del objeto mencionado.

Link to this sectionDesafíos y perspectivas de futuro#

A pesar de los avances, el grounding sigue siendo computacionalmente intensivo. Alinear modelos de lenguaje masivos con codificadores de visión requiere importantes recursos de GPU y una gestión eficiente de la memoria, un desafío que a menudo abordan innovadores de hardware como NVIDIA. Además, los modelos pueden tener dificultades con la ambigüedad lingüística, lo que requiere grandes ventanas de contexto para resolver si la palabra "bat" se refiere a un instrumento deportivo o a un animal.

Los desarrollos futuros avanzan hacia modelos de base unificados que son nativamente multimodales. Herramientas como la plataforma Ultralytics evolucionan para ayudar a los desarrolladores a gestionar los complejos conjuntos de datos necesarios para estas tareas, ofreciendo flujos de trabajo optimizados para el etiquetado de datos y la implementación de modelos. A medida que estas tecnologías maduren, podemos esperar una integración perfecta del grounding en los dispositivos de borde, lo que permitirá aplicaciones de IA más inteligentes y receptivas.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático