Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Visual Reasoning

Explora el razonamiento visual en IA y aprende cómo los modelos deducen la lógica espacial. Descubre cómo construir pipelines de razonamiento avanzados utilizando Ultralytics YOLO26.

El razonamiento visual en inteligencia artificial se refiere a la capacidad de un modelo para analizar, interpretar y extraer deducciones lógicas a partir de datos visuales y espaciales. Si bien los sistemas estándar de visión artificial (CV) son excelentes identificando qué objetos están presentes en una escena, el razonamiento visual da un paso más allá para entender cómo y por qué interactúan dichos objetos. Inspirada en la facultad cognitiva humana del razonamiento visual y evaluada mediante pruebas de psicología cognitiva estándar, esta capacidad permite a los modelos de IA realizar análisis de imágenes complejos, deducir relaciones espaciales y resolver problemas de varios pasos basándose únicamente en el contexto visual. Es un componente crítico para cerrar la brecha entre la percepción bruta y la inteligencia procesable en sistemas de IA multimodal.

Link to this sectionConceptos clave y el paradigma de "pensar con imágenes"#

Históricamente, los modelos de aprendizaje automático convertían los datos de imagen en texto antes de aplicar la deducción lógica. Sin embargo, los avances recientes de 2024 y 2025 han popularizado un paradigma donde los modelos, de forma inherente, piensan con imágenes. Al aprovechar el razonamiento visual latente, los modelos de lenguaje visual (VLM) avanzados pueden generar representaciones visuales intermedias (similar a cómo un humano podría visualizar un mapa mental, tal como se define en los parámetros espaciales del NIH Toolbox) antes de llegar a una conclusión.

Este enfoque suele utilizar un mecanismo conocido como Visualización-del-Pensamiento Multimodal (MVoT, por sus siglas en inglés). En lugar de confiar únicamente en una cadena de pensamiento basada en texto, los sistemas pueden explorar el razonamiento de visualización espacial para verificar cambios geométricos, evaluar oclusiones y rastrear movimientos continuos en el espacio 3D.

Link to this sectionRazonamiento visual frente a capacidades relacionadas#

Es útil diferenciar el razonamiento visual de otras terminologías de IA que se solapan:

  • Modelos de razonamiento: Esta es una categoría más amplia que abarca modelos diseñados para la deducción lógica de varios pasos, normalmente en texto, matemáticas o programación. El razonamiento visual aplica estos principios deductivos específicamente a datos visuales y espaciales.
  • Respuesta a preguntas visuales (VQA): VQA es una aplicación o tarea específica donde una IA proporciona una respuesta en lenguaje natural a la consulta de un usuario sobre una imagen. El razonamiento visual es la capacidad cognitiva subyacente que impulsa a VQA, permitiendo al modelo deducir la respuesta correcta basándose en el contexto espacial.

Link to this sectionAplicaciones en el mundo real#

La capacidad de interpretar contextos espaciales de forma dinámica está desbloqueando flujos de trabajo agente transformadores en ámbitos físicos y digitales.

  • IA en robótica e inteligencia encarnada: Los agentes autónomos y los brazos robóticos requieren una inteligencia espacial sofisticada para navegar por entornos complejos. Al utilizar el razonamiento visual, un robot puede deducir que hay un objeto frágil apilado debajo de una caja pesada y planificar lógicamente una secuencia de movimientos para recuperarlo sin causar daños, confiando en gran medida en la evaluación de restricciones físicas dinámicas.
  • IA en diagnósticos sanitarios: En imágenes médicas, los profesionales utilizan sistemas de razonamiento visual para ir más allá de la detección de anomalías básica. Los modelos pueden evaluar escáneres de resonancia magnética 3D para razonar estructuralmente sobre la trayectoria de crecimiento de un tumor en relación con los órganos circundantes, proporcionando un contexto geométrico crucial para la planificación quirúrgica.

Link to this sectionImplementación de la percepción para canales de razonamiento#

Para construir sistemas de razonamiento eficaces, los desarrolladores confían en modelos de percepción de alta velocidad para extraer el contexto estructural del mundo físico. Ultralytics YOLO26 sirve como una potente capa fundacional, convirtiendo rápidamente los píxeles en coordenadas de bbox estructuradas y clases de objetos. Estos datos estructurados se introducen después en motores de razonamiento visual especializados, creados con marcos como PyTorch o TensorFlow, para evaluar la lógica espacial.

Si estás comparando YOLO26 y YOLO11 para esta tarea, la arquitectura nativa de extremo a extremo de YOLO26 minimiza la latencia de inferencia, haciéndolo ideal para canales lógicos en tiempo real.

El siguiente fragmento de Python demuestra cómo utilizar YOLO26 para extraer coordenadas espaciales, proporcionando las entradas perceptivas esenciales necesarias para el razonamiento espacial posterior:

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Run inference to detect objects in a scene
results = model("https://ultralytics.com/images/bus.jpg")

# Extract structured spatial data for the visual reasoning engine
for result in results:
    for box in result.boxes:
        cls_name = model.names[int(box.cls)]
        # xyxy provides exact spatial coordinates (left, top, right, bottom)
        coords = box.xyxy[0].tolist()
        print(f"Object: {cls_name}, Spatial Coordinates: {coords}")

Escalar estas aplicaciones complejas y multimodales requiere una infraestructura robusta. La plataforma Ultralytics ofrece un entorno unificado para anotar sin problemas conjuntos de datos de inteligencia espacial, entrenar modelos en la nube e implementar sistemas de percepción de borde fiables. A medida que el campo avanza hacia marcos de trabajo agente para tareas espaciales más avanzados y con el respaldo de investigación visual avanzada, combinar la detección de objetos de alta precisión con la deducción lógica representa la próxima frontera en inteligencia artificial.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático