Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Diffusion Policies

Explora cómo las Diffusion Policies dan forma a la robótica moderna. Aprende cómo modelan acciones mediante la eliminación de ruido e intégralas con Ultralytics YOLO26 para una percepción inteligente.

Las políticas de difusión representan un cambio de paradigma en la robótica y el machine learning, donde la política visomotora de un agente de IA se modela como un proceso de difusión de eliminación de ruido condicional. Tradicionalmente, la clonación de comportamiento—una forma de aprendizaje por imitación—se basa en la regresión directa para predecir una única acción determinista a partir de una entrada sensorial. Aunque es funcional para tareas sencillas, la regresión directa a menudo falla cuando existen múltiples acciones válidas, lo que conduce a movimientos promediados inestables o inseguros. Las políticas de difusión resuelven esto planteando la generación de acciones como una tarea de refinamiento de secuencias. Partiendo de ruido aleatorio puro, el algoritmo elimina iterativamente el ruido de la señal, condicionado a observaciones sensoriales como imágenes o datos de estado espacial, para producir secuencias de acciones multimodales, robustas y altamente precisas.

Link to this sectionCómo funcionan las políticas de difusión#

La mecánica central se basa en las matemáticas que se encuentran en el modelado generativo, adaptando técnicas desarrolladas originalmente para la síntesis de imágenes de alta fidelidad en el artículo original sobre políticas de difusión visomotora. Durante la fase de entrenamiento, conocida como proceso directo, se añaden pequeñas cantidades de ruido de forma progresiva a las trayectorias de acción óptimas de los expertos. Posteriormente, se entrena una red neuronal para predecir y revertir este ruido basándose en un contexto de observación determinado.

Durante la inferencia, cuando el robot interactúa con su entorno, observa lo que le rodea, inicializa una secuencia de acción aleatoria y elimina el ruido utilizando dinámica de Langevin estocástica. Esta optimización iterativa produce comandos motores suaves y detallados, capaces de gestionar espacios de acción complejos y de alta dimensionalidad.

Link to this sectionAplicaciones en el mundo real#

Al representar con precisión distribuciones complejas sin colapso de modo, las políticas de difusión están remodelando activamente la inteligencia artificial física moderna.

  • Manipulación robótica: En entornos industriales, los brazos robóticos utilizan estas políticas para tareas diestras y ricas en contacto, como agarrar objetos de formas irregulares, ensamblar componentes electrónicos complejos o ejecutar movimientos fluidos de vertido.
  • Navegación autónoma: Los sistemas de conducción autónoma y los drones combinan la estimación de profundidad con políticas de difusión para planificar trayectorias seguras y continuas a través de entornos dinámicos, adaptándose con elegancia a obstáculos repentinos que, de otro modo, confundirían a los modelos estándar de aprendizaje por refuerzo.

Link to this sectionDiferenciación de términos clave#

Para aclarar la función específica de las políticas de difusión, resulta útil distinguirlas de arquitecturas generativas estrechamente relacionadas:

  • Políticas de difusión vs. modelos de difusión: Los modelos de difusión se refieren en términos generales a la arquitectura generativa subyacente utilizada para crear datos estáticos, como la síntesis de texto a imagen. Las políticas de difusión aplican este mecanismo específico para predecir comandos motores continuos de series temporales para robots activos.
  • Políticas de difusión vs. Diffusion Forcing: Diffusion Forcing es un marco general de generación de secuencias que entrena transformers causales utilizando niveles de ruido variables por token. Aunque están relacionados, Diffusion Forcing se centra en gran medida en la predicción autorregresiva, mientras que las políticas de difusión denotan estrictamente la estrategia de aprendizaje por imitación para el control visomotor.

Link to this sectionAvances recientes en el aprendizaje de políticas#

La investigación de instituciones punteras, incluidas las iniciativas de investigación de OpenAI y Google DeepMind robotics, sigue ampliando los límites de lo que estos algoritmos pueden lograr. Cabe destacar que la política de difusión 3D (DP3), publicada en arXiv en 2024, introdujo un avance al condicionar las políticas a representaciones de nubes de puntos 3D compactas en lugar de simples imágenes 2D. Esto mejoró significativamente la conciencia espacial de los robots, requiriendo muchas menos demostraciones de expertos. Otras innovaciones como D3P: Dynamic Denoising Diffusion Policy han comenzado a abordar la lenta velocidad de inferencia de la difusión estándar al omitir dinámicamente los pasos de eliminación de ruido para acciones rutinarias, desbloqueando una capacidad de respuesta en tiempo real.

Link to this sectionImplementación práctica con visión artificial#

Antes de que una política de difusión pueda generar una acción, requiere una comprensión clara y estructurada de su entorno. Los ingenieros combinan con frecuencia modelos robustos de detección de objetos con algoritmos de políticas para formar un pipeline de visión artificial completo. Por ejemplo, un modelo de percepción rápida como Ultralytics YOLO26 puede aislar objetos objetivo en tiempo real, enviando coordenadas espaciales a una política de difusión basada en la librería PyTorch.

import torch
from ultralytics import YOLO

# Load the Ultralytics YOLO26 Nano model for high-speed robotic perception
model = YOLO("yolo26n.pt")

# Predict bounding boxes on the robot's active camera feed
results = model.predict("robot_camera_feed.jpg")

# Condition the policy by extracting the bounding box center coordinate
if len(results[0].boxes) > 0:
    box = results[0].boxes[0].xyxy.squeeze()
    center_x = (box[0] + box[2]) / 2.0
    center_y = (box[1] + box[3]) / 2.0

    # Create a spatial observation tensor to condition the PyTorch Diffusion Policy.
    # This directly guides the denoising process to generate accurate motor actions.
    observation_state = torch.tensor([center_x, center_y])
    print(f"Conditioning action trajectory on object center: {observation_state}")

Para optimizar este flujo de trabajo, utiliza la Ultralytics Platform para emplear herramientas rápidas de auto-etiquetado para datasets personalizados. Este soporte integral acelera el despliegue de modelos desde feeds de cámara sin procesar hasta inteligencia robótica procesable.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático