Diffusion Policies

Узнай, как Diffusion Policies формируют современную робототехнику. Разберись, как они моделируют действия с помощью шумоподавления и интегрируются с Ultralytics YOLO26 для интеллектуального восприятия.

Диффузионные стратегии представляют собой смену парадигмы в робототехнике и машинном обучении, где визуомоторная стратегия AI-агента моделируется как условный процесс диффузионного подавления шума. Традиционно клонирование поведения—форма имитационного обучения—опирается на прямую регрессию для прогнозирования единственного детерминированного действия на основе сенсорных данных. Хотя это работает для простых задач, прямая регрессия часто дает сбой, когда существует несколько допустимых действий, что приводит к нестабильным или небезопасным усредненным движениям. Диффузионные стратегии решают эту проблему, оформляя генерацию действий как задачу уточнения последовательности. Начиная с чистого случайного шума, алгоритм итеративно очищает сигнал от шума, опираясь на сенсорные наблюдения, такие как изображения или данные о пространственном состоянии, чтобы создать высокоточные, надежные и мультимодальные последовательности действий.

Link to this sectionКак работают диффузионные стратегии#

Основные механизмы опираются на математику генеративного моделирования, адаптируя методы, первоначально разработанные для высококачественного синтеза изображений в оригинальной статье о визуомоторных диффузионных стратегиях. На этапе обучения, известном как прямой процесс, к оптимальным траекториям действий эксперта постепенно добавляется небольшое количество шума. Затем нейронная сеть обучается прогнозировать и обращать этот шум на основе заданного контекста наблюдения.

Во время вывода, когда робот взаимодействует со своей средой, он наблюдает за окружением, инициализирует случайную последовательность действий и очищает ее от шума с помощью стохастической динамики Ланжевена. Эта итеративная оптимизация позволяет получать детализированные и плавные команды управления, способные справляться со сложными многомерными пространствами действий.

Link to this sectionРеальные приложения#

Точно представляя сложные распределения без схлопывания мод, диффузионные стратегии активно преобразуют современный физический искусственный интеллект.

Роботизированные манипуляции: В промышленных условиях роботизированные манипуляторы используют эти стратегии для ловких, насыщенных контактами задач, таких как захват предметов неправильной формы, сборка сложных электронных компонентов или выполнение плавных движений при переливании жидкостей.
Автономная навигация: Системы самоуправляемых автомобилей и дронов сочетают оценку глубины с диффузионными стратегиями для планирования безопасных и непрерывных траекторий в динамических средах, изящно адаптируясь к внезапным препятствиям, которые в противном случае могли бы запутать стандартные модели обучения с подкреплением.

Link to this sectionРазграничение ключевых терминов#

Чтобы прояснить специфическую функцию диффузионных стратегий, полезно отличить их от близкородственных генеративных архитектур:

Диффузионные стратегии против диффузионных моделей: Диффузионные модели в широком смысле относятся к базовой генеративной архитектуре, используемой для создания статических данных, таких как синтез текста в изображение. Диффузионные стратегии применяют этот конкретный механизм для прогнозирования непрерывных временных рядов команд управления для активных роботов.
Диффузионные стратегии против Diffusion Forcing: Diffusion Forcing — это общая структура генерации последовательностей, которая обучает каузальные трансформеры с использованием различных уровней шума для каждого токена. Несмотря на связь, Diffusion Forcing в значительной степени фокусируется на авторегрессионном прогнозировании, тогда как диффузионные стратегии строго обозначают стратегию имитационного обучения для визуомоторного управления.

Link to this sectionПоследние достижения в обучении стратегий#

Исследования ведущих организаций, включая инициативы OpenAI и Google DeepMind robotics, продолжают расширять границы того, чего могут достичь эти алгоритмы. Примечательно, что 3D Diffusion Policy (DP3), опубликованная на arXiv в 2024 году, представила прорыв, обуславливая стратегии компактными представлениями в виде 3D-облака точек, а не простыми 2D-изображениями. Это значительно улучшило пространственное восприятие роботов, требуя при этом значительно меньше демонстраций от экспертов. Дальнейшие инновации, такие как D3P: Dynamic Denoising Diffusion Policy, начали решать проблему низкой скорости вывода стандартной диффузии за счет динамического пропуска шагов подавления шума для рутинных действий, обеспечивая быстродействие в режиме реального времени.

Link to this sectionПрактическая реализация с использованием компьютерного зрения#

Прежде чем диффузионная стратегия сможет сгенерировать действие, ей требуется четкое и структурированное понимание окружающей среды. Инженеры часто комбинируют надежные модели обнаружения объектов с алгоритмами стратегий для формирования полноценного конвейера компьютерного зрения. Например, быстрая модель восприятия, такая как Ultralytics YOLO26, может выделять целевые объекты в режиме реального времени, передавая пространственные координаты в диффузионную стратегию на основе библиотеки PyTorch.

import torch
from ultralytics import YOLO

# Load the Ultralytics YOLO26 Nano model for high-speed robotic perception
model = YOLO("yolo26n.pt")

# Predict bounding boxes on the robot's active camera feed
results = model.predict("robot_camera_feed.jpg")

# Condition the policy by extracting the bounding box center coordinate
if len(results[0].boxes) > 0:
    box = results[0].boxes[0].xyxy.squeeze()
    center_x = (box[0] + box[2]) / 2.0
    center_y = (box[1] + box[3]) / 2.0

    # Create a spatial observation tensor to condition the PyTorch Diffusion Policy.
    # This directly guides the denoising process to generate accurate motor actions.
    observation_state = torch.tensor([center_x, center_y])
    print(f"Conditioning action trajectory on object center: {observation_state}")

Чтобы упростить этот рабочий процесс, разработчики могут использовать платформу Ultralytics для применения быстрых инструментов авторазметки для кастомизированных наборов данных. Эта комплексная поддержка ускоряет развертывание моделей от необработанных видеопотоков с камер до полноценного роботизированного интеллекта.