Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Разделение действий на части

Узнайте, как разбиение действий на фрагменты повышает точность работы роботов и эффективность обучения путем имитации. Узнайте, как использовать Ultralytics для уменьшения накопления ошибок в ИИ-агентах.

Разбиение действий на блоки — это передовой метод глубокого обучения, широко применяемый в робототехнике и имитационном обучении, при котором модель прогнозирует последовательность (или «блок») будущих действий, а не отдельное действие на каждом временном шаге. Благодаря прогнозированию многошаговой траектории, группировка действий позволяет ИИ-агентам выполнять сложные задачи с длительным горизонтом с большей плавностью и надежностью. Этот подход приобрел значительную популярность после появления Action Chunking with Transformers (ACT) — архитектуры модели, которая сочетает временное прогнозирование с высокоразмерными входными данными компьютерного зрения.

Предотвращение накопления ошибок

В традиционном поведенческом клонировании модель предсказывает следующий непосредственный шаг на основе текущего состояния. Однако во время вывода в реальном времени даже незначительные погрешности в прогнозировании приводят к переходу системы в ненаблюдаемые состояния. Эти ошибки быстро накапливаются, что приводит к сбою задачи — феномену, известному как «накопление ошибок».

Разбиение действий на фрагменты позволяет напрямую устранить это ограничение. Благодаря одновременному прогнозированию нескольких действий (например, 50 совместных движений, охватывающих 1 секунду движения) эффективный горизонт управления сокращается. Система придерживается согласованного краткосрочного плана, основанного на одном надежном визуальном наблюдении, что значительно снижает частоту реактивных ошибок. При интеграции базовых визуальных моделей, таких как Ultralytics , для пространственной ориентации и локализации ограничительных рамок, полученные прогнозы становятся невероятно устойчивыми к шумам процесса.

Применение в реальном мире

Группировка действий открыла новые возможности в сфере физической автоматизации, особенно при внедрении на пограничном ИИ- оборудовании, оптимизированном с помощью таких фреймворков, как Intel :

  • Точная роботизированная манипуляция: в промышленной автоматизации роботы используют прогнозы, разбитые на фрагменты, для выполнения задач, предполагающих многочисленные контакты и требующих высокой точности, таких как протаскивание кабелей, установка аккумуляторов в гнезда или манипулирование предметами, отслеживаемыми с помощью наборов данных сегментации упаковок. Создание связных последовательностей действий позволяет избежать рывкообразных и несогласованных движений, характерных для одношагового обучения путем подражания.
  • Автономная навигация: в сфере автономного вождения и полетов дронов прогнозирование блока команд управления (таких как поворот руля и ускорение) позволяет более плавно планировать траекторию движения — эта концепция широко освещается в недавних статьях IEEE по робототехнике. В сочетании с непрерывным отслеживанием объектов и оценкой глубины транспортные средства могут безопасно перемещаться в сложных динамичных средах.

Различение смежных понятий

Чтобы лучше понять, как эта техника вписывается в более широкую экосистему искусственного интеллекта, целесообразно провести разграничение между ней и аналогичными терминами:

  • Разбиение действий на фрагменты и распознавание действий: в то время как при разбиении действий на фрагменты формируется последовательность будущих команд для выполнения машиной, распознавание действий представляет собой аналитический процесс идентификации действий, происходящих в видеопотоке.
  • Модели «Action Chunking» и «Sequence-to-Sequence»: архитектуры «Sequence-to-Sequence» преобразуют входную последовательность в выходную и широко используются в машинном переводе. Модели «Action Chunking» активно используют эти архитектуры — в частности, Transformers— но ограничивают выходные данные исключительно низкоуровневыми командами управления двигателями и кинематикой, а не текстом.
  • Разбиение действий на фрагменты против обучения с подкреплением: Обучение с подкреплением основано на сигналах вознаграждения, позволяющих обучать агента методом проб и ошибок. Напротив, разбиение действий на фрагменты в основном применяется при контролируемом клонировании поведения, когда модель обучается непосредственно на основе демонстраций человека без явной максимизации вознаграждения.

Реализация разбиения действий на части

На практике система технического зрения анализирует окружающую среду, а декодер последовательностей генерирует фрагментированную траекторию. следующее Python демонстрирует концептуальный PyTorch (альтернатива TensorFlow), который принимает состояние среды — например, полученное в результате прохода по обнаружению объектов — и выдает последовательность будущих действий.

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

Управление огромными массивами данных, необходимыми для обучения этих алгоритмов поведения роботов, требует значительных ресурсов. Такие лидеры отрасли, как OpenAI и Anthropic разрабатывают крупномасштабные модели, но обычные разработчики полагаются на доступные инструменты. Ultralytics оптимизирует жизненный цикл данных для визуальных входных данных, предлагая автоматическую аннотацию данных и возможности беспрепятственного обучения моделей. По мере того как модели развиваются в сторону унифицированных архитектур «зрение-язык-действие» (VLA), сочетание эффективных систем зрительного восприятия с надежным разбиением действий на фрагменты будет продолжать определять следующее поколение интеллектуальной автоматизации.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения