Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Action Chunking

Узнай, как объединение действий (action chunking) повышает точность роботов и эффективность обучения с подражанием. Открой для себя, как использовать Ultralytics YOLO26 для снижения накопленных ошибок в ИИ-агентах.

Action chunking — это продвинутая техника deep learning, широко применяемая в робототехнике и обучении с подражанием, где модель предсказывает последовательность (или «пакет») будущих действий, а не одно действие на каждом временном шаге. Прогнозируя многошаговую траекторию, action chunking позволяет AI agents выполнять сложные задачи с большим горизонтом планирования более плавно и надежно. Этот подход получил значительное распространение после появления Action Chunking with Transformers (ACT) — архитектуры моделей, которая объединяет временное прогнозирование с высокоразмерными входными данными computer vision.

Link to this sectionСмягчение накопления ошибок#

В традиционном поведенческом клонировании модель предсказывает следующий непосредственный шаг на основе текущего состояния. Однако во время real-time inference малейшие неточности в предсказаниях переводят систему в ненаблюдаемые состояния. Эти ошибки быстро накапливаются, что приводит к сбою в выполнении задачи — явление, известное как накопление ошибок.

Action chunking напрямую решает эту проблему. Предсказывая несколько действий одновременно (например, 50 движений суставов, охватывающих 1 секунду движения), эффективный горизонт управления сокращается. Система придерживается согласованного краткосрочного плана, основанного на одном надежном визуальном наблюдении, что значительно снижает частоту реактивных ошибок. При интеграции бэкендов компьютерного зрения, таких как Ultralytics YOLO26 для пространственной осведомленности и локализации bounding box, получаемые предсказания становятся невероятно устойчивыми к шумам в процессе.

Link to this sectionРеальные приложения#

Action chunking открыл новые возможности в физической автоматизации, особенно при развертывании на аппаратном обеспечении edge AI, оптимизированном такими фреймворками, как Intel Edge:

  • Роботизированная манипуляция с высокой детализацией: В промышленной автоматизации роботы используют пакетные предсказания для выполнения задач, требующих высокой точности, таких как протяжка кабелей, установка батарей или обработка предметов, отслеживаемых с помощью package segmentation datasets. Создание согласованных последовательностей действий предотвращает резкие и непоследовательные движения, характерные для одношагового imitation learning.
  • Автономная навигация: В беспилотном вождении и полетах дронов прогнозирование блока команд управления (таких как поворот и ускорение) обеспечивает более плавное планирование траектории — концепция, активно изучаемая в недавних IEEE robotics papers. В сочетании с непрерывным object tracking и depth estimation транспортные средства могут безопасно перемещаться в сложных динамических средах.

Link to this sectionРазграничение похожих концепций#

Чтобы лучше понять, как эта техника вписывается в общую экосистему artificial intelligence, полезно отличить ее от похожих терминов:

  • Action Chunking vs. Action Recognition: В то время как action chunking генерирует последовательность будущих команд для выполнения машиной, action recognition — это аналитический процесс идентификации действий, происходящих в видеопотоке.
  • Action Chunking vs. Sequence-to-Sequence Models: Архитектуры sequence-to-sequence отображают входную последовательность в выходную и широко используются в machine translation. Action chunking активно использует эти архитектуры — в частности Transformers — но ограничивает выходные данные исключительно низкоуровневым моторным управлением и кинематикой, а не текстом.
  • Action Chunking vs. Reinforcement Learning: Reinforcement learning опирается на сигналы вознаграждения для обучения агента методом проб и ошибок. Напротив, action chunking в основном применяется в контролируемом поведенческом клонировании, где модель учится непосредственно на демонстрациях человека без явной максимизации вознаграждения.

Link to this sectionРеализация Action Chunking#

На практике система зрения оценивает окружающую среду, а декодер последовательностей генерирует пакетную траекторию. Следующий фрагмент кода на Python демонстрирует концептуальный модуль PyTorch (альтернатива TensorFlow), который принимает состояние среды — например, полученное в результате прохода object detection — и выдает последовательность будущих действий.

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

Управление огромными наборами данных, необходимыми для обучения этих робототехнических политик, является ресурсоемким процессом. Лидеры индустрии, такие как OpenAI и Anthropic, работают над крупномасштабными моделями, но обычные разработчики полагаются на доступные инструменты. Ultralytics Platform упрощает жизненный цикл данных для визуальных входов, предлагая автоматизированную data annotation и возможности бесшовного model training. По мере того как модели развиваются в сторону унифицированных архитектур Vision-Language-Action (VLA), сочетание эффективных систем компьютерного зрения с надежным action chunking будет и дальше определять следующее поколение интеллектуальной автоматизации.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения