Глоссарий

Диффузионное воздействие

Ознакомьтесь с Diffusion Forcing — парадигмой генеративного моделирования, сочетающей авторегрессионное прогнозирование с диффузией последовательностей для генерации временных данных с высокой степенью согласованности.

Diffusion Forcing — это передовая парадигма генеративного моделирования, представленная в 2024 году, которая объединяет преимущества авторегрессионного прогнозирования следующего токена с диффузией по всей последовательности. Благодаря применению независимых и переменных уровней шума к разным шагам в последовательности, эта техника позволяет моделям машинного обучения генерировать высоко согласованные временные данные. В отличие от традиционных методов, которые либо предсказывают дискретные токены по одному, либо устраняют шум из всей последовательности одновременно, Diffusion Forcing обучает модели действовать как надежные планировщики и генераторы последовательностей, обрабатывая непрерывные состояния со сложными зависимостями с длинным горизонтом.

Как работает диффузионное воздействие

В своей основе метод Diffusion Forcing черпает вдохновение в классическом подходе «teacher forcing», применяемом в рекуррентных нейронных сетях. Однако вместо подачи дискретных токенов «истинного значения» для предсказания следующего шага в каузальный трансформер подаются частично зашумленные непрерывные истории. Модель учится устранять шум в текущем состоянии с учетом прошлого. Это позволяет сети динамически регулировать уровень шума для каждого кадра, обеспечивая гибкую структуру для задач, требующих как локальной точности, так и широкого временного охвата.

Этот подход оказывается весьма эффективным при создании интеллектуальных ИИ-агентов, которые должны реагировать на непредсказуемые условия при одновременном соблюдении долгосрочного плана, что позволяет избежать проблем, связанных с накоплением ошибок, часто возникающих в стандартных авторегрессионных моделях.

Применение в реальном мире

Концепция «диффузионного принуждения» быстро набирает популярность в ряде сложных областей искусственного интеллекта:

Робототехника и зрительно-моторный контроль: автономные роборуки и системы автономного вождения используют метод «диффузионного принуждения» для построения плавных и непрерывных траекторий. Благодаря прогнозированию последовательностей непрерывных двигательных команд роботы могут адаптироваться к динамическим препятствиям, сохраняя при этом стабильный путь к цели.
Генерация и прогнозирование видео: в современных потоках обработки компьютерного зрения модели используют эту технику для прогнозирования будущих кадров видео с соблюдением строгой временной согласованности, что позволяет избежать артефактов мерцания, часто встречающихся в более ранних генеративных подходах.

Внутреннее воздействие диффузии и стандартные диффузионные модели

Несмотря на то, что у них общий базовый механизм удаления шума, Diffusion Forcing существенно отличается от стандартных диффузионных моделей. Традиционные диффузионные модели, такие как те, что используются для генерации изображений из текста, обычно одновременно удаляют шум из всех пикселей или скрытых переменных одного статического вывода. В отличие от них, Diffusion Forcing явно моделирует временной ряд, заставляя сеть соблюдать причинно-следственную последовательность. Это делает ее гораздо более подходящей для временных задач, таких как прогнозирование траектории и распознавание действий.

Интеграция обработки последовательностей на практике

Хотя метод Diffusion Forcing в первую очередь применяется к задачам генерации последовательностей, интерпретация временных последовательностей играет не менее важную роль в современных конвейерах обработки изображений. Например, с помощью Ultralytics можно эффективно track на последовательных кадрах видео, поскольку этот алгоритм изначально обеспечивает временную согласованность при отслеживании объектов.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")

# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)

# Iterate through the sequence of frames
for frame_result in results:
    # Access temporal tracking IDs for objects in the current state
    print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")

Для команд, стремящихся расширить сбор последовательных данных и обучить сложные модели машинного зрения, Ultralytics предоставляет надежные облачные инструменты для управления сложными наборами данных, track и развертывания моделей непосредственно на периферийных устройствах. Независимо от того, экспериментируете ли вы с передовыми каузальными трансформерами в PyTorch или развертываете системы отслеживания в реальном времени, освоение взаимодействия пространственных и временных данных имеет решающее значение для будущего ИИ.

Диффузионное воздействие

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Как работает диффузионное воздействие

Применение в реальном мире

Внутреннее воздействие диффузии и стандартные диффузионные модели

Интеграция обработки последовательностей на практике

Читать больше в этой категории

Как экспортироватьYOLO Ultralytics YOLO с помощью Ultralytics

Обнаружение небезопасной укладки поддонов с помощью Ultralytics

Руководство по добавлению аннотаций к многоугольникам с помощью Ultralytics

Давайте вместе создадим будущее искусственного интеллекта!

Диффузионное воздействие

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Как работает диффузионное воздействие

Применение в реальном мире

Внутреннее воздействие диффузии и стандартные диффузионные модели

Интеграция обработки последовательностей на практике

Читать больше в этой категории

Как экспортироватьYOLO Ultralytics YOLO с помощью Ultralytics

Обнаружение небезопасной укладки поддонов с помощью Ultralytics

Руководство по добавлению аннотаций к многоугольникам с помощью Ultralytics

Давайте вместе создадим будущее искусственного интеллекта!

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.