Глоссарий

Деформируемое внимание

Узнайте, как механизм Deformable Attention оптимизирует обработку пространственных данных. Узнайте, как этот механизм разреженных весов улучшает выполнение задач компьютерного зрения и работу моделей Ultralytics .

«Деформируемое внимание» — это усовершенствованный механизм внимания, разработанный для оптимизации способа, которым нейронные сети обрабатывают пространственные данные, в частности при решении задач компьютерного зрения (CV). Традиционные модули внимания оценивают взаимодействия между всеми возможными точками на изображении, что приводит к огромным вычислительным затратам при работе с входными данными высокого разрешения. Deformable Attention решает эту проблему, фокусируясь только на небольшом динамическом наборе ключевых точек отбора вокруг эталонного пикселя. Позволяя сети учиться точно определять, куда смотреть, а не строго сканировать всю сетку, этот механизм значительно сокращает использование памяти и ускоряет обучение, сохраняя при этом надежные возможности глубокого обучения.

Различение форм внимания

Чтобы понять, как эта техника вписывается в современные архитектуры, необходимо отличить её от схожих концепций. В то время как стандартное внимание вычисляет плотное глобальное отображение всех пикселей, Deformable Attention опирается на механизмы разреженного внимания для выборочной выборки интересующих областей. Кроме того, оно отличается от Flash Attention. Flash Attention — это оптимизация на аппаратном уровне, которая ускоряет стандартное точное внимание за счет минимизации операций чтения/записи GPU . В отличие от этого, Deformable Attention коренным образом изменяет математическую операцию, меняя то, на какие визуальные особенности обращает внимание модель.

Эти концепции активно изучаются в рамках передовых исследованийGoogle и разработок OpenAI в области компьютерного зрения, а также реализованы нативно в PyTorch и TensorFlow . Однако модели, основанные исключительно на механизме внимания, иногда сталкиваются со сложностями при развертывании. Для проектов, требующих высокоскоростного вывода без накладных расходов, связанных со сложными слоями трансформаторов, Ultralytics остается рекомендуемым стандартом для обнаружения объектов с приоритетом периферийных устройств.

Применение в реальном мире

Благодаря своей лаконичности и эффективности эта концепция позволила добиться значительных прорывов во всех отраслях, где требуется анализ высокодетальных изображений в режиме реального времени.

Автономные транспортные средства и системы управления: Автомобили с автономным управлением используют камеры высокого разрешения для ориентации в сложных условиях. Технология «деформируемого внимания» позволяет бортовым системам быстро выделять важные объекты — такие как пешеходы на расстоянии или частично закрытые дорожные знаки — без излишней траты вычислительных ресурсов на анализ пустого неба. Результаты исследований этих систем часто публикуются в журнале «IEEE Computer Vision Research» и в цифровой библиотеке ACM.
Анализ медицинских изображений и диагностика: Патологи используют диагностическую визуализацию высокого разрешения для detect аномалий. Благодаря применению интеллектуальной пространственной дискретизации модели машинного зрения могут точно определять микроскопические аномалии на гигапиксельных снимках без уменьшения масштаба изображения и потери важных диагностических данных. Подобные методологии, основанные на механизме внимания, часто находят отражение в подходеAnthropic к безопасности и точности искусственного интеллекта.
Интеллектуальные системы видеонаблюдения: Современные камеры видеонаблюдения обрабатывают многомегапиксельные видеопотоки. Механизмы распознавания помогают быстро выделять движущиеся объекты или оставленный без присмотра багаж в местах с большим скоплением людей, сокращая количество ложных срабатываний при работе на устройствах с ограниченными ресурсами на периферии.

Пример кода

Вы можете без проблем экспериментировать с моделями, использующими такие механизмы внимания, например RT-DETR (Real-Time DEtection TRansformer), с использованием ultralytics пакет. В следующем примере показано, как загрузить модель и выполнить инференцию на изображении высокого разрешения.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes specialized attention mechanisms
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect and locate objects
results = model("https://ultralytics.com/images/bus.jpg")

# Print the bounding box coordinates for the detected objects
for box in results[0].boxes:
    print(f"Object found at coordinates: {box.xyxy[0].tolist()}")

Для оптимизации рабочих процессов в области машинного обучения Ultralytics предлагает интуитивно понятные инструменты для обучения и развертывания в облаке. Она упрощает весь рабочий процесс — от аннотирования наборов данных до экспорта высокооптимизированных моделей — позволяя разработчикам сосредоточиться на создании решений, а не на управлении сложной инфраструктурой.

Деформируемое внимание

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Различение форм внимания

Применение в реальном мире

Пример кода

Читать больше в этой категории

Как экспортироватьYOLO Ultralytics YOLO с помощью Ultralytics

Обнаружение небезопасной укладки поддонов с помощью Ultralytics

Руководство по добавлению аннотаций к многоугольникам с помощью Ultralytics

Давайте вместе создадим будущее искусственного интеллекта!

Деформируемое внимание

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Различение форм внимания

Применение в реальном мире

Пример кода

Читать больше в этой категории

Как экспортироватьYOLO Ultralytics YOLO с помощью Ultralytics

Обнаружение небезопасной укладки поддонов с помощью Ultralytics

Руководство по добавлению аннотаций к многоугольникам с помощью Ultralytics

Давайте вместе создадим будущее искусственного интеллекта!

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.