Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Механизм внимания

Узнайте, как механизмы внимания революционизируют ИИ, улучшая задачи NLP и компьютерного зрения, такие как перевод, обнаружение объектов и многое другое!

Механизм внимания — это основополагающая технология в области искусственного интеллекта (ИИ) , который имитирует когнитивную способность человека сосредоточиваться на конкретных деталях, игнорируя при этом нерелевантную информацию. В контексте глубокого обучения (DL)этот механизм позволяет нейронной сети (NN) динамически присваивать различные уровни важности, или «веса», различным частям входных данных. Вместо обработки всего изображения или предложения с одинаковым упором, модель учится обращать внимание на наиболее значимые особенности — такие, как конкретное слово в предложении для понимания контекста, или отдельный объект в сложной визуальной сцене. Этот прорыв является движущей силой архитектуры Transformer , которая революционизировала такие области, как обработки естественного языка (NLP) до передовых компьютерного зрения (CV).

Как работает механизм внимания (Attention)

Первоначально разработаны для решения проблемы ограниченности памяти в рекуррентных нейронных сетях (RNN), механизмы внимания решают проблему проблему исчезающего градиента путем создания прямых связей между удаленными частями последовательности данных. Этот процесс часто описывают с помощью аналогии с поиском , включающей три компонента: запросы, ключи и значения.

  • Запрос (Q): представляет то, что модель ищет в данный момент (например, подлежащее в предложении).
  • Ключ (K): служит идентификатором информации, доступной во входных данных.
  • Значение (V): Содержит фактическую информацию.

Сравнивая запрос с различными ключами, модель вычисляет оценку внимания. Эта оценка определяет, какая часть значения извлекается и используется для формирования вывода. Это позволяет моделям обрабатывать дальнодействующими зависимостями , понимая взаимосвязи между точками данных независимо от их расстояния друг от друга.

Применение в реальном мире

Механизмы внимания позволили добиться некоторых из наиболее заметных достижений в современных технологиях.

  • Машинный перевод: Системы типа Google полагаются на внимание, чтобы сопоставить слова между языками. При переводе «The black cat» (English) на «Le chat noir» (французский) модель должна поменять порядок прилагательного и существительного. Внимание позволяет декодеру сосредоточиться на «black» при генерации «noir» и на «cat» при генерации «chat», обеспечивая грамматическую точность.
  • Анализ медицинских изображений: В здравоохранении карты внимания помогают радиологам, выделяя подозрительные области на рентгеновских снимках или МРТ-сканах. Например , при диагностике аномалий в наборах данных о опухолях головного мозгамодель фокусирует свою вычислительную мощность на опухолевой ткани, отфильтровывая здоровую мозговую ткань, что повышает точность диагностики.
  • Автономные транспортные средства: Автомобили с автопилотом используют визуальное внимание для приоритизации важных элементов дороги. На оживленной улице система уделяет особое внимание пешеходам и светофорам, рассматривая их как сигналы высокой приоритетности, и уделяет меньше внимания статическим элементам фона, таким как небо или здания.

Внимание против свертки

Важно отличать внимание от сверточных нейронных сетях (CNN). В то время как CNN обрабатывают данные локально, используя фиксированное окно (ядро) для detect и текстур, внимание обрабатывает данные глобально, связывая каждую часть входа со всеми остальными частями

  • Самоанализ: особый тип внимания, при котором модель анализирует саму себя, чтобы понять контекст в рамках одной последовательности.
  • Эффективность: Модели чистого внимания могут быть вычислительно затратными (квадратичная сложность). Современные методы оптимизации, такие как Flash Attention используют GPU более эффективно для ускорения обучения.

В то время как современные модели, такие как Ultralytics оптимизированы для выполнения вывода в реальном времени с использованием усовершенствованных структур CNN, гибридные архитектуры, такие как RT-DETR (Real-Time Detection Transformer) явно используют внимание для достижения высокой точности. Оба типа моделей можно легко обучить и развернуть с помощью Ultralytics .

Пример кода

Следующий Python демонстрирует, как выполнить вывод с помощью RT-DETR, модель архитектуры , которая в основном опирается на механизмы внимания для обнаружение объектов.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")

# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас