Открой для себя силу самовнимания в ИИ, революционизирующую NLP, компьютерное зрение и распознавание речи с точностью до контекста.
Самовнимание - ключевой механизм современного искусственного интеллекта (ИИ), особенно заметный в архитектуре Transformer, представленной во влиятельной работе"Attention Is All You Need". Оно позволяет моделям взвешивать важность различных частей одной входной последовательности при обработке информации, что дает возможность глубже понять контекст и взаимосвязи внутри самих данных. Это контрастирует с более ранними методами внимания, которые в основном фокусировались на связи различных входных и выходных последовательностей. Его влияние было преобразующим в обработке естественного языка (NLP) и становится все более значимым в компьютерном зрении (CV).
Основная идея самовнимания заключается в том, чтобы имитировать человеческую способность фокусироваться на определенных частях информации, учитывая при этом их контекст. Например, при чтении предложения значение слова часто зависит от окружающих его слов. Самовнимание позволяет модели ИИ оценивать взаимосвязи между всеми элементами (например, словами или пятнами изображения) в пределах входной последовательности. Она вычисляет "баллы внимания" для каждого элемента относительно всех остальных элементов в последовательности. Эти баллы определяют, сколько "внимания" или веса должен получить каждый элемент при генерации выходного представления для конкретного элемента, что позволяет модели сосредоточиться на наиболее значимых частях входных данных для понимания контекста и дальних зависимостей. Этот процесс включает в себя создание представлений запроса, ключа и значения для каждого входного элемента, часто получаемых из вкраплений входных данных с помощью таких фреймворков, как PyTorch или TensorFlow.
Самообучение обладает рядом преимуществ по сравнению со старыми методами обработки последовательностей, такими как рекуррентные нейронные сети (RNN) и некоторые аспекты конволюционных нейронных сетей (CNN):
Несмотря на то, что оба они относятся к механизмам внимания, самовнимание существенно отличается от традиционного внимания. Традиционное внимание обычно рассчитывает показатели внимания между элементами двух разных последовательностей, например, соотнося слова в исходном предложении со словами в целевом предложении при машинном переводе (например, с English на французский). Однако самовнимание рассчитывает показатели внимания в пределах одной последовательности, соотнося элементы входных данных с другими элементами тех же входных данных. Этот внутренний фокус является ключом к его эффективности в задачах, требующих глубокого понимания структуры и контекста входных данных, в отличие от методов, ориентированных исключительно на локальные признаки с помощью свертки.
Самовнимание является основополагающим для многих современных моделей в различных областях:
Исследования продолжают совершенствовать механизмы самовнимания, стремясь к большей вычислительной эффективности (например, такие методы, как FlashAttention и варианты разреженного внимания) и более широкой применимости. Ожидается, что по мере усложнения моделей ИИ самовнимание останется краеугольной технологией, стимулирующей прогресс в различных областях - от специализированных приложений ИИ, таких как робототехника, до создания искусственного общего интеллекта (AGI). Такие инструменты и платформы, как Ultralytics HUB, облегчают обучение и развертывание моделей, включающих эти передовые техники, часто доступные через такие репозитории, как Hugging Face.