Узнайте, как токены, строительные блоки моделей искусственного интеллекта, используются в NLP, компьютерном зрении и таких задачах, как анализ настроения и обнаружение объектов.
В искусственном интеллекте токен - это фундаментальная, дискретная единица данных, которую обрабатывает модель. Прежде чем модель искусственного интеллекта сможет проанализировать текст или изображение, исходные данные должны быть разбиты на эти управляемые части. Для языковой модели лексема может быть словом, частью слова (подсловом) или одним символом. Для модели компьютерного зрения (CV) маркером может быть небольшой участок изображения фиксированного размера. Этот процесс разбиения данных на части - важнейший первый шаг в конвейере предварительной обработки данных, поскольку он преобразует сложные неструктурированные данные в структурированный формат, понятный нейронным сетям.
Необходимо различать понятия "токен" и"токенизация".
Короче говоря, токенизация - это действие, а токен - результат этого действия.
Токены - это строительные блоки для восприятия и интерпретации данных моделями ИИ. После того, как данные были обработаны, каждая лексема обычно отображается на числовое векторное представление, называемое вкраплением. Эти вкрапления передают семантический смысл и контекст, позволяя моделям, построенным с помощью таких фреймворков, как PyTorch или TensorFlow, изучать сложные закономерности.
Токены слов и подслов: В обработке естественного языка (NLP) использование целых слов в качестве лексем может привести к огромным словарям и проблемам с неизвестными словами. Токенизация подслова с помощью таких алгоритмов, как Byte Pair Encoding (BPE) или WordPiece, является распространенным решением. Она разбивает редкие слова на более мелкие, значимые части. Например, слово "токенизация" может превратиться в два токена: "token" и "##ization". Этот подход, используемый в таких моделях, как BERT и GPT-4, помогает модели справляться со сложным словарным запасом и грамматическими структурами. Вы можете познакомиться с современными реализациями в таких библиотеках, как Hugging Face Tokenizers.
Визуальные маркеры: Концепция лексем выходит за рамки текста и распространяется на компьютерное зрение. В таких моделях, как Vision Transformer (ViT), изображение делится на сетку патчей (например, 16x16 пикселей). Каждый патч сплющивается и рассматривается как "визуальный маркер". Это позволяет мощным архитектурам трансформеров, которые отлично справляются с обработкой последовательностей с использованием самовнимания, выполнять такие задачи, как классификация изображений и обнаружение объектов. Этот подход, основанный на маркерах, также является основой для мультимодальных моделей, понимающих как изображения, так и текст, таких как CLIP.
Использование токенов является основой для множества систем ИИ, от простых приложений до сложных, самых современных моделей.
Машинный перевод: Такие сервисы, как Google Translate, в значительной степени опираются на лексемы. Когда вы вводите предложение, оно сначала разбивается на последовательность текстовых лексем. Сложная модель последовательности обрабатывает эти лексемы, понимает их общий смысл и генерирует новую последовательность лексем на целевом языке. Затем эти лексемы снова собираются в связное переведенное предложение. Этот процесс позволяет переводить десятки языков в режиме реального времени.
Автономные транспортные средства: В области автономных транспортных средств модели должны интерпретировать сложные визуальные сцены в режиме реального времени. Такая модель, как Ultralytics YOLO11, обрабатывает данные с камер для выполнения таких задач, как отслеживание объектов и сегментация экземпляров. Хотя классические модели на основе CNN, такие как YOLO, не используют "лексемы" в явном виде, как трансформеры, варианты трансформаторов зрения, предназначенные для обнаружения, используют их. Они разбивают визуальные данные на маркеры (пятна), чтобы с высокой точностью идентифицировать и определять местоположение пешеходов, других транспортных средств и сигналов светофора. Такое понимание окружающей обстановки с помощью маркеров имеет решающее значение для безопасной навигации. Управление всем рабочим процессом, от сбора данных до развертывания модели, может быть упрощено с помощью таких платформ, как Ultralytics HUB.