Узнайте, как токены, строительные блоки моделей ИИ, обеспечивают возможности NLP, компьютерного зрения и таких задач, как анализ тональности и обнаружение объектов.
В искусственном интеллекте токен — это фундаментальная, дискретная единица данных, которую обрабатывает модель. Прежде чем модель AI сможет анализировать текст или изображение, необработанные данные должны быть разбиты на эти управляемые части. Для языковой модели токен может быть словом, частью слова (подсловом) или отдельным символом. Для модели компьютерного зрения (CV) токен может быть небольшим фрагментом изображения фиксированного размера. Этот процесс разбиения данных является критически важным первым шагом в конвейере предварительной обработки данных, поскольку он преобразует сложные, неструктурированные данные в структурированный формат, который могут понимать нейронные сети.
Важно различать «токен» и «токенизацию».
Короче говоря, токенизация — это действие, а токен — результат этого действия.
Токены являются строительными блоками того, как модели ИИ воспринимают и интерпретируют данные. После токенизации данных каждый токен обычно сопоставляется с числовым векторным представлением, называемым эмбеддингом. Эти эмбеддинги отражают семантическое значение и контекст, позволяя моделям, построенным с использованием таких фреймворков, как PyTorch или TensorFlow, изучать сложные закономерности.
Слова и подсловные токены: В обработке естественного языка (NLP) использование целых слов в качестве токенов может привести к огромным словарям и проблемам с неизвестными словами. Подсловная токенизация, использующая такие алгоритмы, как Byte Pair Encoding (BPE) или WordPiece, является распространенным решением. Она разбивает редкие слова на более мелкие, значимые части. Например, слово "tokenization" может стать двумя токенами: "token" и "##ization". Этот подход, используемый моделями, такими как BERT и GPT-4, помогает модели обрабатывать сложную лексику и грамматические структуры. Вы можете изучить современные реализации в библиотеках, таких как Hugging Face Tokenizers.
Визуальные токены: Концепция токенов выходит за рамки текста и применяется в компьютерном зрении. В таких моделях, как Vision Transformer (ViT), изображение делится на сетку патчей (например, 16x16 пикселей). Каждый патч выравнивается и рассматривается как «визуальный токен». Это позволяет мощным архитектурам Transformer, которые отлично справляются с обработкой последовательностей с использованием само-внимания (self-attention), выполнять такие задачи, как классификация изображений и обнаружение объектов. Этот подход, основанный на токенах, также является основополагающим для мультимодальных моделей, которые понимают как изображения, так и текст, например, CLIP.
Использование токенов является основополагающим для бесчисленных систем ИИ, от простых приложений до сложных, современных моделей.
Машинный перевод: Сервисы, такие как Google Translate, в значительной степени полагаются на токены. Когда вы вводите предложение, оно сначала разбивается на последовательность текстовых токенов. Сложная модель sequence-to-sequence обрабатывает эти токены, понимает их общее значение и генерирует новую последовательность токенов на целевом языке. Затем эти выходные токены собираются обратно в связное переведенное предложение. Этот процесс обеспечивает перевод в реальном времени на десятки языков.
Автономные транспортные средства: В области автономных транспортных средств модели должны интерпретировать сложные визуальные сцены в режиме реального времени. Модель, такая как Ultralytics YOLO11, обрабатывает потоки с камер для выполнения таких задач, как отслеживание объектов и сегментация экземпляров. Хотя классические модели на основе CNN, такие как YOLO, явно не используют «токены» так же, как Transformers, варианты vision transformer, разработанные для обнаружения, используют. Они разбивают визуальный ввод на токены (патчи), чтобы идентифицировать и локализовать пешеходов, другие транспортные средства и дорожные сигналы с высокой точностью. Это токенизированное понимание окружающей среды имеет решающее значение для безопасной навигации. Управление всем рабочим процессом, от сбора данных до развертывания модели, можно упростить с помощью таких платформ, как Ultralytics HUB.