Глоссарий

Токенизация

Открой для себя мощь токенизации в NLP и ML! Узнай, как разбиение текста на лексемы улучшает такие задачи ИИ, как анализ настроения и генерация текста.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Токенизация - это фундаментальный этап предварительной обработки в искусственном интеллекте (AI) и машинном обучении (ML), особенно важный в обработке естественного языка (NLP). Она включает в себя разбиение последовательностей текста или других данных на более мелкие, управляемые единицы, называемые лексемами. Эти лексемы служат основными строительными блоками, которые алгоритмы используют для понимания и обработки информации, преобразуя исходные данные, такие как предложения или абзацы, в формат, подходящий для анализа моделями машинного обучения. Этот процесс очень важен, потому что компьютеры понимают текст не так, как люди; им нужны данные, структурированные на дискретные части.

Как работает токенизация

Основная идея, лежащая в основе токенизации, - сегментация. Для текстовых данных это обычно означает разбиение предложений на слова, подслова или даже отдельные символы на основе заранее заданных правил или изученных шаблонов. Например, предложениеUltralytics YOLO11 is powerful" может быть разделено на отдельные слова: ["Ultralytics", "YOLO11", "is", "powerful"]. Выбор конкретного метода во многом зависит от задачи и используемой архитектуры модели.

Обычные методы включают в себя разделение текста на основе пробелов и знаков препинания. Однако часто требуются более продвинутые методы, особенно для работы с большими словарями или словами, не встречавшимися во время обучения. Такие методы, как Byte Pair Encoding (BPE) или WordPiece, разбивают слова на более мелкие подслова. Они часто используются в больших языковых моделях (LLM), таких как BERT и GPT-4, чтобы эффективно управлять размером словарного запаса и изящно обрабатывать неизвестные слова. Выбор стратегии токенизации может существенно повлиять на производительность модели и эффективность вычислений.

Актуальность и применение в реальном мире

Токенизация крайне важна, потому что большинство ML-моделей, особенно архитектуры глубокого обучения, требуют числового ввода, а не сырого текста. Преобразовав текст в дискретные лексемы, мы можем затем сопоставить эти лексемы с числовыми представлениями, такими как вкрапления. Эти числовые векторы отражают семантический смысл и взаимосвязи, что позволяет моделям, построенным с помощью таких фреймворков, как PyTorch или TensorFlow узнавать закономерности из данных. Этот основополагающий шаг лежит в основе множества приложений ИИ:

  1. Обработка естественного языка (NLP): Токенизация занимает центральное место почти во всех задачах НЛП.

    • Машинный перевод: Такие сервисы, как Google Translate, обрабатывают входное предложение на исходном языке, обрабатывают эти лексемы с помощью сложных моделей (часто основанных на архитектуре Transformer ), а затем генерируют лексемы на целевом языке, которые в итоге собираются в переведенное предложение.
    • Анализ настроения: Чтобы определить, является ли отзыв клиента положительным или отрицательным, текст сначала токенизируется. Затем модель анализирует эти лексемы (и их числовые представления), чтобы классифицировать общее настроение. Узнай больше об анализе настроения. Такие техники, как настройка подсказок, также основаны на манипулировании последовательностями маркеров.
  2. Компьютерное зрение (КВ): Хотя традиционно эта концепция ассоциируется с NLP, она распространяется и на компьютерное зрение (CV).

    • Трансформаторы зрения (ViT): В таких моделях, как Vision Transformers (ViT), изображения делятся на патчи фиксированного размера. Эти пятна рассматриваются как "визуальные лексемы" и сплющиваются в последовательности. Затем эти последовательности поступают в сеть трансформеров, которая использует такие механизмы, как самовнимание, чтобы понять отношения между различными частями изображения, подобно тому, как текстовые лексемы обрабатываются в NLP. Это позволяет решать такие задачи, как классификация изображений и обнаружение объектов. Такие модели, как Segment Anything Model (SAM), также используют токеноподобные концепции для сегментации изображений.
    • Мультимодальные модели: Такие модели, как CLIP и YOLO, соединяют зрение и язык, обрабатывая как текстовые лексемы, так и визуальные лексемы (или особенности изображения), чтобы выполнять такие задачи, как обнаружение объектов с нулевого снимка на основе текстовых описаний.

Токенизация против токенов

Важно различать понятия "токенизация" и"токен".

  • Токенизация: Означает процесс разбиения данных на более мелкие единицы. Это шаг предварительной обработки.
  • Токен: Означает результат процесса токенизации - отдельную единицу (слово, подслово, символ или фрагмент изображения), которую обрабатывает модель.

Понимание токенизации имеет фундаментальное значение для понимания того, как модели ИИ интерпретируют и обучаются на различных типах данных. Для управления наборами данных и обучения моделей часто используются такие платформы, как Ultralytics HUB, которые помогают оптимизировать процессы предварительной обработки данных и обучения моделей, часто подразумевающие неявное или явное использование токенизированных данных. По мере развития ИИ методы токенизации продолжают адаптироваться, играя ключевую роль в построении более сложных моделей для задач, начиная от генерации текста и заканчивая сложным визуальным пониманием в таких областях, как автономные автомобили и анализ медицинских изображений.

Читать полностью