Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Токен

Узнайте, как токены, строительные блоки моделей ИИ, обеспечивают возможности NLP, компьютерного зрения и таких задач, как анализ тональности и обнаружение объектов.

В ландшафте искусственного интеллекта, токен служит в качестве фундаментальной, атомарной единицы информации, которую обрабатывает модель машинного обучения. Прежде чем нейронная сеть может проанализировать предложение, код фрагмент кода или даже изображение, исходные данные должны быть разделены на эти дискретные, управляемые части с помощью критически важного этап предварительной обработки данных. В то время как люди воспринимают язык как поток слов или изображения как непрерывную сцену, алгоритмам требуется разбить эти данные разбить на стандартизированные элементы для эффективного выполнения вычислений.

Токен vs. Токенизация

Чтобы понять, как функционируют современные системы глубокого обучения необходимо различать единицу данных и процесс их создания. Это различие часто уточняют, сравнивая "что" и "как".

  • Токен: Это выход - фактический фрагмент данных, поданный в модель. При обработке текста токен может представлять собой целое слово, часть слова (подслово) или один символ. В В компьютерном зрении он часто представляет собой определенный участок пикселей.
  • Токенизация: Это Алгоритмический процесс разделения исходных данных на лексемы. Например, специализированные инструменты в таких библиотеках, как spaCy или NLTK, которые определяют, где заканчивается один токен заканчивается и начинается следующий.

Роль токенов в архитектурах искусственного интеллекта

Когда данные токенизированы, полученные токены не используются непосредственно в качестве текстовых строк или патчей изображений. Вместо этого они сопоставляются с числовыми векторами, называемыми вкраплениями. Эти Эти высокоразмерные векторы отражают семантический смысл и связи между лексемами, что позволяет таким системам, как PyTorch выполнять над ними математические операции.

Текстовые маркеры в НЛП

На сайте Обработка естественного языка (NLP), лексемы являются входными данными для больших языковых моделей (БЯМ), таких как серии GPT. Современные модели как правило, используют алгоритмы токенизации подслова, такие как Кодирование пар байтов (BPE). Этот метод позволяет сбалансировать эффективность и объем словарного запаса, сохраняя обычные слова в виде отдельных лексем и разбивая редкие слова на значимые слоги.

Визуальные маркеры в компьютерном зрении

Концепция маркеров произвела революцию в анализе изображений благодаря таким архитектурам, как Vision Transformer (ViT). Вместо того чтобы обработки пикселей с помощью свертки, эти модели делят изображение на сетку патчей фиксированного размера (например, 16x16 пикселей). Каждый патч сплющивается и рассматривается как "визуальный маркер", что позволяет использовать такие мощные механизмы трансформера, как механизмы трансформера, такие как самовнимание для понимания глобального контекста внутри изображения.

Применение в реальном мире

Токены - это строительные блоки для некоторых из самых передовых возможностей ИИ на сегодняшний день.

  1. Обнаружение объектов с открытым словарем: Такие модели, как YOLO используют мультимодальный подход, при котором текст и изображение лексемы взаимодействуют. Пользователи могут определять пользовательские классы (например, "синий рюкзак") в качестве текстовых подсказок. Модель сопоставляет эти подсказки с визуальными маркерами на изображении, чтобы выполнить распознавания без необходимости переобучения.
  2. Генеративный ИИ и чатботы: При взаимодействии с чатбот, система использует генерацию текста для предсказания наиболее вероятного следующего лексем в последовательности. Такое предсказание по токенам позволяет создавать последовательные и контекстуально релевантные ответы, что позволяет использовать их в различных приложениях - от поддержки клиентов до завершения кода.

Пример: Использование текстовых маркеров для обнаружения

Следующий пример демонстрирует, как ultralytics Пакет использует токены за кулисами. По адресу предоставляя список текстовых классов, модель лексирует эти данные, чтобы идентифицировать конкретные объекты на изображении динамически.

from ultralytics import YOLO

# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")

# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])

# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Понимание токенов имеет ключевое значение для понимания того, как Фундаментальные модели преодолевают разрыв между неструктурированными человеческими данными и вычислительным пониманием. классификации изображений или сложных языковых задачи.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас