Узнайте, как токены, строительные блоки моделей ИИ, обеспечивают возможности NLP, компьютерного зрения и таких задач, как анализ тональности и обнаружение объектов.
В ландшафте искусственного интеллекта, токен служит в качестве фундаментальной, атомарной единицы информации, которую обрабатывает модель машинного обучения. Прежде чем нейронная сеть может проанализировать предложение, код фрагмент кода или даже изображение, исходные данные должны быть разделены на эти дискретные, управляемые части с помощью критически важного этап предварительной обработки данных. В то время как люди воспринимают язык как поток слов или изображения как непрерывную сцену, алгоритмам требуется разбить эти данные разбить на стандартизированные элементы для эффективного выполнения вычислений.
Чтобы понять, как функционируют современные системы глубокого обучения необходимо различать единицу данных и процесс их создания. Это различие часто уточняют, сравнивая "что" и "как".
Когда данные токенизированы, полученные токены не используются непосредственно в качестве текстовых строк или патчей изображений. Вместо этого они сопоставляются с числовыми векторами, называемыми вкраплениями. Эти Эти высокоразмерные векторы отражают семантический смысл и связи между лексемами, что позволяет таким системам, как PyTorch выполнять над ними математические операции.
На сайте Обработка естественного языка (NLP), лексемы являются входными данными для больших языковых моделей (БЯМ), таких как серии GPT. Современные модели как правило, используют алгоритмы токенизации подслова, такие как Кодирование пар байтов (BPE). Этот метод позволяет сбалансировать эффективность и объем словарного запаса, сохраняя обычные слова в виде отдельных лексем и разбивая редкие слова на значимые слоги.
Концепция маркеров произвела революцию в анализе изображений благодаря таким архитектурам, как Vision Transformer (ViT). Вместо того чтобы обработки пикселей с помощью свертки, эти модели делят изображение на сетку патчей фиксированного размера (например, 16x16 пикселей). Каждый патч сплющивается и рассматривается как "визуальный маркер", что позволяет использовать такие мощные механизмы трансформера, как механизмы трансформера, такие как самовнимание для понимания глобального контекста внутри изображения.
Токены - это строительные блоки для некоторых из самых передовых возможностей ИИ на сегодняшний день.
Следующий пример демонстрирует, как ultralytics Пакет использует токены за кулисами. По адресу
предоставляя список текстовых классов, модель лексирует эти данные, чтобы идентифицировать конкретные объекты на изображении
динамически.
from ultralytics import YOLO
# Load a YOLO-World model capable of understanding text tokens
model = YOLO("yolo11s-world.pt")
# Define custom classes (these are tokenized internally)
model.set_classes(["helmet", "vest"])
# Run prediction; the model matches visual features to the text tokens
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Понимание токенов имеет ключевое значение для понимания того, как Фундаментальные модели преодолевают разрыв между неструктурированными человеческими данными и вычислительным пониманием. классификации изображений или сложных языковых задачи.