Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Токенизация

Откройте для себя возможности токенизации в NLP и ML! Узнайте, как разбиение текста на токены улучшает задачи ИИ, такие как анализ тональности и генерация текста.

Токенизация - это фундаментальный процесс преобразования потока необработанных данных, таких как текст, код или изображения, в более мелкие, дискретные единицы, известные как токены. Это преобразование выступает в качестве критического моста в конвейера предварительной обработки данных, переводя неструктурированную человеческую информацию в числовой формат, который Системы искусственного интеллекта (ИИ) могут интерпретировать. Разбивая сложные данные на управляемые фрагменты, токенизация позволяет модели машинного обучения выявлять закономерности, изучать семантические связи и выполнять сложные задачи вывода. Без этого начального этапа нейронные сети, питающие современные технологии, были бы не смогли бы обрабатывать огромные массивы данных, необходимые для обучения.

Токенизация против токена

Хотя эти термины часто используются рядом, важно отличать метод от результата.

  • Токенизация - это действие или алгоритм, применяемый к данным. Она включает в себя определенные правила для разделения строк или сегментирования изображений. Такие инструменты, как spaCy или NLTK, облегчают этот процесс для текста.
  • Токен - это выходная единица, создаваемая процессом. Для получения более подробной информации о природе этих единицы, см. страницу глоссария для Token.

Как работает токенизация в искусственном интеллекте

Применение токенизации значительно варьируется в зависимости от типа обрабатываемых данных, хотя конечная цель создания вкраплений - векторных векторных представлений данных - остается неизменной.

Токенизация текста в НЛП

На сайте Обработка естественного языка (НЛП), процесс разделения предложений на слова, подслова или символы. Ранние методы просто разделяли текст по пробелами, но современные Большие языковые модели (БЯМ) используют продвинутые алгоритмы, такие как кодирование пар байтов (BPE), чтобы для эффективной обработки редких слов. Это позволяет таким моделям, как GPT-4, обрабатывать сложную лексику, не нуждаясь в бесконечного словаря.

Визуальная токенизация в компьютерном зрении

Традиционно компьютерное зрение (КВ) оперирует массивами пикселей. Однако с появлением Трансформатор зрения (ViT) ввел концепцию разбиения изображения на участки фиксированного размера (например, 16x16 пикселей). Эти участки сплющиваются и рассматриваются как визуальные лексемы, что позволяет модели использовать самовнимание для оценки важности различных важности различных областей изображения, подобно тому, как обрабатывается предложение.

Применение в реальном мире

Токенизация - это не просто теоретическая концепция; она лежит в основе многих приложений искусственного интеллекта, используемых ежедневно.

  1. Мультимодальное обнаружение: Передовые модели, такие как YOLO преодолевают разрыв между текстом и зрением. С помощью токенизации пользовательского ввода (например, "красная машина") и сопоставления его с визуальными признаками, эти модели выполняют обнаружение объектов с открытым словарным запасом без необходимости явного переобучения на новые классы.
  2. Языковой перевод: Такие сервисы, как Google Translate основаны на разбиении вводимого текста на лексемы и их переводе их с помощью модель "последовательность-последовательность" и сборки выходных лексем на целевом языке.
  3. Генеративное искусство: Модели, способные генерации текста в изображение, такие как Стабильная диффузия, токенизируют текстовые подсказки, чтобы направлять Процесс денуазификации создает визуальные образы, соответствующие семантическому значению входных лексем.

Пример: Токенизация в YOLO

Следующий пример демонстрирует, как ultralytics использует неявную токенизацию внутри Модель YOLO рабочий процесс. Сайт .set_classes() Метод токенизирует список текстов, чтобы динамически направлять фокус обнаружения модели.

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom classes; the model tokenizes these strings to search for specific objects
model.set_classes(["backpack", "person"])

# Run prediction on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results (only detects the tokenized classes defined above)
results[0].show()

Важность для производительности модели

Выбор стратегии токенизации напрямую влияет на точность и эффективность вычислений. Неэффективная токенизация может привести к ошибкам "не по словарю" в НЛП или потере тонких деталей при сегментации изображений. Такие фреймворки, как PyTorch и TensorFlow предоставляют гибкие инструменты для оптимизации этого этапа. По мере развития архитектур - например, новейших YOLO11-эффективная обработка данных гарантирует, что модели смогут работать в режиме реального времени на различных аппаратных средствах, от мощных облачных GPU до граничных устройств.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас