Глоссарий

Встраивания

Узнайте, что такое вкрапления и как они способствуют развитию искусственного интеллекта, фиксируя семантические связи в данных для НЛП, рекомендаций и компьютерного зрения.

Вкрапления являются краеугольным камнем современного машинного обучения (ML), представляя собой мощный метод преобразования высокоразмерных данных, таких как слова, изображения или даже пользователи, в осмысленные, плотные и низкоразмерные числовые векторы. Основная цель встраивания - передать семантические связи и основной контекст исходных данных. В этом векторном пространстве элементы с похожими значениями или характеристиками располагаются ближе друг к другу. Это позволяет моделям ИИ выполнять сложные задачи рассуждения и уподобления, которые были бы невозможны при использовании необработанных, неструктурированных данных.

Как создаются вкрапления

Как правило, вкрапления автоматически изучаются моделью глубокого обучения в процессе обучения. Нейронная сеть, часто создаваемая с помощью таких фреймворков, как PyTorch или TensorFlow, обучается на соответствующей задаче, например, предсказанию следующего слова в предложении или классификации изображения. Один из скрытых слоев этой сети затем используется в качестве слоя встраивания. По мере того как модель учится выполнять свою задачу, она регулирует веса в этом слое, эффективно обучаясь отображать каждый входной элемент в вектор, содержащий его наиболее важные характеристики. Этот процесс представляет собой форму уменьшения размерности, сжимающую огромные объемы информации в компактный и полезный формат.

Применение и примеры

Вкрапления являются основой для широкого спектра приложений ИИ, от обработки естественного языка (NLP) до компьютерного зрения.

  • Рекомендательные системы для электронной коммерции: Системы рекомендаций используют вкрапления для представления пользователей и товаров. Если пользователь часто покупает или просматривает товары с похожими вкраплениями (например, различные виды бегового снаряжения), система может определить другие товары в этом векторном окружении (например, энергетические гели или гидратационные пакеты) и порекомендовать их. Это гораздо эффективнее, чем простое сопоставление ключевых слов.
  • Семантический поиск и поиск изображений: Вместо того чтобы полагаться на теги или метаданные, системы семантического поиска используют вкрапления для поиска результатов на основе концептуального смысла. Пользователь может набрать в поисковой строке "фотографии с летних каникул", и система выдаст изображения пляжей, гор и туристических сцен, даже если в описании изображения нет этих слов. Этому способствуют модели типа CLIP, которые генерируют выровненные вкрапления для текста и изображений, обеспечивая мощные возможности мультимодальных моделей. Этот же принцип позволяет осуществлять мощный визуальный поиск - ключевую функцию во многих современных приложениях. Вы даже можете создать свой собственный с помощью нашего руководства по поиску по сходству.

Среди других применений - поиск лекарств, в которые встраиваются молекулы для предсказания взаимодействия, и музыкальные потоковые сервисы, рекомендующие песни с похожими аудиохарактеристиками.

Вкрапления по сравнению со смежными понятиями

Полезно отличать вкрапления от родственных терминов:

  • Вкрапления по сравнению с извлечением признаков: Эмбеддинги - это сложная, часто автоматизированная форма извлечения признаков, достигаемая с помощью глубокого обучения. В то время как традиционное извлечение признаков может включать ручное определение признаков (например, цветовых гистограмм для изображений), эмбеддинги получают соответствующие признаки непосредственно из данных в процессе обучения.
  • Эмбеддинги против векторного поиска / Векторные базы данных: Эмбеддинги - это векторные представления элементов данных. Векторный поиск - это процесс запроса коллекции эмбеддингов для поиска наиболее похожих (близких) к вектору запроса, часто с использованием алгоритмов приближенных ближайших соседей (ANN) для повышения эффективности. Векторные базы данных (например, Pinecone или Milvus) - это специализированные базы данных, оптимизированные для хранения, индексирования и выполнения быстрого векторного поиска в больших объемах эмбеддингов.
  • Вкрапления по сравнению с токенизацией: Токенизация - это процесс разбиения текста на более мелкие единицы (лексемы). Затем эти лексемы сопоставляются с вкраплениями. Таким образом, токенизация - это предварительный шаг перед созданием или извлечением представления вкраплений. Такие знаковые модели НЛП, как BERT и GPT-4, опираются на этот двухэтапный процесс.

Вкрапления - это мощный способ представления данных для моделей машинного обучения, позволяющий им понимать семантическое сходство и сложные закономерности в различных типах данных. Они являются неотъемлемой частью возможностей современных ML-платформ, таких как Ultralytics HUB, которые упрощают создание продвинутых моделей искусственного интеллекта для таких задач, как обнаружение объектов и классификация изображений.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена