Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Векторные представления (embeddings)

Узнайте, что такое embeddings и как они поддерживают AI, фиксируя семантические связи в данных для NLP, рекомендаций и компьютерного зрения.

Вкрапления - это плотные, низкоразмерные и непрерывные векторные представления дискретных переменных, служащие в качестве фундаментальным форматом данных в современных искусственном интеллекте (ИИ). В отличие от разреженных представлений, таких как одноточечное кодирование, которое может привести к созданию массивных и неэффективных векторов, вкрапления передают семантические связи и основной смысл данных, отображая высокоразмерные таких как слова, изображения или аудио, в компактное числовое пространство. В этом обученном векторном пространстве элементы, обладающие схожие характеристики или контекст, располагаются в непосредственной близости друг от друга, что позволяет машинное обучение (МЛ) модели интуитивно понимать и обрабатывать сложные закономерности.

Как работают вкрапления

Основная концепция вкраплений - перевод исходных данных в математическую форму, которую могут эффективно обрабатывать компьютеры. эффективно. Этот процесс обычно включает в себя нейронная сеть (НС) которая учится отображать входные сигналы на векторы вещественных чисел. В течение обучение модели сеть настраивает эти векторы таким образом, чтобы расстояние между ними соответствовало сходству предметов, которые они представляют.

Например, в обработке естественного языка (NLP)вкрапления для слов "король" и "королева" будут математически ближе друг к другу. чем для слова "яблоко", что отражает их семантическую связь. Это преобразование представляет собой форму уменьшения размерностикоторая сохраняет важную информацию, отбрасывая шум, что делает последующие задачи, такие как классификация или кластеризация, что делает последующие задачи, такие как классификация или кластеризация, значительно более эффективными.

Создание и обучение

Вкрапления обычно создаются как побочный продукт обучения глубокого обучения (ГО) модели на больших наборах данных. Такие фреймворки, как PyTorch и TensorFlow предоставляют слои, специально разработанные для изучения этих представлений.

  1. Инициализация: Векторы встраивания часто инициализируются случайными значениями.
  2. Обучение: По мере того как модель оптимизируется для достижения конкретной цели - например, предсказания следующего слова в последовательности или идентификации объектов на изображении - веса модели связанные с слоем встраивания, обновляются.
  3. Результат: Окончательно выученные веса служат таблицей поиска встраивания, где каждой входной лексеме или объект соответствует определенному плотному вектору.

Вы можете генерировать вкрапления для изображений, используя стандартные компьютерного зрения (КВ) рабочие процессы. Следующий фрагмент на Python демонстрирует, как извлечь вкрапления из изображения, используя предварительно обученный Ultralytics YOLO11 модель классификации.

from ultralytics import YOLO

# Load a YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate embeddings for an image from a URL
# The embed() method specifically returns the feature vector
embedding_vector = model.embed("https://ultralytics.com/images/bus.jpg")

# Output the shape of the embedding (e.g., a vector of length 1280)
print(f"Embedding shape: {embedding_vector[0].shape}")

Применение в реальном мире

Встраивания произвели революцию в работе систем с неструктурированными данными, обеспечив возможности, которые ранее были невозможны. невозможными.

  • Семантические поисковые системы: Традиционные поисковые системы полагаются на сопоставление ключевых слов, которое часто оказывается неэффективным. когда в запросах используются синонимы. Семантический поиск использует вкраплений для сопоставления смысла запроса с содержанием документов или изображений. Сравнивая векторное расстояния между вложениями запроса и вложениями документа, система извлекает результаты, которые концептуально релевантными, даже если в них нет точных слов.
  • Системы персонализированных рекомендаций: Такие платформы, как Netflix или Amazon, используют вкрапления для моделирования пользовательских предпочтений пользователей и характеристик товаров. Если пользователь смотрит научно-фантастический фильм, то рекомендательная система может предложить другие фильмы с похожими векторами вложения. Этот подход, часто реализуемый с помощью алгоритмов ближайших соседей алгоритмов в векторной базе данныхи эффективно масштабируется до миллионов элементов.
  • Обучение с нуля: Продвинутые модели, такие как CLIP учат совместные вкрапления для текста и изображений. Это позволяет системе classify изображения, которые она никогда не видела во время обучения. Сравнивая вкрапления изображений с текстовыми вкраплениями названий классов, эта техника известна как обучение по нулевым снимкам.

Эмбеддинги в сравнении со смежными концепциями

Понимание различий между вкраплениями и связанными с ними терминами имеет решающее значение для навигации по ландшафту ИИ.

  • Встраивание и извлечение признаков: Хотя и то, и другое предполагает преобразование данных в числовые характеристики, извлечение признаков может относиться ручные методы (например, обнаружение краев) или автоматические. Вкрапления - это особый тип автоматизированного, обучаемого извлечения признаков, в результате которого получаются плотные векторы, часто используемые в качестве исходных данных для других моделей или для задач сходства.
  • Вкрапления против векторного поиска: Эмбеддинг - это структура данных (сам вектор). Векторный поиск это процесс запроса коллекции таких вкраплений для поиска похожих элементов. Такие технологии, как Pinecone или Milvus предназначены для хранения вкраплений и эффективного выполнения этого поиска эффективно.
  • Вкрапления против токенизации: В обработке текста, токенизация это шаг разбиения текста на более мелкие единицы, называемые токены. Эти лексемы представляют собой дискретные идентификаторы (целые числа), по которым можно найти соответствующие векторы встраивания. Таким образом, токенизация предшествует извлечению вкраплений в конвейере.

Преобразуя абстрактные понятия в математические векторы, вкрапления преодолевают разрыв между человеческой интуицией и машинной логикой, позволяя создавать сложные распознавание образов возможности в самых передовых современных приложениях искусственного интеллекта.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас