Glossário

Pesquisa Vetorial

Descubra como a pesquisa vetorial revoluciona a IA, permitindo a similaridade semântica na recuperação de dados para PNL, pesquisa visual, sistemas de recomendação e muito mais!

A pesquisa vetorial é uma técnica sofisticada de recuperação de informação que identifica itens semelhantes num conjunto de dados com base nas suas caraterísticas matemáticas e não em correspondências exactas de palavras-chave. Ao representar dados - tais como texto, imagens ou áudio - como vectores numéricos de alta dimensão, conhecidos como vectores numéricos de alta dimensão, conhecidos como "embeddings", este método permite aos computadores compreender o contexto e o significado semântico por detrás de uma consulta. Ao contrário da tradicional tradicional por palavra-chave, que se baseia na correspondência de palavras específicas, a pesquisa vetorial calcula a proximidade entre itens num espaço multidimensional, o que lhe permite devolver resultados resultados relevantes mesmo quando a fraseologia é diferente. Esta capacidade é fundamental para a moderna modernos de inteligência artificial (IA) e modernos de inteligência artificial ( IA ) e de aprendizagem automática (ML), nomeadamente no lidar com dados não estruturados, como feeds de vídeo e linguagem natural.

Como funciona a pesquisa vetorial

O mecanismo central da pesquisa vetorial envolve a transformação de dados brutos num formato numérico pesquisável. Este processo baseia-se em modelos de aprendizagem profunda para efetuar extração de caraterísticas, convertendo as entradas em incorporação de vectores.

Vectorização: Um modelo de ML, como o mais avançado YOLO11processa uma imagem ou texto e produz um vetor - uma uma longa lista de números que representa as caraterísticas do item (por exemplo, formas, cores ou conceitos semânticos).
Indexação: Estes vectores são organizados de forma eficiente, muitas vezes numa base de dados de vectores, para permitir uma recuperação rápida.
Cálculo da semelhança: Quando um utilizador submete uma consulta, o sistema converte a consulta num vetor e mede a sua distância em relação aos vectores armazenados utilizando métricas como semelhança de cosseno ou distância euclidiana.
Recuperação: O sistema identifica e devolve os "vizinhos mais próximos", ou os vectores que são matematicamente mais próximos da consulta, utilizando frequentemente algoritmos ANN (Approximate Nearest Neighbor) para escalabilidade em grandes conjuntos de dados.

Aplicações no Mundo Real

A pesquisa de vectores impulsiona muitas das funcionalidades inteligentes com que os utilizadores interagem diariamente, abrangendo vários sectores, desde o comércio eletrónico à segurança.

Descoberta visual no retalho: Em IA no retalho, a pesquisa vetorial potencia as funcionalidades de "comprar o look". Se um utilizador carregar uma fotografia de uma sapatilha, o sistema utiliza visão computacional para gerar uma incorporação e encontra produtos visualmente semelhantes no catálogo, funcionando efetivamente como um sistema de recomendação baseado no estilo estilo e não nos nomes dos produtos.
Moderação de conteúdos e segurança: As plataformas utilizam a pesquisa vetorial para deteção de anomalias, comparando os novos carregamentos com uma base de dados de conteúdos ilícitos conhecidos ou de ameaças à segurança. Ao fazer corresponder as caraterísticas semânticas de uma imagem ou vídeo, o sistema pode assinalar conteúdos potencialmente nocivos, mesmo que tenham sido ligeiramente alterados, reforçando segurança dos dados.

Exemplo Python : Geração de Embeddings

O primeiro passo em qualquer pipeline de pesquisa de vectores é gerar os embeddings. O trecho de código a seguir demonstra como produzir vectores de caraterísticas a partir de uma imagem utilizando o Ultralytics Python e um modelo pré-treinado.

from ultralytics import YOLO

# Load the official YOLO11 model
model = YOLO("yolo11n.pt")

# Generate embeddings for an image file or URL
# The 'embed' method returns the high-dimensional feature vector
results = model.embed("https://ultralytics.com/images/bus.jpg")

# Print the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")