Cosine Similarity

Aprende como a cosine similarity mede a similaridade de vetores em IA. Calcula embeddings visuais com o Ultralytics YOLO26 e escala com a Ultralytics Platform.

A similaridade de cosseno é uma métrica matemática fundamental usada em aprendizado de máquina (ML) e inteligência artificial (AI) para medir o quanto dois arrays multidimensionais ou vetores são semelhantes, independentemente do seu tamanho ou magnitude. Ao calcular o ângulo entre dois pontos em um espaço vetorial, ela determina se eles estão apontando aproximadamente na mesma direção. Essa abordagem angular é crítica para processar dados onde a orientação importa mais do que o comprimento total, tornando-a altamente eficaz para comparar representações de dados abstratos como embeddings.

Link to this sectionCompreendendo a Matemática por trás da Métrica#

Para calcular essa métrica, tu computas o produto escalar de dois vetores e divides pelo produto de suas magnitudes individuais (comprimentos). A pontuação resultante sempre cai dentro de um intervalo fixo de -1 a 1:

Uma pontuação de 1 significa que os vetores apontam exatamente na mesma direção, indicando similaridade máxima.
Uma pontuação de 0 significa que os vetores são completamente ortogonais (em um ângulo de 90 graus), o que significa que não há similaridade direcional.
Uma pontuação de -1 significa que eles apontam em direções exatamente opostas.

Em muitas estruturas modernas de aprendizado profundo projetadas para visão computacional (CV), podes acessar facilmente funções otimizadas para esta operação matemática, como o módulo funcional do PyTorch ou as métricas do TensorFlow.

Link to this sectionDiferenciando Conceitos Relacionados#

É útil distinguir a similaridade de cosseno de outras medidas de análise de dados frequentemente usadas para entender quando utilizá-la:

Distância de Cosseno: Embora estreitamente relacionados, esses termos são inversamente proporcionais. A distância de cosseno é simplesmente calculada como 1 menos a similaridade de cosseno. Portanto, uma distância menor indica uma maior similaridade entre vetores.
Distância Euclidiana: Esta métrica mede a distância física em linha reta entre dois pontos, tornando-a altamente sensível ao tamanho ou magnitude total dos vetores. Em contraste, a similaridade de cosseno preocupa-se apenas com o ângulo. Por exemplo, em análise de texto, um documento longo e uma frase curta podem ter uma grande distância euclidiana, mas se compartilharem o mesmo tópico, sua similaridade de cosseno permanecerá alta.

Link to this sectionAplicações no Mundo Real em IA#

A similaridade de cosseno atua como o motor central para inúmeros produtos de software modernos, preenchendo a lacuna entre dados brutos e a intenção humana.

Busca Vetorial e RAG: Em aplicações de Processamento de Linguagem Natural (NLP) como chatbots, consultas de usuários e documentos internos são convertidos em embeddings densos. O sistema calcula rapidamente a similaridade de cosseno para recuperar os documentos mais contextualmente relevantes de um banco de dados vetorial, um passo crucial na Geração Aumentada por Recuperação (RAG).
Sistemas de Recomendação: Serviços de e-commerce e streaming utilizam ferramentas como Scikit-learn e SciPy para representar preferências de usuários e itens de catálogo como vetores. Ao medir a pontuação de similaridade entre o perfil de um comprador e diferentes produtos, os sistemas podem recomendar com precisão itens visualmente ou tematicamente relacionados.

Link to this sectionMedindo a Similaridade Visual com Ultralytics#

Podes extrair vetores de características de alta dimensão diretamente de dados visuais usando modelos de visão de ponta. O código Python a seguir demonstra como carregar um modelo Ultralytics YOLO26 para classificação de imagens, gerar embeddings para duas imagens e realizar um cálculo de similaridade de cosseno para medir sua semelhança visual.

import torch
import torch.nn.functional as F
from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate embedding vectors for two separate images
results = model.embed(["bus.jpg", "car.jpg"])

# Calculate the cosine similarity between the two visual embeddings
similarity = F.cosine_similarity(torch.tensor(results[0]), torch.tensor(results[1]), dim=0)
print(f"Visual Similarity Score: {similarity.item():.4f}")

Para desenvolvedores que visam escalar essas capacidades de busca semântica, treinar modelos base altamente precisos é fundamental. A Plataforma Ultralytics simplifica esse pipeline ao oferecer ferramentas robustas para anotação de dados, treinamento em nuvem escalável e implantação de modelos contínua, garantindo que seus embeddings subjacentes sejam o mais precisos e significativos possível.

Cosine Similarity

Link to this sectionCompreendendo a Matemática por trás da Métrica#

Link to this sectionDiferenciando Conceitos Relacionados#

Link to this sectionAplicações no Mundo Real em IA#

Link to this sectionMedindo a Similaridade Visual com Ultralytics#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!