Cosine Similarity

Impara come la cosine similarity misura la somiglianza vettoriale nell'AI. Calcola embedding visivi con Ultralytics YOLO26 e scala con la piattaforma Ultralytics.

La similarità del coseno è una metrica matematica fondamentale utilizzata nel machine learning (ML) e nell'intelligenza artificiale (AI) per misurare quanto due array multidimensionali o vettori siano simili, indipendentemente dalla loro dimensione o grandezza. Calcolando l'angolo tra due punti in uno spazio vettoriale, determina se sono orientati approssimativamente nella stessa direzione. Questo approccio angolare è fondamentale per elaborare dati in cui l'orientamento conta più della lunghezza complessiva, rendendolo estremamente efficace per confrontare rappresentazioni di dati astratti come gli embedding.

Link to this sectionComprendere la matematica alla base della metrica#

Per calcolare questa metrica, calcoli il prodotto scalare di due vettori e lo dividi per il prodotto delle loro singole magnitudini (lunghezze). Il punteggio risultante rientra sempre in un intervallo fisso da -1 a 1:

Un punteggio di 1 significa che i vettori puntano esattamente nella stessa direzione, indicando la massima similarità.
Un punteggio di 0 significa che i vettori sono completamente ortogonali (con un angolo di 90 gradi), il che significa che non vi è alcuna similarità direzionale.
Un punteggio di -1 significa che puntano in direzioni esattamente opposte.

In molti framework di deep learning moderni progettati per la computer vision (CV), puoi accedere facilmente a funzioni ottimizzate per questa operazione matematica, come il modulo funzionale di PyTorch o le metriche di TensorFlow.

Link to this sectionDifferenziare concetti correlati#

È utile distinguere la similarità del coseno da altre misurazioni di data analytics utilizzate frequentemente per capire quando usarla:

Distanza del coseno: sebbene strettamente correlati, questi termini sono inversamente proporzionali. La distanza del coseno viene semplicemente calcolata come 1 meno la similarità del coseno. Pertanto, una distanza minore indica una maggiore similarità tra i vettori.
Distanza euclidea: questa metrica misura la distanza fisica in linea retta tra due punti, rendendola altamente sensibile alla dimensione o alla magnitudine complessiva dei vettori. Al contrario, la similarità del coseno si preoccupa solo dell'angolo. Ad esempio, nell'analisi del testo, un documento lungo e una frase breve potrebbero avere una grande distanza euclidea, ma se condividono lo stesso argomento, la loro similarità del coseno rimarrà alta.

Link to this sectionApplicazioni reali nell'IA#

La similarità del coseno funge da motore centrale per numerosi prodotti software moderni, colmando il divario tra dati grezzi e intento umano.

Ricerca vettoriale e RAG: nelle applicazioni di Natural Language Processing (NLP) come i chatbot, le query degli utenti e i documenti interni vengono convertiti in embedding densi. Il sistema calcola rapidamente la similarità del coseno per recuperare i documenti più rilevanti dal punto di vista contestuale da un database vettoriale, un passaggio cruciale nella Retrieval-Augmented Generation (RAG).
Sistemi di raccomandazione: i servizi di e-commerce e streaming utilizzano strumenti come Scikit-learn e SciPy per rappresentare le preferenze degli utenti e gli articoli del catalogo come vettori. Misurando il punteggio di similarità tra il profilo di un acquirente e diversi prodotti, i sistemi possono consigliare accuratamente articoli correlati visivamente o tematicamente.

Link to this sectionMisurare la similarità visiva con Ultralytics#

Puoi estrarre vettori di caratteristiche ad alta dimensionalità direttamente dai dati visivi utilizzando modelli di visione all'avanguardia. Il seguente codice Python mostra come caricare un modello Ultralytics YOLO26 per la classificazione delle immagini, generare embedding per due immagini ed eseguire un calcolo della similarità del coseno per misurare la loro somiglianza visiva.

import torch
import torch.nn.functional as F
from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Generate embedding vectors for two separate images
results = model.embed(["bus.jpg", "car.jpg"])

# Calculate the cosine similarity between the two visual embeddings
similarity = F.cosine_similarity(torch.tensor(results[0]), torch.tensor(results[1]), dim=0)
print(f"Visual Similarity Score: {similarity.item():.4f}")

Per gli sviluppatori che mirano a scalare queste capacità di ricerca semantica, l'addestramento di modelli di base altamente accurati è fondamentale. La Ultralytics Platform semplifica questo processo offrendo strumenti robusti per l'annotazione dei dati, l'addestramento scalabile su cloud e un deployment del modello senza interruzioni, assicurando che i tuoi embedding sottostanti siano il più accurati e significativi possibile.

Cosine Similarity

Link to this sectionComprendere la matematica alla base della metrica#

Link to this sectionDifferenziare concetti correlati#

Link to this sectionApplicazioni reali nell'IA#

Link to this sectionMisurare la similarità visiva con Ultralytics#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!