Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Database vettoriale

Scopri come i database vettoriali rivoluzionano l'IA consentendo ricerche di similarità efficienti, ricerca semantica e rilevamento di anomalie per sistemi intelligenti.

Un database vettoriale è un tipo specializzato di database progettato per archiviare, gestire e cercare dati ad alta dimensionalità noti come embedding vettoriali. A differenza dei database relazionali tradizionali che sono ottimizzati per dati strutturati e corrispondenze esatte, i database vettoriali eccellono nel trovare elementi in base alla loro somiglianza. Questa capacità è fondamentale per una vasta gamma di moderne applicazioni di IA, dai motori di raccomandazione alla ricerca visiva, rendendoli un componente critico nell'infrastruttura di machine learning. Servono come memoria a lungo termine per i modelli di IA, consentendo loro di sfruttare i modelli complessi appresi durante l'addestramento.

Come funzionano i database vettoriali

La funzione principale di un database vettoriale è eseguire in modo efficiente una ricerca vettoriale. Il processo inizia quando dati non strutturati, come un'immagine, un blocco di testo o una clip audio, vengono elaborati tramite un modello di deep learning per creare una rappresentazione numerica chiamata embedding vettoriale. Questi embedding catturano il significato semantico dei dati originali.

Il database vettoriale memorizza quindi questi embedding e li indicizza utilizzando algoritmi specializzati. Quando viene effettuata una query (ad esempio, una ricerca con un'immagine), anche i dati della query vengono convertiti in un vettore. Il database confronta quindi questo vettore di query con i vettori memorizzati utilizzando metriche di similarità come la Similarità del coseno o la Distanza euclidea per trovare gli elementi "più vicini" o più simili. Per eseguire questa operazione su larga scala con milioni o miliardi di vettori, spesso si affidano ad algoritmi Approximate Nearest Neighbor (ANN) altamente efficienti.

Applicazioni nel mondo reale

I database vettoriali alimentano molte funzionalità intelligenti con cui gli utenti interagiscono quotidianamente.

  1. Ricerca visiva nell'e-commerce: Un utente può caricare una foto di un prodotto che gli piace. Un modello di computer vision, come un modello Ultralytics YOLO11, genera un embedding per l'immagine. Questo embedding viene utilizzato per interrogare il database vettoriale del sito di e-commerce, che contiene embedding per l'intero catalogo prodotti. Il database restituisce i vettori più simili, consentendo al sito di mostrare prodotti visivamente identici o stilisticamente correlati, una caratteristica chiave nell'IA per il retail.
  2. Ricerca semantica per documenti: Un'azienda può creare embedding per tutti i suoi documenti interni, come report e ticket di supporto. Un dipendente può quindi effettuare una ricerca utilizzando una domanda in linguaggio naturale come "Quali sono stati i nostri profitti nell'ultimo trimestre?" invece di parole chiave specifiche. Il modello di elaborazione del linguaggio naturale (NLP) converte questa query in un embedding e il database vettoriale trova i documenti i cui embedding sono semanticamente più vicini, fornendo informazioni pertinenti anche se la formulazione esatta non corrisponde. Questo è un componente fondamentale dei sistemi di generazione aumentata dal recupero (RAG).

Database vettoriali vs. Concetti correlati

È utile differenziare i database vettoriali da termini strettamente correlati:

  • Embeddings: Gli embeddings sono le rappresentazioni vettoriali dei dati. Il database vettoriale è il sistema specializzato costruito per archiviare, indicizzare ed interrogare questi embeddings in modo efficiente. Pensa agli embeddings come ai libri e al database vettoriale come alla biblioteca intelligente che li organizza.
  • Ricerca vettoriale: La ricerca vettoriale è il processo di ricerca dei vettori più simili in un set di dati. Un database vettoriale è la tecnologia sottostante che rende questo processo veloce e scalabile, soprattutto per l'inferenza in tempo reale.

Questi componenti sono gestiti come parte di un flusso di lavoro MLOps completo, spesso facilitato da piattaforme come Ultralytics HUB per la gestione end-to-end di modelli e dataset.

Database vettoriali più diffusi

Sono disponibili diversi database vettoriali open-source e commerciali, ognuno con diversi punti di forza in termini di scalabilità, implementazione e funzionalità. Alcuni dei più utilizzati includono:

  • Pinecone: Un servizio di database vettoriale popolare e completamente gestito.
  • Milvus: Un database vettoriale open-source progettato per alte prestazioni e scalabilità.
  • Weaviate: Un database open-source, nativo per l'IA, con funzionalità di grafo.
  • Chroma DB: un database di embedding open source incentrato sulla semplicità e sull'esperienza dello sviluppatore.
  • Qdrant: Un database vettoriale open-source e un motore di ricerca di similarità scritto in Rust per prestazioni e sicurezza.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti