Hybrid Search
Scopri come la ricerca ibrida unisce la corrispondenza tramite parole chiave e l'AI semantica. Impara a costruire pipeline di ricerca sensibili al contesto usando i metadati di Ultralytics YOLO26.
Combinando la precisione della tradizionale corrispondenza di parole chiave con la comprensione contestuale dell'IA moderna, questa metodologia di ricerca recupera e classifica le informazioni sfruttando sia rappresentazioni di dati sparse che dense. Mentre un motore di ricerca standard si basa interamente sulla corrispondenza esatta di parole chiave (nota come ricerca lessicale) e i motori di ricerca vettoriali si basano puramente sulla similarità semantica, un motore di ricerca ibrido unisce questi due approcci per fornire risultati altamente accurati e consapevoli del contesto.
Come funziona
Una tipica pipeline di ricerca ibrida esegue due distinti metodi di recupero simultaneamente, fondendo i loro output in una classificazione singola e ottimizzata:
- Ricerca lessicale (sparsa): utilizza algoritmi come BM25 per valutare la corrispondenza esatta delle parole chiave in base alla frequenza dei termini. Questo è cruciale per recuperare entità specifiche, acronimi, SKU di prodotti o gergo specializzato che un modello puramente semantico potrebbe avere difficoltà a identificare.
- Ricerca semantica (densa): genera array di numeri ad alta dimensionalità utilizzando modelli di IA per comprendere il significato più profondo e il contesto di una query. Questo permette al sistema di trovare risultati pertinenti anche se le parole esatte mancano nella query di ricerca.
Una volta che entrambi i metodi recuperano i loro risultati candidati, un algoritmo di fusione—più comunemente Reciprocal Rank Fusion (RRF)—combina le liste. RRF calcola un nuovo punteggio basato sul rango di ogni elemento nei rispettivi set di risultati sparsi e densi. Ciò garantisce che i documenti con un alto rango in una o entrambe le ricerche salgano in cima, bilanciando ampie corrispondenze contestuali con un'accurata precisione delle parole chiave.
Applicazioni reali di IA e ML
Le moderne architetture di IA si affidano pesantemente a questa tecnica per superare i limiti dell'utilizzo di un singolo metodo di recupero in ambienti di produzione.
- RAG (Retrieval-Augmented Generation) ibrida: nei sistemi di conoscenza aziendale, fornire a un Large Language Model (LLM) il contesto più pertinente è fondamentale per prevenire allucinazioni. Una configurazione RAG ibrida assicura che il modello recuperi documenti che soddisfano vincoli tecnici esatti, estraendo al contempo paragrafi semanticamente correlati.
- E-Commerce e scoperta visiva dei prodotti: i rivenditori utilizzano la ricerca ibrida per gestire i cataloghi dei prodotti. Un utente potrebbe cercare "scarpe da corsa rosse". Il motore lessicale trova la corrispondenza esatta per marca o categoria, mentre un modello di visione artificiale usa gli embedding delle immagini per far emergere elementi visivamente simili.
Oggi, quasi ogni principale database vettoriale—inclusi Pinecone, Qdrant, OpenSearch e PostgreSQL tramite pgvector—supporta nativamente la ricerca ibrida. Questo permette agli sviluppatori di indicizzare in modo efficiente sia parole chiave sparse che vettori densi in un'unica infrastruttura.
Generazione di metadati per la ricerca ibrida
Nelle pipeline di computer vision, puoi estrarre parole chiave significative dalle immagini per costruire la componente sparsa di un indice ibrido. Utilizzando Ultralytics YOLO26, puoi eseguire automaticamente il rilevamento di oggetti su un'immagine e usare quei nomi di classe come tag di metadati. Questi tag di parole chiave possono poi essere accoppiati agli embedding vettoriali densi dell'immagine per un'indicizzazione completa.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")
# Run inference to detect objects in an image
results = model("store_aisle.jpg")
# Extract predicted class names to be indexed as keyword metadata (sparse data)
keywords = [model.names[int(box.cls)] for box in results[0].boxes]
print("Sparse keywords for lexical search:", keywords)Arricchendo gli embedding densi delle immagini con precise parole chiave sparse generate dall'IA, gli sviluppatori possono sfruttare la Ultralytics Platform e database vettoriali compatibili con la ricerca ibrida per costruire robusti motori di ricerca multimodali che comprendono perfettamente sia i tag testuali espliciti che il contesto visivo implicito dei loro dati.






