Hybrid Search
Узнай, как гибридный поиск объединяет сопоставление по ключевым словам и семантический ИИ. Научись создавать контекстно-зависимые поисковые конвейеры, используя метаданные Ultralytics YOLO26.
Эта методология поиска, объединяющая точность традиционного сопоставления по ключевым словам с контекстным пониманием современного ИИ, позволяет находить и ранжировать информацию, используя как разреженные, так и плотные представления данных. В то время как стандартная поисковая система полагается исключительно на точное совпадение ключевых слов (известное как лексический поиск), а векторные поисковые системы — только на семантическую близость, гибридный поиск объединяет эти два подхода для получения высокоточных и учитывающих контекст результатов.
Как это работает
Типичный конвейер гибридного поиска выполняет два различных метода извлечения данных одновременно, объединяя их результаты в единый оптимизированный рейтинг:
- Лексический (разреженный) поиск: использует алгоритмы, такие как BM25, для оценки точного совпадения ключевых слов на основе частоты терминов. Это критически важно для извлечения конкретных сущностей, аббревиатур, артикулов товаров или специализированного жаргона, которые чисто семантической модели может быть сложно идентифицировать.
- Семантический (плотный) поиск: генерирует многомерные массивы чисел с помощью ИИ-моделей для понимания глубокого смысла и контекста запроса. Это позволяет системе находить релевантные результаты, даже если в поисковом запросе отсутствуют точные слова.
Как только оба метода извлекают свои результаты-кандидаты, алгоритм слияния — чаще всего Reciprocal Rank Fusion (RRF) — объединяет списки. RRF вычисляет новую оценку на основе ранга каждого элемента в соответствующих наборах разреженных и плотных результатов. Это гарантирует, что документы с высоким рангом в одном или обоих видах поиска поднимутся наверх, обеспечивая баланс между широким контекстным соответствием и точной проверкой по ключевым словам.
Реальные приложения ИИ и ML
Современные архитектуры ИИ активно полагаются на этот метод, чтобы преодолеть ограничения использования одного метода извлечения данных в производственных средах.
- Гибридный RAG (генерация с дополнением выборкой): в корпоративных системах знаний предоставление большой языковой модели (LLM) максимально релевантного контекста имеет решающее значение для предотвращения галлюцинаций. Настройка гибридного RAG гарантирует, что модель извлекает документы, соответствующие точным техническим ограничениям, одновременно подтягивая семантически связанные абзацы.
- Электронная коммерция и визуальный поиск товаров: ритейлеры используют гибридный поиск для работы с каталогами товаров. Пользователь может искать «красные кроссовки для бега». Лексический движок находит точные ключевые слова бренда или категории, в то время как модель компьютерного зрения ИИ использует эмбеддинги изображений, чтобы показать визуально похожие товары.
Сегодня почти каждая крупная векторная база данных, включая Pinecone, Qdrant, OpenSearch и PostgreSQL через pgvector, поддерживает гибридный поиск нативно. Это позволяет разработчикам эффективно индексировать как разреженные ключевые слова, так и плотные векторы в рамках одной инфраструктуры.
Генерация метаданных для гибридного поиска
В конвейерах компьютерного зрения ты можешь извлекать значимые ключевые слова из изображений для создания разреженного компонента гибридного индекса. Используя Ultralytics YOLO26, ты можешь автоматически выполнять обнаружение объектов на изображении и использовать эти имена классов в качестве тегов метаданных. Эти ключевые слова-теги затем могут быть сопоставлены с плотными векторными эмбеддингами изображения для комплексной индексации.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")
# Run inference to detect objects in an image
results = model("store_aisle.jpg")
# Extract predicted class names to be indexed as keyword metadata (sparse data)
keywords = [model.names[int(box.cls)] for box in results[0].boxes]
print("Sparse keywords for lexical search:", keywords)Обогащая плотные эмбеддинги изображений точными, сгенерированными ИИ разреженными ключевыми словами, ты как разработчик можешь использовать Ultralytics Platform и гибридно-совместимые векторные базы данных для создания надежных мультимодальных поисковых систем, которые идеально понимают как явные текстовые теги, так и неявный визуальный контекст твоих данных.






