Glosario

Base de datos vectorial

Descubra cómo las bases de datos vectoriales revolucionan la IA al permitir búsquedas eficientes por similitud, búsquedas semánticas y detección de anomalías para sistemas inteligentes.

Una base de datos vectorial es un tipo especializado de base de datos diseñado para almacenar, gestionar y buscar a través de datos de alta dimensión conocidos como incrustaciones vectoriales. A diferencia de las bases de datos relacionales tradicionales, optimizadas para datos estructurados y coincidencias exactas, las bases de datos vectoriales destacan en la búsqueda de elementos en función de su similitud. Esta capacidad es fundamental para una amplia gama de aplicaciones modernas de IA, desde motores de recomendación hasta búsquedas visuales, lo que las convierte en un componente crítico de la infraestructura de aprendizaje automático. Sirven de memoria a largo plazo para los modelos de IA, permitiéndoles aprovechar los complejos patrones aprendidos durante el entrenamiento.

Cómo funcionan las bases de datos vectoriales

La función principal de una base de datos vectorial es ejecutar eficientemente una búsqueda vectorial. El proceso comienza cuando los datos no estructurados -como una imagen, un bloque de texto o un clip de audio- se pasan por un modelo de aprendizaje profundo para crear una representación numérica denominada incrustación vectorial. Estas incrustaciones capturan el significado semántico de los datos originales.

A continuación, la base de datos vectorial almacena estas incrustaciones y las indexa mediante algoritmos especializados. Cuando se realiza una consulta (por ejemplo, una búsqueda con una imagen), los datos de la consulta también se convierten en un vector. A continuación, la base de datos compara este vector de consulta con los vectores almacenados utilizando métricas de similitud como la similitud coseno o la distancia euclídea para encontrar los elementos "más cercanos" o más similares. Para realizar esta tarea a gran escala con millones o miles de millones de vectores, a menudo se recurre a algoritmos de Vecino más Cercano Aproximado (RNA ) de gran eficacia.

Aplicaciones reales

Las bases de datos vectoriales potencian muchas funciones inteligentes con las que los usuarios interactúan a diario.

  1. Búsqueda visual en el comercio electrónico: Un usuario puede subir una foto de un producto que le guste. Un modelo de visión artificial, como el modelo YOLO11 de Ultralytics, genera una incrustación para la imagen. Esta incrustación se utiliza para consultar la base de datos vectorial del sitio de comercio electrónico, que contiene incrustaciones de todo su catálogo de productos. La base de datos devuelve los vectores más similares, lo que permite al sitio mostrar productos visualmente idénticos o estilísticamente relacionados, una característica clave de la IA para el comercio minorista.
  2. Búsqueda semántica de documentos: Una empresa puede crear incrustaciones para todos sus documentos internos, como informes y tickets de soporte. A continuación, un empleado puede realizar una búsqueda utilizando una pregunta en lenguaje natural como "¿Cuáles fueron nuestros beneficios el último trimestre?" en lugar de palabras clave específicas. El modelo de Procesamiento del Lenguaje Natural (PLN ) convierte esta consulta en una incrustación, y la base de datos vectorial encuentra los documentos cuyas incrustaciones son semánticamente más cercanas, proporcionando información relevante incluso si el enunciado exacto no coincide. Se trata de un componente esencial de los sistemas de generación mejorada de recuperación (RAG ).

Bases de datos vectoriales frente a conceptos afines

Es útil diferenciar las bases de datos vectoriales de los términos estrechamente relacionados:

  • Incrustaciones: Las incrustaciones son las representaciones vectoriales de los datos. La base de datos vectorial es el sistema especializado construido para almacenar, indexar y consultar estas incrustaciones de manera eficiente. Piense en las incrustaciones como libros y en la base de datos vectorial como la biblioteca inteligente que los organiza.
  • Búsqueda de vectores: La búsqueda vectorial es el proceso de encontrar los vectores más similares en un conjunto de datos. Una base de datos vectorial es la tecnología subyacente que hace que este proceso sea rápido y escalable, especialmente para la inferencia en tiempo real.

Estos componentes se gestionan como parte de un flujo de trabajo MLOps completo, a menudo facilitado por plataformas como Ultralytics HUB para la gestión integral de modelos y conjuntos de datos.

Bases de datos vectoriales populares

Existen varias bases de datos vectoriales comerciales y de código abierto, cada una con diferentes puntos fuertes en cuanto a escalabilidad, despliegue y características. Algunas de las más utilizadas son:

  • Pinecone: Un popular servicio de base de datos vectorial totalmente gestionado.
  • Milvus: una base de datos vectorial de código abierto diseñada para ofrecer un alto rendimiento y escalabilidad.
  • Weaviate: Una base de datos de código abierto nativa de IA con capacidades gráficas.
  • Chroma DB: una base de datos de incrustación de código abierto centrada en la simplicidad y la experiencia del desarrollador.
  • Qdrant: Una base de datos vectorial de código abierto y motor de búsqueda de similitudes escrito en Rust para mayor rendimiento y seguridad.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles