Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Base de datos vectorial

Descubra cómo las bases de datos vectoriales revolucionan la IA al permitir búsquedas de similitud eficientes, búsqueda semántica y detección de anomalías para sistemas inteligentes.

Una base de datos vectorial es un sistema de almacenamiento especializado diseñado para gestionar, indexar y consultar datos vectoriales de alta dimensión, a menudo denominados incrustaciones. A diferencia de las bases de datos relacionales tradicionales, que almacenan datos estructurados en filas y columnas para la búsqueda exacta de palabras clave, las bases de datos vectoriales están optimizadas para encontrar elementos basándose en su similitud semántica. están optimizadas para encontrar elementos en función de su similitud semántica. Esta capacidad las convierte en la piedra angular de la moderna inteligencia artificial (IA) (IA), ya que permiten a los sistemas procesar datos no estructurados -como imágenes, audio y texto- mediante la comprensión de las relaciones contextuales entre ellos. relaciones contextuales entre ellos. En esencia, sirven de memoria a largo plazo para aplicaciones de aprendizaje automático de la información que está conceptualmente relacionada en lugar de ser idéntica.

Cómo funcionan las bases de datos vectoriales

La función principal de una base de datos vectorial consiste en transformar los datos brutos en vectores matemáticos mediante un proceso denominado extracción de características. proceso conocido como extracción de características. A modelo de aprendizaje profundo, como un Transformador de Visión (ViT) o una Convolutional Neural Network (CNN), analiza los datos y genera un vector, una larga lista de números que representan las características de los datos.

Una vez generados estos vectores, la base de datos los indexa utilizando algoritmos especializados como Vecino más próximo aproximado (RNA). Cuando un usuario realiza una consulta, el sistema convierte el término de búsqueda (imagen o texto) en un vector y calcula su proximidad a los vectores almacenados utilizando métricas de distancia como la distancia entre vectores. proximidad a los vectores almacenados utilizando métricas de distancia como similitud coseno o distancia euclidiana. Esto permite a la base de datos identificar rápidamente a los vecinos "más próximos", que representan los resultados más relevantes.

El siguiente fragmento de código muestra cómo generar incrustaciones utilizando un modelo YOLO11 , que es el primer paso antes de almacenar datos en una base de datos vectorial. en una base de datos vectorial.

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate feature embeddings for an image file
# This converts the visual content into a numerical vector
results = model.embed("bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

Aplicaciones en el mundo real

Las bases de datos vectoriales son el motor de muchas funciones inteligentes del software comercial y empresarial.

  • Motores de recomendación visual: en el ámbito de la las plataformas utilizan bases de datos vectoriales para bases de datos vectoriales. Cuando un cliente ve un producto, el sistema consulta la base de datos vectorial vectorial en busca de artículos con incrustaciones visuales similares, sugiriendo productos con estilos, colores o patrones parecidos. Este Esto mejora la experiencia del usuario recomendaciones personalizadas que van más allá de las simples etiquetas de categoría.
  • Generación mejorada por recuperación (RAG): Las bases de datos vectoriales son fundamentales para generación mejorada de recuperación (RAG) (RAG). Al almacenar incrustaciones de vastas bases de conocimiento internas, las empresas permiten que grandes modelos lingüísticos (LLM) recuperar contexto preciso y actualizado antes de generar una respuesta. Esto reduce las alucinaciones y garantiza que la IA proporcione respuestas objetivas basadas en los documentos recuperados.

Diferenciar conceptos relacionados

Para entender el ecosistema, conviene distinguir la base de datos vectorial de los términos relacionados:

  • Base de datos vectorial vs. Búsqueda vectorial: La búsqueda vectorial es la acción o proceso algorítmico de encontrar vectores similares. Una base de datos vectorial es la infraestructura o sistema de software construido para almacenar estos vectores y realizar búsquedas de forma escalable y de forma escalable y persistente.
  • Base de datos vectorial frente a incrustaciones: Las incrustaciones son la carga útil real de los datos, la representación numérica de la entrada. La base de datos vectorial es el contenedor que organiza estas incrustaciones para un acceso rápido.
  • Base de datos vectorial frente a Ingeniería de características: La ingeniería de características es el proceso más amplio de creación de características para modelos. Las bases de datos vectoriales almacenan el resultado de ingeniería de características automatizada (incrustaciones) realizada por modelos de aprendizaje profundo.

Soluciones populares de bases de datos vectoriales

El mercado ofrece varias opciones sólidas para implantar el almacenamiento vectorial, desde herramientas de código abierto hasta servicios gestionados. gestionados:

  • Pinecone: Una base de datos vectorial totalmente gestionada y nativa de la nube diseñada para una escalabilidad de alta velocidad y facilidad de uso en producción.
  • Milvus: una base de datos vectorial de código abierto creada para la búsqueda de similitudes escalable. escalable, a menudo utilizada en aplicaciones aplicaciones de visión por ordenador a gran escala.
  • Qdrant: Un motor de búsqueda vectorial de alto rendimiento escrito en Rust, que ofrece funciones avanzadas de filtrado para consultas complejas.
  • Weaviate: Una base de datos vectorial nativa de IA que almacena tanto objetos y vectores, lo que permite realizar búsquedas combinadas de vectores y palabras clave.

Al integrar estas herramientas en un MLOps, los desarrolladores pueden construir sistemas que realmente "entiendan" el contenido de los datos, permitiendo capacidades avanzadas como la búsqueda semántica detección de anomalías y entrega personalizada de contenidos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora