Glossário

Base de dados vetorial

Descubra como as bases de dados vectoriais revolucionam a IA, permitindo pesquisas de semelhança eficientes, pesquisa semântica e deteção de anomalias para sistemas inteligentes.

Uma base de dados de vectores é um tipo especializado de base de dados concebido para armazenar, gerir e pesquisar dados de elevada dimensão conhecidos como embeddings de vectores. Ao contrário das bases de dados relacionais tradicionais, que são optimizadas para dados estruturados e correspondências exactas, as bases de dados vectoriais são excelentes para encontrar itens com base na sua semelhança. Esta capacidade é fundamental para uma vasta gama de aplicações modernas de IA, desde motores de recomendação a pesquisa visual, o que as torna um componente crítico na infraestrutura de aprendizagem automática. Servem de memória de longo prazo para os modelos de IA, permitindo-lhes tirar partido dos padrões complexos aprendidos durante o treino.

Como funcionam as bases de dados vectoriais

A principal função de uma base de dados vetorial é executar eficientemente uma pesquisa vetorial. O processo começa quando dados não estruturados - como uma imagem, um bloco de texto ou um clip de áudio - são passados através de um modelo de aprendizagem profunda para criar uma representação numérica denominada incorporação vetorial. Estas incorporações captam o significado semântico dos dados originais.

A base de dados vetorial armazena então estes embeddings e indexa-os utilizando algoritmos especializados. Quando é feita uma consulta (por exemplo, pesquisar com uma imagem), os dados da consulta são também convertidos num vetor. A base de dados compara então este vetor de consulta com os vectores armazenados utilizando métricas de semelhança como a semelhança cosseno ou a distância euclidiana para encontrar os itens "mais próximos" ou mais semelhantes. Para realizar este processo à escala de milhões ou milhares de milhões de vectores, recorre-se frequentemente a algoritmos de vizinho mais próximo (ANN) altamente eficientes.

Aplicações no mundo real

As bases de dados vectoriais alimentam muitas funcionalidades inteligentes com as quais os utilizadores interagem diariamente.

  1. Pesquisa visual no comércio eletrónico: Um utilizador pode carregar uma fotografia de um produto de que gosta. Um modelo de visão computacional, como o modelo Ultralytics YOLO11, gera um embedding para a imagem. Esta incorporação é utilizada para consultar a base de dados vetorial do sítio de comércio eletrónico, que contém incorporações para todo o seu catálogo de produtos. A base de dados devolve os vectores mais semelhantes, permitindo que o site apresente produtos visualmente idênticos ou estilisticamente relacionados, uma caraterística fundamental da IA para o retalho.
  2. Pesquisa semântica de documentos: Uma empresa pode criar incorporações para todos os seus documentos internos, tais como relatórios e bilhetes de apoio. Um funcionário pode então efetuar uma pesquisa utilizando uma pergunta em linguagem natural como "Quais foram os nossos lucros no último trimestre?" em vez de palavras-chave específicas. O modelo de Processamento de Linguagem Natural (PLN) converte esta consulta numa incorporação, e a base de dados vetorial encontra os documentos cujas incorporações são semanticamente mais próximas, fornecendo informações relevantes mesmo que a frase exacta não corresponda. Este é um componente essencial dos sistemas de geração aumentada de recuperação (RAG).

Bases de dados vectoriais vs. conceitos relacionados

É útil distinguir as bases de dados vectoriais de termos estreitamente relacionados:

  • Embeddings: Os embeddings são as representações vectoriais dos dados. A base de dados vetorial é o sistema especializado criado para armazenar, indexar e consultar estes embeddings de forma eficiente. Pense nos embeddings como os livros e a base de dados vetorial como a biblioteca inteligente que os organiza.
  • Pesquisa de vectores: A pesquisa vetorial é o processo de encontrar os vectores mais semelhantes num conjunto de dados. Uma base de dados vetorial é a tecnologia subjacente que torna este processo rápido e escalável, especialmente para inferência em tempo real.

Esses componentes são gerenciados como parte de um fluxo de trabalho completo de MLOps, muitas vezes facilitado por plataformas como o Ultralytics HUB para gerenciamento de modelos e conjuntos de dados de ponta a ponta.

Bases de dados vectoriais populares

Estão disponíveis várias bases de dados vectoriais comerciais e de código aberto, cada uma com diferentes pontos fortes em termos de escalabilidade, implantação e funcionalidades. Algumas das mais utilizadas incluem:

  • Pinecone: Um serviço de base de dados vetorial popular e totalmente gerido.
  • Milvus: Uma base de dados vetorial de código aberto concebida para um elevado desempenho e escalabilidade.
  • Weaviate: Uma base de dados de código aberto, nativa da IA, com capacidades de grafos.
  • Chroma DB: Uma base de dados de incorporação de código aberto centrada na simplicidade e na experiência do programador.
  • Qdrant: Uma base de dados vetorial de código aberto e um motor de pesquisa de semelhanças escrito em Rust para desempenho e segurança.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência