Descubra como as bases de dados vectoriais revolucionam a IA, permitindo pesquisas de semelhança eficientes, pesquisa semântica e deteção de anomalias para sistemas inteligentes.
Uma base de dados de vectores é um tipo especializado de base de dados concebido para armazenar, gerir e pesquisar dados de elevada dimensão conhecidos como embeddings de vectores. Ao contrário das bases de dados relacionais tradicionais, que são optimizadas para dados estruturados e correspondências exactas, as bases de dados vectoriais são excelentes para encontrar itens com base na sua semelhança. Esta capacidade é fundamental para uma vasta gama de aplicações modernas de IA, desde motores de recomendação a pesquisa visual, o que as torna um componente crítico na infraestrutura de aprendizagem automática. Servem de memória de longo prazo para os modelos de IA, permitindo-lhes tirar partido dos padrões complexos aprendidos durante o treino.
A principal função de uma base de dados vetorial é executar eficientemente uma pesquisa vetorial. O processo começa quando dados não estruturados - como uma imagem, um bloco de texto ou um clip de áudio - são passados através de um modelo de aprendizagem profunda para criar uma representação numérica denominada incorporação vetorial. Estas incorporações captam o significado semântico dos dados originais.
A base de dados vetorial armazena então estes embeddings e indexa-os utilizando algoritmos especializados. Quando é feita uma consulta (por exemplo, pesquisar com uma imagem), os dados da consulta são também convertidos num vetor. A base de dados compara então este vetor de consulta com os vectores armazenados utilizando métricas de semelhança como a semelhança cosseno ou a distância euclidiana para encontrar os itens "mais próximos" ou mais semelhantes. Para realizar este processo à escala de milhões ou milhares de milhões de vectores, recorre-se frequentemente a algoritmos de vizinho mais próximo (ANN) altamente eficientes.
As bases de dados vectoriais alimentam muitas funcionalidades inteligentes com as quais os utilizadores interagem diariamente.
É útil distinguir as bases de dados vectoriais de termos estreitamente relacionados:
Esses componentes são gerenciados como parte de um fluxo de trabalho completo de MLOps, muitas vezes facilitado por plataformas como o Ultralytics HUB para gerenciamento de modelos e conjuntos de dados de ponta a ponta.
Estão disponíveis várias bases de dados vectoriais comerciais e de código aberto, cada uma com diferentes pontos fortes em termos de escalabilidade, implantação e funcionalidades. Algumas das mais utilizadas incluem: