Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Saiba como a solução de pesquisa semântica de imagens da Ultralytics pode ser utilizada para fazer corresponder rapidamente imagens a consultas, tornando os fluxos de trabalho criativos e de investigação mais eficientes.
Percorrer uma galeria com centenas de imagens pode rapidamente tornar-se avassalador, especialmente quando se está a tentar encontrar algo muito específico. Por exemplo, alguém que procure um mapa da Roma antiga pode encontrar mapas de cidades aleatórias ou fotografias de viagens.
Estes cenários ocorrem porque a maioria dos sistemas de pesquisa de imagens se baseia em nomes de ficheiros ou etiquetas. Embora isto possa funcionar para consultas gerais, muitas vezes não é suficiente quando é necessária precisão, detalhe e contexto.
De facto, muitas pessoas em áreas como o design, o marketing e a investigação têm dificuldade em encontrar as imagens certas, uma vez que as pesquisas por palavras-chave raramente captam a ideia específica que procuram. Isto pode causar atrasos e perturbar a produtividade.
No entanto, graças aos recentes avanços na inteligência artificial (IA), as limitações tradicionais das ferramentas de pesquisa de imagens estão a ser substituídas por sistemas mais inteligentes e intuitivos. Por exemplo, a visão por computador, um ramo da IA que se concentra na interpretação e compreensão de dados visuais, está a permitir pesquisas de imagens mais rápidas e precisas através da análise do conteúdo real das imagens.
Em particular, a pesquisa semântica de imagens vai para além da correspondência de palavras-chave, compreendendo o significado subjacente a uma pesquisa. Permite-lhe utilizar linguagem natural para descrever o que procura e encontra imagens que correspondem à ideia, não apenas às etiquetas. Por exemplo, uma pesquisa por "animais num jardim zoológico" pode devolver imagens aleatórias de animais num sistema tradicional, enquanto uma pesquisa semântica compreende o contexto e encontra imagens de animais em jardins zoológicos.
Fig. 1. Um exemplo de utilização da pesquisa semântica de imagens para recuperar imagens de animais num jardim zoológico.
Neste artigo, vamos explorar como funciona a pesquisa semântica de imagens e discutir alguns casos de utilização reais. Também veremos a solução de pesquisa semântica de imagens da Ultralytics, que facilita a aplicação deste conceito em projectos quotidianos. Vamos começar!
Uma visão geral da solução de pesquisa semântica de imagens da Ultralytics
O pacote Ultralytics Python oferece uma gama de soluções prontas a utilizar para aplicações comuns de visão por computador, incluindo gestão de filas, contagem de objectos com base em regiões, cálculo de distâncias e pesquisa semântica de imagens. Estas soluções foram concebidas para serem fáceis de utilizar, mesmo para quem não tem conhecimentos de IA ou de visão por computador.
Entre elas, a solução de pesquisa semântica de imagens permite aos utilizadores encontrar imagens relevantes utilizando descrições em linguagem natural, em vez de se basearem em nomes de ficheiros ou etiquetas manuais. Compreende o significado subjacente a uma consulta de pesquisa e devolve imagens que correspondem à ideia, o que a torna especialmente útil quando a precisão e o contexto são importantes.
Como funciona a solução de pesquisa semântica de imagens
A solução de pesquisa semântica de imagens da Ultralytics é alimentada por dois modelos avançados de IA: O CLIP (Contrastive Language - Image Pre-Training) da OpenAI e o FAISS (Facebook AI Similarity Search) da Meta. O CLIP converte texto e imagens em representações numéricas denominadas "embeddings", que captam o seu significado e contexto. O FAISS pesquisa eficazmente através de milhões destes embeddings para encontrar os mais relevantes para a sua consulta.
Além disso, uma interface Web simplificada criada com o Flask torna a solução fácil de utilizar. Os utilizadores podem introduzir consultas em linguagem natural e obter imagens correspondentes sem qualquer rotulagem manual ou preparação de dados.
Uma das principais vantagens desta solução é a sua capacidade de "zero-shot". Isto significa que pode interpretar e responder a pedidos de informação sobre objectos ou cenas para os quais não foi especificamente treinada. Ao tirar partido da sua ampla compreensão da linguagem e dos aspectos visuais, pode apresentar resultados relevantes mesmo para conteúdos desconhecidos ou não etiquetados.
Por exemplo, se utilizar a solução para procurar um "ambiente de escritório", esta poderá devolver imagens de secretárias, salas de reuniões ou espaços de trabalho, mesmo que essas palavras não estejam associadas aos ficheiros. Isto torna a pesquisa semântica de imagens da Ultralytics uma ferramenta prática e flexível para projectos criativos, investigação e trabalho com grandes bibliotecas de imagens.
Fig. 2. Consulta de imagens de um ambiente de escritório utilizando a solução de pesquisa semântica de imagens da Ultralytics.
Aplicações reais da solução de pesquisa semântica de imagens
Agora que compreendemos melhor a solução de pesquisa semântica de imagens da Ultralytics, vamos analisar algumas aplicações do mundo real e ver como diferentes sectores podem integrá-la nos seus fluxos de trabalho visuais.
Utilização de ferramentas de pesquisa de imagens com IA para a gestão de conjuntos de dados
A gestão de enormes conjuntos de dados de imagens é uma das tarefas mais morosas na criação de soluções de visão por computador. Na maioria dos casos, os programadores não precisam de todo o conjunto de dados. Em vez disso, podem estar à procura de tipos específicos de imagens para treinar modelos ou criar conjuntos de validação limpos. Mas encontrar essas imagens exactas entre milhares pode ser complicado.
Digamos que está a trabalhar num projeto que envolve imagens de equitação. Pode precisar apenas de fotografias em que o cavaleiro esteja a usar um capacete, a cavalgar com outras pessoas ou captadas em movimento lateral. Sem as etiquetas adequadas, encontrar estas imagens manualmente pode levar muito tempo e esforço.
A solução de pesquisa semântica de imagens, suportada pela Ultralytics, pode resolver este problema, permitindo que os programadores utilizem consultas em linguagem natural para encontrar rapidamente o que precisam, mesmo em conjuntos de dados confusos ou sem rótulos. Isto reduz o tempo gasto na triagem e permite que as equipas se concentrem na criação de melhores modelos de forma mais eficiente.
Figura 3. Pode procurar facilmente imagens específicas em grandes conjuntos de dados.
Pesquisa de imagens sem disparos para produtos de comércio eletrónico
A pesquisa de produtos específicos em linha pode ser frustrante. Muitas vezes, os compradores descrevem o que procuram com as suas próprias palavras, mas as listas de produtos podem utilizar termos ou etiquetas diferentes. Esta disparidade torna mais difícil encontrar os artigos certos, especialmente em catálogos de grandes dimensões.
Considere uma situação em que alguém está a comprar mobiliário e procura um "conjunto de sofá, cadeira e mesa". O produto que procura pode estar listado com uma etiqueta diferente, como "conjunto de três peças para sala de estar". Uma vez que os termos não correspondem exatamente, o item pode não aparecer nos resultados da pesquisa, apesar de ser exatamente o que o cliente precisa.
Fig. 4. A solução de pesquisa de imagens semânticas da Ultralytics ajuda a fazer corresponder a intenção do utilizador a imagens de produtos relevantes.
Indexação avançada de imagens para media e publicação
Do mesmo modo, em áreas como o jornalismo, os blogues e o marketing digital, os elementos visuais são essenciais para contar histórias. A imagem certa pode apoiar uma mensagem, definir o tom e manter os leitores envolvidos. No entanto, encontrar a imagem perfeita significa muitas vezes vasculhar muitos ficheiros.
Um bom exemplo é um bloguista que escreve sobre tendências de decoração de interiores. Pode querer uma imagem de uma sala de estar clara e minimalista com iluminação natural. No entanto, se as imagens disponíveis forem marcadas apenas com termos genéricos como "sala" ou "interior", encontrar a correspondência correta pode ser frustrante.
Com a pesquisa semântica de imagens, podem simplesmente escrever uma frase descritiva como "uma sala de estar minimalista e luminosa com janelas grandes" e obter instantaneamente imagens que correspondam à ideia. Não há necessidade de depender de etiquetas ou nomes de ficheiros exactos.
Figura 5. As equipas de conteúdos podem utilizar a solução de pesquisa semântica de imagens da Ultralytics para otimizar a seleção de imagens.
Pesquisa semântica de imagens para inspiração em arte e design
Normalmente, o trabalho criativo, como a conceção de um mood board ou a recolha de inspiração para um novo projeto, envolve a pesquisa em grandes colecções de imagens para encontrar imagens que correspondam a um estilo ou ideia específicos. Um exemplo interessante são os designers que trabalham num cenário para um filme. Podem precisar de captar um determinado estado de espírito, período de tempo ou atmosfera. Isto pode ir desde uma cidade futurista a uma sala de estar acolhedora com um estilo dos anos 1980.
A pesquisa semântica de imagens da Ultralytics facilita este processo, ligando a linguagem ao significado visual. Isto permite que as equipas explorem ideias rapidamente e se mantenham concentradas, sem serem atrasadas pela pesquisa manual.
Fig. 6. A solução de pesquisa semântica de imagens da Ultralytics permite uma exploração visual mais rápida para projectos criativos.
Prós e contras da pesquisa de imagens com IA
Eis algumas das principais vantagens da utilização da pesquisa de imagens com IA para melhorar os fluxos de trabalho visuais e a eficiência da pesquisa;
Suporte de linguagem natural: As pessoas podem encontrar imagens descrevendo-as com as suas próprias palavras, sem utilizar etiquetas predefinidas.
Suporte para formatos de imagem comuns: Estes sistemas funcionam normalmente com formatos padrão como JPG e PNG, pelo que não é necessário converter ou reformatar ficheiros.
Integra-se com outras ferramentas: A pesquisa de imagens com IA pode muitas vezes ser integrada em pipelines, painéis de controlo ou software criativo de maior dimensão.
Embora as soluções de pesquisa de imagens com IA ofereçam muitas vantagens, há também algumas limitações a ter em conta. Eis alguns factores a considerar:
Precisão limitada com consultas de nicho: Se uma consulta for muito específica ou invulgar, o sistema pode apresentar resultados menos relevantes devido a lacunas nos dados de formação do modelo.
Enviesamento nos dados de treino: Os modelos de IA podem refletir os enviesamentos presentes nos conjuntos de dados em que foram treinados, o que pode levar a resultados distorcidos ou incompletos.
O desempenho depende da qualidade da imagem: Imagens de baixa resolução ou pouco nítidas podem reduzir a eficácia da geração da incorporação e a precisão da pesquisa.
Principais conclusões
A pesquisa semântica de imagens muda o foco da correspondência de palavras-chave para a compreensão do significado, ajudando os utilizadores a encontrar imagens com base no contexto e não apenas em etiquetas ou nomes de ficheiros. Isto torna a experiência de pesquisa mais rápida, mais precisa e melhor alinhada com o que os utilizadores estão realmente à procura.
Para as equipas criativas e para as indústrias orientadas para os conteúdos, isto significa menos tempo gasto a selecionar ficheiros irrelevantes e mais tempo a desenvolver ideias. As organizações que gerem grandes volumes de dados visuais podem utilizar soluções como a pesquisa de imagens semânticas da Ultralytics para otimizar a descoberta de conteúdos, reduzir a triagem manual e tomar decisões mais inteligentes e rápidas com base no contexto visual.