Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Saiba como o processamento de linguagem natural (PNL) e a visão por computador (CV) podem trabalhar em conjunto para transformar as indústrias com sistemas de IA mais inteligentes e intermodais.
Um ótimo exemplo disto é a legendagem automática de imagens. A visão por computador pode ser utilizada para analisar e compreender o conteúdo de uma imagem, enquanto o processamento de linguagem natural pode ser utilizado para gerar uma legenda para a descrever. A legendagem automática de imagens é habitualmente utilizada em plataformas de redes sociais para melhorar a acessibilidade e em sistemas de gestão de conteúdos para ajudar a organizar e etiquetar imagens de forma eficiente.
As inovações na PNL e na IA de visão conduziram a muitos casos de utilização deste tipo numa série de indústrias. Neste artigo, analisaremos mais de perto a PNL e a visão por computador e discutiremos o modo como ambas funcionam. Vamos também explorar aplicações interessantes que utilizam estas duas tecnologias em conjunto. Vamos lá começar!
Compreender a PNL e a IA de visão
A PNL centra-se na interação entre os computadores e a linguagem humana. Permite às máquinas compreender, interpretar e gerar texto ou discurso de uma forma significativa. Pode ser utilizada para efetuar tarefas como a tradução, a análise de sentimentos ou o resumo.
Quando integrada na visão computacional, a PNL pode acrescentar significado aos dados visuais, combinando texto e imagens, permitindo uma compreensão mais profunda. Como diz o ditado, "uma imagem vale mais do que mil palavras" e, quando combinada com o texto, torna-se ainda mais poderosa, oferecendo conhecimentos mais ricos.
Exemplos de colaboração entre a PNL e a visão por computador
É provável que já tenha visto a PNL e a visão por computador a trabalharem em conjunto em ferramentas do quotidiano sem sequer se aperceber, como quando o seu telemóvel traduz texto a partir de uma imagem.
De facto, o Google Tradutor utiliza o processamento de linguagem natural e a visão por computador para traduzir texto a partir de imagens. Quando tira uma fotografia de um sinal de trânsito noutro idioma, a visão por computador identifica e extrai o texto, enquanto o processamento de linguagem natural o traduz para o seu idioma preferido.
A PNL e a CV trabalham em conjunto para tornar o processo suave e eficiente, permitindo aos utilizadores compreender e interagir com informações em várias línguas em tempo real. Esta integração perfeita de tecnologias elimina as barreiras de comunicação.
Eis algumas outras aplicações em que a PNL e a visão computacional trabalham em conjunto:
Automóveis autónomos: A CV pode ser utilizada para detetar sinais de trânsito, faixas de rodagem e obstáculos, enquanto a PNL pode processar comandos falados ou o texto nos sinais de trânsito.
Documento leitores: A IA de visão pode reconhecer texto de documentos digitalizados ou manuscritos, e o processamento de linguagem natural pode interpretar e resumir as informações.
Pesquisa visual em aplicações de compras: A visão por computador pode identificar produtos em fotografias, enquanto a PNL processa termos de pesquisa para melhorar as recomendações.
Ferramentas educativas: O CV pode reconhecer notas manuscritas ou entradas visuais, e a PNL pode fornecer explicações ou feedback com base no conteúdo.
Conceitos-chave que ligam a visão computacional e a PNL
Agora que já vimos como a visão computacional e o processamento de linguagem natural são utilizados, vamos explorar a forma como se juntam para permitir a IA transmodal.
A IA multimodal combina a compreensão visual da visão por computador com a compreensão da linguagem da PNL para processar e ligar informações em textos e imagens. Por exemplo, no sector dos cuidados de saúde, a IA transmodal pode ajudar a analisar uma radiografia e gerar um resumo claro e escrito dos potenciais problemas, ajudando os médicos a tomar decisões mais rápidas e precisas.
Compreensão de linguagem natural (NLU)
A compreensão da linguagem natural é um subconjunto especial da PNL que se centra na interpretação e extração de significado do texto, analisando a sua intenção, contexto, semântica, tom e estrutura. Enquanto a PNL processa texto em bruto, a NLU permite que as máquinas compreendam a linguagem humana de forma mais eficaz. Por exemplo, a análise é uma técnica de NLU que converte o texto escrito num formato estruturado que as máquinas podem compreender.
O NLU funciona com a visão por computador quando os dados visuais contêm texto que precisa de ser compreendido. A visão por computador, utilizando tecnologias como o reconhecimento ótico de caracteres (OCR), extrai texto de imagens, documentos ou vídeos. Pode incluir tarefas como a digitalização de um recibo, a leitura de texto numa placa ou a digitalização de notas manuscritas.
Em seguida, a NLU processa o texto extraído para compreender o seu significado, contexto e intenção. Esta combinação permite aos sistemas fazer mais do que apenas reconhecer texto. Eles podem categorizar despesas de recibos ou analisar o tom e o sentimento. Juntos, a visão computacional e a NLU transformam o texto visual em informações significativas e acionáveis.
Engenharia rápida
A engenharia de prompts é o processo de conceção de prompts de entrada claros, precisos e pormenorizados para orientar os sistemas de IA generativa, como os modelos de grande linguagem (LLM) e os modelos de visão-linguagem (VLM), na produção dos resultados desejados. Estes avisos funcionam como instruções que ajudam o modelo de IA a compreender a intenção do utilizador.
Uma engenharia de prompt eficaz requer a compreensão das capacidades do modelo e a criação de entradas que maximizem a sua capacidade de gerar respostas exactas, criativas ou perspicazes. Isto é especialmente importante quando se trata de modelos de IA que funcionam tanto com texto como com imagens.
Veja-se o modelo DALL-E da OpenAI, por exemplo. Se lhe pedirmos para criar "uma imagem fotorrealista de um astronauta a montar um cavalo", ele pode gerar exatamente isso com base na nossa descrição. Esta capacidade é muito útil em áreas como o design gráfico, onde os profissionais podem transformar rapidamente ideias de texto em maquetas visuais, poupando tempo e aumentando a produtividade.
Fig. 4. Uma imagem criada usando o DALL-E da OpenAI.
Poderá estar a perguntar-se como é que isto se relaciona com a visão por computador - não se trata apenas de IA generativa? Na verdade, as duas estão intimamente relacionadas. A IA generativa baseia-se nos fundamentos da visão por computador para criar resultados visuais totalmente novos.
Os modelos de IA generativa que criam imagens a partir de instruções de texto são treinados em grandes conjuntos de dados de imagens emparelhadas com descrições textuais. Isto permite-lhes aprender as relações entre a linguagem e os conceitos visuais, como objectos, texturas e relações espaciais.
Estes modelos não interpretam os dados visuais da mesma forma que os sistemas tradicionais de visão por computador, como o reconhecimento de objectos em imagens do mundo real. Em vez disso, utilizam o conhecimento que adquiriram destes conceitos para gerar novas imagens com base em instruções. Combinando este conhecimento com instruções bem elaboradas, a IA generativa pode produzir imagens realistas e detalhadas que correspondem aos dados introduzidos pelo utilizador.
Resposta a perguntas (QA)
Os sistemas de resposta a perguntas são concebidos para compreender perguntas em linguagem natural e fornecer respostas exactas e relevantes. Utilizam técnicas como a recuperação de informações, a compreensão semântica e a aprendizagem profunda para interpretar e responder às perguntas.
Modelos avançados como o GPT-4o da OpenAI podem lidar com a resposta a perguntas visuais (VQA), o que significa que podem analisar e responder a perguntas sobre imagens. No entanto, o GPT-4o não executa diretamente tarefas de visão computacional. Em vez disso, utiliza um codificador de imagem especializado para processar imagens, extrair caraterísticas e combiná-las com a sua compreensão da linguagem para fornecer respostas.
Fig. 5. Capacidade visual de resposta a perguntas do ChatGPT. Imagem do autor.
Outros sistemas podem ir um pouco mais longe, integrando totalmente as capacidades de visão por computador. Estes sistemas podem analisar diretamente imagens ou vídeos para identificar objectos, cenas ou texto. Quando combinados com o processamento de linguagem natural, podem lidar com questões mais complexas sobre o conteúdo visual. Por exemplo, podem responder a "Que objectos estão nesta imagem?" ou "Quem está nesta filmagem?", detectando e interpretando os elementos visuais.
Aprendizagem Zero-Shot (ZSL)
A aprendizagem zero-shot (ZSL) é um método de aprendizagem automática que permite que os modelos de IA lidem com tarefas novas e inéditas sem serem especificamente treinados para elas. Para tal, utiliza informações adicionais, como descrições ou relações semânticas, para ligar o que o modelo já conhece (classes vistas) a categorias novas e não vistas.
No processamento de linguagem natural, a ZSL ajuda os modelos a compreender e a trabalhar com tópicos para os quais não foram treinados, baseando-se em relações entre palavras e conceitos. Do mesmo modo, na visão por computador, a ZSL permite que os modelos reconheçam objectos ou cenas que nunca encontraram antes, associando caraterísticas visuais, como asas ou penas, a conceitos conhecidos, como aves.
A ZSL liga a PNL e a CV combinando a compreensão da linguagem com o reconhecimento visual, o que a torna especialmente útil para tarefas que envolvem ambas. Por exemplo, na resposta a perguntas visuais, um modelo pode analisar uma imagem enquanto compreende uma pergunta relacionada para dar uma resposta exacta. Também é útil para tarefas como a legendagem de imagens.
Principais conclusões
A combinação do processamento da linguagem natural com a visão por computador conduziu a sistemas de IA capazes de compreender tanto texto como imagens. Esta combinação está a ser utilizada em muitas indústrias, desde ajudar os carros autónomos a ler os sinais de trânsito até melhorar os diagnósticos médicos e tornar as redes sociais mais seguras. À medida que estas tecnologias melhoram, continuarão a facilitar a vida e a abrir novas oportunidades numa vasta gama de campos. Para saber mais, visite o nosso repositório GitHub e participe na nossa comunidade. Explore as aplicações de IA em carros autónomos e na agricultura nas nossas páginas de soluções. 🚀