Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Unindo processamento de linguagem natural e visão computacional

Aprende como o processamento de linguagem natural (NLP) e a visão computacional (CV) podem trabalhar juntos para transformar indústrias com sistemas de IA multimodais mais inteligentes.

ABAbirami Vina
4 min read
Unindo processamento de linguagem natural e visão computacional

Processamento de linguagem natural (NLP) e visão computacional (CV) são dois ramos distintos de inteligência artificial (IA) que ganharam muita popularidade nos últimos anos. Graças aos avanços na IA, esses dois ramos estão agora mais interconectados do que nunca.

Um ótimo exemplo disso é a legenda automática de imagens. A visão computacional pode ser usada para analisar e entender o conteúdo de uma imagem, enquanto o processamento de linguagem natural pode ser usado para gerar uma legenda para descrevê-la. A legenda automática de imagens é comumente usada em plataformas de mídia social para melhorar a acessibilidade e em sistemas de gerenciamento de conteúdo para ajudar a organizar e marcar imagens com eficiência.

As inovações em NLP e Vision AI levaram a muitos desses casos de uso em diversos setores. Neste artigo, examinaremos mais de perto a NLP e a visão computacional e discutiremos como ambas funcionam. Também exploraremos aplicações interessantes que usam essas duas tecnologias em conjunto. Vamos começar!

Link to this sectionEntendendo NLP e a Vision AI#

A NLP concentra-se na interação entre computadores e linguagem humana. Ela permite que as máquinas entendam, interpretem e gerem texto ou fala de uma maneira que seja significativa. Pode ser usada para realizar tarefas como tradução, análise de sentimento ou resumo.

Enquanto isso, a visão computacional ajuda as máquinas a analisar e trabalhar com imagens e vídeos. Pode ser usada para tarefas como detectar objetos em uma foto, reconhecimento facial, rastreamento de objetos ou classificação de imagens. A tecnologia de Vision AI permite que as máquinas entendam melhor e interajam com o mundo visual.

Um exemplo de classificação de imagem

Fig 1. Um exemplo de classificação de imagens.

Quando integrada à visão computacional, a NLP pode adicionar significado a dados visuais combinando texto e imagens, permitindo uma compreensão mais profunda. Como diz o ditado, "uma imagem vale mais que mil palavras", e quando combinada com texto, torna-se ainda mais poderosa, oferecendo insights mais ricos.

Link to this sectionExemplos de NLP e visão computacional trabalhando juntas#

Você provavelmente já viu a NLP e a visão computacional trabalhando juntas em ferramentas do dia a dia sem nem perceber, como quando seu celular traduz texto de uma imagem.

Na verdade, o Google Translate usa tanto o processamento de linguagem natural quanto a visão computacional para traduzir texto de imagens. Quando você tira uma foto de uma placa de rua em outro idioma, a visão computacional identifica e extrai o texto, enquanto a NLP o traduz para o seu idioma de preferência.

A NLP e a CV trabalham juntas para tornar o processo suave e eficiente, permitindo que os usuários entendam e interajam com informações em diferentes idiomas em tempo real. Essa integração perfeita de tecnologias quebra barreiras de comunicação.

Funcionalidade do Google Translate traduzindo texto de uma imagem

Fig 2. Recurso de tradução do Google.

Aqui estão algumas outras aplicações onde a NLP e a visão computacional trabalham juntas:

  • Carros autônomos: A CV pode ser usada para detectar placas de trânsito, faixas e obstáculos, enquanto a NLP pode processar comandos de voz ou o texto nas placas de trânsito.
  • Leitores de documentos: A Vision AI pode reconhecer texto de documentos digitalizados ou manuscritos, e o processamento de linguagem natural pode interpretar e resumir as informações.
  • Pesquisa visual em aplicativos de compras: A visão computacional pode identificar produtos em fotos, enquanto a NLP processa termos de pesquisa para melhorar as recomendações.
  • Ferramentas educacionais: A CV pode reconhecer anotações manuscritas ou entradas visuais, e a NLP pode fornecer explicações ou feedback com base no conteúdo.

Link to this sectionConceitos-chave que ligam a visão computacional e a NLP#

Agora que vimos como a visão computacional e o processamento de linguagem natural são usados, vamos explorar como eles se unem para permitir uma IA cross-modal.

A IA cross-modal combina a compreensão visual da visão computacional com a compreensão de linguagem da NLP para processar e conectar informações entre texto e imagens. Por exemplo, na área da saúde, a IA cross-modal pode ajudar a analisar um raio-X e gerar um resumo escrito claro de possíveis problemas, ajudando os médicos a tomar decisões mais rápidas e precisas.

Link to this sectionCompreensão de Linguagem Natural (NLU)#

A Compreensão de Linguagem Natural é um subconjunto especial da NLP que se concentra em interpretar e extrair significado de textos, analisando sua intenção, contexto, semântica, tom e estrutura. Enquanto a NLP processa texto bruto, a NLU permite que as máquinas compreendam a linguagem humana de forma mais eficaz. Por exemplo, a análise sintática (parsing) é uma técnica de NLU que converte texto escrito em um formato estruturado que as máquinas podem entender.

Diagrama da relação entre NLP e NLU

Fig 3. A relação entre NLP e NLU.

A NLU trabalha com a visão computacional quando os dados visuais contêm texto que precisa ser compreendido. A visão computacional, usando tecnologias como reconhecimento óptico de caracteres (OCR), extrai texto de imagens, documentos ou vídeos. Isso pode incluir tarefas como digitalizar um recibo, ler texto em uma placa ou digitalizar anotações manuscritas.

A NLU processa então o texto extraído para entender seu significado, contexto e intenção. Essa combinação torna possível que os sistemas façam mais do que apenas reconhecer texto. Eles podem categorizar despesas de recibos ou analisar o tom e o sentimento. Juntas, a visão computacional e a NLU transformam texto visual em informações significativas e acionáveis.

Link to this sectionEngenharia de prompt#

A engenharia de prompt é o processo de projetar prompts de entrada claros, precisos e detalhados para orientar sistemas de IA generativa, como grandes modelos de linguagem (LLMs) e modelos de linguagem de visão (VLMs), na produção dos resultados desejados. Esses prompts funcionam como instruções que ajudam o modelo de IA a entender a intenção do usuário.

Uma engenharia de prompt eficaz requer entender as capacidades do modelo e elaborar entradas que maximizem sua habilidade de gerar respostas precisas, criativas ou perspicazes. Isso é especialmente importante quando se trata de modelos de IA que trabalham com texto e imagens.

Veja o modelo DALL·E da OpenAI, por exemplo. Se você pedir a ele para criar “uma imagem fotorrealista de um astronauta montado em um cavalo”, ele pode gerar exatamente isso com base na sua descrição. Essa habilidade é extremamente útil em áreas como design gráfico, onde profissionais podem transformar rapidamente ideias de texto em mockups visuais, economizando tempo e aumentando a produtividade.

Uma imagem criada usando o DALL-E da OpenAI

Fig 4. Uma imagem criada usando o DALL-E da OpenAI.

Você pode estar se perguntando como isso se conecta à visão computacional - isso não seria apenas IA generativa? Na verdade, as duas estão intimamente relacionadas. A IA generativa baseia-se nos fundamentos da visão computacional para criar resultados visuais inteiramente novos.

Modelos de IA generativa que criam imagens a partir de prompts de texto são treinados em grandes conjuntos de dados de imagens emparelhadas com descrições textuais. Isso permite que aprendam as relações entre a linguagem e conceitos visuais, como objetos, texturas e relações espaciais.

Esses modelos não interpretam dados visuais da mesma forma que os sistemas tradicionais de visão computacional, como reconhecer objetos em imagens do mundo real. Em vez disso, usam seu entendimento aprendido desses conceitos para gerar novos visuais com base em prompts. Ao combinar esse conhecimento com prompts bem elaborados, a IA generativa pode produzir imagens realistas e detalhadas que correspondem à entrada do usuário.

Link to this sectionResposta a perguntas (QA)#

Os sistemas de resposta a perguntas são projetados para entender perguntas em linguagem natural e fornecer respostas precisas e relevantes. Eles usam técnicas como recuperação de informação, compreensão semântica e deep learning para interpretar e responder a consultas.

Modelos avançados como o GPT-4o da OpenAI podem lidar com resposta a perguntas visual (VQA), o que significa que podem analisar e responder a perguntas sobre imagens. No entanto, o GPT-4o não executa diretamente tarefas de visão computacional. Em vez disso, ele usa um codificador de imagem especializado para processar imagens, extrair características e combiná-las com seu entendimento de linguagem para fornecer respostas.

Capacidade de resposta a perguntas visuais do ChatGPT

Fig 5. Capacidade de resposta a perguntas visual do ChatGPT. Imagem do autor.

Outros sistemas podem ir um passo além ao integrar totalmente as capacidades de visão computacional. Esses sistemas podem analisar diretamente imagens ou vídeos para identificar objetos, cenas ou texto. Quando combinados com o processamento de linguagem natural, podem lidar com perguntas mais complexas sobre conteúdo visual. Por exemplo, eles podem responder “Quais objetos estão nesta imagem?” ou “Quem está nesta filmagem?” detectando e interpretando os elementos visuais.

Link to this sectionAprendizado Zero-Shot (ZSL)#

O aprendizado zero-shot (ZSL) é um método de machine learning que permite que modelos de IA lidem com tarefas novas e não vistas sem serem especificamente treinados nelas. Ele faz isso usando informações extras, como descrições ou relações semânticas, para conectar o que o modelo já sabe (classes vistas) a novas categorias não vistas.

No processamento de linguagem natural, o ZSL ajuda os modelos a entender e trabalhar com tópicos nos quais não foram treinados, contando com relações entre palavras e conceitos. Da mesma forma, na visão computacional, o ZSL permite que os modelos reconheçam objetos ou cenas que nunca encontraram antes, vinculando características visuais, como asas ou penas, a conceitos conhecidos, como pássaros.

O ZSL conecta a NLP e a CV combinando a compreensão de linguagem com o reconhecimento visual, tornando-o especialmente útil para tarefas que envolvem ambos. Por exemplo, na resposta a perguntas visual, um modelo pode analisar uma imagem enquanto entende uma pergunta relacionada para fornecer uma resposta precisa. Também é útil para tarefas como legendagem de imagens.

Link to this sectionPrincipais pontos#

Unir o processamento de linguagem natural e a visão computacional levou a sistemas de IA que podem entender tanto texto quanto imagens. Essa combinação está sendo usada em muitas indústrias, desde ajudar carros autônomos a ler placas de sinalização até melhorar diagnósticos médicos e tornar as redes sociais mais seguras. À medida que essas tecnologias melhoram, elas continuarão a tornar a vida mais fácil e abrir novas oportunidades em uma ampla gama de campos. Para saber mais, visite nosso repositório no GitHub e interaja com nossa comunidade. Explore aplicações de IA em carros autônomos e agricultura em nossas páginas de soluções. 🚀

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática