Yolo Vision Shenzhen
Shenzhen
Junte-se agora

A IA Generativa está a mudar o futuro da visão computacional

Abirami Vina

Leitura de 5 minutos

24 de março de 2025

Descubra insights interessantes de uma mesa redonda na YOLO Vision 2024. Explore como a IA generativa está moldando o caminho para os modelos de Visão de IA em tempo real.

A IA generativa é um ramo da inteligência artificial (IA) que cria novos conteúdos, como imagens, texto ou áudio, aprendendo padrões de dados existentes. Graças aos avanços recentes, agora ela pode ser usada para produzir conteúdo altamente realista que muitas vezes imita a criatividade humana.

No entanto, o impacto da IA generativa vai além da simples criação de conteúdo. À medida que os modelos de visão computacional em tempo real, como os modelos Ultralytics YOLO, continuam a evoluir, a IA generativa também está redefinindo como os dados visuais são processados e aumentados, abrindo caminho para aplicações inovadoras em cenários do mundo real. 

Esta nova mudança tecnológica foi um tópico interessante de conversa no YOLO Vision 2024 (YV24), um evento híbrido anual organizado pela Ultralytics. O YV24 reuniu entusiastas de IA e líderes do setor para discutir os mais recentes avanços em visão computacional. O evento focou-se na inovação, eficiência e no futuro das soluções de IA em tempo real.

Um dos principais destaques do evento foi um painel de discussão sobre YOLO na Era da IA Generativa. O painel contou com Glenn Jocher, Fundador e CEO da Ultralytics, Jing Qiu, Engenheira Sênior de Machine Learning da Ultralytics, e Ao Wang da Universidade de Tsinghua. Eles exploraram como a IA generativa está influenciando a visão computacional e os desafios de construir modelos de IA práticos.

Neste artigo, revisitaremos os principais insights de sua discussão e analisaremos mais de perto como a IA generativa está transformando a Visão de IA.

Desenvolvendo os modelos YOLO da Ultralytics

Além de Glenn Jocher, muitos engenheiros qualificados desempenharam um papel vital no desenvolvimento dos modelos Ultralytics YOLO. Um deles, Jing Qiu, relatou seu início inesperado com o YOLO. Ele explicou que sua paixão por IA começou durante seus anos de faculdade. Ele passou uma quantidade significativa de tempo explorando e aprendendo sobre o campo. Jing Qiu lembrou como ele se conectou com Glenn Jocher no GitHub e se envolveu em vários projetos de IA.

Acrescentando ao que Jing Qiu disse, Glenn Jocher descreveu o GitHub como "uma maneira incrível de compartilhar - onde pessoas que você nunca conheceu se unem para ajudar umas às outras, contribuindo para o trabalho umas das outras. É uma ótima comunidade e uma ótima maneira de começar na IA."

__wf_reserved_inherit
Fig 1. Glenn Jocher e Jing Qiu falando no palco no YV24.

O interesse de Jing Qiu em IA e seu trabalho no Ultralytics YOLOv5 ajudaram a refinar o modelo. Mais tarde, ele desempenhou um papel fundamental no desenvolvimento do Ultralytics YOLOv8, que introduziu melhorias adicionais. Ele descreveu isso como uma jornada incrível. Hoje, Jing Qiu continua a aprimorar e trabalhar em modelos como o Ultralytics YOLO11

YOLOv10: Otimizado para desempenho no mundo real

Juntando-se ao painel de discussão remotamente da China, Ao Wang se apresentou como um estudante de doutorado. Inicialmente, ele estudou engenharia de software, mas sua paixão por IA o levou a mudar para visão computacional e aprendizado profundo.

Seu primeiro contato com o famoso modelo YOLO foi ao experimentar várias técnicas e modelos de IA. Ele ficou impressionado com sua velocidade e precisão, o que o inspirou a mergulhar mais fundo em tarefas de visão computacional, como detecção de objetos. Recentemente, Ao Wang contribuiu para o YOLOv10, uma versão recente do modelo YOLO. Sua pesquisa se concentrou em otimizar o modelo para ser mais rápido e preciso.

A principal diferença entre IA generativa e Visão de IA

Em seguida, o painel começou a discutir a IA generativa, e Jing Qiu apontou que a IA generativa e a IA de Visão têm propósitos muito diferentes. A IA generativa cria ou gera coisas como texto, imagens e vídeos, enquanto a IA de Visão analisa o que já existe, principalmente imagens.

Glenn Jocher destacou que o tamanho também é uma grande diferença. Os modelos de IA generativa são massivos, muitas vezes contendo bilhões de parâmetros - configurações internas que ajudam o modelo a aprender com os dados. Os modelos de visão computacional são muito menores. Ele disse: “O menor modelo YOLO que temos é cerca de mil vezes menor do que o menor LLM [Modelo de Linguagem Grande]. Portanto, 3 milhões de parâmetros em comparação com três bilhões.”

__wf_reserved_inherit
Fig 3. A mesa redonda sobre IA generativa e Vision AI no YV24.

Jing Qiu acrescentou que os processos de treinamento e implementação de IA generativa e visão computacional também são muito diferentes. A IA generativa precisa de servidores enormes e poderosos para funcionar. Modelos como o YOLO, por outro lado, são construídos para eficiência e podem ser treinados e implementados em hardware padrão. Isso torna os modelos Ultralytics YOLO mais práticos para uso no mundo real.

Embora sejam diferentes, esses dois campos estão começando a se entrelaçar. Glenn Jocher explicou que a IA Generativa está trazendo novos avanços para a IA de Visão, tornando os modelos mais inteligentes e eficientes. 

O impacto da IA generativa na visão computacional

A IA generativa avançou rapidamente, e esses avanços estão influenciando muitas outras áreas da inteligência artificial, incluindo a visão computacional. Em seguida, vamos analisar algumas percepções fascinantes do painel sobre isso.

Avanços de hardware estão permitindo inovações em IA

No início do painel, Glenn Jocher explicou que as ideias de aprendizado de máquina existem há muito tempo, mas os computadores não eram poderosos o suficiente para fazê-las funcionar. As ideias de IA precisavam de hardware mais potente para se tornarem realidade.

A ascensão das GPUs (Unidades de Processamento Gráfico) nos últimos 20 anos com capacidades de processamento paralelo mudou tudo. Elas tornaram o treinamento de modelos de IA muito mais rápido e eficiente, o que permitiu que o aprendizado profundo se desenvolvesse em um ritmo acelerado.

Atualmente, chips de IA como as TPUs (Unidades de Processamento Tensoriais) e GPUs otimizadas usam menos energia ao lidar com modelos maiores e mais complexos. Isso tornou a IA mais acessível e útil em aplicações do mundo real.

A cada nova melhoria de hardware, tanto a IA generativa quanto as aplicações de visão computacional estão se tornando mais poderosas. Esses avanços estão tornando a IA em tempo real mais rápida, eficiente e pronta para uso em mais setores.

Como a IA generativa está moldando os modelos de detecção de objetos

Quando questionado sobre como a IA generativa está a influenciar a visão computacional, Jing Qiu disse que os transformers - modelos que ajudam a IA a concentrar-se nas partes mais importantes de uma imagem - mudaram a forma como a IA entende e processa imagens. O primeiro grande passo foi o DETR (Detection Transformer), que usou esta nova abordagem para a deteção de objetos. Melhorou a precisão, mas teve problemas de desempenho que o tornaram mais lento em alguns casos.

Para resolver isto, os investigadores criaram modelos híbridos como o RT-DETR. Estes modelos combinam Redes Neurais Convolucionais (CNNs, que são modelos de aprendizagem profunda que aprendem e extraem automaticamente características das imagens) e transformadores, equilibrando velocidade e precisão. Esta abordagem aproveita os benefícios dos transformadores, ao mesmo tempo que torna a detecção de objetos mais rápida.

Curiosamente, o YOLOv10 usa camadas de atenção baseadas em transformadores (partes do modelo que atuam como um holofote para destacar as áreas mais importantes em uma imagem, ignorando detalhes menos relevantes) para impulsionar seu desempenho. 

Ao Wang também mencionou como a IA generativa está mudando a forma como os modelos são treinados. Técnicas como a modelagem de imagem mascarada ajudam a IA a aprender com imagens de forma mais eficiente, reduzindo a necessidade de grandes conjuntos de dados rotulados manualmente. Isso torna o treinamento de visão computacional mais rápido e menos intensivo em recursos.

O futuro da IA generativa e da Visão de IA 

Outra ideia chave que o painel discutiu foi como a IA generativa e a Vision AI podem se unir para construir modelos mais capazes. Glenn Jocher explicou que, embora essas duas abordagens tenham diferentes pontos fortes, combiná-las pode abrir novas possibilidades. 

Por exemplo, os modelos de Vision AI como o YOLO decompõem frequentemente uma imagem numa grelha para identificar objetos. Este método baseado em grelha pode ajudar os modelos de linguagem a melhorar a sua capacidade de identificar detalhes e descrevê-los - um desafio que muitos modelos de linguagem enfrentam atualmente. Essencialmente, a fusão destas técnicas pode levar a sistemas que consigam detetar com precisão e explicar claramente o que veem.

__wf_reserved_inherit
Fig 4. O futuro da IA generativa e Vision AI. Imagem do autor.

Principais conclusões

A IA generativa e a visão computacional estão avançando juntas. Enquanto a IA generativa cria imagens e vídeos, ela também aprimora a análise de imagem e vídeo, trazendo novas ideias inovadoras que podem tornar os modelos de Visão de IA mais precisos e eficientes. 

Nesta perspicaz mesa redonda do YV24, Glenn Jocher, Jing Qiu e Ao Wang compartilharam suas ideias sobre como essas tecnologias estão moldando o futuro. Com melhor hardware de IA, a IA generativa e a Visão de IA continuarão a evoluir, levando a inovações ainda maiores. Esses dois campos estão trabalhando juntos para criar uma IA mais inteligente, rápida e útil para o dia a dia.

Junte-se à nossa comunidade e explore nosso repositório GitHub para saber mais sobre Visão de IA. Confira nossas opções de licenciamento para iniciar seus projetos de visão computacional. Interessado em inovações como IA na indústria ou visão computacional em direção autônoma? Visite nossas páginas de soluções para descobrir mais. 

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência