Eventos

A IA generativa está mudando o caminho para a visão computacional

Descubra insights interessantes de um painel de discussão no YOLO Vision 2024. Explore como a IA generativa está moldando o futuro para modelos de Vision AI em tempo real.

ABAbirami Vina

5 min readMarch 24, 2025

Painel de discussão sobre IA generativa e Vision AI no YOLO Vision 2024

A IA generativa é um ramo da inteligência artificial (IA) que cria novos conteúdos, como imagens, texto ou áudio, ao aprender padrões a partir de dados existentes. Graças a avanços recentes, ela agora pode ser usada para produzir conteúdo altamente realista que frequentemente imita a criatividade humana.

No entanto, o impacto da IA generativa vai além da simples criação de conteúdo. À medida que modelos de visão computacional em tempo real, como os modelos Ultralytics YOLO, continuam a evoluir, a IA generativa também está redefinindo a forma como dados visuais são processados e aumentados, abrindo caminho para aplicações inovadoras em cenários do mundo real.

Esta nova mudança tecnológica foi um tópico interessante de conversa no YOLO Vision 2024 (YV24), um evento híbrido anual organizado pela Ultralytics. O YV24 reuniu entusiastas de IA e líderes do setor para discutir as mais recentes descobertas em visão computacional. O evento focou em inovação, eficiência e no futuro das soluções de IA em tempo real.

Um dos principais destaques do evento foi um painel de discussão sobre YOLO na Era da IA Generativa. O painel contou com a presença de Glenn Jocher, Fundador e CEO da Ultralytics, Jing Qiu, Engenheiro Sênior de Machine Learning da Ultralytics, e Ao Wang da Universidade Tsinghua. Eles exploraram como a IA generativa está influenciando a visão computacional e os desafios de construir modelos de IA práticos.

Neste artigo, vamos rever os principais insights da discussão deles e examinar mais de perto como a IA generativa está transformando a IA de Visão.

Link to this sectionDesenvolvendo os modelos Ultralytics YOLO#

Ao lado de Glenn Jocher, muitos engenheiros qualificados desempenharam um papel vital no desenvolvimento dos modelos Ultralytics YOLO. Um deles, Jing Qiu, relembrou seu início inesperado com o YOLO. Ele explicou que sua paixão pela IA começou durante seus anos de faculdade. Ele dedicou uma quantidade significativa de tempo explorando e aprendendo sobre a área. Jing Qiu lembrou como se conectou com Glenn Jocher no GitHub e se envolveu em vários projetos de IA.

Complementando o que Jing Qiu disse, Glenn Jocher descreveu o GitHub como "uma forma incrível de compartilhar - onde pessoas que você nunca conheceu se reúnem para ajudar umas às outras, contribuindo para o trabalho dos outros. É uma ótima comunidade e uma maneira realmente excelente de começar na IA."

Glenn Jocher e Jing Qiu falando no palco da YV24

Fig 1. Glenn Jocher e Jing Qiu falando no palco do YV24.

O interesse de Jing Qiu em IA e seu trabalho no Ultralytics YOLOv5 ajudaram a refinar o modelo. Mais tarde, ele desempenhou um papel fundamental no desenvolvimento do Ultralytics YOLOv8, que introduziu outras melhorias. Ele descreveu isso como uma jornada incrível. Hoje, Jing Qiu continua a aprimorar e trabalhar em modelos como o Ultralytics YOLO11.

Link to this sectionYOLOv10: Otimizado para desempenho no mundo real#

Juntando-se ao painel remotamente da China, Ao Wang apresentou-se como um estudante de doutorado. Inicialmente, ele estudou engenharia de software, mas sua paixão pela IA o levou a mudar para a visão computacional e o deep learning.

Seu primeiro contato com o famoso modelo YOLO ocorreu enquanto ele experimentava várias técnicas e modelos de IA. Ele ficou impressionado com a velocidade e a precisão do modelo, o que o inspirou a se aprofundar em tarefas de visão computacional como detecção de objetos. Recentemente, Ao Wang contribuiu para o YOLOv10, uma versão recente do modelo YOLO. Sua pesquisa focou na otimização do modelo para ser mais rápido e mais preciso.

Link to this sectionA principal diferença entre a IA generativa e a IA de Visão#

Em seguida, o painel começou a discutir a IA generativa, e Jing Qiu apontou que a IA generativa e a IA de Visão têm propósitos muito diferentes. A IA generativa cria ou gera coisas como texto, imagens e vídeos, enquanto a IA de Visão analisa o que já existe, principalmente imagens.

Glenn Jocher destacou que o tamanho também é uma grande diferença. Os modelos de IA generativa são enormes, frequentemente contendo bilhões de parâmetros - configurações internas que ajudam o modelo a aprender com os dados. Os modelos de visão computacional são muito menores. Ele disse: “O menor modelo YOLO que temos é cerca de mil vezes menor que o menor LLM [Grande Modelo de Linguagem]. Então, 3 milhões de parâmetros em comparação com três bilhões”.

O painel de discussão sobre IA generativa e Vision AI na YV24

Fig 2. O painel de discussão sobre IA generativa e IA de Visão no YV24.

Jing Qiu acrescentou que os processos de treinamento e implantação da IA generativa e da visão computacional também são muito diferentes. A IA generativa precisa de servidores enormes e poderosos para funcionar. Modelos como o YOLO, por outro lado, são construídos para eficiência e podem ser treinados e implantados em hardware padrão. Isso torna os modelos Ultralytics YOLO mais práticos para uso no mundo real.

Mesmo sendo diferentes, esses dois campos estão começando a se entrelaçar. Glenn Jocher explicou que a IA generativa está trazendo novos avanços para a IA de Visão, tornando os modelos mais inteligentes e eficientes.

Link to this sectionO impacto da IA generativa na visão computacional#

A IA generativa avançou rapidamente, e esses avanços estão influenciando muitas outras áreas da inteligência artificial, incluindo a visão computacional. A seguir, vamos percorrer alguns insights fascinantes do painel sobre isso.

Link to this sectionOs avanços de hardware estão possibilitando inovações em IA#

Logo no início do painel, Glenn Jocher explicou que as ideias de machine learning existem há muito tempo, mas os computadores não eram poderosos o suficiente para fazê-las funcionar. As ideias de IA precisavam de hardware mais forte para se tornarem realidade.

A ascensão das GPUs (Unidades de Processamento Gráfico) nos últimos 20 anos, com capacidades de processamento paralelo, mudou tudo. Elas tornaram o treinamento de modelos de IA muito mais rápido e eficiente, o que permitiu que o deep learning se desenvolvesse em um ritmo acelerado.

Hoje em dia, chips de IA como TPUs (Unidades de Processamento de Tensor) e GPUs otimizadas consomem menos energia ao lidar com modelos maiores e mais complexos. Isso tornou a IA mais acessível e útil em aplicações do mundo real.

Com cada nova melhoria de hardware, tanto as aplicações de IA generativa quanto as de visão computacional estão se tornando mais poderosas. Esses avanços estão tornando a IA em tempo real mais rápida, mais eficiente e pronta para uso em mais setores.

Link to this sectionComo a IA generativa está moldando modelos de detecção de objetos#

Quando perguntado sobre como a IA generativa está influenciando a visão computacional, Jing Qiu disse que os transformers - modelos que ajudam a IA a focar nas partes mais importantes de uma imagem - mudaram a forma como a IA entende e processa imagens. O primeiro grande passo foi o DETR (Detection Transformer), que usou essa nova abordagem para detecção de objetos. Ele melhorou a precisão, mas tinha problemas de desempenho que o tornavam mais lento em alguns casos.

Para resolver isso, pesquisadores criaram modelos híbridos como o RT-DETR. Esses modelos combinam Redes Neurais Convolucionais (CNNs, que são modelos de deep learning que aprendem e extraem recursos de imagens automaticamente) e transformers, equilibrando velocidade e precisão. Essa abordagem aproveita os benefícios dos transformers enquanto torna a detecção de objetos mais rápida.

Curiosamente, o YOLOv10 usa camadas de atenção baseadas em transformers (partes do modelo que funcionam como um holofote para destacar as áreas mais importantes em uma imagem enquanto ignora detalhes menos relevantes) para impulsionar seu desempenho.

Ao Wang também mencionou como a IA generativa está mudando a forma como os modelos são treinados. Técnicas como masked image modeling ajudam a IA a aprender a partir de imagens de forma mais eficiente, reduzindo a necessidade de grandes conjuntos de dados rotulados manualmente. Isso torna o treinamento de visão computacional mais rápido e menos intensivo em recursos.

Link to this sectionO futuro da IA generativa e da IA de Visão#

Outra ideia chave discutida pelo painel foi como a IA generativa e a IA de Visão podem se unir para construir modelos mais capazes. Glenn Jocher explicou que, embora essas duas abordagens tenham pontos fortes diferentes, combiná-las pode abrir novas possibilidades.

Por exemplo, modelos de IA de Visão como o YOLO frequentemente dividem uma imagem em uma grade para identificar objetos. Esse método baseado em grade pode ajudar modelos de linguagem a melhorar sua capacidade tanto de localizar detalhes quanto de descrevê-los - um desafio que muitos modelos de linguagem enfrentam hoje. Em essência, fundir essas técnicas pode levar a sistemas capazes de detectar com precisão e explicar claramente o que veem.

O futuro da IA generativa e da Vision AI

Fig 3. O futuro da IA generativa e da IA de Visão. Imagem pelo autor.

Link to this sectionPrincipais pontos#

A IA generativa e a visão computacional estão avançando juntas. Embora a IA generativa crie imagens e vídeos, ela também melhora a análise de imagens e vídeos ao trazer novas ideias inovadoras que podem tornar os modelos de IA de Visão mais precisos e eficientes.

Neste painel esclarecedor do YV24, Glenn Jocher, Jing Qiu e Ao Wang compartilharam suas opiniões sobre como essas tecnologias estão moldando o futuro. Com um hardware de IA melhor, a IA generativa e a IA de Visão continuarão a evoluir, levando a inovações ainda maiores. Esses dois campos estão trabalhando juntos para criar uma IA mais inteligente, mais rápida e mais útil para a vida cotidiana.

Junte-se à nossa comunidade e explore nosso repositório no GitHub para saber mais sobre IA de Visão. Confira nossas opções de licenciamento para dar o pontapé inicial em seus projetos de visão computacional. Está interessado em inovações como IA na manufatura ou visão computacional em veículos autônomos? Visite nossas páginas de soluções para descobrir mais.