Descubra informações interessantes de um painel de discussão no YOLO Vision 2024. Explore a forma como a IA generativa está a moldar o caminho a seguir para os modelos de IA de visão em tempo real.
Descubra informações interessantes de um painel de discussão no YOLO Vision 2024. Explore a forma como a IA generativa está a moldar o caminho a seguir para os modelos de IA de visão em tempo real.
A IA generativa é um ramo da inteligência artificial (IA) que cria novos conteúdos, como imagens, texto ou áudio, aprendendo padrões de dados existentes. Graças aos avanços recentes, agora ela pode ser usada para produzir conteúdo altamente realista que muitas vezes imita a criatividade humana.
No entanto, o impacto da IA generativa vai para além da simples criação de conteúdos. À medida que os modelos de visão por computador em tempo real, como os modelosUltralytics YOLO , continuam a evoluir, a IA generativa está também a redefinir a forma como os dados visuais são processados e aumentados, abrindo caminho para aplicações inovadoras em cenários do mundo real.
Esta nova mudança tecnológica foi um tema de conversa interessante no YOLO Vision 2024 (YV24), um evento híbrido anual organizado pela Ultralytics. O YV24 reuniu entusiastas da IA e líderes da indústria para discutir os mais recentes avanços na visão computacional. O evento centrou-se na inovação, na eficiência e no futuro das soluções de IA em tempo real.
Um dos principais destaques do evento foi um painel de discussão sobre YOLO na era da IA generativa. O painel contou com a participação de Glenn Jocher, fundador e diretor executivo da Ultralytics, Jing Qiu, engenheiro sénior de aprendizagem automática da Ultralytics, e Ao Wang da Universidade de Tsinghua. Exploraram a forma como a IA generativa está a influenciar a visão por computador e os desafios da construção de modelos práticos de IA.
Neste artigo, revisitaremos os principais insights de sua discussão e analisaremos mais de perto como a IA generativa está transformando a Visão de IA.
Para além de Glenn Jocher, muitos engenheiros qualificados desempenharam um papel vital no desenvolvimento dos modelosYOLO Ultralytics . Um deles, Jing Qiu, contou o seu início inesperado com o YOLO. Explicou que a sua paixão pela IA começou durante os seus anos de faculdade. Passou uma quantidade significativa de tempo a explorar e a aprender sobre este domínio. Jing Qiu recordou como estabeleceu contacto com Glenn Jocher no GitHub e se envolveu em vários projectos de IA.
Acrescentando ao que Jing Qiu disse, Glenn Jocher descreveu o GitHub como "uma maneira incrível de compartilhar - onde pessoas que você nunca conheceu se unem para ajudar umas às outras, contribuindo para o trabalho umas das outras. É uma ótima comunidade e uma ótima maneira de começar na IA."

O interesse de Jing Qiu pela IA e o seu trabalho em Ultralytics YOLOv5 ajudaram a aperfeiçoar o modelo. Mais tarde, desempenhou um papel fundamental no desenvolvimento do Ultralytics YOLOv8que introduziu mais melhorias. Descreveu-a como uma viagem incrível. Atualmente, Jing Qiu continua a melhorar e a trabalhar em modelos como o Ultralytics YOLO11.
Juntando-se ao painel de discussão remotamente da China, Ao Wang se apresentou como um estudante de doutorado. Inicialmente, ele estudou engenharia de software, mas sua paixão por IA o levou a mudar para visão computacional e aprendizado profundo.
O seu primeiro encontro com o famoso modelo YOLO foi durante a experimentação de várias técnicas e modelos de IA. Ficou impressionado com a sua velocidade e precisão, o que o inspirou a aprofundar as tarefas de visão por computador, como a deteção de objectos. Recentemente, Ao Wang contribuiu para o YOLOv10, uma versão recente do modelo YOLO . A sua investigação centrou-se na otimização do modelo para que fosse mais rápido e mais preciso.
Em seguida, o painel começou a discutir a IA generativa, e Jing Qiu apontou que a IA generativa e a IA de Visão têm propósitos muito diferentes. A IA generativa cria ou gera coisas como texto, imagens e vídeos, enquanto a IA de Visão analisa o que já existe, principalmente imagens.
Glenn Jocher salientou que o tamanho também é uma grande diferença. Os modelos de IA generativa são enormes, contendo frequentemente milhares de milhões de parâmetros - definições internas que ajudam o modelo a aprender com os dados. Os modelos de visão por computador são muito mais pequenos. O modelo YOLO mais pequeno que temos é cerca de mil vezes mais pequeno do que o LLM [Large Language Model] mais pequeno. Portanto, 3 milhões de parâmetros em comparação com três mil milhões".

Jing Qiu acrescentou que os processos de formação e implementação da IA generativa e da visão por computador são também muito diferentes. A IA generativa necessita de servidores enormes e potentes para funcionar. Modelos como o YOLO, por outro lado, são construídos para serem eficientes e podem ser treinados e implementados em hardware padrão. Este facto torna os modelos Ultralytics YOLO mais práticos para utilização no mundo real.
Embora sejam diferentes, esses dois campos estão começando a se entrelaçar. Glenn Jocher explicou que a IA Generativa está trazendo novos avanços para a IA de Visão, tornando os modelos mais inteligentes e eficientes.
A IA generativa avançou rapidamente, e esses avanços estão influenciando muitas outras áreas da inteligência artificial, incluindo a visão computacional. Em seguida, vamos analisar algumas percepções fascinantes do painel sobre isso.
No início do painel, Glenn Jocher explicou que as ideias de aprendizado de máquina existem há muito tempo, mas os computadores não eram poderosos o suficiente para fazê-las funcionar. As ideias de IA precisavam de hardware mais potente para se tornarem realidade.
A ascensão das GPUs (Unidades de Processamento Gráfico) nos últimos 20 anos com capacidades de processamento paralelo mudou tudo. Elas tornaram o treinamento de modelos de IA muito mais rápido e eficiente, o que permitiu que o aprendizado profundo se desenvolvesse em um ritmo acelerado.
Atualmente, os chips de IA, como as TPUs (Tensor Processing Units) e as GPUs optimizadas, utilizam menos energia enquanto lidam com modelos maiores e mais complexos. Isto tornou a IA mais acessível e útil em aplicações do mundo real.
A cada nova melhoria de hardware, tanto a IA generativa quanto as aplicações de visão computacional estão se tornando mais poderosas. Esses avanços estão tornando a IA em tempo real mais rápida, eficiente e pronta para uso em mais setores.
Quando questionado sobre como a IA generativa está a influenciar a visão computacional, Jing Qiu disse que os transformers - modelos que ajudam a IA a concentrar-se nas partes mais importantes de uma imagem - mudaram a forma como a IA entende e processa imagens. O primeiro grande passo foi o DETR (Detection Transformer), que usou esta nova abordagem para a deteção de objetos. Melhorou a precisão, mas teve problemas de desempenho que o tornaram mais lento em alguns casos.
Para resolver este problema, os investigadores criaram modelos híbridos como o RT-DETR. Estes modelos combinam Redes Neuronais Convolucionais (CNNs, que são modelos de aprendizagem profunda que aprendem e extraem automaticamente caraterísticas de imagens) e transformadores, equilibrando velocidade e precisão. Esta abordagem aproveita as vantagens dos transformadores, tornando a deteção de objectos mais rápida.
Curiosamente, YOLOv10 utiliza camadas de atenção baseadas em transformadores (partes do modelo que actuam como um holofote para realçar as áreas mais importantes de uma imagem, ignorando os detalhes menos relevantes) para melhorar o seu desempenho.
Ao Wang também mencionou como a IA generativa está mudando a forma como os modelos são treinados. Técnicas como a modelagem de imagem mascarada ajudam a IA a aprender com imagens de forma mais eficiente, reduzindo a necessidade de grandes conjuntos de dados rotulados manualmente. Isso torna o treinamento de visão computacional mais rápido e menos intensivo em recursos.
Outra ideia chave que o painel discutiu foi como a IA generativa e a Vision AI podem se unir para construir modelos mais capazes. Glenn Jocher explicou que, embora essas duas abordagens tenham diferentes pontos fortes, combiná-las pode abrir novas possibilidades.
Por exemplo, os modelos de IA de visão, como o YOLO , dividem frequentemente uma imagem numa grelha para identificar objectos. Este método baseado em grelhas pode ajudar os modelos de linguagem a melhorar a sua capacidade de identificar pormenores e de os descrever - um desafio que muitos modelos de linguagem enfrentam atualmente. Essencialmente, a fusão destas técnicas poderá conduzir a sistemas capazes de detect com precisão e explicar claramente o que vêem.

A IA generativa e a visão computacional estão avançando juntas. Enquanto a IA generativa cria imagens e vídeos, ela também aprimora a análise de imagem e vídeo, trazendo novas ideias inovadoras que podem tornar os modelos de Visão de IA mais precisos e eficientes.
Nesta perspicaz mesa redonda do YV24, Glenn Jocher, Jing Qiu e Ao Wang compartilharam suas ideias sobre como essas tecnologias estão moldando o futuro. Com melhor hardware de IA, a IA generativa e a Visão de IA continuarão a evoluir, levando a inovações ainda maiores. Esses dois campos estão trabalhando juntos para criar uma IA mais inteligente, rápida e útil para o dia a dia.
Junte-se à nossa comunidade e explore nosso repositório GitHub para saber mais sobre Visão de IA. Confira nossas opções de licenciamento para iniciar seus projetos de visão computacional. Interessado em inovações como IA na indústria ou visão computacional em direção autônoma? Visite nossas páginas de soluções para descobrir mais.