Principais destaques da Ultralytics na YOLO Vision 2025 Shenzhen!
Revisite os principais momentos da YOLO Vision 2025 Shenzhen, onde a Ultralytics reuniu inovadores, parceiros e a comunidade de IA para um dia de inspiração.

No dia 26 de outubro, o YOLO Vision 2025 (YV25) fez sua estreia na China, no Edifício B10, no OCT Creative Culture Park em Shenzhen. O evento de visão computacional e IA híbrida da Ultralytics reuniu mais de 200 participantes presencialmente, com muitos outros acompanhando online via YouTube e Bilibili.
A transmissão ao vivo do YV25 Shenzhen já ultrapassou 3.500 visualizações no YouTube e continua a ganhar atenção à medida que os destaques do evento são compartilhados pela comunidade. Foi um dia repleto de ideias, conversas e exploração prática sobre o futuro da visão computacional com IA.
O dia começou com uma calorosa recepção da nossa anfitriã, Huang Xueying, que convidou todos a se conectarem, aprenderem e participarem das discussões ao longo do evento. Ela explicou que este foi o segundo YOLO Vision do ano, após a edição de Londres em setembro, e compartilhou o quão empolgante foi reunir a comunidade de visão computacional com IA novamente aqui em Shenzhen.
Neste artigo, revisitaremos os destaques do dia, incluindo as atualizações dos modelos, as sessões com os palestrantes, as demonstrações ao vivo e os momentos da comunidade que uniram todos. Vamos começar!
Link to this sectionA jornada dos modelos Ultralytics YOLO até agora#
A primeira palestra do dia foi conduzida pelo fundador e CEO da Ultralytics, Glenn Jocher, que compartilhou como os modelos Ultralytics YOLO evoluíram de um avanço na pesquisa para alguns dos modelos de visão computacional com IA mais utilizados no mundo. Glenn explicou que seu trabalho inicial focou em tornar o YOLO mais fácil de usar.
Ele portou os modelos para PyTorch, melhorou a documentação e compartilhou tudo abertamente para que desenvolvedores de todo o mundo pudessem construir sobre isso. Como ele relembrou: “Mergulhei de cabeça em 2018. Decidi que era aqui que estava o meu futuro.” O que começou como um esforço pessoal rapidamente se tornou um movimento global de código aberto.

Fig 1. Glenn Jocher falando no palco no YOLO Vision 2025 Shenzhen.
Hoje, os modelos Ultralytics YOLO realizam bilhões de inferências todos os dias, e Glenn enfatizou que essa escala só foi possível por causa das pessoas que ajudaram a construí-la. Pesquisadores, engenheiros, estudantes, entusiastas e colaboradores de código aberto de todo o mundo transformaram o YOLO no que ele é hoje.
Como disse Glenn: “Há quase mil deles [colaboradores] por aí e somos muito gratos por isso. Não estaríamos onde estamos hoje sem essas pessoas.”
Link to this sectionAtualizações sobre o Ultralytics YOLO26#
A primeira visão do Ultralytics YOLO26 foi compartilhada no início deste ano no evento YOLO Vision 2025 London, onde foi apresentado como o próximo grande passo na família de modelos Ultralytics YOLO. No YV25 Shenzhen, Glenn forneceu uma atualização sobre o progresso desde aquele anúncio e deu à comunidade de IA uma visão mais detalhada de como o modelo tem evoluído.
O YOLO26 foi projetado para ser menor, mais rápido e mais preciso, mantendo-se prático para o uso no mundo real. Glenn explicou que a equipe passou o último ano refinando a arquitetura, avaliando o desempenho em diferentes dispositivos e incorporando percepções da pesquisa e do feedback da comunidade. O objetivo é oferecer um desempenho de ponta sem tornar os modelos mais difíceis de implantar.
Link to this sectionO que esperar do Ultralytics YOLO26#
Uma das principais atualizações que Glenn destacou é que o YOLO26 vem acompanhado de uma campanha dedicada de ajuste de hiperparâmetros, mudando do treinamento inteiramente do zero para o ajuste fino em conjuntos de dados maiores. Ele explicou que essa abordagem está muito mais alinhada com casos de uso reais.
Aqui estão algumas das outras melhorias importantes compartilhadas no evento:
- Arquitetura simplificada: A camada Distribution Focal Loss (DFL) foi removida. Isso torna os modelos mais simples e rápidos de executar, mantendo o mesmo nível de precisão.
- Suporte a inferência de ponta a ponta: O YOLO26 é nativamente de ponta a ponta, o que significa que pode rodar sem uma camada NMS separada. Isso torna a exportação para formatos como ONNX e TensorRT e a implantação em hardware de borda muito mais fácil.
- Melhor desempenho em pequenos objetos: Estratégias de perda atualizadas ajudam o modelo a detectar objetos minúsculos de forma mais confiável, o que tem sido um desafio persistente na visão computacional.
- Um novo otimizador híbrido: O YOLO26 inclui um novo otimizador inspirado em pesquisas recentes de treinamento de modelos de linguagem grande, que melhora a precisão do modelo e agora está integrado diretamente no pacote Python da Ultralytics.
Link to this sectionO Ultralytics YOLO26 é o próximo passo na IA de visão prática#
Juntas, essas atualizações resultam em modelos até 43% mais rápidos na CPU, sendo também mais precisos que o Ultralytics YOLO11, tornando o YOLO26 especialmente impactante para dispositivos embarcados, robótica e sistemas de borda.
O YOLO26 suportará todas as mesmas tarefas e tamanhos de modelo atualmente disponíveis no YOLO11, resultando em 25 variantes de modelo em toda a família. Isso inclui modelos para detecção, segmentação, estimativa de pose, caixas delimitadoras orientadas e classificação, variando de nano até extra grande.
A equipe também está trabalhando em cinco variantes de prompt. Esses são modelos que podem receber um prompt de texto e retornar caixas delimitadoras diretamente, sem a necessidade de treinamento.
É um passo inicial em direção a fluxos de trabalho de visão mais flexíveis e baseados em instruções, que são mais fáceis de adaptar a diferentes casos de uso. Os modelos YOLO26 ainda estão em desenvolvimento ativo, mas os resultados iniciais de desempenho são fortes e a equipe está trabalhando para lançá-los em breve.
Link to this sectionUm olhar sobre a Plataforma Ultralytics#
Após a atualização do YOLO26, Glenn deu as boas-vindas a Prateek Bhatnagar, nosso Chefe de Engenharia de Produto, para realizar uma demonstração ao vivo da Plataforma Ultralytics. Esta plataforma está sendo construída para unir as partes fundamentais do fluxo de trabalho de visão computacional, incluindo a exploração de conjuntos de dados, anotação de imagens, treinamento de modelos e comparação de resultados.

Fig 2. Prateek Bhatnagar demonstrando a Plataforma Ultralytics.
Prateek apontou que a plataforma permanece fiel às raízes de código aberto da Ultralytics, introduzindo dois espaços comunitários, uma comunidade de conjuntos de dados e uma comunidade de projetos, onde os desenvolvedores podem contribuir, reutilizar e melhorar o trabalho uns dos outros. Durante a demonstração, ele exibiu anotação assistida por IA, treinamento fácil na nuvem e a capacidade de ajustar modelos diretamente da comunidade, sem a necessidade de recursos de GPU locais.
A plataforma está atualmente em desenvolvimento. Prateek incentivou o público a ficar atento aos anúncios e observou que a equipe está crescendo na China para apoiar o lançamento.
Link to this sectionVozes por trás do YOLO: O painel dos autores#
Com o ímpeto crescendo, o evento passou para um painel de discussão com vários dos pesquisadores por trás de diferentes modelos YOLO. O painel incluiu Glenn Jocher, juntamente com Jing Qiu, nossa Engenheira Sênior de Machine Learning; Chen Hui, Engenheiro de Machine Learning na Meta e um dos autores do YOLOv10; e Bo Zhang, Estrategista de Algoritmos no Meituan e um dos autores do YOLOv6.

Fig 3. Um painel sobre o desenvolvimento de modelos YOLO com Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu e Glenn Jocher.
A discussão focou em como o YOLO continua a evoluir através do uso no mundo real. Os palestrantes abordaram como o progresso é frequentemente impulsionado por desafios práticos de implantação, como executar eficientemente em dispositivos de borda, melhorar a detecção de pequenos objetos e simplificar a exportação de modelos.
Em vez de apenas perseguir a precisão, o painel observou a importância de equilibrar velocidade, usabilidade e confiabilidade em ambientes de produção. Outra conclusão compartilhada foi o valor da iteração e do feedback da comunidade.
Aqui estão alguns outros insights interessantes da conversa:
- A detecção de vocabulário aberto está ganhando força no ecossistema YOLO: Modelos mais recentes mostram como o alinhamento visão-linguagem e fluxos de trabalho baseados em prompts podem detectar objetos além de categorias fixas.
- A atenção leve está em ascensão: O painel discutiu como o uso de mecanismos de atenção eficientes, em vez de atenção total em tudo, pode aumentar a precisão mantendo a inferência leve o suficiente para dispositivos de borda.
- Itere cedo e com frequência com a comunidade: Os painelistas reforçaram uma mentalidade de construir-testar-melhorar, onde lançar modelos mais cedo e aprender com os usuários gera resultados mais fortes do que longos ciclos de desenvolvimento privado.
Link to this sectionLíderes de pensamento definindo o futuro da IA e da visão#
Em seguida, vamos dar uma olhada mais de perto em algumas das palestras principais no YV25 Shenzhen, onde líderes de toda a comunidade de IA compartilharam como a visão computacional com IA está evoluindo, desde humanos digitais e robótica até raciocínio multimodal e implantação eficiente na borda.
Link to this sectionEnsinando a IA a entender a experiência humana#
Em uma sessão perspicaz, o Dr. Peng Zhang do Alibaba Qwen Lab compartilhou como sua equipe está desenvolvendo grandes modelos de vídeo que podem gerar humanos digitais expressivos com movimento e controle mais naturais. Ele apresentou o Wan S2V e o Wan Animate, que usam referências de áudio ou movimento para produzir fala, gestos e animação realistas, abordando as limitações da geração puramente baseada em texto.

Fig 4. Peng Zhang explicando como grandes modelos de vídeo podem impulsionar humanos digitais.
O Dr. Zhang também falou sobre o progresso em direção a avatares interativos em tempo real, incluindo clonagem zero-shot de aparência e movimento, além de modelos leves que podem animar um rosto diretamente de uma câmera ao vivo, aproximando humanos digitais realistas de uma execução suave em dispositivos comuns.
Link to this sectionDa percepção à ação: A era da inteligência incorporada#
Um dos temas principais no YV25 Shenzhen foi a mudança de modelos de visão que simplesmente veem o mundo para sistemas que podem agir dentro dele. Em outras palavras, a percepção não é mais o fim do pipeline; ela está se tornando o início da ação.
Por exemplo, em sua palestra, Hu Chunxu da D-Robotics descreveu como seus kits de desenvolvimento e soluções SoC (system on a chip) integram sensoriamento, controle de movimento em tempo real e tomada de decisão em uma pilha unificada de hardware e software. Ao tratar a percepção e a ação como um ciclo de feedback contínuo, em vez de etapas separadas, sua abordagem apoia robôs que podem se mover, adaptar e interagir de forma mais confiável em ambientes reais.

Fig 5. Demonstração da D-Robotics no YOLO Vision 2025 em Shenzhen, China.
Alex Zhang do Baidu Paddle ecoou essa ideia em sua palestra, explicando como o YOLO e o PaddleOCR trabalham juntos para detectar objetos e então interpretar o texto e a estrutura ao redor deles. Isso permite que sistemas convertam imagens e documentos em informações estruturadas e utilizáveis para tarefas como logística, inspeções e processamento automatizado.
Link to this sectionInteligência na borda: IA eficiente para todos os dispositivos#
Outro tópico interessante no YV25 Shenzhen foi como a visão computacional com IA está se tornando mais eficiente e capaz em dispositivos de borda.
Paul Jung da DEEPX falou sobre a implantação de modelos YOLO diretamente em hardware embarcado, reduzindo a dependência da nuvem. Ao focar no baixo consumo de energia, inferência otimizada e ajuste de modelo consciente do hardware, a DEEPX permite a percepção em tempo real para drones, robôs móveis e sistemas industriais que operam em ambientes dinâmicos.
Da mesma forma, Liu Lingfei da Moore Threads compartilhou como a plataforma Moore Threads E300 integra computação de unidade central de processamento (CPU), unidade de processamento gráfico (GPU) e unidade de processamento neural (NPU) para fornecer inferência de visão de alta velocidade em dispositivos compactos.
A plataforma pode executar vários fluxos YOLO com altas taxas de quadros, e sua cadeia de ferramentas simplifica etapas como quantização, compilação estática e ajuste de desempenho. A Moore Threads também disponibilizou em código aberto uma ampla gama de modelos de visão computacional e exemplos de implantação para reduzir a barreira para os desenvolvedores.
Link to this sectionFundindo visão e linguagem para sistemas de IA mais inteligentes#
Até pouco tempo atrás, construir um único modelo que pudesse entender imagens e interpretar linguagem exigia grandes arquiteturas Transformer que eram caras de executar. No YV25 Shenzhen, Yue Ziyin da Yuanshi Intelligence deu uma visão geral do RWKV, uma arquitetura que combina as capacidades de raciocínio de contexto longo dos Transformers com a eficiência de modelos recorrentes.
Ele explicou como o Vision-RWKV aplica esse design à visão computacional ao processar imagens de uma forma que escala linearmente com a resolução. Isso o torna adequado para entradas de alta resolução e para dispositivos de borda onde a computação é limitada.
Yue também mostrou como o RWKV está sendo usado em sistemas de visão-linguagem, onde características da imagem são emparelhadas com a compreensão de texto para ir além da detecção de objetos, interpretando cenas, documentos e o contexto do mundo real.

Fig 6. Yue Ziyin falando sobre as aplicações do RWKV.
Link to this sectionEstandes e demonstrações ao vivo que deram vida à visão computacional com IA#
Enquanto as palestras no palco olhavam para onde a visão computacional com IA está indo, os estandes no salão mostravam como ela já está sendo usada hoje. Os participantes puderam ver modelos rodando ao vivo, comparar opções de hardware e conversar diretamente com as equipes que constroem esses sistemas.
Aqui está um vislumbre da tecnologia que estava sendo exibida:
- Plataformas de desenvolvedor e prototipagem: Seeed, M5Stack e Infermove exibiram placas de desenvolvimento compactas e kits iniciais que facilitam a experimentação com aplicativos baseados em YOLO e a rápida transição de ideias para demonstrações funcionais.
- Hardware de borda de alto desempenho: Hailo, DEEPX, Intel e Moore Threads demonstraram chips e módulos construídos para uma inferência rápida e eficiente.
- Fluxos de trabalho de visão e linguagem: Baidu Paddle e RWKV destacaram pilhas de software que podem detectar objetos e também ler, interpretar e raciocinar sobre o que aparece em uma imagem ou documento.
- Código aberto e ferramentas da comunidade: Ultralytics e Datawhale envolveram os desenvolvedores com demonstrações de modelos ao vivo, dicas de treinamento e orientação prática, reforçando como o conhecimento compartilhado acelera a inovação.

Fig 7. Um olhar sobre o estande da M5Stack no YV25 Shenzhen.
Link to this sectionConectando-se com a comunidade de visão computacional com IA#
Além de toda a tecnologia empolgante, uma das melhores partes do YV25 Shenzhen foi reunir a comunidade de visão computacional e a equipe da Ultralytics novamente pessoalmente. Ao longo do dia, as pessoas se reuniram em torno de demonstrações, compartilharam ideias durante os intervalos para café e continuaram as conversas muito depois que as palestras terminaram.
Pesquisadores, engenheiros, estudantes e construtores compararam notas, fizeram perguntas e trocaram experiências do mundo real, desde a implantação até o treinamento de modelos. E, graças à Cinco Jotas do Grupo Osborne, até trouxemos um toque da cultura espanhola para o evento com jamón recém-cortado, criando um momento caloroso de conexão. Um local bonito, um público entusiasmado e um sentimento compartilhado de progresso tornaram o dia verdadeiramente especial.
Link to this sectionPrincipais pontos#
Desde palestras inspiradoras até demonstrações práticas, o YOLO Vision 2025 Shenzhen capturou o espírito de inovação que define a comunidade Ultralytics. Ao longo do dia, palestrantes e participantes trocaram ideias, exploraram novas tecnologias e se conectaram por meio de uma visão compartilhada para o futuro da IA. Juntos, eles saíram energizados e prontos para o que vem a seguir com o Ultralytics YOLO.
Reimagine o que é possível com IA e visão computacional. Junte-se à nossa comunidade e ao nosso repositório GitHub para descobrir mais. Aprenda mais sobre aplicações como visão computacional na agricultura e IA no varejo. Explore nossas opções de licenciamento e comece hoje mesmo com a visão computacional!






