Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Principais destaques da Ultralytics no YOLO Vision 2025 Shenzhen!

Revisite os principais momentos do YOLO Vision 2025 Shenzhen, onde Ultralytics reuniu inovadores, parceiros e a comunidade de IA para um dia de inspiração.

Em 26 de outubro, YOLO Vision 2025 (YV25) fez a sua estreia na China no Edifício B10 do Parque de Cultura Criativa OCT em Shenzhen. O evento híbrido Vision AI da Ultralyticsreuniu mais de 200 participantes presencialmente, com muitos mais a juntarem-se online através do YouTube e do Bilibili. 

A transmissão em direto do YV25 Shenzhen já ultrapassou as 3.500 visualizações no YouTube e continua a ganhar atenção à medida que os destaques do evento são partilhados pela comunidade. Foi um dia repleto de ideias, conversas e exploração prática do caminho que a Vision AI está a seguir.

O dia começou com as calorosas boas-vindas do nosso anfitrião, Huang Xueying, que convidou toda a gente a ligar-se, a aprender e a participar nas discussões ao longo do evento. Ela explicou que este era o segundo YOLO Vision do ano, depois da edição de Londres em setembro, e partilhou o quão excitante era reunir novamente a comunidade Vision AI aqui em Shenzhen.

Neste artigo, vamos rever os destaques do dia, incluindo as actualizações de modelos, as sessões de oradores, as demonstrações ao vivo e os momentos da comunidade que juntaram toda a gente. Vamos começar!

O percurso dos modelosYOLO Ultralytics até à data

A primeira palestra do dia foi conduzida pelo fundador e CEO da Ultralytics , Glenn Jocher, que partilhou a forma como os modelosYOLO da Ultralytics evoluíram de uma descoberta de investigação para alguns dos modelos de IA de visão mais utilizados no mundo. Glenn explicou que o seu trabalho inicial se centrou em tornar YOLO mais fácil de utilizar. 

Ele portou os modelos para o PyTorch, melhorou a documentação e partilhou tudo abertamente para que os programadores de todo o mundo pudessem construir em cima dele. Como ele recorda, "entrei de cabeça em 2018. Decidi que era aqui que estava o meu futuro". O que começou como um esforço pessoal rapidamente se tornou um movimento global de código aberto.

Fig. 1. Glenn Jocher a discursar no palco do YOLO Vision 2025 Shenzhen.

Hoje em dia, os modelosYOLO Ultralytics permitem biliões de inferências todos os dias, e Glenn enfatizou que esta escala só foi possível graças às pessoas que ajudaram a construí-la. Pesquisadores, engenheiros, estudantes, amadores e colaboradores de código aberto de todo o mundo transformaram YOLO no que ele é hoje. 

Como Glenn disse, "Há quase mil deles [contribuidores] por aí e estamos muito gratos por isso. Não estaríamos aqui onde estamos hoje sem estas pessoas".

Actualizações sobre o Ultralytics YOLO26

O primeiro olhar sobre o Ultralytics YOLO26 foi partilhado no início deste ano no evento YOLO Vision 2025 London, onde foi apresentado como o próximo grande passo em frente na família de modelos Ultralytics YOLO . No YV25 Shenzhen, Glenn forneceu uma atualização sobre o progresso desde esse anúncio e deu à comunidade de IA uma visão mais próxima de como o modelo tem vindo a evoluir. 

O YOLO26 foi concebido para ser mais pequeno, mais rápido e mais preciso, mantendo-se prático para utilização no mundo real. Glenn explicou que a equipa passou o último ano a aperfeiçoar a arquitetura, a avaliar o desempenho em vários dispositivos e a incorporar conhecimentos provenientes da investigação e do feedback da comunidade. O objetivo é proporcionar um desempenho topo de gama sem dificultar a implementação dos modelos.

O que esperar do Ultralytics YOLO26

Uma das principais actualizações destacadas por Glenn é o facto de o YOLO26 estar associado a uma campanha dedicada de afinação de hiperparâmetros, passando do treino totalmente do zero para a afinação em conjuntos de dados maiores. Ele explicou que essa abordagem está muito mais alinhada com casos reais de uso no mundo real.

Eis algumas das outras melhorias importantes partilhadas no evento:

  • Arquitetura simplificada: A camada de Perda Focal de Distribuição (DFL) foi removida. Isto torna os modelos mais simples e rápidos de executar, mantendo o mesmo nível de precisão.
  • Suporte de inferência de ponta a ponta: O YOLO26 é nativamente de ponta a ponta, o que significa que pode ser executado sem uma camada NMS separada. Isso torna a exportação para formatos como ONNX e TensorRT e a implantação em hardware de ponta muito mais fácil.
  • Melhor desempenho de objectos pequenos: As estratégias de perda actualizadas ajudam o modelo detect objectos minúsculos de forma mais fiável, o que tem sido um desafio de longa data na visão computacional.
  • Um novo optimizador híbrido: O YOLO26 inclui um novo optimizador inspirado na recente investigação sobre o treino de modelos de linguagem de grande dimensão, que melhora a precisão do modelo e está agora integrado diretamente no pacotePython Ultralytics .

Ultralytics YOLO26 é o próximo passo na IA de visão prática

Em conjunto, estas actualizações resultam em modelos que são até 43% mais rápidos na CPU , sendo também mais precisos do que o Ultralytics YOLO11tornando o YOLO26 especialmente impactante para dispositivos incorporados, robótica e sistemas de ponta. 

O YOLO26 suportará todas as mesmas tarefas e tamanhos de modelos atualmente disponíveis no YOLO11, resultando em 25 variantes de modelos em toda a família. Isto inclui modelos para deteção, segmentação, estimativa de pose, caixas delimitadoras orientadas e classificação, variando de nano a extra grande. 

A equipa está também a trabalhar em cinco variantes que podem ser solicitadas. Trata-se de modelos que podem receber uma mensagem de texto e devolver diretamente as caixas delimitadoras, sem necessidade de formação. 

É um passo inicial em direção a fluxos de trabalho de visão mais flexíveis, baseados em instruções, que são mais fáceis de adaptar a diferentes casos de utilização. Os modelos YOLO26 ainda estão em desenvolvimento ativo, mas os primeiros resultados de desempenho são fortes e a equipa está a trabalhar para os lançar em breve.

Um olhar sobre a plataforma Ultralytics

Após a atualização do YOLO26, Glenn deu as boas-vindas a Prateek Bhatnagar, o nosso Chefe de Engenharia de Produtos, para fazer uma demonstração ao vivo da Plataforma Ultralytics . Esta plataforma está a ser construída para reunir as principais partes do fluxo de trabalho de visão computacional, incluindo a exploração de conjuntos de dados, anotação de imagens, modelos de treino e comparação de resultados.

Fig. 2. Prateek Bhatnagar apresentando a plataforma Ultralytics .

Prateek salientou que a plataforma se mantém fiel às raízes de código aberto da Ultralytics, introduzindo dois espaços comunitários, uma comunidade de conjuntos de dados e uma comunidade de projectos, onde os programadores podem contribuir, reutilizar e melhorar o trabalho uns dos outros. Durante a demonstração, ele apresentou a anotação assistida por IA, o treinamento fácil na nuvem e a capacidade de ajustar modelos diretamente da comunidade, sem precisar de recursos locais GPU .

A plataforma está atualmente em desenvolvimento. Prateek encorajou o público a estar atento aos anúncios e referiu que a equipa está a crescer na China para apoiar o lançamento.

Vozes por detrás de YOLO: O painel de autores

Com o ímpeto a aumentar, o evento passou a um painel de discussão com vários investigadores por detrás de diferentes modelos YOLO . O painel incluiu Glenn Jocher, juntamente com Jing Qiu, o nosso Engenheiro Sénior de Aprendizagem de Máquinas; Chen Hui, Engenheiro de Aprendizagem de Máquinas na Meta e um dos autores do YOLOv10; e Bo Zhang, Estratega de Algoritmos na Meituan e um dos autores do YOLOv6.

Fig. 3. Um painel sobre o desenvolvimento de modelos YOLO com Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu e Glenn Jocher.

A discussão centrou-se na forma como YOLO continua a evoluir através da utilização no mundo real. Os oradores abordaram a forma como o progresso é frequentemente impulsionado por desafios práticos de implementação, como a execução eficiente em dispositivos de ponta, a melhoria da deteção de pequenos objectos e a simplificação da exportação de modelos. 

Em vez de procurar apenas a precisão, o painel salientou a importância de equilibrar a velocidade, a facilidade de utilização e a fiabilidade em ambientes de produção. Outra lição partilhada foi o valor da iteração e do feedback da comunidade. 

Eis algumas outras ideias interessantes da conversa:

  • A deteção de vocabulário aberto está a ganhar força no ecossistema YOLO : Os modelos mais recentes mostram como o alinhamento visão-linguagem e os fluxos de trabalho baseados em pedidos podem detect objectos para além das categorias fixas.
  • A atenção leve está a aumentar: O painel discutiu a forma como a utilização de mecanismos de atenção eficientes, em vez da atenção plena em todo o lado, pode aumentar a precisão, mantendo a inferência suficientemente leve para dispositivos de ponta.
  • Iterar cedo e frequentemente com a comunidade: Os membros do painel reforçaram uma mentalidade de construir-testar-melhorar, em que o lançamento de modelos mais cedo e a aprendizagem com os utilizadores conduzem a resultados mais fortes do que os longos ciclos de desenvolvimento privado.

Líderes de opinião que definem o futuro da IA e da visão

Em seguida, vamos analisar mais detalhadamente algumas das palestras do YV25 Shenzhen, onde os líderes da comunidade de IA partilharam a forma como a visão da IA está a evoluir, desde os humanos digitais e a robótica até ao raciocínio multimodal e à implementação eficiente de limites.

Ensinar a IA a compreender a experiência humana

Numa sessão muito esclarecedora, o Dr. Peng Zhang, do Alibaba Qwen Lab, partilhou a forma como a sua equipa está a desenvolver grandes modelos de vídeo que podem gerar humanos digitais expressivos com movimentos e controlo mais naturais. Ele apresentou o Wan S2V e o Wan Animate, que usam referências de áudio ou movimento para produzir fala, gestos e animação realistas, abordando as limitações da geração puramente orientada por texto.

Fig. 4. Peng Zhang explica como os modelos de vídeo de grandes dimensões podem alimentar os seres humanos digitais.

O Dr. Zhang também falou sobre os progressos que estão a ser feitos no sentido de criar avatares interactivos em tempo real, incluindo a clonagem de aparência e movimento sem disparos e modelos leves que podem animar um rosto diretamente a partir de uma câmara em direto, tornando os seres humanos digitais realistas mais próximos de funcionarem sem problemas nos dispositivos do dia a dia.

Da perceção à ação: A era da inteligência incorporada

Um dos temas-chave do YV25 Shenzhen foi a passagem de modelos de visão que se limitam a ver o mundo para sistemas que podem atuar dentro dele. Por outras palavras, a perceção já não é o fim da linha de produção; está a tornar-se o início da ação.

Por exemplo, na sua apresentação, Hu Chunxu da D-Robotics descreveu a forma como os seus kits de desenvolvimento e soluções SoC (sistema num chip) integram a deteção, o controlo de movimentos em tempo real e a tomada de decisões numa pilha unificada de hardware e software. Ao tratar a perceção e a ação como um ciclo de feedback contínuo, em vez de fases separadas, a sua abordagem permite que os robôs se movam, se adaptem e interajam de forma mais fiável em ambientes reais.

Fig. 5. Demonstração da D-Robotics no YOLO Vision 2025 em Shenzhen, China.

Alex Zhang, do Baidu Paddle, fez eco desta ideia na sua palestra, explicando como YOLO e o PaddleOCR trabalham em conjunto para detect objectos e depois interpretar o texto e a estrutura à sua volta. Isto permite que os sistemas convertam imagens e documentos em informação utilizável e estruturada para tarefas como logística, inspecções e processamento automático. 

Inteligência na periferia: IA eficiente para todos os dispositivos

Outro tópico interessante no YV25 Shenzhen foi a forma como a IA de visão está a tornar-se mais eficiente e capaz em dispositivos de ponta

Paul Jung, da DEEPX, falou sobre a implementação de modelos YOLO diretamente em hardware incorporado, reduzindo a dependência da nuvem. Ao concentrar-se no baixo consumo de energia, na inferência optimizada e na afinação de modelos com reconhecimento de hardware, a DEEPX permite a perceção em tempo real para drones, robôs móveis e sistemas industriais que operam em ambientes dinâmicos.

Da mesma forma, Liu Lingfei, da Moore Threads, partilhou a forma como a plataforma Moore Threads E300 integra a unidade central de processamentoCPU), a unidade de processamento gráficoGPU) e a unidade de processamento neural (NPU) para fornecer inferência de visão a alta velocidade em dispositivos compactos. 

A plataforma pode executar vários fluxos YOLO a elevadas velocidades de fotogramas e a sua cadeia de ferramentas simplifica passos como a quantização, a compilação estática e a afinação do desempenho. A Moore Threads também abriu um vasto conjunto de modelos de visão por computador e exemplos de implementação para reduzir a barreira para os programadores.

Fusão da visão e da linguagem para sistemas de IA mais inteligentes

Até há pouco tempo, a construção de um único modelo capaz de compreender imagens e interpretar linguagem exigia arquitecturas de transformadores de grandes dimensões e de execução dispendiosa. No YV25 Shenzhen, Yue Ziyin da Yuanshi Intelligence apresentou uma visão geral do RWKV, uma arquitetura que combina as capacidades de raciocínio de contexto longo dos transformadores com a eficiência dos modelos recorrentes. 

Explicou como o Vision-RWKV aplica esta conceção à visão por computador, processando as imagens de uma forma que aumenta linearmente com a resolução. Isto torna-o adequado para entradas de alta resolução e para dispositivos de ponta onde a computação é limitada.

Yue também mostrou como a RWKV está a ser utilizada em sistemas de visão-linguagem, em que as caraterísticas da imagem são combinadas com a compreensão do texto para ir além da deteção de objectos e passar a interpretar cenas, documentos e contextos do mundo real. 

Fig. 6. Yue Ziyin a falar sobre as aplicações da RWKV.

Estandes e demonstrações ao vivo que deram vida ao Vision AI

Enquanto as palestras no palco se debruçaram sobre o futuro da IA de visão, os stands no piso mostraram como já está a ser utilizada atualmente. Os participantes puderam ver modelos a funcionar ao vivo, comparar opções de hardware e falar diretamente com as equipas que constroem estes sistemas.

Aqui está um vislumbre da tecnologia que estava a ser exibida:

  • Plataformas de desenvolvimento e prototipagem: A Seeed, a M5Stack e a Infermove apresentaram placas de desenvolvimento compactas e kits de iniciação que facilitam a experimentação de aplicações YOLO e passam rapidamente de ideias a demonstrações de trabalho.
  • Hardware de ponta de elevado desempenho: Hailo, DEEPX, Intel e Moore Threads demonstraram chips e módulos concebidos para uma inferência rápida e eficiente.
  • Fluxos de trabalho de visão e linguagem: O Baidu Paddle e o RWKV destacaram pilhas de software que podem detect objectos e também ler, interpretar e raciocinar sobre o que aparece numa imagem ou documento.
  • Ferramentas de código aberto e ferramentas da comunidade: Ultralytics e a Datawhale envolveram os programadores com demonstrações de modelos ao vivo, dicas de formação e orientação prática, reforçando a forma como o conhecimento partilhado acelera a inovação.
Fig. 6. Um olhar sobre o stand do M5Stack no YV25 Shenzhen.

Conectando-se com a comunidade de Visão de IA

Além de toda a tecnologia empolgante, uma das melhores partes do YV25 Shenzhen foi reunir novamente a comunidade de visão computacional e a equipa Ultralytics pessoalmente. Ao longo do dia, as pessoas reuniram-se em torno de demonstrações, partilharam ideias durante as pausas para café e continuaram as conversas muito depois do fim das palestras. 

Investigadores, engenheiros, estudantes e construtores compararam notas, colocaram questões e trocaram experiências do mundo real, desde a implementação à formação de modelos. E graças ao Cinco Jotas do Grupo Osborne, até trouxemos um toque de cultura espanhola ao evento com jamón acabado de cortar, criando um momento caloroso de ligação. Um belo local, uma multidão entusiasta e um sentido partilhado de dinâmica tornaram o dia verdadeiramente especial.

Principais conclusões

De palestras inspiradoras a demonstrações práticas, YOLO Vision 2025 Shenzhen capturou o espírito de inovação que define a comunidade Ultralytics . Ao longo do dia, palestrantes e participantes trocaram idéias, exploraram novas tecnologias e se conectaram com uma visão compartilhada para o futuro da IA. Juntos, eles saíram energizados e prontos para o que está por vir com o Ultralytics YOLO.

Reimaginar o que é possível com IA e visão computacional. Junte-se à nossa comunidade e ao repositório GitHub para descobrir mais. Saiba mais sobre aplicações como a visão computacional na agricultura e a IA no retalho. Explore nossas opções de licenciamento e comece a usar a visão computacional hoje mesmo!

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente