Yolo Vision Shenzhen
Shenzhen
Únete ahora

¡Lo más destacado de Ultralytics en YOLO Vision 2025 Shenzhen!

Repase los momentos clave de YOLO Vision 2025 Shenzhen, donde Ultralytics reunió a innovadores, socios y la comunidad de la IA en un día de inspiración.

El 26 de octubre, YOLO Vision 2025 (YV25) hizo su debut en China en el edificio B10 del OCT Creative Culture Park de Shenzhen. El evento híbrido Vision AI de Ultralyticsreunió a más de 200 asistentes en persona, y muchos más se unieron en línea a través de YouTube y Bilibili. 

La retransmisión en directo del YV25 Shenzhen ya ha superado las 3.500 visitas en YouTube y sigue ganando atención a medida que los aspectos más destacados del evento se comparten en la comunidad. Fue un día lleno de ideas, conversaciones y exploración práctica de hacia dónde se dirige Vision AI.

El día comenzó con una calurosa bienvenida de nuestra anfitriona, Huang Xueying, que invitó a todos a conectarse, aprender y participar en los debates a lo largo del evento. Explicó que este era el segundo YOLO Vision del año, tras la edición de Londres en septiembre, y compartió lo emocionante que era reunir de nuevo a la comunidad de Vision AI aquí en Shenzhen.

En este artículo repasaremos lo más destacado de la jornada, incluidas las actualizaciones de modelos, las sesiones de ponentes, las demostraciones en directo y los momentos de comunidad que unieron a todos. Comencemos.

El viaje de los modelosYOLO Ultralytics hasta ahora

La primera ponencia del día corrió a cargo del fundador y consejero delegado Ultralytics Ultralytics , Glenn Jocher, quien explicó cómo los modelosYOLO Ultralytics han pasado de ser un avance en la investigación a convertirse en algunos de los modelos de IA de visión más utilizados del mundo. Glenn explicó que sus primeros trabajos se centraron en facilitar el uso YOLO . 

Portó los modelos a PyTorch, mejoró la documentación y compartió todo abiertamente para que los desarrolladores de todo el mundo pudieran construir sobre él. Como él mismo recuerda, "me lancé de cabeza en 2018. Decidí que aquí estaba mi futuro". Lo que comenzó como un esfuerzo personal se convirtió rápidamente en un movimiento global de código abierto.

Fig. 1. Glenn Jocher en el escenario de YOLO Vision 2025 Shenzhen.

Hoy en día, los modelosYOLO Ultralytics permiten realizar miles de millones de inferencias cada día, y Glenn destacó que esta escala sólo era posible gracias a las personas que ayudaron a construirlo. Investigadores, ingenieros, estudiantes, aficionados y colaboradores de código abierto de todo el mundo han convertido YOLO en lo que es hoy. 

En palabras de Glenn: "Hay casi mil de ellos [colaboradores] ahí fuera y estamos súper agradecidos por ello. No estaríamos donde estamos hoy sin esa gente".

Novedades sobre Ultralytics YOLO26

El primer vistazo a Ultralytics YOLO26 se compartió a principios de este año en el evento YOLO Vision 2025 de Londres, donde se presentó como el siguiente gran paso adelante en la familia de modelosYOLO Ultralytics . En YV25 Shenzhen, Glenn ofreció una actualización de los progresos realizados desde aquel anuncio y ofreció a la comunidad de IA una visión más detallada de la evolución del modelo. 

YOLO26 está diseñado para ser más pequeño, más rápido y más preciso, sin dejar de ser práctico para el uso en el mundo real. Glenn explicó que el equipo ha pasado el último año perfeccionando la arquitectura, evaluando el rendimiento de los distintos dispositivos e incorporando los resultados de la investigación y los comentarios de la comunidad. El objetivo es ofrecer un rendimiento de vanguardia sin dificultar la implantación de los modelos.

Qué esperar de Ultralytics YOLO26

Una de las principales novedades que ha destacado Glenn es que YOLO26 se combina con una campaña dedicada al ajuste de hiperparámetros, con lo que se pasa de un entrenamiento totalmente desde cero a un ajuste fino en conjuntos de datos más amplios. Explicó que este enfoque se ajusta mucho más a los casos de uso reales.

Estas son algunas de las principales mejoras que se han presentado en el acto:

  • Arquitectura simplificada: Se ha eliminado la capa de pérdidas focales de distribución (DFL). Esto hace que los modelos sean más sencillos y rápidos de ejecutar, manteniendo el mismo nivel de precisión.
  • Inferencia de extremo a extremo: YOLO26 es nativamente end-to-end, lo que significa que puede funcionar sin una capa NMS separada. Esto facilita enormemente la exportación a formatos como ONNX y TensorRT , así como el despliegue en hardware periférico.
  • Mejor rendimiento en objetos pequeños: La actualización de las estrategias de pérdida ayuda al modelo a detect objetos pequeños con mayor fiabilidad, lo que ha sido un reto durante mucho tiempo en visión por ordenador.
  • Un nuevo optimizador híbrido: YOLO26 incluye un nuevo optimizador inspirado en investigaciones recientes sobre la formación de grandes modelos lingüísticos, que mejora la precisión del modelo y ahora está integrado directamente en el paquetePython Ultralytics .

Ultralytics YOLO26 es el siguiente paso en la IA de visión práctica

Juntas, estas actualizaciones dan como resultado modelos que son hasta un 43% más rápidos en CPU a la vez que más precisos que Ultralytics YOLO11lo que hace que YOLO26 sea especialmente útil para dispositivos integrados, robótica y sistemas periféricos. 

YOLO11 será compatible con las mismas tareas y tamaños de modelo disponibles actualmente en YOLO11, lo que se traduce en 25 variantes de modelos en toda la familia. Esto incluye modelos de detección, segmentación, estimación de la pose, cuadros delimitadores orientados y clasificación, desde nano hasta extragrandes. 

El equipo también está trabajando en cinco variantes de modelos con capacidad de respuesta. Se trata de modelos que pueden recibir una indicación de texto y devolver directamente cuadros delimitadores, sin necesidad de entrenamiento. 

Se trata de un primer paso hacia flujos de trabajo de visión más flexibles, basados en instrucciones y más fáciles de adaptar a distintos casos de uso. Los modelos YOLO26 aún están en fase de desarrollo, pero los primeros resultados de rendimiento son buenos y el equipo está trabajando para lanzarlos pronto al mercado.

Un vistazo a la plataforma Ultralytics

Tras la actualización de YOLO26, Glenn dio la bienvenida a Prateek Bhatnagar, nuestro Jefe de Ingeniería de Producto, para ofrecer una demostración en directo de la plataforma Ultralytics . Esta plataforma se está construyendo para reunir partes clave del flujo de trabajo de la visión por ordenador, como la exploración de conjuntos de datos, la anotación de imágenes, el entrenamiento de modelos y la comparación de resultados.

Fig. 2. Prateek Bhatnagar muestra la plataforma Ultralytics .

Prateek señaló que la plataforma se mantiene fiel a las raíces de código abierto de Ultralytics, introduciendo dos espacios comunitarios, una comunidad de conjuntos de datos y una comunidad de proyectos, donde los desarrolladores pueden contribuir, reutilizar y mejorar el trabajo de los demás. Durante la demostración, mostró la anotación asistida por IA, el sencillo entrenamiento en la nube y la posibilidad de ajustar los modelos directamente desde la comunidad, sin necesidad de recursos locales de GPU .

La plataforma está actualmente en desarrollo. Prateek animó a la audiencia a estar atenta a los anuncios y señaló que el equipo está creciendo en China para apoyar el lanzamiento.

Voces detrás de YOLO: el panel de autores

Con el impulso generado, el acto se convirtió en una mesa redonda en la que participaron varios de los investigadores que están detrás de los distintos modelos YOLO . En la mesa redonda participaron Glenn Jocher, junto con Jing Qiu, nuestro ingeniero jefe de aprendizaje automático; Chen Hui, ingeniero de aprendizaje automático en Meta y uno de los autores de YOLOv10; y Bo Zhang, estratega de algoritmos en Meituan y uno de los autores de YOLOv6.

Fig. 3. Mesa redonda sobre el desarrollo de modelos YOLO con Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu y Glenn Jocher.

El debate se centró en cómo YOLO sigue evolucionando gracias a su uso en el mundo real. Los ponentes explicaron que los avances se deben a menudo a problemas prácticos de implantación, como el funcionamiento eficiente en dispositivos periféricos, la mejora de la detección de objetos pequeños y la simplificación de la exportación de modelos. 

En lugar de perseguir únicamente la precisión, el panel señaló la importancia de equilibrar la velocidad, la facilidad de uso y la fiabilidad en entornos de producción. Otra conclusión compartida fue el valor de la iteración y los comentarios de la comunidad. 

He aquí otras interesantes conclusiones de la conversación:

  • La detección de vocabulario abierto está ganando terreno en el ecosistema YOLO : Los modelos más recientes muestran cómo la alineación entre visión y lenguaje y los flujos de trabajo basados en instrucciones pueden detect objetos más allá de las categorías fijas.
  • La atención ligera está en auge: En la mesa redonda se debatió cómo el uso de mecanismos de atención eficientes, en lugar de la atención plena en todas partes, puede aumentar la precisión y, al mismo tiempo, mantener la inferencia lo suficientemente ligera para los dispositivos periféricos.
  • Iterar pronto y a menudo con la comunidad: Los ponentes insistieron en la mentalidad de construir, probar y mejorar, según la cual lanzar modelos cuanto antes y aprender de los usuarios da mejores resultados que los largos ciclos de desarrollo privado.

Líderes intelectuales que definen el futuro de la IA y la visión

A continuación, echemos un vistazo a algunas de las ponencias principales de YV25 Shenzhen, donde los líderes de la comunidad de la IA compartieron cómo está evolucionando la visión de la IA, desde los humanos digitales y la robótica hasta el razonamiento multimodal y el despliegue eficiente de los bordes.

Enseñar a la IA a comprender la experiencia humana

En una interesante sesión, el Dr. Peng Zhang, del Alibaba Qwen Lab, explicó cómo su equipo está desarrollando grandes modelos de vídeo que pueden generar seres humanos digitales expresivos con un movimiento y un control más naturales. Explicó Wan S2V y Wan Animate, que utilizan referencias sonoras o de movimiento para producir habla, gestos y animaciones realistas, abordando las limitaciones de la generación puramente textual.

Fig. 4. Peng Zhang explica cómo los grandes modelos de vídeo pueden impulsar a los humanos digitales.

El Dr. Zhang también habló de los avances realizados en la creación de avatares interactivos en tiempo real, como la clonación sin disparos de la apariencia y el movimiento y modelos ligeros que pueden animar un rostro directamente desde una cámara en directo, lo que acercará a los seres humanos digitales a la vida real para que funcionen sin problemas en los dispositivos de uso cotidiano.

De la percepción a la acción: La era de la inteligencia incorporada

Uno de los temas clave de YV25 Shenzhen fue el paso de modelos de visión que se limitan a ver el mundo a sistemas que pueden actuar en él. En otras palabras, la percepción ya no es el final del proceso, sino el principio de la acción.

Por ejemplo, en su ponencia, Hu Chunxu, de D-Robotics, describió cómo sus kits de desarrollo y soluciones SoC (system on a chip) integran la detección, el control del movimiento en tiempo real y la toma de decisiones en una pila unificada de hardware y software. Al tratar la percepción y la acción como un bucle continuo de retroalimentación, en lugar de etapas separadas, su planteamiento permite a los robots moverse, adaptarse e interactuar de forma más fiable en entornos reales.

Fig. 5. Demostración de D-Robotics en YOLO Vision 2025 en Shenzhen (China).

Alex Zhang, de Baidu Paddle, se hizo eco de esta idea en su charla y explicó cómo YOLO y PaddleOCR trabajan juntos para detect objetos e interpretar después el texto y la estructura que los rodea. Esto permite a los sistemas convertir imágenes y documentos en información utilizable y estructurada para tareas como logística, inspecciones y procesamiento automatizado. 

Inteligencia en la periferia: IA eficiente para todos los dispositivos

Otro tema interesante en YV25 Shenzhen fue cómo Vision AI se está volviendo más eficiente y capaz en los dispositivos periféricos

Paul Jung, de DEEPX, habló sobre el despliegue de modelos YOLO directamente en hardware integrado, lo que reduce la dependencia de la nube. Al centrarse en el bajo consumo de energía, la inferencia optimizada y el ajuste de modelos en función del hardware, DEEPX permite la percepción en tiempo real para drones, robots móviles y sistemas industriales que operan en entornos dinámicos.

Del mismo modo, Liu Lingfei, de Moore Threads, explicó cómo la plataforma Moore Threads E300 integra la unidad central de procesamientoCPU), la unidad de procesamiento gráficoGPU y la unidad de procesamiento neuronal (NPU) para ofrecer inferencia de visión de alta velocidad en dispositivos compactos. 

La plataforma puede ejecutar múltiples secuencias YOLO a altas frecuencias de cuadro, y su cadena de herramientas simplifica pasos como la cuantización, la compilación estática y el ajuste del rendimiento. Moore Threads también ha puesto a disposición del público un amplio conjunto de modelos de visión por ordenador y ejemplos de implementación para reducir las barreras a los desarrolladores.

Fusión de visión y lenguaje para sistemas de inteligencia artificial más inteligentes

Hasta hace poco, la creación de un único modelo capaz de comprender imágenes e interpretar el lenguaje requería grandes arquitecturas de transformadores que resultaban caras de ejecutar. En YV25 Shenzhen, Yue Ziyin, de Yuanshi Intelligence, presentó RWKV, una arquitectura que combina la capacidad de razonamiento en contextos largos de los transformadores con la eficiencia de los modelos recurrentes. 

Explicó cómo Vision-RWKV aplica este diseño a la visión por ordenador procesando las imágenes de una forma que escala linealmente con la resolución. Esto lo hace adecuado para entradas de alta resolución y para dispositivos de borde en los que el cálculo es limitado.

Yue también mostró cómo se utiliza la RWKV en sistemas de visión y lenguaje, en los que las características de la imagen se combinan con la comprensión del texto para ir más allá de la detección de objetos e interpretar escenas, documentos y contextos del mundo real. 

Figura 6. Yue Ziyin hablando de las aplicaciones de RWKV.

Puestos y demostraciones en directo que dieron vida a Vision AI

Mientras las charlas en el escenario se centraban en el futuro de la IA visual, los stands de la feria mostraban cómo se está utilizando en la actualidad. Los asistentes pudieron ver modelos en funcionamiento, comparar opciones de hardware y hablar directamente con los equipos que crean estos sistemas.

He aquí una muestra de la tecnología que se exhibía:

  • Plataformas de desarrollo y creación de prototipos: Seeed, M5Stack e Infermove presentaron placas de desarrollo compactas y kits de iniciación que facilitan la experimentación con aplicaciones YOLO y permiten pasar rápidamente de las ideas a las demostraciones prácticas.
  • Hardware de vanguardia de alto rendimiento: Hailo, DEEPX, Intel y Moore Threads demostraron chips y módulos creados para una inferencia rápida y eficaz.
  • Flujos de trabajo de visión y lenguaje: Baidu Paddle y RWKV destacaron las pilas de software que pueden detect objetos y también leer, interpretar y razonar sobre lo que aparece en una imagen o documento.
  • Código abierto y herramientas comunitarias: Ultralytics y Datawhale involucraron a los desarrolladores con demostraciones de modelos en directo, consejos de formación y orientación práctica, reforzando cómo el conocimiento compartido acelera la innovación.
Fig. 6. Un vistazo al stand de M5Stack en YV25 Shenzhen.

Conectando con la comunidad de Vision AI

Además de toda la emocionante tecnología, una de las mejores partes de YV25 Shenzhen fue reunir de nuevo en persona a la comunidad de visión por ordenador y al equipo de Ultralytics . Durante todo el día, la gente se reunió en torno a las demostraciones, compartió ideas durante las pausas para el café y siguió conversando mucho después de que terminaran las charlas. 

Investigadores, ingenieros, estudiantes y constructores compararon notas, hicieron preguntas e intercambiaron experiencias del mundo real, desde el despliegue hasta la formación de modelos. Y gracias a Cinco Jotas del Grupo Osborne, incluso aportamos un toque de cultura española al evento con jamón recién cortado, creando un cálido momento de conexión. Un hermoso lugar, un público entusiasta y un sentimiento compartido de impulso hicieron que el día fuera realmente especial.

Conclusiones clave

Desde inspiradoras ponencias hasta demostraciones prácticas, YOLO Vision 2025 Shenzhen capturó el espíritu de innovación que define a la comunidad Ultralytics . A lo largo del día, ponentes y asistentes intercambiaron ideas, exploraron nuevas tecnologías y conectaron en torno a una visión compartida del futuro de la IA. Juntos, salieron llenos de energía y listos para lo que viene con Ultralytics YOLO.

Reimagine lo que es posible con la IA y la visión por ordenador. Únase a nuestra comunidad y al repositorio de GitHub para descubrir más. Obtenga más información sobre aplicaciones como la visión por ordenador en la agricultura y la IA en el comercio minorista. Explore nuestras opciones de licencia y comience a utilizar la visión por ordenador hoy mismo.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis