¡Puntos clave de Ultralytics en el YOLO Vision 2025 Shenzhen!
Revive momentos clave del YOLO Vision 2025 Shenzhen, donde Ultralytics reunió a innovadores, socios y a la comunidad de IA para un día de inspiración.

El 26 de octubre, YOLO Vision 2025 (YV25) hizo su debut en China en el Edificio B10 del OCT Creative Culture Park en Shenzhen. El evento de IA de visión híbrida de Ultralytics reunió a más de 200 asistentes en persona, con muchos más uniéndose en línea a través de YouTube y Bilibili.
La transmisión en vivo de YV25 Shenzhen ya ha superado las 3500 visitas en YouTube y sigue atrayendo la atención a medida que los aspectos más destacados del evento se comparten en toda la comunidad. Fue un día lleno de ideas, conversaciones y exploración práctica de hacia dónde se dirige la IA de visión.
El día comenzó con una cálida bienvenida de nuestra anfitriona, Huang Xueying, quien invitó a todos a conectar, aprender y participar en los debates a lo largo del evento. Explicó que este era el segundo YOLO Vision del año, tras la edición de Londres en septiembre, y compartió lo emocionante que fue reunir a la comunidad de IA de visión de nuevo aquí en Shenzhen.
En este artículo, repasaremos los momentos destacados del día, incluidas las actualizaciones de los modelos, las sesiones de los ponentes, las demostraciones en vivo y los momentos comunitarios que unieron a todos. ¡Empecemos!
Link to this sectionEl viaje de los modelos Ultralytics YOLO hasta ahora#
La primera charla principal del día estuvo a cargo del fundador y CEO de Ultralytics, Glenn Jocher, quien compartió cómo los modelos Ultralytics YOLO han pasado de ser un avance en la investigación a convertirse en algunos de los modelos de IA de visión más utilizados del mundo. Glenn explicó que su trabajo inicial se centró en facilitar el uso de YOLO.
Portó los modelos a PyTorch, mejoró la documentación y compartió todo abiertamente para que los desarrolladores de todas partes pudieran construir sobre ello. Como recordó: “Me lancé de cabeza en 2018. Decidí que ahí estaba mi futuro”. Lo que comenzó como un esfuerzo personal se convirtió rápidamente en un movimiento global de código abierto.

Fig 1. Glenn Jocher hablando en el escenario en YOLO Vision 2025 Shenzhen.
Hoy en día, los modelos Ultralytics YOLO impulsan miles de millones de inferencias cada día, y Glenn enfatizó que esta escala solo fue posible gracias a las personas que ayudaron a construirla. Investigadores, ingenieros, estudiantes, aficionados y colaboradores de código abierto de todo el mundo han convertido a YOLO en lo que es hoy.
Como dijo Glenn: “Hay casi mil de ellos [colaboradores] ahí fuera y estamos súper agradecidos por ello. No estaríamos donde estamos hoy sin estas personas”.
Link to this sectionActualizaciones sobre Ultralytics YOLO26#
El primer vistazo a Ultralytics YOLO26 se compartió a principios de este año en el evento YOLO Vision 2025 London, donde se presentó como el siguiente gran paso adelante en la familia de modelos Ultralytics YOLO. En YV25 Shenzhen, Glenn proporcionó una actualización sobre el progreso desde ese anuncio y dio a la comunidad de IA una mirada más cercana a cómo ha evolucionado el modelo.
YOLO26 está diseñado para ser más pequeño, más rápido y más preciso, sin dejar de ser práctico para el uso en el mundo real. Glenn explicó que el equipo ha pasado el último año refinando la arquitectura, evaluando el rendimiento en todos los dispositivos e incorporando conocimientos de la investigación y los comentarios de la comunidad. El objetivo es ofrecer un rendimiento de última generación sin dificultar el despliegue de los modelos.
Link to this sectionQué esperar de Ultralytics YOLO26#
Una de las actualizaciones principales que destacó Glenn es que YOLO26 viene acompañado de una campaña dedicada de ajuste de hiperparámetros, pasando de entrenar desde cero a realizar un ajuste fino en conjuntos de datos más grandes. Explicó que este enfoque está mucho más alineado con los casos de uso reales.
Aquí hay algunas de las otras mejoras clave compartidas en el evento:
- Arquitectura simplificada: Se ha eliminado la capa Distribution Focal Loss (DFL). Esto hace que los modelos sean más sencillos y rápidos de ejecutar, manteniendo el mismo nivel de precisión.
- Soporte de inferencia de extremo a extremo: YOLO26 es nativamente de extremo a extremo, lo que significa que puede ejecutarse sin una capa NMS separada. Esto hace que la exportación a formatos como ONNX y TensorRT y el despliegue en hardware de borde sean mucho más fáciles.
- Mejor rendimiento en objetos pequeños: Las estrategias de pérdida actualizadas ayudan al modelo a detectar objetos diminutos de forma más fiable, lo cual ha sido un desafío duradero en la visión artificial.
- Un nuevo optimizador híbrido: YOLO26 incluye un nuevo optimizador inspirado en investigaciones recientes de entrenamiento de grandes modelos de lenguaje, que mejora la precisión del modelo y ahora está integrado directamente en el paquete de Python de Ultralytics.
Link to this sectionUltralytics YOLO26 es el siguiente paso en la IA de visión práctica#
Juntas, estas actualizaciones dan como resultado modelos que son hasta un 43 % más rápidos en CPU, a la vez que más precisos que Ultralytics YOLO11, lo que hace que YOLO26 sea especialmente impactante para dispositivos integrados, robótica y sistemas de borde.
YOLO26 admitirá todas las mismas tareas y tamaños de modelo disponibles actualmente en YOLO11, lo que resultará en 25 variantes de modelo en toda la familia. Esto incluye modelos para detección, segmentación, estimación de pose, cuadros delimitadores orientados y clasificación, que van desde nano hasta extragrande.
El equipo también está trabajando en cinco variantes de tipo promptable. Estos son modelos que pueden recibir una instrucción de texto y devolver cuadros delimitadores directamente, sin necesidad de entrenamiento.
Es un primer paso hacia flujos de trabajo de visión más flexibles y basados en instrucciones que son más fáciles de adaptar a diferentes casos de uso. Los modelos YOLO26 todavía están en desarrollo activo, pero los resultados de rendimiento iniciales son sólidos y el equipo está trabajando para lanzarlos pronto.
Link to this sectionUn vistazo a la plataforma Ultralytics#
Después de la actualización de YOLO26, Glenn dio la bienvenida a Prateek Bhatnagar, nuestro Jefe de Ingeniería de Producto, para dar una demostración en vivo de la plataforma Ultralytics. Esta plataforma se está construyendo para reunir partes clave del flujo de trabajo de visión artificial, incluida la exploración de conjuntos de datos, la anotación de imágenes, el entrenamiento de modelos y la comparación de resultados.

Fig 2. Prateek Bhatnagar mostrando la plataforma Ultralytics.
Prateek señaló que la plataforma se mantiene fiel a las raíces de código abierto de Ultralytics, introduciendo dos espacios comunitarios, una comunidad de conjuntos de datos y una comunidad de proyectos, donde los desarrolladores pueden contribuir, reutilizar y mejorar el trabajo de los demás. Durante la demostración, mostró la anotación asistida por IA, el entrenamiento fácil en la nube y la capacidad de ajustar modelos directamente desde la comunidad, sin necesidad de recursos de GPU locales.
La plataforma está actualmente en desarrollo. Prateek animó a la audiencia a estar atenta a los anuncios y señaló que el equipo está creciendo en China para apoyar el lanzamiento.
Link to this sectionVoces detrás de YOLO: El panel de autores#
Con el impulso creciendo, el evento pasó a un panel de discusión con varios de los investigadores detrás de diferentes modelos YOLO. El panel incluyó a Glenn Jocher, junto con Jing Qiu, nuestro Ingeniero Sénior de Aprendizaje Automático; Chen Hui, un Ingeniero de Aprendizaje Automático en Meta y uno de los autores de YOLOv10; y Bo Zhang, un Estratega de Algoritmos en Meituan y uno de los autores de YOLOv6.

Fig 3. Un panel sobre el desarrollo de modelos YOLO con Huang Xueying, Chen Hui, Bo Zhang, Jing Qiu y Glenn Jocher.
La discusión se centró en cómo YOLO continúa evolucionando a través del uso en el mundo real. Los ponentes abordaron cómo el progreso a menudo es impulsado por desafíos prácticos de despliegue, como la ejecución eficiente en dispositivos de borde, la mejora de la detección de objetos pequeños y la simplificación de la exportación de modelos.
En lugar de perseguir solo la precisión, el panel destacó la importancia de equilibrar la velocidad, la usabilidad y la fiabilidad en entornos de producción. Otra conclusión compartida fue el valor de la iteración y los comentarios de la comunidad.
Aquí hay algunas otras ideas interesantes de la conversación:
- La detección de vocabulario abierto está ganando terreno en el ecosistema YOLO: Los modelos más nuevos muestran cómo la alineación visión-lenguaje y los flujos de trabajo basados en instrucciones pueden detectar objetos más allá de categorías fijas.
- La atención ligera está en aumento: El panel discutió cómo el uso de mecanismos de atención eficientes, en lugar de atención completa en todas partes, puede aumentar la precisión mientras mantiene la inferencia lo suficientemente ligera para los dispositivos de borde.
- Iterar temprana y frecuentemente con la comunidad: Los panelistas reforzaron una mentalidad de construir-probar-mejorar, donde lanzar modelos antes y aprender de los usuarios genera mejores resultados que los largos ciclos de desarrollo privado.
Link to this sectionLíderes de opinión que definen el futuro de la IA y la visión#
A continuación, echemos un vistazo más de cerca a algunas de las charlas principales en YV25 Shenzhen, donde líderes de toda la comunidad de IA compartieron cómo está evolucionando la IA de visión, desde humanos digitales y robótica hasta razonamiento multimodal y despliegue eficiente en el borde.
Link to this sectionEnseñar a la IA a comprender la experiencia humana#
En una sesión reveladora, el Dr. Peng Zhang de Alibaba Qwen Lab compartió cómo su equipo está desarrollando grandes modelos de video que pueden generar humanos digitales expresivos con un movimiento y control más naturales. Repasó Wan S2V y Wan Animate, que utilizan referencias de audio o movimiento para producir habla, gestos y animaciones realistas, abordando las limitaciones de la generación puramente basada en texto.

Fig 4. Peng Zhang explicando cómo los grandes modelos de video pueden impulsar humanos digitales.
El Dr. Zhang también habló sobre el progreso que se está logrando hacia avatares interactivos en tiempo real, incluida la clonación zero-shot de apariencia y movimiento, y modelos ligeros que pueden animar un rostro directamente desde una transmisión de cámara en vivo, acercando a los humanos digitales realistas a ejecutarse sin problemas en dispositivos cotidianos.
Link to this sectionDe la percepción a la acción: La era de la inteligencia encarnada#
Uno de los temas clave en YV25 Shenzhen fue el cambio de modelos de visión que simplemente ven el mundo a sistemas que pueden actuar dentro de él. En otras palabras, la percepción ya no es el final del proceso; se está convirtiendo en el comienzo de la acción.
Por ejemplo, en su charla principal, Hu Chunxu de D-Robotics describió cómo sus kits de desarrollo y soluciones SoC (sistema en un chip) integran la detección, el control de movimiento en tiempo real y la toma de decisiones en una pila de hardware y software unificada. Al tratar la percepción y la acción como un ciclo de retroalimentación continuo, en lugar de etapas separadas, su enfoque apoya a robots que pueden moverse, adaptarse e interactuar de manera más confiable en entornos reales.

Fig 5. Demostración de D-Robotics en YOLO Vision 2025 en Shenzhen, China.
Alex Zhang de Baidu Paddle se hizo eco de esta idea en su charla, explicando cómo YOLO y PaddleOCR trabajan juntos para detectar objetos y luego interpretar el texto y la estructura a su alrededor. Esto permite a los sistemas convertir imágenes y documentos en información estructurada y utilizable para tareas como logística, inspecciones y procesamiento automatizado.
Link to this sectionInteligencia en el borde: IA eficiente para cada dispositivo#
Otro tema interesante en YV25 Shenzhen fue cómo la IA de visión se está volviendo más eficiente y capaz en dispositivos de borde.
Paul Jung de DEEPX habló sobre el despliegue de modelos YOLO directamente en hardware integrado, reduciendo la dependencia de la nube. Al centrarse en el bajo consumo de energía, la inferencia optimizada y el ajuste de modelos consciente del hardware, DEEPX permite la percepción en tiempo real para drones, robots móviles y sistemas industriales que operan en entornos dinámicos.
De manera similar, Liu Lingfei de Moore Threads compartió cómo la plataforma Moore Threads E300 integra computación de unidad central de procesamiento (CPU), unidad de procesamiento gráfico (GPU) y unidad de procesamiento neuronal (NPU) para ofrecer inferencia de visión de alta velocidad en dispositivos compactos.
La plataforma puede ejecutar múltiples transmisiones YOLO a altas velocidades de fotogramas, y su cadena de herramientas simplifica pasos como la cuantización, la compilación estática y el ajuste de rendimiento. Moore Threads también ha publicado una amplia gama de modelos de visión artificial y ejemplos de despliegue en código abierto para reducir la barrera para los desarrolladores.
Link to this sectionFusionando visión y lenguaje para sistemas de IA más inteligentes#
Hasta hace poco, crear un modelo único que pudiera entender imágenes e interpretar el lenguaje requería grandes arquitecturas transformer que eran costosas de ejecutar. En YV25 Shenzhen, Yue Ziyin de Yuanshi Intelligence dio una visión general de RWKV, una arquitectura que combina las capacidades de razonamiento de contexto largo de los transformers con la eficiencia de los modelos recurrentes.
Explicó cómo Vision-RWKV aplica este diseño a la visión artificial al procesar imágenes de una manera que escala linealmente con la resolución. Esto lo hace adecuado para entradas de alta resolución y para dispositivos de borde donde la computación es limitada.
Yue también mostró cómo RWKV se está utilizando en sistemas de visión-lenguaje, donde las características de la imagen se combinan con la comprensión de texto para ir más allá de la detección de objetos e interpretar escenas, documentos y contexto del mundo real.

Fig 6. Yue Ziyin hablando sobre las aplicaciones de RWKV.
Link to this sectionStands y demostraciones en vivo que dieron vida a la IA de visión#
Si bien las charlas en el escenario miraban hacia el futuro de la IA de visión, los stands en el suelo mostraron cómo se está utilizando hoy en día. Los asistentes pudieron ver modelos funcionando en vivo, comparar opciones de hardware y hablar directamente con los equipos que construyen estos sistemas.
Aquí tienes un vistazo de la tecnología que se exhibía:
- Plataformas de desarrollo y creación de prototipos: Seeed, M5Stack e Infermove mostraron placas de desarrollo compactas y kits de inicio que facilitan la experimentación con aplicaciones basadas en YOLO y pasan rápidamente de ideas a demostraciones funcionales.
- Hardware de borde de alto rendimiento: Hailo, DEEPX, Intel y Moore Threads demostraron chips y módulos construidos para una inferencia rápida y eficiente.
- Flujos de trabajo de visión y lenguaje: Baidu Paddle y RWKV destacaron pilas de software que pueden detectar objetos, y también leer, interpretar y razonar sobre lo que aparece en una imagen o documento.
- Código abierto y herramientas comunitarias: Ultralytics y Datawhale involucraron a los desarrolladores con demostraciones de modelos en vivo, consejos de entrenamiento y orientación práctica, reforzando cómo el conocimiento compartido acelera la innovación.

Fig 7. Un vistazo al stand de M5Stack en YV25 Shenzhen.
Link to this sectionConectando con la comunidad de IA de visión#
Además de toda la tecnología emocionante, una de las mejores partes de YV25 Shenzhen fue reunir a la comunidad de visión artificial y al equipo de Ultralytics en persona de nuevo. A lo largo del día, la gente se reunió en torno a las demostraciones, compartió ideas durante las pausas para el café y continuó las conversaciones mucho después de que terminaran las charlas.
Investigadores, ingenieros, estudiantes y constructores compararon notas, hicieron preguntas e intercambiaron experiencias del mundo real desde el despliegue hasta el entrenamiento de modelos. Y gracias a Cinco Jotas de Grupo Osborne, incluso aportamos un toque de cultura española al evento con jamón recién cortado, creando un cálido momento de conexión. Un lugar hermoso, una multitud entusiasta y un sentido compartido de impulso hicieron que el día fuera realmente especial.
Link to this sectionConclusiones clave#
Desde charlas inspiradoras hasta demostraciones prácticas, YOLO Vision 2025 Shenzhen capturó el espíritu de innovación que define a la comunidad de Ultralytics. A lo largo del día, ponentes y asistentes intercambiaron ideas, exploraron nuevas tecnologías y conectaron a través de una visión compartida para el futuro de la IA. Juntos, se fueron energizados y listos para lo que sigue con Ultralytics YOLO.
Reimagina lo que es posible con la IA y la visión artificial. Únete a nuestra comunidad y repositorio de GitHub para descubrir más. Aprende más sobre aplicaciones como la visión artificial en la agricultura y la IA en el comercio minorista. ¡Explora nuestras opciones de licencia y comienza hoy mismo con la visión artificial!






