Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubra cómo Ultralytics establece un nuevo estándar para la IA de visión basada en el borde con inferencia integral NMS, CPU más rápido CPU y una implementación de producción simplificada.
Hoy, Ultralytics lanza Ultralytics YOLO26, el YOLO más avanzado y fácil de implementar hasta la fecha. Anunciado por primera vez en YOLO 2025 (YV25), YOLO26 representa un cambio fundamental en la forma en que se entrenan, implementan y escalan los modelos de visión artificial en los sistemas del mundo real.
La visión artificial está avanzando rápidamente hacia el borde. Cada vez más, las imágenes y los vídeos se procesan directamente en dispositivos, cámaras, robots y sistemas integrados, donde la latencia, la fiabilidad y el coste son más importantes que la computación en la nube sin procesar. YOLO26 está diseñado para esta realidad, ya que ofrece un rendimiento líder en el mundo y funciona de manera eficiente en CPU, aceleradores de borde y hardware de bajo consumo.
Aunque YOLO26 supone un importante avance, sigue manteniendo el familiar y optimizado Ultralytics YOLO en la que confían los desarrolladores. Se adapta perfectamente a los flujos de trabajo existentes, admite una amplia gama de tareas de visión y sigue siendo fácil de usar, lo que facilita su adopción tanto para los equipos de investigación como para los de producción.
Fig. 1. Ejemplo del uso de Ultralytics para la detección de objetos.
En este artículo, analizaremos todo lo que necesitas saber sobre Ultralytics y lo que significa un YOLO más ligero, pequeño y rápido para el futuro de la IA visual. ¡Empecemos!
Ultralytics establece un nuevo estándar para la IA de visión.
Ultralytics se basa en la idea de que las capacidades de IA de visión impactantes deben ser fácilmente accesibles para todos. Creemos que las potentes herramientas de visión artificial no deben estar restringidas o limitadas a un pequeño grupo de organizaciones.
En YV25, en Londres, nuestro fundador y director ejecutivo, Glenn Jocher, compartió sus ideas sobre esta visión y afirmó: «La tecnología de IA más sorprendente se encuentra a puerta cerrada. No es abierta. Las grandes empresas controlan los nuevos desarrollos y todos los demás tienen que esperar su turno para acceder a ellos. En Ultralytics tenemos una visión diferente. Queremos que la IA esté al alcance de todos».
También explicó que esto significa sacar la IA de la nube y llevarla a entornos del mundo real, y añadió: «Queremos que la tecnología no se quede solo en la nube, sino que se traslade a dispositivos periféricos, a teléfonos, vehículos y sistemas de bajo consumo. Y queremos que estas personas increíbles que están creando soluciones tengan acceso a ella».
YOLO26 refleja esta visión en la práctica: un modelo diseñado para funcionar donde realmente se implementa la IA de visión, no donde es más fácil crear prototipos.
Análisis detallado de Ultralytics : un modelo de visión de última generación
Al igual queYOLO anteriores Ultralytics , YOLO26 admite múltiples tareas de visión artificial dentro de una única familia de modelos unificados. Está disponible en cinco tamaños: Nano (n), Pequeño (s), Mediano (m), Grande (l) y Extragrande (x), lo que permite a los equipos equilibrar la velocidad, la precisión y el tamaño del modelo en función de las limitaciones de implementación.
Más allá de la flexibilidad, YOLO26 eleva el listón del rendimiento. En comparación con YOLO11, el modelo nano YOLO26 ofrece CPU hasta un 43 % más rápida, lo que lo convierte en uno de los modelos de detección de objetos de alta precisión más rápidos disponibles para su implementación en el borde y CPU.
Fig. 2. Ultralytics es un modelo de visión de última generación.
A continuación, se describen con más detalle las tareas de visión artificial que admite YOLO26:
Clasificación de imágenes: YOLO26 puede analizar una imagen completa y asignarla a una categoría específica, lo que ayuda a los sistemas a comprender el contexto general de una escena.
Detección de objetos: el modelo puede encontrar y localizar múltiples objetos en imágenes o vídeos.
Segmentación de instancias: YOLO26 puede delinear objetos individuales con detalle a nivel de píxel.
Estimación de poses: Se puede utilizar para identificar puntos clave y estimar poses de personas y otros objetos.
Detección de cuadros delimitadores orientados (OBB): YOLO26 puede detect en diferentes ángulos, lo que resulta especialmente útil para imágenes aéreas y satelitales.
Seguimiento de objetos: en combinación con el Python Ultralytics Python , YOLO26 se puede utilizar para seguir objetos a través de fotogramas de vídeo y transmisiones en directo.
Todas las tareas admiten formación, validación, inferencia y exportación dentro de un marco coherente.
Innovaciones clave detrás de Ultralytics
Ultralytics introduce varias innovaciones fundamentales que mejoran la velocidad de inferencia, la estabilidad del entrenamiento y la simplicidad de implementación. A continuación se ofrece una descripción general de estas innovaciones:
Eliminación de Distribution Focal Loss (DFL): Se ha eliminado el módulo DFL para simplificar la predicción del cuadro delimitador, mejorar la compatibilidad del hardware y facilitar la exportación y ejecución de los modelos en dispositivos periféricos y de bajo consumo.
Inferencia integral NMS: YOLO26 está diseñado como un modelo integral nativo que genera predicciones finales directamente, lo que elimina la necesidad de supresión no máxima y reduce la latencia de inferencia y la complejidad de implementación.
Equilibrio de pérdidas progresivo + STAL: estas estrategias de pérdidas mejoradas estabilizan el entrenamiento y mejoran la precisión de la detección, especialmente en el caso dedetect pequeños ydetect .
Optimizador MuSGD: YOLO26 utiliza un nuevo optimizador híbrido que combina SGD técnicas de optimización inspiradas en Muon para un entrenamiento más estable.
CPU hasta un 43 % más rápida: optimizado específicamente para la computación periférica, YOLO26 ofrece CPU hasta un 43 % más rápida, lo que permite un rendimiento en tiempo real en dispositivos periféricos.
A continuación, repasemos en detalle estas características de última generación que hacen que YOLO26 sea más rápido, más eficiente y más fácil de implementar.
Simplificación de la predicción mediante la eliminación de la pérdida focal de distribución
YOLO anteriores utilizaban la pérdida focal de distribución (DFL) durante el entrenamiento para mejorar la precisión del cuadro delimitador. Aunque era eficaz, la DFL introducía una complejidad adicional e imponía límites de regresión fijos que dificultaban la exportación y la implementación, especialmente en hardware periférico y de baja potencia.
YOLO26 elimina por completo el DFL. Al eliminar el DFL, se eliminan los límites de regresión de los cuadros delimitadores fijos presentes en los modelos anteriores, lo que mejora la fiabilidad y la precisión a la hora de detectar objetos muy grandes.
Al simplificar el proceso de predicción del cuadro delimitador, YOLO26 se vuelve más fácil de exportar y funciona de manera más confiable en una amplia gama de dispositivos periféricos y de bajo consumo.
Inferencia integral NMS con Ultralytics
Las canalizaciones tradicionales de detección de objetos se basan en la supresión no máxima (NMS) como paso de posprocesamiento para filtrar las predicciones superpuestas. Aunque es eficaz, NMS latencia, complejidad y fragilidad, especialmente cuando se implementan modelos en múltiples entornos de ejecución y objetivos de hardware.
YOLO26 introduce un modo de inferencia nativo de extremo a extremo, en el que el modelo genera directamente las predicciones finales sin necesidad de NMS paso de posprocesamiento independiente. Las predicciones duplicadas se gestionan dentro de la propia red.
La eliminación NMS la latencia, simplifica los procesos de implementación y disminuye el riesgo de errores de integración, lo que hace que YOLO26 sea especialmente adecuado para implementaciones en tiempo real y periféricas.
Mejora del reconocimiento con Progressive Loss Balancing + STAL
Una característica crucial relacionada con el entrenamiento es la introducción del equilibrio progresivo de pérdidas (ProgLoss) y la asignación de etiquetas sensibles a objetivos pequeños (STAL). Estas funciones de pérdida mejoradas ayudan a estabilizar el entrenamiento y a mejorar la precisión de la detección.
ProgLoss ayuda al modelo a aprender de forma más consistente durante el entrenamiento, reduciendo la inestabilidad y permitiéndole converger con mayor fluidez. Por su parte, STAL se centra en mejorar la forma en que el modelo aprende a partir de objetos pequeños, que a menudo son más difíciles de detect a los limitados detalles visuales.
Juntos, ProgLoss y STAL permiten realizar detecciones más fiables, con mejoras notables en el reconocimiento de objetos pequeños. Esto es especialmente importante para aplicaciones de vanguardia como el Internet de las cosas (IoT), la robótica y las imágenes aéreas, en las que los objetos suelen ser pequeños, distantes o parcialmente visibles.
Entrenamiento más estable con el optimizador MuSGD
Con YOLO26, adoptamos un nuevo optimizador llamado MuSGD, diseñado para que el entrenamiento sea más estable y eficiente. MuSGD es un enfoque híbrido que combina las ventajas del descenso estocástico del gradiente (SGD) tradicional con técnicas inspiradas en Muon, un optimizador utilizado en el entrenamiento de modelos de lenguaje grandes (LLM).
SGD sido una opción fiable en visión artificial durante mucho tiempo, gracias a su simplicidad y gran capacidad de generalización. Al mismo tiempo, los recientes avances en el entrenamiento de LLM han demostrado que los nuevos métodos de optimización pueden mejorar la estabilidad y la velocidad cuando se aplican con cuidado. MuSGD lleva algunas de estas ideas al ámbito de la visión artificial.
Inspirado en Kimi K2 de Moonshot AI, MuSGD incorpora estrategias de optimización que ayudan al modelo a converger más fácilmente durante el entrenamiento. Esto permite que YOLO26 alcance un rendimiento sólido más rápidamente, al tiempo que reduce la inestabilidad del entrenamiento, especialmente en configuraciones de entrenamiento más grandes o complejas.
MuSGD ayuda a YOLO26 a entrenar de forma más predecible en todos los tamaños de modelos, lo que contribuye tanto a mejorar el rendimiento como a estabilizar el entrenamiento.
Ultralytics ofrece CPU hasta un 43 % más rápida.
A medida que la IA visual se acerca cada vez más al lugar donde se generan los datos, el rendimiento potente en el borde se vuelve cada vez más crucial. YOLO26, optimizado específicamente para la computación en el borde, ofrece CPU hasta un 43 % más rápida, lo que garantiza un rendimiento en tiempo real en dispositivos sin GPU. Esta mejora permite que los sistemas de visión fiables y con gran capacidad de respuesta se ejecuten directamente en cámaras, robots y hardware integrado, donde la latencia, la eficiencia y las restricciones de coste definen lo que es posible.
Tareas de visión artificial mejoradas con el apoyo de Ultralytics .
Más allá de las mejoras arquitectónicas que aumentan la precisión de la detección de objetos, YOLO26 también incluye optimizaciones específicas diseñadas para mejorar el rendimiento en tareas de visión artificial. Por ejemplo, mejora la segmentación de instancias, la estimación de poses y la detección de cuadros delimitadores orientados con actualizaciones específicas que aumentan la precisión y la fiabilidad.
A continuación se ofrece una descripción general de estas optimizaciones:
Segmentación de instancias: YOLO26 utiliza la pérdida de segmentación semántica para mejorar el aprendizaje del modelo durante el entrenamiento, lo que da como resultado máscaras de instancias más precisas y consistentes. Un módulo proto mejorado también permite el uso de información de múltiples escalas, por lo que el modelo maneja objetos de diferentes tamaños de manera más eficaz, incluso en escenas complejas.
Estimación de la pose: al integrar la estimación de la log-verosimilitud residual (RLE), una técnica que modela la incertidumbre en las predicciones de puntos clave, y mejorar el proceso de decodificación, YOLO26 ofrece puntos clave más precisos con un mejor rendimiento en tiempo real.
Detección de cuadros delimitadores orientados: YOLO26 introduce una pérdida angular especializada que ayuda al modelo a aprender la rotación de los objetos con mayor precisión, especialmente en el caso de los objetos cuadrados, cuya orientación puede ser ambigua. La decodificación OBB optimizada también reduce los saltos repentinos en las predicciones angulares cerca de los límites de rotación, lo que da como resultado estimaciones de orientación más estables y consistentes.
Fig. 3. Uso de Ultralytics para la segmentación de instancias.
Ultralytics : segmentación de vocabulario abierto basada en YOLO26
Ultralytics también Ultralytics YOLOE-26, una nueva familia de modelos de segmentación de vocabulario abierto basados en la arquitectura y las innovaciones de entrenamiento de YOLO26.
YOLOE-26 no es una nueva tarea o función, sino una familia de modelos especializados que reutiliza la tarea de segmentación existente y permite indicaciones de texto, indicaciones visuales e inferencias sin indicaciones. Disponible en todos YOLO estándar YOLO , YOLOE-26 ofrece una mayor precisión y un rendimiento más fiable en el mundo real que los modelos de segmentación de vocabulario abierto anteriores.
Ultralytics está diseñado para funcionar donde realmente se ejecuta la IA de visión.
Desde cámaras con visión artificial hasta robots equipados con visión artificial y pequeños chips de procesamiento en el borde, la visión artificial y la IA se están implementando directamente en los dispositivos para realizar inferencias en tiempo real. Ultralytics se ha diseñado específicamente para estos entornos, en los que son fundamentales la baja latencia, la eficiencia y el rendimiento fiable.
En la práctica, esto significa que YOLO26 se puede implementar fácilmente en una amplia gama de hardware. Concretamente, gracias alPython Ultralytics y su amplia gama de integraciones, los modelos se pueden exportar a formatos optimizados para diferentes plataformas y aceleradores de hardware.
Por ejemplo, la exportación a TensorRT una inferencia de alto rendimiento en NVIDIA , mientras que CoreML la implementación nativa en dispositivos Apple y OpenVINO el rendimiento en Intel . YOLO26 también se puede exportar para ejecutarse en múltiples aceleradores de borde dedicados, lo que permite una inferencia de alto rendimiento y eficiencia energética en hardware Edge AI especializado.
Estos son solo algunos ejemplos, ya que hay muchas más integraciones compatibles en entornos periféricos y de producción. Esta flexibilidad permite que un único modelo YOLO26 se ejecute en diversos objetivos de implementación. Optimiza los flujos de trabajo de producción y acerca la IA visual al entorno periférico.
Redefiniendo los casos de uso de la visión artificial en todos los sectores
Diseñado para su implementación en el mundo real, YOLO26 se puede utilizar en una amplia gama de casos de uso de visión artificial en diferentes sectores. A continuación se muestran algunos ejemplos de dónde se puede aplicar:
Robótica: YOLO26 se puede utilizar para tareas como navegación, detección de obstáculos e interacción con objetos. Estas capacidades permiten operaciones robóticas seguras y eficaces en entornos dinámicos.
Fabricación: En las líneas de producción, YOLO26 puede analizar imágenes y vídeos para identificar defectos, componentes faltantes o problemas en los procesos. El procesamiento de datos en el dispositivo mantiene la rapidez de la detección y reduce la dependencia de los sistemas en la nube.
Aplicaciones aéreas y con drones: cuando se utiliza en drones, YOLO26 puede procesar imágenes aéreas durante el vuelo para realizar inspecciones, cartografía y topografía. Esto permite analizar escenas en tiempo real, incluso en lugares remotos.
Sistemas integrados y de IoT: gracias a su diseño ligero, YOLO26 puede ejecutarse en hardware integrado de baja potencia para procesar datos visuales de forma local. Entre los casos de uso más habituales se incluyen cámaras inteligentes, sensores conectados y dispositivos de monitorización automatizados.
Ciudades inteligentes: en entornos urbanos, YOLO26 puede analizar secuencias de vídeo procedentes de cámaras de tráfico y de espacios públicos. Esto permite aplicaciones como la supervisión del tráfico, la seguridad pública y la gestión de infraestructuras en el perímetro.
Fig. 4. YOLO26 se puede utilizar para diversas aplicaciones de visión artificial.
Introducción a Ultralytics
Ultralytics se puede utilizar a través de dos flujos de trabajo complementarios, dependiendo de cómo se construya e implemente la IA de visión.
Opción 1: Utilizar Ultralytics a través de la Ultralytics (recomendado)
Ultralytics ofrece una forma centralizada de entrenar, implementar y supervisar modelos YOLO26 en producción. Reúne conjuntos de datos, experimentos e implementaciones en un solo lugar, lo que facilita la gestión de flujos de trabajo de IA visual a gran escala, especialmente para equipos que realizan implementaciones en entornos periféricos y de producción.
A través de la Plataforma, los usuarios pueden:
Acceder a los modelos YOLO26
Entrenar y ajustar con conjuntos de datos personalizados.
Modelos de exportación para implementación en el borde y en producción
Supervise los experimentos y los modelos implementados en un único flujo de trabajo.
Opción 2: Utilizar Ultralytics a través de flujos de trabajo de código abierto.
YOLO26 sigue siendo totalmente accesible a través del ecosistema de código abierto Ultralyticsy se puede utilizar con los flujos de trabajo existentes Python para el entrenamiento, la inferencia y la exportación.
Los desarrolladores pueden instalar el Ultralytics , cargar modelos YOLO26 preentrenados e implementarlos utilizando herramientas y formatos conocidos, como ONNX, TensorRT, CoreML u OpenVINO.
pip install ultralytics
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference with the YOLO26n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
Para los usuarios que prefieren el control manual o los procesos personalizados, hay documentación completa y guías disponibles en los Ultralytics .
Ultralytics : Diseñado para lo que está por venir en visión artificial
Ultralytics está diseñado para satisfacer las necesidades de las soluciones de IA visual del futuro, en las que los modelos deberán ser rápidos, eficientes y fáciles de implementar en hardware real. Al mejorar el rendimiento, simplificar la implementación y ampliar las capacidades del modelo, YOLO26 se adapta de forma natural a una amplia gama de aplicaciones del mundo real. YOLO26 establece una nueva referencia en cuanto a la forma de crear, implementar y escalar la IA visual. Estamos deseando ver cómo la comunidad lo utiliza para lanzar sistemas de visión artificial en el mundo real.
Únase a nuestra creciente comunidad y explore nuestro repositorio GitHub para obtener recursos prácticos de IA. Para construir con Vision AI hoy mismo, explore nuestras opciones de licencia. Descubra cómo la IA en agricultura está transformando la agricultura y cómo Vision AI en robótica está dando forma al futuro visitando nuestras páginas de soluciones.