Los mejores modelos de detección de objetos para iOS en chips Apple Silicon

¿Quieres poner en marcha un proyecto de visión artificial?

Android y los iPhone se han convertido en algo imprescindible en el día a día. La gente los utiliza para comprar, navegar, hacer fotos, escanear productos e interactuar con aplicaciones a lo largo del día.

Con el rápido crecimiento de la inteligencia artificial, muchos teléfonos inteligentes incluyen ahora funciones capaces de interpretar las imágenes y los vídeos capturados por la cámara del dispositivo. La capacidad para ejecutar estas funciones de manera eficiente depende en gran medida del hardware subyacente.

Por ejemplo, en el ecosistema de Apple, dispositivos como los iPhone, los iPad y los Mac funcionan con chips Apple Silicon, incluidas las series A y M. Estos diseños de sistema en chip (SoC) integran unidades de procesamiento central (CPU), unidades de procesamiento gráfico (GPU) y aceleradores dedicados al aprendizaje automático, lo que permite la inferencia en el propio dispositivo para cargas de trabajo de IA.

En concreto, las capacidades de análisis de imágenes son posibles gracias a la visión artificial, un campo de la inteligencia artificial que permite a las máquinas interpretar y comprender la información visual de imágenes y vídeos mediante tareas como la detección de objetos.

En concreto, los modelos de detección de objetos analizan imágenes e identifican objetos trazando rectángulos de delimitación a su alrededor. Estos modelos pueden optimizarse para funcionar de manera eficiente en hardware móvil, como los chips Apple Silicon, lo que permite realizar análisis visuales en tiempo real directamente en iOS .

Fig. 1. Ejemplo de detección de objetos, identificados mediante cuadros delimitadores. (Fuente)

‍

En este artículo, analizaremos algunos de los mejores modelos de detección de objetos para crear iOS rápidas y en tiempo real. ¡Empecemos!

Cómo funcionan los detectores de objetos en iOS

La detección de objetos ayuda a las aplicaciones a reconocer y localizar objetos en una imagen. Cuando una aplicación procesa una imagen de entrada, un modelo de detección de objetos puede analizar la escena e identificar los distintos objetos colocando rectángulos de delimitación a su alrededor y asignándoles etiquetas.

La mayoría de los sistemas de detección de objetos se basan en redes neuronales capaces de reconocer patrones en los datos de entrenamiento. En el caso de las tareas relacionadas con imágenes, estos modelos aprenden representaciones visuales mediante el análisis de la información a nivel de píxeles procedente de grandes conjuntos de datos de entrenamiento.

Las redes neuronales convolucionales (CNN) suelen utilizarse como base de los modelos de detección de objetos. Las CNN son ideales para la predicción de imágenes, ya que aprenden características visuales jerárquicas, como bordes, formas y texturas, que ayudan al modelo a reconocer objetos dentro de una escena.

Los investigadores también están estudiando arquitecturas basadas en transformadores para tareas de visión artificial. Estos modelos analizan las relaciones entre las distintas zonas de una imagen y recogen información contextual más amplia de toda la escena.

Más allá del tipo de arquitectura del modelo, la eficiencia es un factor clave a tener en cuenta en la detección de objetos en iOS . Dado que estos modelos se ejecutan directamente en dispositivos móviles, deben procesar las imágenes con rapidez utilizando recursos computacionales limitados.

Los modelos eficientes mantienen una baja latencia y permiten la detección de objetos en tiempo real en aplicaciones móviles, especialmente al analizar el flujo continuo de imágenes de la cámara.

¿Qué hace que un modelo de detección de objetos sea adecuado para iOS?

Antes de profundizar en algunos de los mejores modelos de detección de objetos para iOS, demos un paso atrás y veamos qué es lo que hace que un modelo sea ideal para aplicaciones móviles.

El modelo de detección de objetos ideal para una iOS debe ofrecer un equilibrio entre rendimiento, eficiencia y fiabilidad. A continuación se enumeran algunos factores clave que definen un modelo sólido para iOS :

Baja latencia: el modelo debe procesar las imágenes rápidamente para permitir la detección de objetos en tiempo real, especialmente en aplicaciones que dependen de la entrada continua de la cámara.
Tamaño eficiente del modelo: los modelos compactos funcionan con mayor eficiencia en dispositivos móviles y, por lo general, requieren menos memoria y recursos computacionales.
Precisión de detección: una detección precisa garantiza que los objetos se clasifiquen correctamente y que los rectángulos delimitadores mantengan su precisión en diferentes escenas, escalas de objetos y condiciones de iluminación.
Estabilidad de la inferencia: es importante que el tiempo de inferencia se mantenga constante entre fotogramas en las aplicaciones en tiempo real. Las grandes fluctuaciones en el tiempo de procesamiento pueden provocar la pérdida de fotogramas o una experiencia inestable con la cámara.‍
Consumo de memoria: la cantidad de RAM necesaria durante la inferencia influye en la fluidez con la que se ejecuta un modelo junto con otros procesos de la aplicación en iOS .

Un repaso a los mejores modelos de detección de objetos para iOS

A continuación, echemos un vistazo a algunos de los modelos de detección de objetos más utilizados para iOS .

1.YOLO de Ultralytics

YOLO Ultralytics son una popular familia de modelos de detección de objetos diseñados para aplicaciones de visión artificial en tiempo real. A lo largo de los años, Ultralytics lanzado modelos de visión como Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11y el último modelo de vanguardia, Ultralytics .

Cada nueva versión ha incorporado mejoras en la precisión de la detección, la eficiencia de los modelos y el rendimiento en tiempo de ejecución. Estas actualizaciones han hecho queYOLO Ultralytics sean cada vez más adecuados para dispositivos periféricos, como los teléfonos inteligentes.

Fig. 2. YOLO26 se puede utilizar para detect objetos en una escena del mundo real. (Fuente)

‍

Una de las principales ventajas de utilizarYOLO Ultralytics para iOS es la CoreML que ofrece el Python Ultralytics . Esta biblioteca de código abierto ayuda a los desarrolladores a entrenar, probar y exportarYOLO Ultralytics mediante un flujo de trabajo sencillo.

El paquete permite exportar modelos entrenados a CoreML, el formato de aprendizaje automático de Apple que se utiliza para implementar modelos en iOS . Tras la exportación, el CoreML puede integrarse en una aplicación y ejecutarse directamente en el dispositivo utilizando componentes de hardware como la CPU, GPU y el Apple Neural Engine.

Fig. 3. CoreML el marco de trabajo de Apple para integrar y ejecutar modelos de IA dentro de las aplicaciones. (Fuente)

‍

Esto facilita a los desarrolladores la integración de la detección de objetos en tiempo real en iOS , al tiempo que permite que la inferencia del modelo se realice en el propio dispositivo.

Opciones de implementación deYOLO Ultralytics en Apple Silicon

Más allá de los propios modelos, el Ultralytics ofrece una serie de opciones que facilitan la implementación de YOLO en los chips Apple Silicon.

Por ejemplo, Ultralytics ha presentado Ultralytics Ultralytics , que aúna la gestión de conjuntos de datos, el entrenamiento de modelos, la validación y la implementación en un único entorno. Este flujo de trabajo unificado reduce la necesidad de utilizar múltiples herramientas y ayuda a agilizar el proceso desde la fase experimental hasta las aplicaciones en el mundo real.

Como parte de la plataforma, los modelos entrenados se pueden exportar a múltiples formatos, incluido CoreML dispositivos Apple. Esto permite exportar unYOLO Ultralytics para la inferencia en el propio dispositivo con solo unos clics.

Además de las funciones de exportación, Ultralytics una implementación de código abierto en Swift (el lenguaje de programación de Apple utilizado para desarrollar iOS ) para iOS. Esto incluye una iOS YOLO iOS lista para usar, escrita en Swift, que muestra cómo se pueden integrar CoreML , ejecutarlos con la entrada de la cámara y utilizarlos para la detección de objetos en tiempo real.

Ventajas adicionales deYOLO Ultralytics

Estas son otras características clave que hacen queYOLO Ultralytics sean una excelente opción para desarrollar iOS :

Admite una amplia gama de tareas de visión artificial: además de la detección de objetos,YOLO Ultralytics pueden utilizarse para la segmentación de instancias, la estimación de poses, el seguimiento de objetos, la detección de cajas delimitadoras orientadas (OBB) y la clasificación de imágenes.
Varios tamaños de modelo: Ultralytics diferentes variantes de modelo (como nano, pequeño, mediano, grande y extragrande), lo que permite a los desarrolladores elegir la versión que mejor se adapte a las limitaciones de rendimiento de los dispositivos móviles.
Modelos preentrenados: Los YOLO Ultralytics están disponibles como modelos preentrenados que pueden utilizarse tal cual o ajustarse para tareas específicas, lo que reduce el tiempo de desarrollo.

2. EfficientDet

EfficientDet es una arquitectura de detección de objetos presentada por investigadores de Google 2019. Se diseñó para lograr un equilibrio entre la precisión de la detección y la eficiencia computacional, lo que la hace idónea para entornos con recursos limitados.

Una idea clave en la que se basa EfficientDet es un método de escalado conocido como «escalado compuesto». En lugar de aumentar solo una parte del modelo, como la profundidad de la red o la resolución de la imagen, este enfoque escala varios componentes de la arquitectura de forma conjunta.

Al ajustar estos elementos de forma simultánea, el modelo mantiene un rendimiento estable, tanto si se configura para una alta precisión como si se optimiza para implementaciones ligeras.

La arquitectura está disponible en varias variantes, que van desde EfficientDet-D0 hasta EfficientDet-D7. Los modelos más pequeños están diseñados para ofrecer una inferencia más rápida y un menor consumo de recursos, mientras que las versiones más grandes se centran en lograr una mayor precisión de detección.

3. SSD MobileNet

MobileNet SSD es un modelo ligero de detección de objetos diseñado para funcionar de manera eficiente en dispositivos móviles y periféricos. Cobró popularidad alrededor de 2017.

El modelo combina la estructura MobileNet, centrada en la extracción eficiente de características, con el enfoque SSD (Single Shot Detector) para la detección de objetos. El método SSD detecta objetos y genera cuadros delimitadores en una sola pasada hacia adelante.

Este diseño permite que el modelo sea relativamente rápido y sencillo, lo cual resulta útil para aplicaciones que requieren resultados de detección rápidos. MobileNet SSD se utiliza a menudo en situaciones en las que es importante contar con modelos de menor tamaño y velocidades de inferencia más rápidas.

La arquitectura MobileNet reduce la carga computacional necesaria, lo que facilita la ejecución del modelo en dispositivos con una potencia de procesamiento limitada. Aunque es posible que MobileNet SSD no alcance el mismo nivel de precisión que algunas arquitecturas de detección más recientes, sigue ofreciendo un buen rendimiento en muchas tareas habituales de detección de objetos.

4. CenterNet

CenterNet es un modelo de detección de objetos que identifica los objetos mediante la predicción de sus puntos centrales. Se presentó en 2019.

En lugar de generar numerosas regiones candidatas, el modelo detecta el centro de un objeto y, a continuación, calcula el tamaño del rectángulo delimitador que lo rodea. Este enfoque simplifica el proceso de detección y reduce el número de pasos necesarios durante la inferencia.

Fig. 3. Resumen de las etapas de detección de objetos en CenterNet (Fuente)

‍

CenterNet se puede utilizar para tareas de detección en tiempo real y destaca por su arquitectura relativamente sencilla en comparación con algunos detectores de varias etapas. Variantes como CenterNet con estructuras ResNet se utilizan habitualmente en diversas aplicaciones de visión artificial.

Gracias a su diseño eficiente, CenterNet es ideal para sistemas que requieren una detección rápida de objetos, incluidas las aplicaciones que se ejecutan en iOS .

5. NanoDet

NanoDet es un modelo ligero de detección de objetos diseñado para aplicaciones en tiempo real en dispositivos periféricos y móviles. Se presentó en 2020 con el objetivo de ofrecer una detección de objetos eficiente, manteniendo al mismo tiempo el tamaño del modelo y los requisitos computacionales a un nivel muy bajo.

El modelo utiliza una arquitectura de detección de una sola etapa, lo que le permite predecir la ubicación y la categoría de los objetos en una sola pasada por la red. Este diseño garantiza que el modelo sea rápido y adecuado para sistemas con recursos de hardware limitados.

NanoDet utiliza una estructura compacta y un cabezal de detección optimizado para reducir el número de parámetros y cálculos necesarios durante la inferencia. Estas decisiones de diseño permiten mantener una precisión de detección razonable, al tiempo que se da prioridad a la velocidad y la eficiencia.

Elegir el modelo de detección de objetos adecuado para tu iOS

La elección de un modelo de detección de objetos para una iOS suele depender de los requisitos específicos del caso de uso. Dado que estos modelos se ejecutan directamente en dispositivos como el iPhone y el iPad, hay varios factores que influyen en cuál es la mejor opción.

A continuación, te indicamos algunos aspectos importantes que debes tener en cuenta:

Eficiencia energética: los modelos que consumen menos energía ayudan a prolongar la duración de la batería, lo cual es importante para las aplicaciones móviles que realizan un procesamiento continuo de la cámara.
Optimización de modelos Compatibilidad: Algunos modelos admiten técnicas de optimización como la cuantificación o la poda, que pueden reducir el tamaño del modelo y mejorar el rendimiento en iOS .
Compatibilidad con el hardware: La arquitectura del modelo que elijas debe funcionar de manera eficiente en iOS , incluyendo la CPU, GPU y el Neural Engine de Apple.
Escalabilidad: Algunas arquitecturas ofrecen modelos de distintos tamaños o variantes, lo que permite a los desarrolladores elegir las versiones que mejor se adapten a los requisitos de rendimiento y hardware.

Conclusiones clave

Los modelos de detección de objetos aportan capacidades avanzadas de visión artificial a las aplicaciones móviles inteligentes. Al ejecutarse directamente en iOS , estos modelos permiten que las aplicaciones analicen imágenes y vídeos captados por la cámara del dispositivo en tiempo real. Al elegir el modelo adecuado, los desarrolladores pueden crear aplicaciones móviles intuitivas basadas en la visión artificial que ofrecen un rendimiento fiable en tiempo real.

Únase a nuestra comunidad en crecimiento y explore nuestro repositorio GitHub para obtener recursos prácticos sobre IA. Para empezar a crear con IA visual hoy mismo, explore nuestras opciones de licencia. Descubra cómo la IA en la agricultura está transformando el sector y cómo la IA visual en robótica está dando forma al futuro visitando nuestras páginas de soluciones.

Los mejores modelos de detección de objetos para iOS en chips Apple Silicon

Cómo funcionan los detectores de objetos en iOS

¿Qué hace que un modelo de detección de objetos sea adecuado para iOS?

Un repaso a los mejores modelos de detección de objetos para iOS

1.YOLO de Ultralytics

Opciones de implementación deYOLO Ultralytics en Apple Silicon

Ventajas adicionales deYOLO Ultralytics

2. EfficientDet

3. SSD MobileNet

4. CenterNet

5. NanoDet

Elegir el modelo de detección de objetos adecuado para tu iOS

Conclusiones clave

Leer más en esta categoría

Incorporación deYOLO Ultralytics al hardware de Axelera AI para la IA en el borde

Los mejores modelos de detección de objetos para iOS en chips Apple Silicon

Implantar modelosYOLO Ultralytics mediante la integración de ExecuTorch

¡Construyamos juntos el futuro de la IA!