Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Лучшие модели распознавания объектов для iOS на чипах Apple Silicon

Создавайте более интеллектуальные iOS с помощью лучших моделей распознавания объектов. Узнайте, какие модели обеспечивают быструю и точную работу в режиме реального времени на iOS , таких как iPhone и iPad.

Масштабируйте свои проекты в области компьютерного зрения с Ultralytics

Начать

Android и iPhone стали неотъемлемой частью повседневной жизни. Люди используют их для покупок, навигации, фотографирования, сканирования товаров и работы с приложениями в течение всего дня. 

Благодаря стремительному развитию искусственного интеллекта многие смартфоны теперь оснащены функциями, способными анализировать изображения и видео, снятые камерой устройства. Эффективность работы этих функций во многом зависит от аппаратного обеспечения.

Например, в экосистеме Apple такие устройства, как iPhone, iPad и Mac, оснащены чипами Apple Silicon, в том числе серий A и M. Эти системы на кристалле (SoC) объединяют в себе центральные процессоры (CPU), графические процессоры (GPU) и специализированные ускорители машинного обучения, что позволяет выполнять инференцию на устройстве при обработке задач искусственного интеллекта.

В частности, возможности анализа изображений обеспечиваются за счет компьютерного зрения — области искусственного интеллекта, которая позволяет машинам интерпретировать и понимать визуальную информацию из изображений и видео с помощью таких задач, как распознавание объектов

В частности, модели распознавания объектов анализируют изображения и идентифицируют объекты, обводя их ограничительными рамками. Эти модели можно оптимизировать для эффективной работы на мобильном оборудовании, таком как чипы Apple Silicon, что позволяет осуществлять визуальный анализ в режиме реального времени непосредственно на iOS .

Рис. 1. Пример распознавания объектов, обозначенных ограничительными прямоугольниками. (Источник)

В этой статье мы рассмотрим некоторые из лучших моделей распознавания объектов для создания быстрых iOS , работающих в режиме реального времени. Приступим!

Как работают детекторы объектов на iOS

Функция распознавания объектов помогает приложениям распознавать и определять местоположение объектов на изображении. Когда приложение обрабатывает входное изображение, модель распознавания объектов может проанализировать сцену и идентифицировать различные объекты, обводя их ограничительными прямоугольниками и присваивая им метки.

Большинство систем обнаружения объектов основано на нейронных сетях, способных распознавать закономерности в обучающих данных. При решении задач, связанных с изображениями, эти модели обучаются визуальным представлениям, анализируя информацию на уровне пикселей из обширных обучающих наборов данных.

Сверточные нейронные сети (CNN) часто используются в качестве основы для моделей обнаружения объектов. CNN отлично подходят для прогнозирования на основе изображений, поскольку они обучаются распознаванию иерархических визуальных признаков, таких как края, формы и текстуры, которые помогают модели распознавать объекты в кадре.

Исследователи также изучают архитектуры на основе трансформаторов для задач компьютерного зрения. Эти модели анализируют взаимосвязи между различными участками изображения и фиксируют более общую контекстную информацию по всей сцене. 

Помимо типа архитектуры модели, при обнаружении объектов на iOS решающее значение имеет эффективность. Поскольку эти модели работают непосредственно на мобильных устройствах, им необходимо быстро обрабатывать изображения, используя при этом ограниченные вычислительные ресурсы. 

Эффективные модели обеспечивают низкую задержку и поддерживают обнаружение объектов в реальном времени в мобильных приложениях, особенно при анализе непрерывного потока данных с камеры.

Что делает модель распознавания объектов подходящей для iOS?

Прежде чем перейти к рассмотрению лучших моделей распознавания объектов для iOS, давайте сначала разберемся, что именно делает модель подходящей для мобильных приложений.

Идеальная модель распознавания объектов для iOS обеспечивает оптимальный баланс между производительностью, эффективностью и надёжностью. Ниже приведены некоторые ключевые факторы, определяющие качественную модель для iOS :

  • Низкая задержка: модель должна быстро обрабатывать изображения для обеспечения обнаружения объектов в режиме реального времени, особенно в приложениях, где требуется непрерывный поток данных с камеры.
  • Эффективный размер модели: компактные модели работают более эффективно на мобильных устройствах и, как правило, требуют меньше памяти и вычислительных ресурсов.
  • Точность распознавания: Точное распознавание гарантирует правильную классификацию объектов, а границы рамок остаются точными при различных сценах, масштабах объектов и условиях освещения.
  • Стабильность вычислений: стабильное время вычислений между кадрами имеет важное значение для приложений, работающих в режиме реального времени. Сильные колебания времени обработки могут привести к пропуску кадров или нестабильной работе камеры.
  • Объём занимаемой памяти: объем оперативной памяти, требуемый во время инференса, влияет на плавность работы модели на фоне других процессов приложения на iOS .

Обзор лучших моделей распознавания объектов для iOS 

Далее давайте рассмотрим некоторые из наиболее широко используемых моделей обнаружения объектов для iOS .

1.YOLO Ultralytics YOLO

YOLO Ultralytics — это популярное семейство моделей для обнаружения объектов, разработанное для приложений компьютерного зрения, работающих в режиме реального времени. На протяжении многих лет Ultralytics такие модели компьютерного зрения, как Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11, а также новейшая передовая модель Ultralytics

Каждый новый выпуск приносит улучшения в точности распознавания, эффективности моделей и производительности при выполнении. Благодаря этим обновлениямYOLO Ultralytics YOLO становятся всё более подходящими для периферийных устройств, таких как смартфоны.

Рис. 2. Модель YOLO26 можно использовать для detect объектов в реальной сцене. (Источник)

Одним из ключевых преимуществ использованияYOLO Ultralytics YOLO для iOS является CoreML , реализованная через Python Ultralytics Python . Эта библиотека с открытым исходным кодом помогает разработчикам обучать, тестировать и экспортироватьYOLO Ultralytics YOLO с помощью простого рабочего процесса.

Этот пакет поддерживает экспорт обученных моделей в CoreML — формат машинного обучения от Apple, используемый для развертывания моделей на iOS . После экспорта CoreML можно интегрировать в приложение и запускать непосредственно на устройстве с использованием аппаратных ресурсов, таких как CPU, GPU и Apple Neural Engine. 

Рис. 3. CoreML фреймворк Apple для интеграции и запуска моделей искусственного интеллекта в приложениях. (Источник)

Благодаря этому разработчики могут легко интегрировать функцию обнаружения объектов в реальном времени в iOS , при этом инференция модели остается на устройстве.

Варианты развертыванияYOLO Ultralytics YOLO на платформе Apple Silicon

Помимо самих моделей, Ultralytics предлагает ряд возможностей, упрощающих развертывание YOLO на чипах Apple Silicon.

Например, Ultralytics представила Ultralytics , которая объединяет управление наборами данных, обучение моделей, их валидацию и развертывание в единой среде. Такой унифицированный рабочий процесс снижает потребность в использовании множества инструментов и помогает оптимизировать путь от экспериментов до практического применения.

В рамках платформы обученные модели можно экспортировать в различные форматы, в том числе CoreML устройств Apple. Это позволяет всего за несколько кликов экспортироватьYOLO Ultralytics YOLO для выполнения инференции непосредственно на устройстве. 

Помимо возможностей экспорта, Ultralytics реализацию на iOS Swift (язык программирования Apple, используемый для создания iOS ) с открытым исходным кодом. В комплект входит готовое к использованию iOS YOLO iOS , написанное на Swift, которое демонстрирует, как CoreML можно интегрировать, запускать на основе данных с камеры и использовать для обнаружения объектов в реальном времени.

Дополнительные преимуществаYOLO от Ultralytics

Вот еще несколько ключевых характеристик, благодаря которымYOLO Ultralytics YOLO являются отличным выбором для разработки iOS :

  • Поддерживает широкий спектр задач обработки изображений: помимо распознавания объектов,YOLO Ultralytics YOLO можно использовать для сегментации объектов, оценки позы, отслеживания объектов, обнаружения ориентированных ограничительных прямоугольников (OBB) и классификации изображений.
  • Различные размеры моделей: Ultralytics различные варианты моделей (такие как nano, small, medium, large и extra-large), что позволяет разработчикам выбирать версию, соответствующую ограничениям по производительности мобильных устройств.
  • Предварительно обученные модели: YOLO Ultralytics YOLO доступны в виде предварительно обученных моделей, которые можно использовать сразу после установки или настроить под конкретные задачи, что сокращает время разработки.

2. EfficientDet

EfficientDet — это архитектура для обнаружения объектов, представленная исследователями из Google 2019 году. Она была разработана с целью обеспечить баланс между точностью обнаружения и вычислительной эффективностью, что делает её подходящей для сред с ограниченными ресурсами.

Ключевой идеей EfficientDet является метод масштабирования, известный как «комбинированное масштабирование». В отличие от методов, при которых увеличивается только одна часть модели (например, глубина сети или разрешение изображения), данный подход позволяет одновременно масштабировать несколько компонентов архитектуры. 

Благодаря одновременной настройке этих элементов модель сохраняет стабильную производительность как при настройке на высокую точность, так и при оптимизации для компактных решений.

Архитектура представлена в нескольких вариантах: от EfficientDet-D0 до EfficientDet-D7. Меньшие по размеру модели предназначены для ускорения вычислений и снижения потребления ресурсов, тогда как более крупные версии ориентированы на обеспечение более высокой точности обнаружения.

3. SSD MobileNet

MobileNet SSD — это облегченная модель для обнаружения объектов, разработанная для эффективной работы на мобильных устройствах и устройствах периферийной обработки данных. Она приобрела популярность примерно в 2017 году. 

Модель сочетает в себе базовую сеть MobileNet, ориентированную на эффективное извлечение признаков, с подходом SSD (Single Shot Detector) для обнаружения объектов. Метод SSD обнаруживает объекты и генерирует ограничительные прямоугольники за один проход по сети. 

Такая архитектура позволяет сохранить относительную быстродействие и простоту модели, что полезно для приложений, требующих оперативного получения результатов распознавания. MobileNet SSD часто используется в ситуациях, когда важны компактность модели и высокая скорость вычислений. 

Архитектура MobileNet сокращает объем необходимых вычислений, что упрощает запуск модели на устройствах с ограниченными вычислительными ресурсами. Хотя MobileNet SSD, возможно, и не достигает такого же уровня точности, как некоторые более новые архитектуры обнаружения, она по-прежнему демонстрирует хорошие результаты при решении многих типичных задач обнаружения объектов. 

4. CenterNet

CenterNet — это модель распознавания объектов, которая определяет объекты путем прогнозирования их центральных точек. Она была представлена в 2019 году. 

Вместо того чтобы генерировать множество потенциальных областей, модель определяет центр объекта, а затем прогнозирует размер охватывающей рамки вокруг него. Такой подход упрощает процесс распознавания и сокращает количество этапов, выполняемых во время инференции. 

Рис. 3. Обзор этапов обнаружения объектов в CenterNet (Источник)

CenterNet может использоваться для задач обнаружения в реальном времени и отличается относительно простой архитектурой по сравнению с некоторыми многоуровневыми детекторами. Варианты этой модели, такие как CenterNet с базовыми сетями ResNet, широко применяются в различных приложениях компьютерного зрения.

Благодаря своей эффективной конструкции CenterNet подходит для систем, требующих быстрого обнаружения объектов, в том числе для приложений, работающих на iOS .

5. NanoDet

NanoDet — это компактная модель для распознавания объектов, разработанная для приложений реального времени на периферийных и мобильных устройствах. Она была представлена в 2020 году с целью обеспечить эффективное распознавание объектов при минимальном размере модели и низких вычислительных требованиях.

Модель использует одноступенчатую архитектуру распознавания, что позволяет ей определять местоположение и категории объектов за один проход по сети. Такая конструкция обеспечивает высокую скорость работы модели и делает её подходящей для систем с ограниченными аппаратными ресурсами.

В NanoDet используется компактная базовая архитектура и оптимизированная головка обнаружения, что позволяет сократить количество параметров и вычислений, необходимых при инференции. Такие конструктивные решения помогают сохранить приемлемую точность обнаружения, уделяя при этом приоритетное внимание скорости и эффективности.

Выбор подходящей модели распознавания объектов для вашего iOS

Выбор модели распознавания объектов для iOS часто зависит от конкретных требований сценария использования. Поскольку эти модели работают непосредственно на устройствах, таких как iPhone и iPad, на выбор оптимального варианта влияют несколько факторов.

Вот несколько важных моментов, которые следует учитывать:

  • Энергоэффективность: модели с более низким энергопотреблением позволяют продлить срок службы аккумулятора, что важно для мобильных приложений, осуществляющих непрерывную обработку изображений с камеры.
  • Оптимизация модели поддержка: Некоторые модели поддерживают методы оптимизации, такие как квантование или обрезка, которые позволяют уменьшить размер модели и повысить производительность на iOS .
  • Совместимость с аппаратным обеспечением: выбранная вами архитектура модели должна эффективно работать на iOS , включая CPU, GPU и Neural Engine от Apple.
  • Масштабируемость: Некоторые архитектуры предлагают несколько размеров или вариантов моделей, что позволяет разработчикам выбирать версии, наиболее соответствующие требованиям к производительности и аппаратному обеспечению.

Основные выводы

Модели распознавания объектов предоставляют интеллектуальным мобильным приложениям расширенные возможности компьютерного зрения. Работая непосредственно на iOS , эти модели позволяют приложениям анализировать изображения и видео с камеры устройства в режиме реального времени. Выбрав подходящую модель, разработчики могут создавать отзывчивые мобильные приложения на основе компьютерного зрения, обеспечивающие надежную работу в режиме реального времени.

Присоединяйтесь к нашему растущему сообществу и изучите наш репозиторий GitHub, где вы найдете практические ресурсы по искусственному интеллекту. Чтобы начать работу с искусственным интеллектом на основе зрения уже сегодня, ознакомьтесь с нашими вариантами лицензирования. Узнайте, как искусственный интеллект в сельском хозяйстве меняет фермерство и как искусственный интеллект на основе зрения в робототехнике формирует будущее, посетив наши страницы с решениями.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения