Os melhores modelos de deteção de objetos para iOS em chips Apple Silicon

Pretende implementar um projeto de visão computacional?

Android e os iPhones tornaram-se uma necessidade do dia a dia. As pessoas utilizam-nos para fazer compras, navegar, tirar fotografias, digitalizar produtos e interagir com aplicações ao longo do dia.

Com o rápido crescimento da inteligência artificial, muitos smartphones incluem agora funcionalidades capazes de interpretar imagens e vídeos captados pela câmara do dispositivo. A capacidade de executar estas funcionalidades de forma eficiente depende, em grande parte, do hardware subjacente.

Por exemplo, no ecossistema da Apple, dispositivos como iPhones, iPads e Macs são equipados com chips Apple Silicon, incluindo as séries A e M. Estes designs de sistema num chip (SoC) integram unidades de processamento central (CPU), unidades de processamento gráfico (GPU) e aceleradores dedicados de aprendizagem automática, permitindo a inferência no próprio dispositivo para cargas de trabalho de IA.

Em particular, as capacidades de análise de imagens são possibilitadas pela visão computacional, um campo da IA que permite às máquinas interpretar e compreender informações visuais provenientes de imagens e vídeos através de tarefas como a deteção de objetos.

Mais especificamente, os modelos de deteção de objetos analisam imagens e identificam objetos desenhando caixas delimitadoras à sua volta. Estes modelos podem ser otimizados para funcionar de forma eficiente em hardware móvel, como os chips Apple Silicon, permitindo a análise visual em tempo real diretamente no dispositivo em iOS .

Fig. 1. Um exemplo de deteção de objetos, com os objetos identificados por caixas delimitadoras. (Fonte)

‍

Neste artigo, vamos explorar alguns dos melhores modelos de deteção de objetos para criar iOS rápidas e em tempo real. Vamos começar!

Como funcionam os detectores de objetos em iOS

A deteção de objetos ajuda as aplicações a reconhecer e localizar objetos numa imagem. Quando uma aplicação processa uma imagem de entrada, um modelo de deteção de objetos pode analisar a cena e identificar diferentes objetos, colocando caixas delimitadoras à sua volta e atribuindo-lhes rótulos.

A maioria dos sistemas de deteção de objetos baseia-se em redes neurais capazes de reconhecer padrões nos dados de treino. No que diz respeito a tarefas relacionadas com imagens, estes modelos aprendem representações visuais através da análise de informações ao nível do pixel, a partir de grandes conjuntos de dados de treino.

As redes neurais convolucionais (CNNs) são frequentemente utilizadas como base para modelos de deteção de objetos. As CNNs são excelentes para previsões de imagens, pois aprendem características visuais hierárquicas, tais como contornos, formas e texturas, que ajudam o modelo a reconhecer objetos numa cena.

Os investigadores estão também a explorar arquiteturas baseadas em transformadores para tarefas de visão computacional. Estes modelos analisam as relações entre diferentes regiões de uma imagem e captam informações contextuais mais abrangentes em toda a cena.

Para além do tipo de arquitetura do modelo, a eficiência é um fator crucial na deteção de objetos em iOS . Uma vez que estes modelos são executados diretamente em dispositivos móveis, têm de processar imagens rapidamente, utilizando recursos computacionais limitados.

Os modelos eficientes mantêm uma baixa latência e suportam a deteção de objetos em tempo real em aplicações móveis, especialmente ao analisar imagens contínuas captadas pela câmara.

O que torna um modelo de deteção de objetos adequado para iOS?

Antes de nos debruçarmos sobre alguns dos melhores modelos de deteção de objetos para iOS, vamos dar um passo atrás e compreender o que torna um modelo ideal para aplicações móveis.

O modelo ideal de deteção de objetos para uma iOS equilibra desempenho, eficiência e fiabilidade. Aqui estão alguns fatores-chave que definem um modelo sólido para iOS :

Baixa latência: O modelo deve processar imagens rapidamente para permitir a deteção de objetos em tempo real, especialmente em aplicações que dependem de imagens contínuas da câmara.
Tamanho eficiente do modelo: os modelos compactos funcionam de forma mais eficiente em dispositivos móveis e, normalmente, requerem menos memória e recursos computacionais.
Precisão da deteção: Uma deteção precisa garante que os objetos sejam classificados corretamente e que as caixas delimitadoras se mantenham precisas em diferentes cenários, escalas de objetos e condições de iluminação.
Estabilidade da inferência: É importante que o tempo de inferência seja consistente entre os fotogramas nas aplicações em tempo real. Grandes flutuações no tempo de processamento podem causar a perda de fotogramas ou uma experiência instável com a câmara.‍
Consumo de memória: A quantidade de RAM necessária durante a inferência influencia a fluidez com que um modelo funciona em simultâneo com outros processos da aplicação em iOS .

Uma análise dos melhores modelos de deteção de objetos para iOS

A seguir, vamos dar uma vista de olhos a alguns dos modelos de deteção de objetos mais utilizados em iOS .

1.YOLO Ultralytics

YOLO Ultralytics constituem uma família popular de modelos de deteção de objetos concebidos para aplicações de visão computacional em tempo real. Ao longo dos anos, Ultralytics modelos de visão como Ultralytics YOLOv5, Ultralytics YOLOv8, Ultralytics YOLO11e o mais recente modelo de ponta, Ultralytics .

Cada nova versão tem introduzido melhorias na precisão da deteção, na eficiência do modelo e no desempenho em tempo de execução. Estas atualizações tornaramYOLO Ultralytics cada vez mais adequados para dispositivos de ponta, como os smartphones.

Fig. 2. O YOLO26 pode ser utilizado para detect objetos numa cena do mundo real. (Fonte)

‍

Uma das principais vantagens de utilizarYOLO Ultralytics em iOS é a CoreML , disponibilizada através do Python Ultralytics . Esta biblioteca de código aberto ajuda os programadores a treinar, testar e exportarYOLO Ultralytics através de um fluxo de trabalho simples.

O pacote permite exportar modelos treinados para CoreML, o formato de aprendizagem automática da Apple utilizado para implementar modelos em iOS . Após a exportação, o CoreML pode ser integrado numa aplicação e executado diretamente no dispositivo, utilizando hardware como a CPU, GPU e o Apple Neural Engine.

Fig. 3. CoreML a estrutura da Apple para integrar e executar modelos de IA nas aplicações. (Fonte)

‍

Isto facilita aos programadores a integração da deteção de objetos em tempo real nas iOS , mantendo a inferência do modelo no próprio dispositivo.

Opções de implementação dosYOLO Ultralytics YOLO no Apple Silicon

Para além dos próprios modelos, o Ultralytics oferece uma variedade de opções que facilitam a implementação de YOLO em chips Apple Silicon.

Por exemplo, Ultralytics lançou Ultralytics Ultralytics , que reúne a gestão de conjuntos de dados, o treino de modelos, a validação e a implementação num único ambiente. Este fluxo de trabalho unificado reduz a necessidade de utilizar várias ferramentas e ajuda a simplificar o percurso desde a fase experimental até às aplicações no mundo real.

Como parte da plataforma, os modelos treinados podem ser exportados para vários formatos, incluindo CoreML dispositivos Apple. Isto permite exportar umYOLO Ultralytics para inferência no próprio dispositivo com apenas alguns cliques.

Para além das funcionalidades de exportação, Ultralytics uma implementação em código aberto em Swift (a linguagem de programação da Apple utilizada para criar iOS ) para iOS. Isto inclui uma iOS YOLO iOS pronta a usar, escrita em Swift, que demonstra como CoreML podem ser integrados, executados com base na imagem captada pela câmara e utilizados para a deteção de objetos em tempo real.

Vantagens adicionais dosYOLO Ultralytics

Eis algumas outras características essenciais que tornamYOLO Ultralytics uma excelente opção para o desenvolvimento iOS :

Suporta uma variedade de tarefas de visão computacional: além da deteção de objetos,YOLO Ultralytics podem ser utilizados para segmentação de instâncias, estimativa de pose, rastreamento de objetos, deteção de caixas delimitadoras orientadas (OBB) e classificação de imagens.
Vários tamanhos de modelo: Ultralytics diferentes variantes de modelo (tais como nano, pequeno, médio, grande e extragrande), permitindo aos programadores escolher uma versão que se adapte às limitações de desempenho dos dispositivos móveis.
Modelos pré-treinados: Os YOLO Ultralytics estão disponíveis como modelos pré-treinados que podem ser utilizados imediatamente ou ajustados para tarefas específicas, reduzindo o tempo de desenvolvimento.

2. EfficientDet

O EfficientDet é uma arquitetura de deteção de objetos apresentada por investigadores da Google 2019. Foi concebida para equilibrar a precisão da deteção e a eficiência computacional, tornando-a adequada para ambientes com recursos limitados.

Uma ideia fundamental subjacente ao EfficientDet é um método de dimensionamento conhecido como dimensionamento composto. Em vez de aumentar apenas uma parte do modelo, como a profundidade da rede ou a resolução da imagem, esta abordagem dimensiona vários componentes da arquitetura em conjunto.

Ao ajustar estes elementos em simultâneo, o modelo mantém um desempenho estável, quer esteja configurado para alta precisão, quer otimizado para implementações leves.

A arquitetura está disponível em várias variantes, desde o EfficientDet-D0 até ao EfficientDet-D7. Os modelos mais pequenos foram concebidos para uma inferência mais rápida e um menor consumo de recursos, enquanto as versões maiores se concentram em alcançar uma maior precisão de deteção.

3. SSD MobileNet

O MobileNet SSD é um modelo leve de deteção de objetos concebido para funcionar de forma eficiente em dispositivos móveis e periféricos. Ganhou popularidade por volta de 2017.

O modelo combina a estrutura MobileNet, que se concentra na extração eficiente de características, com a abordagem SSD (Single Shot Detector) para a deteção de objetos. O método SSD deteta objetos e gera caixas delimitadoras numa única passagem de processamento.

Este design mantém o modelo relativamente rápido e simples, o que é útil para aplicações que necessitam de resultados de deteção rápidos. O MobileNet SSD é frequentemente utilizado em situações em que é importante ter modelos de menor dimensão e velocidades de inferência mais rápidas.

A arquitetura MobileNet reduz a quantidade de cálculos necessários, facilitando a execução do modelo em dispositivos com capacidade de processamento limitada. Embora o MobileNet SSD possa não atingir o mesmo nível de precisão que algumas arquiteturas de deteção mais recentes, continua a apresentar um bom desempenho em muitas tarefas comuns de deteção de objetos.

4. CenterNet

O CenterNet é um modelo de deteção de objetos que identifica objetos através da previsão dos seus pontos centrais. Foi lançado em 2019.

Em vez de gerar várias regiões candidatas, o modelo deteta o centro de um objeto e, em seguida, prevê o tamanho da caixa delimitadora à sua volta. Esta abordagem simplifica o fluxo de deteção e reduz o número de etapas envolvidas durante a inferência.

Fig. 3. Visão geral das etapas de deteção de objetos no CenterNet (Fonte)

‍

O CenterNet pode ser utilizado para tarefas de deteção em tempo real e é conhecido pela sua arquitetura relativamente simples, em comparação com alguns detetores de múltiplas etapas. Variantes como o CenterNet com estruturas ResNet são frequentemente utilizadas em diversas aplicações de visão computacional.

O seu design eficiente torna o CenterNet adequado para sistemas que necessitam de uma deteção rápida de objetos, incluindo aplicações executadas em iOS .

5. NanoDet

O NanoDet é um modelo leve de deteção de objetos concebido para aplicações em tempo real em dispositivos periféricos e móveis. Foi lançado em 2020 com o objetivo de proporcionar uma deteção de objetos eficiente, mantendo o tamanho do modelo e os requisitos computacionais muito baixos.

O modelo utiliza uma arquitetura de deteção de fase única, o que lhe permite prever a localização e as categorias dos objetos numa única passagem pela rede. Este design mantém o modelo rápido e adequado para sistemas com recursos de hardware limitados.

O NanoDet utiliza uma estrutura compacta e uma cabeça de deteção otimizada para reduzir o número de parâmetros e cálculos necessários durante a inferência. Estas escolhas de design ajudam a manter uma precisão de deteção razoável, ao mesmo tempo que dão prioridade à velocidade e à eficiência.

Escolher o modelo de deteção de objetos adequado para a sua iOS

A escolha de um modelo de deteção de objetos para uma iOS depende frequentemente dos requisitos específicos do caso de utilização. Uma vez que estes modelos são executados diretamente em dispositivos como o iPhone e o iPad, vários fatores influenciam a escolha da opção mais adequada.

Aqui estão algumas considerações importantes:

Eficiência energética: Os modelos que consomem menos energia ajudam a prolongar a duração da bateria, o que é importante para aplicações móveis que realizam processamento contínuo da câmara.
Otimização do modelo: Alguns modelos suportam técnicas de otimização, como quantização ou poda, que podem reduzir o tamanho do modelo e melhorar o desempenho em iOS .
Compatibilidade de hardware: A arquitetura do modelo que escolher deve funcionar de forma eficiente no iOS , incluindo a CPU, GPU e o Neural Engine da Apple.
Escalabilidade: Algumas arquiteturas oferecem vários tamanhos ou variantes de modelos, permitindo que os programadores escolham as versões que melhor se adequam aos requisitos de desempenho e de hardware.

Principais conclusões

Os modelos de deteção de objetos proporcionam funcionalidades avançadas de visão computacional às aplicações móveis inteligentes. Ao serem executados diretamente em iOS , estes modelos permitem que as aplicações analisem imagens e vídeos captados pela câmara do dispositivo em tempo real. Ao escolherem o modelo adequado, os programadores podem criar aplicações móveis responsivas e orientadas para a visão, que oferecem um desempenho fiável em tempo real.

Junte-se à nossa comunidade em crescimento e explore o nosso repositório GitHub para obter recursos práticos de IA. Para construir com IA de visão hoje, explore as nossas opções de licenciamento. Saiba como a IA na agricultura está a transformar a agricultura e como a IA de visão na robótica está a moldar o futuro, visitando as nossas páginas de soluções.

Os melhores modelos de deteção de objetos para iOS em chips Apple Silicon

Como funcionam os detectores de objetos em iOS

O que torna um modelo de deteção de objetos adequado para iOS?

Uma análise dos melhores modelos de deteção de objetos para iOS

1.YOLO Ultralytics

Opções de implementação dosYOLO Ultralytics YOLO no Apple Silicon

Vantagens adicionais dosYOLO Ultralytics

2. EfficientDet

3. SSD MobileNet

4. CenterNet

5. NanoDet

Escolher o modelo de deteção de objetos adequado para a sua iOS

Principais conclusões

Leia mais nesta categoria

ImplementaçãoYOLO Ultralytics no hardware da Axelera AI para IA de ponta

Os melhores modelos de deteção de objetos para iOS em chips Apple Silicon

Implantar modelosYOLO Ultralytics usando a integração do ExecuTorch

Vamos construir juntos o futuro da IA!