A otimização de modelos é um processo que visa melhorar a eficiência e o desempenho de modelos de machine learning. Ao refinar a estrutura e a função de um modelo, a otimização possibilita que os modelos entreguem melhores resultados com o mínimo de recursos computacionais e tempo reduzido de treinamento e avaliação.

Este processo é especialmente importante em áreas como a visão computacional, onde os modelos geralmente exigem recursos substanciais para analisar imagens complexas. Em ambientes com restrições de recursos, como dispositivos móveis ou sistemas de borda, os modelos otimizados podem funcionar bem com recursos limitados, mantendo a precisão.

Várias técnicas são comumente usadas para otimizar modelos, incluindo ajuste de hiperparâmetros, pruning de modelos, quantização de modelos e precisão mista. Neste artigo, exploraremos essas técnicas e os benefícios que elas trazem para aplicações de visão computacional. Vamos começar!

Compreender a otimização de modelos

Os modelos de visão computacional geralmente têm camadas profundas e estruturas complexas que são ótimas para reconhecer padrões intrincados em imagens, mas também podem ser bastante exigentes em termos de poder de processamento. Quando esses modelos são implantados em dispositivos com hardware limitado, como telefones celulares ou dispositivos de borda, eles podem enfrentar certos desafios ou limitações.

O poder de processamento, a memória e a energia limitados nesses dispositivos podem levar a quedas notáveis no desempenho, à medida que os modelos lutam para acompanhar. As técnicas de otimização de modelo são essenciais para lidar com essas preocupações. Elas ajudam a otimizar o modelo, reduzir suas necessidades computacionais e garantir que ele ainda possa funcionar de forma eficaz, mesmo com recursos limitados. A otimização do modelo pode ser feita simplificando a arquitetura do modelo, reduzindo a precisão dos cálculos ou removendo componentes desnecessários para tornar o modelo mais leve e rápido.

__wf_reserved_inherit — Fig 1. Razões para otimizar seus modelos. Imagem do autor.

‍

Aqui estão algumas das técnicas mais comuns de otimização de modelos, que exploraremos com mais detalhes nas seções a seguir:

Ajuste de hiperparâmetros: Envolve o ajuste sistemático de hiperparâmetros, como taxa de aprendizado e tamanho do lote, para melhorar o desempenho do modelo.
‍
Poda de modelos: Esta técnica remove pesos e conexões desnecessárias da rede neural, reduzindo sua complexidade e custo computacional.
‍
Quantização de modelos: A quantização envolve a redução da precisão dos pesos e ativações do modelo, normalmente de 32 bits para 16 bits ou 8 bits, reduzindo significativamente a pegada de memória e os requisitos computacionais.
‍
Ajustes de precisão: Também conhecido como treinamento de precisão mista, envolve o uso de diferentes formatos de precisão para diferentes partes do modelo e a otimização do uso de recursos sem comprometer a acurácia.

Explicado: Hiperparâmetros em modelos de machine learning

Você pode ajudar um modelo a aprender e ter um desempenho melhor ajustando seus hiperparâmetros - configurações que moldam como o modelo aprende com os dados. O Ajuste de hiperparâmetros é uma técnica para otimizar essas configurações, melhorando a eficiência e a precisão do modelo. Ao contrário dos parâmetros que o modelo aprende durante o treinamento, os hiperparâmetros são valores predefinidos que orientam o processo de treinamento.

Vamos percorrer alguns exemplos de hiperparâmetros que podem ser ajustados:

Taxa de aprendizado: Este parâmetro controla o tamanho do passo que o modelo dá para ajustar seus pesos internos. Uma taxa de aprendizado mais alta pode acelerar o aprendizado, mas corre o risco de perder a solução ideal, enquanto uma taxa mais baixa pode ser mais precisa, mas mais lenta.
‍
Tamanho do lote: Define quantas amostras de dados são processadas em cada etapa de treinamento. Tamanhos de lote maiores oferecem um aprendizado mais estável, mas precisam de mais memória. Lotes menores treinam mais rápido, mas podem ser menos estáveis.
‍
Épocas: Você pode determinar quantas vezes o modelo vê o conjunto de dados completo usando este parâmetro. Mais épocas podem melhorar a precisão, mas correm o risco de overfitting.
‍
Tamanho do kernel: Define o tamanho do filtro em Redes Neurais Convolucionais (CNNs). Kernels maiores capturam padrões mais amplos, mas precisam de mais processamento; kernels menores se concentram em detalhes mais finos.

Como funciona o ajuste de hiperparâmetros

O ajuste de hiperparâmetros geralmente começa com a definição de um intervalo de valores possíveis para cada hiperparâmetro. Um algoritmo de busca então explora diferentes combinações dentro desses intervalos para identificar as configurações que produzem o melhor desempenho.

Os métodos comuns de ajuste incluem busca em grade, busca aleatória e otimização Bayesiana. A busca em grade testa todas as combinações possíveis de valores dentro dos intervalos especificados. A busca aleatória seleciona combinações aleatoriamente, muitas vezes encontrando configurações eficazes mais rapidamente. A otimização Bayesiana usa um modelo probabilístico para prever valores de hiperparâmetros promissores com base em resultados anteriores. Esta abordagem normalmente reduz o número de tentativas necessárias.

Em última análise, para cada combinação de hiperparâmetros, o desempenho do modelo é avaliado. O processo é repetido até que os resultados desejados sejam alcançados.

Hiperparâmetros vs. parâmetros do modelo

Ao trabalhar no ajuste de hiperparâmetros, você pode se perguntar qual é a diferença entre hiperparâmetros e parâmetros do modelo.

Hiperparâmetros são valores definidos antes do treinamento que controlam como o modelo aprende, como a taxa de aprendizado ou o tamanho do lote. Essas configurações são fixadas durante o treinamento e influenciam diretamente o processo de aprendizado. Os parâmetros do modelo, por outro lado, são aprendidos pelo próprio modelo durante o treinamento. Estes incluem pesos e vieses, que se ajustam à medida que o modelo treina e, finalmente, orientam suas previsões. Em essência, os hiperparâmetros moldam a jornada de aprendizado, enquanto os parâmetros do modelo são os resultados desse processo de aprendizado.

‍

Por que a poda de modelos é importante no deep learning

A Poda de modelo é uma técnica de redução de tamanho que remove pesos e parâmetros desnecessários de um modelo, tornando-o mais eficiente. Em visão computacional, especialmente com redes neurais profundas, um grande número de parâmetros, como pesos e ativações (saídas intermediárias que ajudam a calcular a saída final), pode aumentar a complexidade e as demandas computacionais. A poda ajuda a otimizar o modelo, identificando e removendo parâmetros que contribuem minimamente para o desempenho, resultando em um modelo mais leve e eficiente.

‍

Após o treinamento do modelo, técnicas como poda baseada em magnitude ou análise de sensibilidade podem avaliar a importância de cada parâmetro. Os parâmetros de baixa importância são então podados, usando uma das três técnicas principais: poda de peso, poda de neurônio ou poda estruturada.

A poda de peso remove conexões individuais com impacto mínimo na saída. A poda de neurónios remove neurónios inteiros cujas saídas contribuem pouco para a função do modelo. A poda estruturada elimina seções maiores, como filtros convolucionais ou neurónios em camadas totalmente conectadas, otimizando a eficiência do modelo. Uma vez concluída a poda, o modelo é re-treinado para ajustar os parâmetros restantes, garantindo que ele mantenha alta precisão em uma forma reduzida.

Reduzindo a latência em modelos de IA com quantização

A Quantização de modelo reduz o número de bits usados para representar os pesos e ativações de um modelo. Normalmente, converte valores de ponto flutuante de 32 bits de alta precisão para precisão mais baixa, como inteiros de 16 bits ou 8 bits. Ao reduzir a precisão de bits, a quantização diminui significativamente o tamanho do modelo, a ocupação de memória e o custo computacional.

Em visão computacional, floats de 32 bits são padrão, mas converter para 16 bits ou 8 bits pode melhorar a eficiência. Existem dois tipos principais de quantização: quantização de peso e quantização de ativação. A quantização de peso diminui a precisão dos pesos do modelo, equilibrando a redução de tamanho com a precisão. A quantização de ativação reduz a precisão das ativações, diminuindo ainda mais a memória e as demandas computacionais.

‍

Como a precisão mista acelera as inferências de IA

A Precisão mista é uma técnica que usa diferentes precisões numéricas para várias partes de uma rede neural. Ao combinar valores de precisão mais alta, como floats de 32 bits, com valores de precisão mais baixa, como floats de 16 bits ou 8 bits, a precisão mista possibilita que os modelos de visão computacional acelerem o treinamento e reduzam o uso de memória sem sacrificar a precisão.

Durante o treinamento, a precisão mista é alcançada usando precisão mais baixa em camadas específicas, mantendo a precisão mais alta onde for necessário em toda a rede. Isso é feito por meio de casting e dimensionamento de perda. O casting converte tipos de dados entre diferentes precisões, conforme exigido pelo modelo. O dimensionamento de perda ajusta a precisão reduzida para evitar o underflow numérico, garantindo um treinamento estável. A precisão mista é especialmente útil para modelos grandes e tamanhos de lote grandes.

‍

Equilibrando a precisão e a eficiência do modelo

Agora que abordamos várias técnicas de otimização de modelo, vamos discutir como decidir qual usar com base em suas necessidades específicas. A escolha depende de fatores como o hardware disponível, as restrições computacionais e de memória do ambiente de implantação e o nível de precisão necessário.

Por exemplo, modelos menores e mais rápidos são mais adequados para dispositivos móveis com recursos limitados, enquanto modelos maiores e mais precisos podem ser usados em sistemas de alto desempenho. Veja como cada técnica se alinha com diferentes objetivos:

Poda: É ideal para reduzir o tamanho do modelo sem impactar significativamente a precisão, tornando-o perfeito para dispositivos com recursos limitados, como telefones celulares ou dispositivos de Internet das Coisas (IoT).
‍
Quantização: Uma ótima opção para reduzir o tamanho do modelo e acelerar a inferência, principalmente em dispositivos móveis e sistemas embarcados com memória e poder de processamento limitados. Funciona bem para aplicações onde pequenas reduções de precisão são aceitáveis.
‍
Precisão mista: Projetada para modelos de grande escala, esta técnica reduz o uso de memória e acelera o treinamento em hardware como GPUs e TPUs que suportam operações de precisão mista. É frequentemente usada em tarefas de alto desempenho onde a eficiência é importante.
‍
Ajuste de hiperparâmetros: Embora computacionalmente intensivo, é essencial para aplicações que requerem alta precisão, como imagens médicas ou direção autónoma.

Principais conclusões

A otimização de modelos é uma parte vital do machine learning, especialmente para a implementação de IA em aplicações do mundo real. Técnicas como ajuste de hiperparâmetros, pruning de modelos, quantização e precisão mista ajudam a melhorar o desempenho, a eficiência e o uso de recursos de modelos de visão computacional. Essas otimizações tornam os modelos mais rápidos e menos intensivos em recursos, o que é ideal para dispositivos com memória e poder de processamento limitados. Os modelos otimizados também são mais fáceis de escalar e implementar em diferentes plataformas, permitindo soluções de IA que são eficazes e adaptáveis a uma ampla gama de usos.

Visite orepositório GitHub do Ultralytics e junte-se à nossa comunidade para saber mais sobre aplicações de IA no fabrico e na agricultura.

O que é otimização de modelo? Um guia rápido

Compreender a otimização de modelos

Explicado: Hiperparâmetros em modelos de machine learning

Como funciona o ajuste de hiperparâmetros

Hiperparâmetros vs. parâmetros do modelo

Por que a poda de modelos é importante no deep learning

Reduzindo a latência em modelos de IA com quantização

Como a precisão mista acelera as inferências de IA

Equilibrando a precisão e a eficiência do modelo

Principais conclusões

Leia mais nesta categoria

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Marcar golos mais inteligentes com a ajuda da IA no futebol

Explorar SAM 3: o novo modelo Segment Anything da Meta AI

Vamos construir o futuro
da IA juntos!

O que é otimização de modelo? Um guia rápido

Compreender a otimização de modelos

Explicado: Hiperparâmetros em modelos de machine learning

Como funciona o ajuste de hiperparâmetros

Hiperparâmetros vs. parâmetros do modelo

Por que a poda de modelos é importante no deep learning

Reduzindo a latência em modelos de IA com quantização

Como a precisão mista acelera as inferências de IA

Equilibrando a precisão e a eficiência do modelo

Principais conclusões

Leia mais nesta categoria

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Marcar golos mais inteligentes com a ajuda da IA no futebol

Explorar SAM 3: o novo modelo Segment Anything da Meta AI

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!