Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Sopas de modelo

Descubra como o Model Soups melhora a precisão e a robustez através da média dos pesos dosYOLO Ultralytics . Aprenda a melhorar o desempenho sem aumentar a latência.

As «sopas de modelos» referem-se a uma técnica de aprendizagem automática em que os pesos de várias redes neurais, ajustados a partir do mesmo modelo base pré-treinado utilizando diferentes hiperparâmetros, são calculados em média para criar um único modelo mais robusto. Esta abordagem permite aos programadores melhorar a precisão global e a generalização sem aumentar o custo computacional durante a inferência.

Ao ajustar um modelo, os profissionais costumam realizar uma ampla varredura de ajuste de hiperparâmetros para encontrar a configuração com melhor desempenho. Tradicionalmente, é selecionado o melhor modelo individual e os restantes são descartados. No entanto, a criação de um «model soup» aproveita as diversas características aprendidas por todos os modelos na varredura. Ao calcular diretamente a média dos pesos dos modelos, a rede resultante supera frequentemente o melhor modelo individual, combinando eficazmente os seus pontos fortes e minimizando o sobreajuste. Este processo é altamente eficiente e pode ser facilmente gerido em ambientes colaborativos como a Ultralytics .

Aplicações no Mundo Real

As «Model Soups» são altamente eficazes em situações em que os recursos computacionais são limitados, mas é necessária uma elevada precisão e robustez.

  • Visão em veículos autónomos: Ao implementar sistemas de deteção de objetos em carros autónomos, os modelos devem ser capazes de generalizar em diversas condições de iluminação e meteorológicas. Ao calcular a média de vários modelos treinados com diferentes aumentações de dados e taxas de aprendizagem, os engenheiros criam uma «mistura» altamente robusta que mantém uma baixa latência de inferência. Isto garante que as velocidades de processamento em tempo real, cruciais para a navegação autónoma, não sejam afetadas.
  • Diagnósticos médicos móveis: Nas aplicações de IA de ponta, como a classificação de imagens em smartphones para o rastreio dermatológico inicial, a capacidade computacional é extremamente limitada. Um «model soup» proporciona o aumento de precisão necessário para garantir a fiabilidade clínica, assegurando simultaneamente que o tamanho final do modelo se adapta facilmente aos dispositivos móveis de ponta, sem esgotar a bateria nem exigir ligação à nuvem.

Diferenciação de conceitos relacionados

Para se orientar no panorama da otimização do deep learning, é importante distinguir o «Model Soups» de técnicas semelhantes:

  • Conjunto de modelos: A técnica de ensembling combina as previsões (resultados) de vários modelos independentes. Embora isto melhore a precisão, exige a execução de todos os modelos durante a inferência, multiplicando o custo computacional. Os «Model Soups» calculam a média dos pesos antes da inferência, mantendo o custo computacional idêntico ao de um único modelo.
  • Fusão de modelos: Trata-se de um termo mais abrangente para designar a combinação de modelos que podem ter sido treinados em tarefas ou conjuntos de dados totalmente diferentes. Os «Model Soups» são um subconjunto específico da fusão, em que todos os modelos provêm exatamente da mesma arquitetura de base pré-treinada e são ajustados para a mesma tarefa-alvo.

Exemplo de implementação

A criação de um conjunto de modelos uniformes envolve aceder ao dicionárioPyTorch de vários modelos treinados e calcular matematicamente a média dos seus tensores. Segue-se um exemplo conciso de como isto pode ser conseguido utilizando um fluxo de trabalho Ultralytics nativamente suportado pela PyTorch .

import torch

# Load the PyTorch state dictionaries from two fine-tuned YOLO26 models
model1 = torch.load("yolo26_run1.pt")["model"].state_dict()
model2 = torch.load("yolo26_run2.pt")["model"].state_dict()

# Create a uniform model soup by averaging the model weights
soup_dict = {key: (model1[key] + model2[key]) / 2.0 for key in model1.keys()}

# The resulting soup_dict can now be loaded into a new YOLO26 instance

Ao recorrer a esta técnica, os profissionais da área da visão computacional podem facilmente melhorar métricas de desempenho como as capacidades de aprendizagem sem treino prévio e a robustez geral, sem comprometer a velocidade de implementação exigida pelas arquiteturas modernas de IA centradas na periferia.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina