Ultralytics : Pontos finais de inferência dedicados vs. partilhados para implementação

Expanda os seus projetos de visão computacional com Ultralytics

Recentemente, lançámos a Ultralytics , uma solução completa que reúne todo o fluxo de trabalho de visão computacional num único local, desde a preparação de conjuntos de dados e o treino de modelos até à inferência, implementação e monitorização.

Criada com base no feedback da comunidade de visão computacional, a plataforma foi concebida para simplificar cada fase do desenvolvimento, oferecendo funcionalidades integradas que apoiam todo o ciclo de vida das aplicações de IA de visão.

Por exemplo, depois de um modelo estar treinado, o passo seguinte é implementá-lo para que possa ser utilizado para realizar inferências e fazer previsões em aplicações do mundo real. A plataforma simplifica este processo, oferecendo várias opções de implementação.

Pode exportar modelos para os executar no seu próprio ambiente, utilizar a inferência partilhada para testes rápidos ou implementar pontos de extremidade dedicados para aplicações escaláveis e prontas para produção. Cada uma destas opções de implementação permite-lhe executar inferência de IA, mas foram concebidas para diferentes fases e casos de utilização.

Fig. 1. Ultralytics permite a implementação escalável de modelos de IA de visão global (Fonte)

A exportação de modelos oferece-lhe controlo total para executar modelos na sua própria infraestrutura, a inferência partilhada simplifica os testes e as experiências sem necessidade de configuração e os pontos de extremidade dedicados são concebidos para cargas de trabalho de produção fiáveis e em grande escala.

À primeira vista, a inferência partilhada e os terminais dedicados podem parecer bastante semelhantes. Ambos permitem enviar pedidos de API ao seu modelo e receber previsões estruturadas, facilitando a integração da IA de visão nas aplicações.

No entanto, à medida que as suas cargas de trabalho aumentam e as suas aplicações de visão computacional começam a processar pedidos de inferência em tempo real, as diferenças entre estas opções tornam-se mais significativas. Neste artigo, vamos analisar mais detalhadamente a inferência partilhada e os terminais dedicados, comparar as suas características, explicar quando utilizar cada um e por que razão os terminais dedicados se tornam a melhor opção à medida que as suas aplicações crescem.

Uma visão geral da implementação utilizando inferências partilhadas

A inferência partilhada é uma forma simples de executar inferências de IA nos seus modelos sem ter de configurar qualquer infraestrutura nem se preocupar com GPU , a integração de frameworks ou a configuração de tempo de execução. Assim que o seu modelo estiver treinado ou ajustado, pode utilizá-lo para fazer previsões diretamente através da plataforma.

Nesta configuração, o seu modelo é executado em recursos de computação partilhados e multi-tenant em várias regiões principais, tais como os EUA, a Europa e a Ásia-Pacífico. Os pedidos são automaticamente encaminhados para os serviços disponíveis, pelo que não é necessário configurar GPU nem ambientes de execução. Tudo é tratado por si, facilitando o início da utilização.

Ao utilizar a inferência partilhada, envia pedidos ao seu modelo através de uma REST API ferramentas como Python CLI, e recebe resultados estruturados em JSON, tais como objetos detetados, pontuações de confiança e outros detalhes da previsão. Isto facilita o teste de modelos e a sua integração em aplicações.

Uma vez que o sistema é partilhado, foi concebido para desenvolvimento, testes e utilização moderada. Funciona bem para validar previsões e criar integrações iniciais. Ao mesmo tempo, o desempenho pode variar consoante a carga do sistema, e a utilização está limitada a 20 pedidos por minuto por chave API, tornando-o menos adequado para cargas de trabalho de produção de alto rendimento.

Em geral, a inferência partilhada é mais adequada para as fases iniciais do desenvolvimento, em que o foco está na compreensão e no aperfeiçoamento do modelo antes de se passar para aplicações em maior escala.

Implemente modelos globalmente utilizando pontos de acesso dedicados

Os endpoints dedicados são serviços de inferência de uso exclusivo, nos quais os seus modelos de IA de visão são executados em recursos de computação isolados. Em vez de partilhar a infraestrutura, cada endpoint dispõe do seu próprio ambiente de execução com recursos configuráveis, como CPU memória, proporcionando-lhe um maior controlo sobre o desempenho.

Quando implementa um modelo como um ponto de extremidade dedicado, é-lhe atribuída uma URL de API exclusiva e este utiliza a sua chave de API para autenticação, facilitando a integração em aplicações. Estes pontos de extremidade podem ser implementados em 43 regiões globais, permitindo-lhe executar a inferência mais perto dos seus utilizadores e reduzir a latência.

Fig. 2. É possível implementar pontos de acesso dedicados em 43 regiões globais (Fonte)

Uma das principais vantagens é o autoescalonamento. Os pontos de extremidade ajustam-se automaticamente em função dos pedidos recebidos, aumentando a capacidade para lidar com um tráfego mais intenso e reduzindo-a quando a procura diminui. Com a funcionalidade «scale-to-zero» ativada por predefinição, os pontos de extremidade podem desligar-se quando inativos e reiniciar-se quando necessário, ajudando a otimizar a utilização dos recursos.

Por outras palavras, os terminais dedicados são concebidos para cargas de trabalho de produção. Proporcionam uma baixa latência consistente, maior débito e maior fiabilidade em comparação com a inferência partilhada.

Além disso, os endpoints dedicados não têm limites de taxa. Os pedidos são encaminhados diretamente para o seu endpoint, pelo que a quantidade de tráfego que consegue processar depende da sua configuração e escalabilidade, em vez de limites fixos.

Além disso, o monitorização integrada, os registos, as verificações de integridade e o comportamento previsível em tempo de execução e no arranque facilitam o track e a manutenção de implementações estáveis em todos os planos. No plano Gratuito, os arranques a frio demoram normalmente entre 5 e 45 segundos, enquanto os pontos finais do plano Pro permanecem aquecidos, o que resulta num desempenho de inferência mais rápido e previsível.

Em termos simples, os terminais dedicados são ideais para aplicações de IA de visão em tempo real que exigem inferência fiável, escalável e de alto desempenho.

Inferência partilhada vs. terminais dedicados: principais diferenças

Veja aqui uma comparação detalhada entre a inferência partilhada e os terminais dedicados:

Latência: A latência pode variar em ambientes partilhados devido à partilha de recursos, enquanto os terminais dedicados proporcionam respostas mais consistentes e com baixa latência.
Regiões: A inferência partilhada está disponível em algumas regiões (EUA, UE, AP), enquanto os pontos de extremidade dedicados permitem a implementação em 43 regiões globais.
Escalabilidade: A escalabilidade não é configurável na inferência partilhada, enquanto os terminais dedicados se adaptam automaticamente em função do tráfego recebido.
Limites de taxa: A inferência partilhada está sujeita a limites de taxa (20 pedidos ou chamadas à API por minuto por chave de API), enquanto os pontos de extremidade dedicados não têm limites de taxa da plataforma.
Preços: A inferência partilhada está incluída sem custos adicionais para testes e desenvolvimento, enquanto os terminais dedicados oferecem maior controlo e escalabilidade, sendo que a utilização depende da configuração dos recursos e das necessidades de implementação.

Por que razão os terminais dedicados são melhores para cargas de trabalho de produção

À medida que as aplicações de IA e aprendizagem automática passam da fase de testes para a utilização no mundo real, o desempenho, a escalabilidade e a fiabilidade tornam-se essenciais. É por isso que os terminais dedicados oferecem vantagens claras em relação à inferência partilhada.

Com terminais dedicados, o seu modelo pré-treinado ou personalizado é executado nos seus próprios recursos de computação, pelo que o desempenho não é afetado por outros utilizadores. Isto ajuda a manter a latência baixa e consistente, o que é importante para aplicações em tempo real, como a análise de vídeo e os sistemas de monitorização.

Fig. 3. Uma visão geral da implementação utilizando um ponto de extremidade de inferência dedicado (Fonte)

Por exemplo, imagine um sistema de análise de retalho que processa imagens de câmaras em tempo real de várias lojas. Ao implementar terminais em 43 regiões globais, a inferência pode ser executada mais perto de cada loja, reduzindo a latência e melhorando os tempos de resposta.

Com a inferência partilhada, em que os recursos são partilhados e as regiões são limitadas, o desempenho pode variar durante os períodos de maior movimento.

Os endpoints dedicados também conseguem lidar com um tráfego mais intenso e adaptam-se automaticamente em função da procura. Com monitorização, registos e verificações de integridade integrados, proporcionam um desempenho mais previsível, tornando-os uma boa opção para cargas de trabalho de IA contínuas e em grande escala.

O papel da inferência partilhada no fluxo de trabalho da IA de visão

Ao explorar as diferenças entre a inferência partilhada e os terminais dedicados, poderá estar a questionar-se sobre o lugar que a inferência partilhada ocupa no fluxo de trabalho global da visão computacional.

Vamos voltar a analisar o exemplo da análise de retalho. Antes de implementar uma solução de visão em várias lojas, as equipas precisam normalmente de testar o seu desempenho com dados reais e aperfeiçoá-la com base nesses resultados.

A inferência partilhada simplifica este processo, permitindo-lhe enviar imagens de amostra ou fotogramas de vídeo das câmaras da loja e analisar rapidamente as previsões sem necessidade de configurar infraestruturas. Isto é especialmente útil para testar o comportamento do modelo, corrigir previsões incorretas e validar resultados em diferentes condições, tais como alterações na iluminação ou na disposição da loja.

Ao iterar desta forma, as equipas podem melhorar a precisão e a fiabilidade do modelo antes de o colocar em produção. Assim que o modelo apresentar um bom desempenho nestes cenários de teste, poderá ser implementado em terminais dedicados para utilização em tempo real em vários locais.

A inferência partilhada também pode funcionar bem em aplicações com utilização reduzida ou esporádica. Por exemplo, uma pequena loja de retalho pode utilizá-la para analisar ocasionalmente o tráfego de clientes ou examinar a atividade dos clientes em horários específicos, sem necessidade de uma implementação em grande escala. Nestes casos, oferece uma forma simples e económica de executar inferências sempre que necessário.

Casos de utilização reais de terminais dedicados

À medida que as aplicações de IA vão além da fase de testes, a escolha da implementação começa a ter um impacto direto no desempenho, na escalabilidade e na experiência do utilizador. Os terminais dedicados podem ser amplamente utilizados em diversos setores, uma vez que oferecem um desempenho estável, baixa latência e a capacidade de lidar com cargas de trabalho em grande escala.

Aqui estão alguns casos de utilização comuns que mostram como os endpoints dedicados podem ser utilizados em aplicações reais:

Retalho e análise de vídeo: Uma cadeia de retalho pode utilizar a visão computacional para track os movimentos track , identificar produtos populares e monitorizar a atividade da loja em tempo real. Os terminais dedicados mantêm a inferência rápida e consistente em várias lojas, mesmo durante as horas de ponta.
Fabricação e inspeção de qualidade: Numa linha de produção, os modelos podem detect ou anomalias à medida que os produtos avançam pelo sistema. Os terminais dedicados suportam a inferência contínua e em tempo real, ajudando as equipas a detetar problemas numa fase inicial e a manter a qualidade do produto sem atrasar as operações.
Saúde e imagiologia médica: Os prestadores de cuidados de saúde e os laboratórios de diagnóstico podem contar com modelos de visão para analisar imagens médicas, tais como raios-X ou tomografias. Os terminais dedicados proporcionam um desempenho fiável e consistente, o que é fundamental no tratamento de dados sensíveis e em diagnósticos em que o tempo é um fator crítico.
Automação de armazéns e logística: Os grandes armazéns costumam utilizar vários sistemas idênticos, como correias transportadoras e linhas de triagem, que funcionam efetivamente como réplicas da mesma configuração. Os modelos de visão computacional podem monitorizar cada réplica para detect como bloqueios ou pacotes encaminhados incorretamente. Os terminais dedicados garantem uma inferência consistente em todas as réplicas em tempo real.

Transição da inferência partilhada para terminais dedicados

Uma das principais vantagens da Ultralytics é a facilidade com que se pode passar da inferência partilhada para terminais dedicados à medida que a sua aplicação cresce. Em vez de mudar de ferramentas ou reconstruir a sua configuração, pode fazer a transição para uma implementação pronta para produção dentro do mesmo ambiente.

Depois de testar o seu modelo com a inferência partilhada, passar para um ponto de extremidade dedicado é o próximo passo mais simples. Pode implementar o mesmo modelo num ponto de extremidade, escolher a sua região e os recursos de computação preferidos e atualizar o URL do ponto de extremidade na sua aplicação. A integração geral mantém-se semelhante, pelo que há pouca ou nenhuma alteração na forma como envia pedidos ou trata as respostas.

Fig. 4. Visualização de um URL de ponto final dedicado na Ultralytics (Fonte)

Isto significa que pode passar da fase de testes para a produção com apenas alguns cliques. À medida que a sua carga de trabalho aumenta ou a sua aplicação requer um desempenho mais consistente, pode migrar para terminais dedicados sem interromper o seu fluxo de trabalho atual.

Para saber mais sobre a implementação de modelos utilizando pontos de extremidade dedicados na Ultralytics , consulte a documentação oficial Ultralytics .

Principais conclusões

A inferência partilhada é um excelente ponto de partida para testes e experimentação, mas as cargas de trabalho de produção exigem mais consistência e escalabilidade. À medida que as aplicações crescem, os terminais dedicados proporcionam o desempenho e a fiabilidade necessários para suportar a utilização no mundo real. Isto torna-os a melhor escolha para a maioria das implementações de produção.

Junte-se à nossa comunidade e explore o nosso repositório GitHub para saber mais sobre modelos de visão computacional. Leia sobre aplicações como a IA na agricultura e a visão computacional na robótica nas nossas páginas de soluções. Consulte as nossas opções de licenciamento e comece a utilizar a IA de visão.

Terminais de inferência dedicados vs. inferência partilhada para implementação

Uma visão geral da implementação utilizando inferências partilhadas

Implemente modelos globalmente utilizando pontos de acesso dedicados

Inferência partilhada vs. terminais dedicados: principais diferenças

Por que razão os terminais dedicados são melhores para cargas de trabalho de produção

O papel da inferência partilhada no fluxo de trabalho da IA de visão

Casos de utilização reais de terminais dedicados

Transição da inferência partilhada para terminais dedicados

Principais conclusões

Leia mais nesta categoria

Terminais de inferência dedicados vs. inferência partilhada para implementação

Como Ultralytics utiliza a IA para automatizar a anotação

Gestão inteligente de conjuntos de dados na visão computacional com Ultralytics

Vamos construir juntos o futuro da IA!