Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Plataforma Ultralytics

Endpoints de inferência dedicados vs. inferência compartilhada para implantação

Explora quando escolher endpoints de inferência dedicados na Ultralytics Platform para uma implantação de IA de visão escalável e de baixa latência em vez de inferência compartilhada.

ABAbirami Vina
6 min read
Endpoints de inferência dedicados vs. inferência compartilhada para implantação

Recentemente, apresentamos a Ultralytics Platform, uma solução completa que traz todo o fluxo de trabalho de visão computacional para um só lugar, desde a preparação de datasets e treinamento de modelos até a inferência, implantação e monitoramento.

Criada com base no feedback da comunidade de visão computacional, a plataforma foi projetada para simplificar cada etapa do desenvolvimento, fornecendo recursos integrados que suportam todo o ciclo de vida de aplicações de IA de visão.

Por exemplo, uma vez que um modelo é treinado, o próximo passo é implantá-lo para que possa ser usado para executar inferência e fazer previsões em aplicações do mundo real. A plataforma torna esse processo simples, oferecendo múltiplas opções de implantação.

Você pode exportar modelos para executá-los em seu próprio ambiente, usar inferência compartilhada para testes rápidos ou implantar endpoints dedicados para aplicações escaláveis prontas para produção. Cada uma dessas opções de implantação permite que você execute inferência de IA, mas elas são projetadas para diferentes estágios e casos de uso.

Ultralytics Platform permitindo a implantação escalável global de modelos de IA de visão

Fig 1. A Ultralytics Platform permite a implantação escalável global de modelos de IA de visão (Fonte)

A exportação de modelos te dá controle total para executar modelos em sua própria infraestrutura, a inferência compartilhada simplifica o teste e a experimentação sem necessidade de configuração, e os endpoints dedicados são criados para cargas de trabalho de produção confiáveis e de grande escala.

À primeira vista, a inferência compartilhada e os endpoints dedicados podem parecer bem semelhantes. Ambos permitem que você envie solicitações de API para seu modelo e receba previsões estruturadas, facilitando a integração de IA de visão em aplicações.

No entanto, à medida que suas cargas de trabalho crescem e suas aplicações de visão computacional começam a lidar com solicitações de inferência em tempo real, as diferenças entre essas opções tornam-se mais importantes. Neste artigo, analisaremos mais de perto a inferência compartilhada e os endpoints dedicados, como eles se comparam, quando usar cada um e por que os endpoints dedicados se tornam a melhor escolha à medida que suas aplicações escalam.

Link to this sectionUma visão geral da implantação usando inferências compartilhadas#

A inferência compartilhada é uma maneira simples de executar inferência de IA em seus modelos sem configurar qualquer infraestrutura ou se preocupar com tipos de GPU, integração de framework ou configuração de tempo de execução. Uma vez que seu modelo esteja treinado ou ajustado, você pode usá-lo para fazer previsões diretamente através da plataforma.

Nesta configuração, seu modelo é executado em recursos computacionais compartilhados e multi-tenant em algumas regiões principais, como os EUA, Europa e Ásia-Pacífico. As solicitações são roteadas automaticamente para serviços disponíveis, então você não precisa configurar instâncias de GPU ou ambientes de tempo de execução. Tudo é tratado para você, tornando fácil começar.

Quando você usa a inferência compartilhada, você envia solicitações para seu modelo através de uma REST API usando ferramentas como Python ou CLI, e recebe saídas JSON estruturadas, como objetos detectados, pontuações de confiança e outros detalhes de previsão. Isso torna simples testar modelos e integrá-los em aplicações.

Como o sistema é compartilhado, ele é projetado para desenvolvimento, testes e uso leve. Ele funciona bem para validar previsões e criar integrações iniciais. Ao mesmo tempo, o desempenho pode variar dependendo da carga do sistema, e o uso é limitado a 20 solicitações por minuto por chave de API, tornando-o menos adequado para cargas de trabalho de produção de alto rendimento.

No geral, a inferência compartilhada é mais adequada para o desenvolvimento em estágio inicial, onde o foco está em entender e melhorar seu modelo antes de passar para aplicações de maior escala.

Link to this sectionImplante modelos globalmente usando endpoints dedicados#

Os endpoints dedicados são serviços de inferência de locatário único (single-tenant) onde seus modelos de IA de visão são executados em recursos computacionais isolados. Em vez de compartilhar infraestrutura, cada endpoint tem seu próprio tempo de execução com recursos configuráveis, como CPU e memória, dando a você mais controle sobre o desempenho.

Quando você implanta um modelo como um endpoint dedicado, ele recebe uma URL de API única e usa sua chave de API para autenticação, facilitando a integração em aplicações. Esses endpoints podem ser implantados em 43 regiões globais, permitindo que você execute a inferência mais perto de seus usuários e reduza a latência.

Implantando endpoints dedicados em 43 regiões globais

Fig 2. Você pode implantar endpoints dedicados em 43 regiões globais (Fonte)

Uma das principais vantagens é o autoscaling. Os endpoints se ajustam automaticamente com base nas solicitações recebidas, aumentando a escala para lidar com tráfego maior e diminuindo quando a demanda cai. Com a escala para zero ativada por padrão, os endpoints podem desligar quando ociosos e reiniciar quando necessário, ajudando a otimizar o uso de recursos.

Em outras palavras, os endpoints dedicados são projetados para cargas de trabalho de produção. Eles fornecem baixa latência consistente, maior rendimento e maior confiabilidade em comparação com a inferência compartilhada.

Além disso, os endpoints dedicados não possuem limites de taxa. As solicitações vão diretamente para seu endpoint, portanto, quanto tráfego você pode lidar depende de sua configuração e escalabilidade, em vez de limites fixos.

Adicionalmente, o monitoramento integrado, logs, verificações de integridade e comportamento previsível de tempo de execução e inicialização tornam simples acompanhar o desempenho e manter implantações estáveis em todos os planos. No plano Free, as inicializações a frio (cold starts) normalmente levam entre 5 e 45 segundos, enquanto os endpoints do plano Pro permanecem ativos, resultando em um desempenho de inferência mais rápido e previsível.

Simplificando, os endpoints dedicados são ideais para aplicações de IA de visão em tempo real que exigem inferência confiável, escalável e de alto desempenho.

Link to this sectionInferência compartilhada versus endpoints dedicados: Diferenças principais#

Aqui está uma análise mais detalhada de como a inferência compartilhada e os endpoints dedicados se comparam:

  • Latência: A latência pode variar em ambientes compartilhados devido ao compartilhamento de recursos, enquanto os endpoints dedicados fornecem respostas mais consistentes e de baixa latência.
  • Regiões: A inferência compartilhada está disponível em poucas regiões (EUA, UE, AP), enquanto os endpoints dedicados suportam a implantação em 43 regiões globais.
  • Escalabilidade: A escala não é configurável na inferência compartilhada, enquanto os endpoints dedicados escalam automaticamente com base no tráfego recebido.
  • Limites de taxa: A inferência compartilhada é limitada (20 solicitações ou chamadas de API por minuto por chave de API), enquanto os endpoints dedicados não possuem limites de taxa da plataforma.
  • Preços: A inferência compartilhada está incluída sem custo adicional para testes e desenvolvimento, enquanto os endpoints dedicados oferecem mais controle e escalabilidade, com o uso dependendo da configuração de recursos e necessidades de implantação.

Link to this sectionPor que os endpoints dedicados são melhores para cargas de trabalho de produção#

À medida que as aplicações de IA e machine learning passam dos testes para o uso no mundo real, desempenho, escalabilidade e confiabilidade tornam-se essenciais. É por isso que os endpoints dedicados oferecem vantagens claras sobre a inferência compartilhada.

Com endpoints dedicados, seu modelo pré-treinado ou personalizado é executado em seus próprios recursos computacionais, então o desempenho não é afetado por outros usuários. Isso ajuda a manter a latência baixa e consistente, o que é importante para aplicações em tempo real, como análise de vídeo e sistemas de monitoramento.

Uma visão sobre a implantação usando um endpoint de inferência dedicado

Fig 3. Uma visão sobre a implantação usando um endpoint de inferência dedicado (Fonte)

Por exemplo, pense em um sistema de análise de varejo processando feeds de câmera ao vivo em várias lojas. Ao implantar endpoints em 43 regiões globais, a inferência pode ser executada mais perto de cada loja, reduzindo a latência e melhorando os tempos de resposta.

Com a inferência compartilhada, onde os recursos são compartilhados e as regiões são limitadas, o desempenho pode variar durante períodos de pico.

Os endpoints dedicados também podem lidar com tráfego maior e escalar automaticamente com base na demanda. Com monitoramento integrado, logs e verificações de integridade, eles oferecem um desempenho mais previsível, tornando-os uma boa opção para cargas de trabalho de IA de grande escala e contínuas.

Link to this sectionOnde a inferência compartilhada se encaixa no fluxo de trabalho de IA de visão#

Ao explorar as diferenças entre inferência compartilhada e endpoints dedicados, você pode estar se perguntando onde a inferência compartilhada se encaixa no fluxo de trabalho geral de visão computacional.

Vamos analisar o exemplo de análise de varejo novamente. Antes de implantar uma solução de visão em várias lojas, as equipes geralmente precisam testar como ela funciona com dados reais e refiná-la com base nesses resultados.

A inferência compartilhada torna esse processo simples, permitindo que você envie imagens de amostra ou frames de vídeo das câmeras da loja e revise rapidamente as previsões sem configurar a infraestrutura. Isso é especialmente útil para testar o comportamento do modelo, depurar previsões incorretas e validar resultados sob diferentes condições, como mudanças na iluminação ou layouts de loja.

Ao iterar dessa maneira, as equipes podem melhorar a precisão e a confiabilidade do modelo antes de passar para a produção. Uma vez que o modelo tenha um bom desempenho nesses cenários de teste, ele pode ser implantado em endpoints dedicados para uso em tempo real em vários locais.

A inferência compartilhada também pode funcionar bem para aplicações com uso baixo ou pouco frequente. Por exemplo, uma pequena loja de varejo pode usá-la para analisar ocasionalmente o fluxo de pedestres ou revisar a atividade do cliente em horários específicos, sem precisar de uma implantação totalmente escalada. Nesses casos, ela oferece uma maneira simples e econômica de executar inferência sob demanda.

Link to this sectionCasos de uso reais de endpoints dedicados#

À medida que as aplicações de IA vão além dos testes, a escolha da implantação começa a impactar diretamente o desempenho, a escalabilidade e a experiência do usuário. Os endpoints dedicados podem ser amplamente utilizados em todos os setores porque fornecem desempenho estável, baixa latência e a capacidade de lidar com cargas de trabalho de grande escala.

Aqui estão alguns casos de uso comuns que mostram como os endpoints dedicados podem ser usados em aplicações do mundo real:

  • Varejo e análise de vídeo: Uma rede de varejo pode usar visão computacional para rastrear o movimento do cliente, identificar produtos populares e monitorar a atividade da loja em tempo real. Os endpoints dedicados mantêm a inferência rápida e consistente em vários locais de loja, mesmo durante horários de pico.
  • Manufatura e inspeção de qualidade: Em uma linha de produção, os modelos podem detectar defeitos ou anomalias à medida que os produtos passam pelo sistema. Os endpoints dedicados suportam inferência contínua e em tempo real, ajudando as equipes a identificar problemas precocemente e manter a qualidade do produto sem diminuir o ritmo das operações.
  • Saúde e imagens médicas: Prestadores de serviços de saúde e laboratórios de diagnóstico podem contar com modelos de visão para analisar imagens médicas, como raios-X ou exames. Os endpoints dedicados fornecem um desempenho confiável e consistente, o que é fundamental ao lidar com dados confidenciais e diagnósticos urgentes.
  • Automação de armazéns e logística: Grandes armazéns geralmente operam vários sistemas idênticos, como correias transportadoras e linhas de classificação, agindo efetivamente como réplicas da mesma configuração. Modelos de visão computacional podem monitorar cada réplica para detectar problemas como congestionamentos ou pacotes desviados. Os endpoints dedicados garantem uma inferência consistente em todas as réplicas em tempo real.

Link to this sectionFazendo a transição da inferência compartilhada para endpoints dedicados#

Um dos principais benefícios da Ultralytics Platform é a facilidade de passar da inferência compartilhada para endpoints dedicados à medida que sua aplicação cresce. Em vez de trocar de ferramentas ou reconstruir sua configuração, você pode fazer a transição para uma implantação pronta para produção dentro do mesmo ambiente.

Após testar seu modelo com a inferência compartilhada, mudar para um endpoint dedicado é um próximo passo direto. Você pode implantar o mesmo modelo em um endpoint, escolher sua região e recursos computacionais preferidos e atualizar a URL do endpoint em sua aplicação. A integração geral permanece semelhante, então há pouca ou nenhuma mudança em como você envia solicitações ou lida com respostas.

Visualizando a URL de um endpoint dedicado na Ultralytics Platform

Fig 4. Visualizando a URL de um endpoint dedicado na Ultralytics Platform (Fonte)

Isso significa que você pode escalar de testes para produção com alguns cliques. À medida que sua carga de trabalho aumenta ou sua aplicação exige um desempenho mais consistente, você pode migrar para endpoints dedicados sem interromper seu fluxo de trabalho existente.

Para saber mais sobre a implantação de modelos usando endpoints dedicados na Ultralytics Platform, confira a documentação oficial da Ultralytics Platform.

Link to this sectionPrincipais pontos#

A inferência compartilhada é um ótimo ponto de partida para testes e experimentação, mas as cargas de trabalho de produção exigem mais consistência e escala. À medida que as aplicações crescem, os endpoints dedicados fornecem o desempenho e a confiabilidade necessários para suportar o uso no mundo real. Isso os torna a melhor escolha para a maioria das implantações de produção.

Junte-se à nossa comunidade e explore nosso repositório GitHub para saber mais sobre modelos de visão computacional. Leia sobre aplicações como IA na agricultura e visão computacional na robótica em nossas páginas de soluções. Confira nossas opções de licenciamento e comece a usar a IA de visão.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática