Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Descubra por que as inferências em tempo real na visão computacional são importantes para uma variedade de aplicações e explore seu papel na viabilização da tomada de decisões instantâneas.
Todos nós já lidamos com as frustrações que uma conexão lenta com a Internet pode causar em algum momento. No entanto, imagine esse atraso em uma situação de alto risco, como um carro autônomo reagindo a um obstáculo ou um médico analisando um exame crítico. Alguns segundos extras podem ter sérias consequências.
É aqui que a inferência de IA em tempo real pode fazer a diferença. O processamento rápido e as previsões em tempo real permitem que as soluções de visão computacional processem e reajam aos dados visuais instantaneamente. Essas decisões em frações de segundo podem aumentar a segurança, a eficiência e a conveniência diária.
Por exemplo, considere um cirurgião realizando um procedimento delicado usando um assistente robótico. Cada movimento é controlado por meio de uma conexão de alta velocidade, e o sistema de visão do robô processa o campo cirúrgico em tempo real, fornecendo ao cirurgião feedback visual instantâneo. Mesmo o menor atraso nesse loop de feedback pode levar a erros graves, colocando o paciente em risco. Este é um exemplo perfeito de por que as inferências em tempo real são cruciais; não há espaço para atraso.
As inferências de IA em aplicações do mundo real dependem de três conceitos-chave: mecanismos de inferência (o software ou hardware que executa modelos de IA de forma eficiente), latência de inferência (o atraso entre a entrada e a saída) e inferência em tempo real (a capacidade do sistema de IA de processar e reagir com o mínimo de atraso).
Neste artigo, exploraremos estes conceitos básicos e como modelos de visão computacional como o Ultralytics YOLO11 habilitam aplicações que dependem de previsões instantâneas.
O que é uma inferência de IA?
Executar uma inferência é o processo de analisar novos dados usando um modelo de IA treinado para fazer uma previsão ou resolver uma tarefa. Ao contrário do treinamento, que envolve ensinar um modelo processando grandes quantidades de dados rotulados, a inferência se concentra em produzir resultados de forma rápida e precisa usando um modelo já treinado.
Por exemplo, na conservação da vida selvagem, as armadilhas de câmeras de IA usam modelos de visão computacional para identificar e classificar animais em tempo real. Quando uma câmera detecta movimento, o modelo de IA reconhece instantaneamente se é um cervo, um predador ou até mesmo um caçador ilegal, ajudando os pesquisadores a rastrear populações de animais e proteger espécies ameaçadas sem intervenção humana. Essa identificação rápida torna viável o monitoramento em tempo real e respostas mais rápidas a ameaças potenciais.
Entendendo os mecanismos de inferência
Um modelo de aprendizado de máquina treinado nem sempre está pronto para implantação em sua forma bruta. Um mecanismo de inferência é um software especializado ou ferramenta de hardware projetada para executar com eficiência modelos de aprendizado de máquina e otimizá-los para implantação no mundo real. Ele usa técnicas de otimização como compressão de modelo, quantização e transformações de grafo para melhorar o desempenho e reduzir o consumo de recursos, tornando o modelo implantável em vários ambientes.
Em sua essência, um motor de inferência se concentra em reduzir a sobrecarga computacional, minimizar a latência e melhorar a eficiência para permitir previsões rápidas e precisas. Uma vez otimizado, o motor executa o modelo em novos dados, permitindo que ele gere inferências em tempo real de forma eficiente. Essa otimização garante que os modelos de IA possam ser executados sem problemas tanto em servidores de nuvem de alto desempenho quanto em dispositivos de borda com recursos limitados, como smartphones, dispositivos IoT e sistemas embarcados.
Problemas causados pela latência de inferência
A latência de inferência é o atraso entre o momento em que um sistema de IA recebe dados de entrada (como uma imagem de uma câmera) e o momento em que produz uma saída (como a detecção de objetos na imagem). Mesmo um pequeno atraso pode impactar significativamente o desempenho e a usabilidade de aplicações de IA em tempo real.
A latência de inferência ocorre em três estágios principais:
Tempo de pré-processamento: O tempo necessário para preparar os dados de entrada antes de serem inseridos no modelo. Isso inclui redimensionar as imagens para corresponder às dimensões de entrada do modelo, normalizar os valores dos pixels para melhor precisão e converter formatos (por exemplo, RGB para escala de cinza ou vídeo para sequências de quadros).
Tempo de computação: O tempo real que o modelo leva para realizar a inferência. Isso envolve operações como cálculos em camadas em redes profundas, multiplicações de matrizes, convoluções e transferência de dados entre a memória e as unidades de processamento.
Tempo de pós-processamento: O tempo necessário para converter as saídas brutas do modelo em resultados significativos. Isso pode incluir o desenho de caixas delimitadoras na detecção de objetos, a filtragem de falsos positivos no reconhecimento de imagem ou a aplicação de limiares na detecção de anomalias.
A latência de inferência é crítica em aplicações em tempo real. Por exemplo, na detecção automatizada de defeitos em uma linha de montagem, a visão computacional pode ser usada para inspecionar produtos enquanto eles se movem na esteira.
O sistema deve identificar e sinalizar rapidamente os defeitos antes que os produtos passem para a próxima etapa. Se o modelo demorar muito para processar as imagens, os itens defeituosos podem não ser detectados a tempo, levando ao desperdício de materiais, retrabalho dispendioso ou produtos defeituosos que chegam aos clientes. Ao reduzir a latência, os fabricantes podem melhorar o controle de qualidade, aumentar a eficiência e reduzir as perdas.
Como reduzir a latência de inferência
Manter a latência de inferência mínima é essencial em muitas aplicações de visão computacional. Várias técnicas podem ser usadas para conseguir isso. Vamos discutir algumas das técnicas mais comuns usadas para reduzir a latência de inferência.
Poda de modelo
Poda de modelo simplifica uma rede neural removendo conexões desnecessárias (pesos), tornando-a menor e mais rápida. Este processo reduz a carga computacional do modelo, melhorando a velocidade sem afetar muito a precisão.
Ao manter apenas as conexões mais importantes, a poda garante uma inferência eficiente e um melhor desempenho, especialmente em dispositivos com poder de processamento limitado. É amplamente utilizada em aplicações em tempo real, como IA móvel, robótica e computação de borda, para aumentar a eficiência, mantendo a confiabilidade.
Fig. 2. Eliminação de ligações menos eficazes através da poda de modelos.
Quantização de modelo
Quantização de modelo é uma técnica que faz com que os modelos de IA sejam executados mais rapidamente e usem menos memória, simplificando os números que usam para cálculos. Normalmente, esses modelos funcionam com números de ponto flutuante de 32 bits, que são muito precisos, mas exigem muito poder de processamento. A quantização reduz esses números para inteiros de 8 bits, que são mais fáceis de processar e ocupam menos espaço.
Fig 3. Usando a quantização de modelo para converter valores de ponto flutuante em representações inteiras.
Usando modelos eficientes
O design de um modelo de IA tem um grande impacto na rapidez com que ele pode fazer previsões. Modelos como o YOLO11, que são construídos para inferência eficiente, são ideais para aplicações onde a velocidade de processamento é crítica.
Ao construir uma solução de IA, é importante escolher o modelo certo com base nos recursos disponíveis e nas necessidades de desempenho. Se você começar com um modelo muito pesado, é mais provável que encontre problemas como tempos de processamento lentos, maior consumo de energia e dificuldade de implantação em dispositivos com recursos limitados. Um modelo leve garante um desempenho suave, especialmente para aplicações em tempo real e de borda.
Velocidade vs. precisão: otimizando inferências em tempo real
Embora existam várias técnicas para reduzir a latência, uma parte fundamental das inferências em tempo real é equilibrar velocidade e precisão. Tornar os modelos mais rápidos não é suficiente - a velocidade de inferência precisa ser otimizada sem comprometer a precisão. Um sistema que produz previsões rápidas, mas incorretas, é ineficaz. É por isso que testes completos são vitais para garantir que os modelos tenham um bom desempenho em situações do mundo real. Um sistema que parece rápido durante o teste, mas falha em condições reais, não é realmente otimizado.
Aplicações de IA Vision que aproveitam inferências em tempo real
Em seguida, vamos analisar algumas aplicações do mundo real onde a inferência em tempo real está transformando setores, permitindo respostas instantâneas à entrada visual.
Sistemas de autoatendimento em lojas de varejo
Os modelos de visão computacional como o YOLO11 podem ajudar a melhorar os sistemas de self-checkout, tornando o reconhecimento de itens mais rápido e preciso. O suporte do YOLO11 para várias tarefas de visão computacional como deteção de objetos e segmentação de instâncias torna possível identificar produtos, mesmo que os códigos de barras estejam em falta ou danificados. A IA de visão pode reduzir a necessidade de entrada manual e acelerar o processo de checkout.
Além da identificação de produtos, a visão computacional também pode ser integrada em sistemas de autoatendimento para verificar preços, evitar fraudes e aumentar a conveniência do cliente. Câmeras alimentadas por IA podem distinguir automaticamente entre produtos semelhantes e detectar comportamentos suspeitos no checkout. Isso inclui identificar "não digitalizações", onde um cliente ou caixa perde um item sem querer, e tentativas de fraude mais deliberadas, como "troca de produtos", onde um código de barras mais barato é colocado sobre um item mais caro.
Fig. 4. A IA pode aprimorar os balcões de autoatendimento.
Um ótimo exemplo disso é a Kroger, uma grande varejista dos EUA, que integrou visão computacional e IA em seus sistemas de autoatendimento. Usando análise de vídeo em tempo real, a Kroger conseguiu corrigir automaticamente mais de 75% dos erros de checkout, melhorando tanto a experiência do cliente quanto as operações da loja.
Inspeção de qualidade usando visão computacional
Inspecionar produtos manualmente para controle de qualidade pode ser lento e nem sempre preciso. É por isso que mais fabricantes estão mudando para fluxos de trabalho de inspeção visual que usam visão computacional para detectar defeitos mais cedo no processo de produção.
Câmeras de alta resolução e Visão de IA podem identificar pequenas falhas que os humanos podem perder, e modelos como o YOLO11 podem ajudar com verificações de qualidade em tempo real, classificação e contagem para garantir que apenas produtos perfeitos cheguem aos clientes. A automatização desse processo economiza tempo, reduz custos e diminui o desperdício, tornando a produção mais suave e eficiente.
Fig. 5. Um exemplo de uso do YOLO11 para contar produtos em uma linha de montagem.
Principais conclusões
A inferência em tempo real ajuda os modelos de IA a tomar decisões instantâneas, o que é crucial em muitas indústrias. Seja um carro autônomo evitando um acidente, um médico analisando rapidamente exames médicos ou uma fábrica detectando defeitos de produtos, respostas rápidas e precisas da IA fazem uma grande diferença.
Ao melhorar a velocidade e a eficiência dos modelos de IA, podemos criar sistemas mais inteligentes e confiáveis que funcionam perfeitamente em situações do mundo real. À medida que a tecnologia avança, as soluções de IA em tempo real continuarão a moldar o futuro, tornando os processos diários mais rápidos, seguros e eficientes.