Ver os bastidores da IA de visão no streaming

Abirami Vina

3 min ler

10 de dezembro de 2024

Explore como a visão computacional melhora as plataformas de transmissão com recomendações personalizadas e análise de conteúdo em tempo real para uma melhor experiência do utilizador.

Já alguma vez se perguntou como é que as plataformas de streaming tornam tão fácil ver os seus programas favoritos? Não há muito tempo, o entretenimento era muito diferente. Os horários da televisão eram fixos e os telespectadores geralmente assistiam ao que estava no ar. Os serviços de streaming alteraram este paradigma. Pesquisas mostram que o mercado global de streaming de vídeo foi avaliado em US$ 106,83 bilhões em 2023, e espera-se que alcance US$ 865,85 bilhões até 2034.

A inteligência artificial (IA) tem sido fundamental para esta evolução. Especificamente, estamos a assistir a um aumento das inovações em termos de visão computacional neste domínio. A IA de visão permite que as plataformas de streaming compreendam e interpretem o conteúdo de vídeo através da análise de fotogramas e do reconhecimento de padrões. 

Ao processar dados visuais, a visão por computador ajuda as plataformas a criar recomendações mais inteligentes, a melhorar a organização do conteúdo e até a melhorar as funcionalidades interactivas. Neste artigo, vamos explorar a forma como a visão computacional ajuda as plataformas de streaming a melhorar o fornecimento de conteúdos, a aperfeiçoar o envolvimento do utilizador e a simplificar a descoberta de conteúdos. Vamos começar!

__wf_reserved_inherit
Figura 1. O mercado global de streaming de vídeo.

Explorar a visão computacional e as plataformas de streaming

Quando se trata de plataformas de streaming, a visão computacional pode ajudar a dividir os vídeos em quadros individuais e analisá-los usando modelos como o Ultralytics YOLO11. O YOLO11 pode ser treinado de forma personalizada em grandes conjuntos de dados de exemplos rotulados. Os exemplos etiquetados são imagens ou fotogramas de vídeo etiquetados com detalhes como os objectos que contêm, as acções que estão a acontecer ou o tipo de cena. Isto ajuda o modelo a aprender a reconhecer padrões semelhantes. Estes modelos podem detetar objectos, classificar cenas e identificar padrões em tempo real, fornecendo informações valiosas sobre o conteúdo.

Para compreender melhor como isto funciona, vejamos alguns exemplos de como a visão computacional é aplicada em plataformas de streaming para otimizar a experiência do utilizador e tornar o conteúdo mais acessível.

Reconhecimento de cenas para recomendações personalizadas

O reconhecimento de cenas é uma técnica de visão por computador que categoriza imagens ou quadros de vídeo com base no seu conteúdo visual e temas. Pode ser considerada como uma forma especializada de classificação de imagens, em que o foco está na identificação do ambiente geral ou da atmosfera de uma cena e não em objectos individuais. 

Por exemplo, um sistema de reconhecimento de cenas pode agrupar cenas em categorias como "quarto de hóspedes", "caminho na floresta" ou "costa rochosa", analisando caraterísticas como cores, texturas, iluminação e objectos. O reconhecimento de cenas permite que as plataformas de streaming marquem e organizem eficazmente o conteúdo.

__wf_reserved_inherit
Fig. 2. Categorização de cenas utilizando IA.

Desempenha um papel fundamental nas recomendações personalizadas. Se um utilizador vê frequentemente conteúdos com cenários tranquilos ao ar livre, como "costas ensolaradas", ou interiores modernos, como "cozinha elegante", a plataforma pode recomendar programas ou filmes com visuais semelhantes. O reconhecimento de cenas simplifica a descoberta de conteúdos e apresenta aos utilizadores recomendações que correspondem às suas preferências de visualização.

Geração de imagens e miniaturas

A geração de imagens e miniaturas é o processo de criação de pré-visualizações visuais de vídeos para atrair espectadores e realçar momentos importantes. A IA e a visão por computador podem automatizar este processo para garantir que as miniaturas são relevantes e apelativas.

Eis como funciona o processo:

  • Análise de quadros: Um sistema de visão por computador pode começar por analisar milhares de fotogramas de vídeo para identificar momentos de destaque. Estes podem incluir expressões emocionais, acções-chave ou cenas visualmente marcantes que melhor representem o conteúdo do vídeo.
  • Análise de movimento: Uma vez selecionados os potenciais fotogramas, o Vision AI pode ser utilizado para verificar se estão nítidos e sem desfocagem, melhorando a qualidade visual geral da miniatura.
  • Deteção de objectos e análise de cenas: Utilizando modelos como o YOLO11 (que suportam tarefas de visão por computador como a deteção de objectos e a segmentação de instâncias), o sistema pode detetar elementos importantes na imagem, como objectos, personagens ou cenários. Este passo confirma que a miniatura reflecte com precisão a essência do vídeo.
  • Refinamento de imagem: Os fotogramas selecionados são depois refinados tendo em conta factores como os ângulos da câmara, a iluminação e a composição.
  • Personalização: Por fim, os algoritmos de aprendizagem automática podem ser utilizados para personalizar as miniaturas com base nas preferências do utilizador e no histórico de visualizações. Ao fazê-lo, os visuais são adaptados aos gostos individuais, tornando-os mais susceptíveis de captar a atenção e de gerar envolvimento.

Um bom exemplo de uma aplicação semelhante no mundo real é a utilização da visão por computador pela Netflix para gerar automaticamente miniaturas. Ao analisar os fotogramas para detetar emoções, contexto e pormenores cinematográficos, a Netflix cria miniaturas que se adequam às preferências individuais dos espectadores. Por exemplo, os utilizadores que gostam de comédias românticas podem ver uma miniatura que realça um momento alegre, enquanto os fãs de ação podem ver uma cena intensa e cheia de energia.

__wf_reserved_inherit
Fig. 3. As miniaturas de programas de televisão podem ser personalizadas de acordo com as preferências do utilizador.

Pré-visualizações automáticas de conteúdos 

Quando percorre uma plataforma de streaming, as pré-visualizações curtas e apelativas que vê não são aleatórias. São cuidadosamente elaboradas utilizando tecnologias como a visão por computador para captar a atenção e realçar os momentos mais apelativos de um vídeo. Uma vez selecionados os melhores momentos, estes são unidos numa pré-visualização suave e cativante. 

O processo de seleção desses momentos envolve várias etapas fundamentais:

  • Segmentação de cenas: O vídeo é dividido em secções mais pequenas com base em transições naturais, tais como mudanças na iluminação, ângulos de câmara ou visuais.
  • Deteção de movimento: Os momentos dinâmicos e cheios de ação são identificados para garantir que a pré-visualização capta a atenção.
  • Modelos de saliência: Caraterísticas visuais como a cor, o brilho e o contraste são analisadas para identificar as partes mais apelativas de uma cena.
  • Análise da expressão facial: Os momentos com expressões emocionais fortes são selecionados para criar uma ligação mais profunda com os espectadores.

Categorização e etiquetagem de conteúdos

A capacidade de pesquisar filmes por género, estado de espírito ou temas específicos depende de uma categorização e marcação precisas do conteúdo. As plataformas de streaming mais populares utilizam a visão por computador para automatizar este processo, analisando os vídeos em busca de objectos, acções, definições ou emoções e atribuindo depois etiquetas relevantes. Isto ajuda a organizar grandes bibliotecas de multimédia e torna as recomendações personalizadas mais precisas, fazendo corresponder o conteúdo às preferências do espetador.

As técnicas de IA visual, como a segmentação de cenas, a deteção de objectos e o reconhecimento de actividades, podem ser utilizadas para etiquetar eficazmente os conteúdos. Ao identificar elementos-chave como objectos, tons emocionais e acções, criam metadados detalhados para cada título. Os metadados podem depois ser analisados utilizando a aprendizagem automática para criar categorias que facilitam aos utilizadores encontrar o que procuram e melhoram a experiência geral de navegação.

__wf_reserved_inherit
Fig. 4. Um exemplo de categorização automática de conteúdo para recomendações personalizadas de streaming.

Vantagens e desafios das plataformas de streaming com IA

A visão computacional está a melhorar as plataformas de streaming com caraterísticas inovadoras que melhoram a experiência do utilizador. Eis algumas vantagens únicas a considerar:

  • Qualidade de transmissão adaptável: A visão por computador pode analisar cenas de vídeo para detetar momentos de grande movimento ou pormenores que necessitem de maior qualidade. Estes conhecimentos podem então ser utilizados para ajustar a qualidade da transmissão de acordo com o dispositivo do utilizador e a velocidade da Internet.
  • Monitorização do comportamento em tempo real: A IA pode ser utilizada para monitorizar transmissões em direto para detetar pirataria em tempo real. Também pode identificar acções não autorizadas, como adicionar sobreposições (por exemplo, logótipos ou anúncios) ou retransmitir transmissões para outras plataformas.
  • Fornecimento de conteúdos com eficiência energética: Os conhecimentos da Vision AI podem otimizar o fornecimento de conteúdos através da análise da procura dos utilizadores e dos padrões de visualização. O armazenamento em cache de conteúdos populares localmente e o ajuste da qualidade do vídeo reduzem a utilização da largura de banda e o consumo de energia, tornando o streaming mais sustentável.

Apesar de toda a gama de vantagens, há também certas limitações a ter em conta aquando da implementação destas inovações:

  • Elevadas exigências computacionais: Os algoritmos de visão por computador requerem uma grande capacidade computacional para processar e analisar o conteúdo de vídeo, o que pode levar a um aumento dos custos e da utilização de energia.
  • Preocupações com a privacidade dos dados: Uma vez que a visão computacional se baseia em grandes conjuntos de dados de interações e conteúdos dos utilizadores, pode suscitar preocupações quanto à privacidade e segurança dos dados.
  • Viés de dados: Os modelos de visão por computador podem refletir enviesamentos nos seus dados de formação. Isto pode levá-los a favorecer certos tipos de conteúdo e a reduzir a variedade nas recomendações.

Futuro da IA nas plataformas de streaming

Inovações como a computação periférica e a tecnologia 3D estão a ajudar a formar o futuro da forma como viveremos o entretenimento. A computação periférica pode ser utilizada para processar vídeos mais perto do local onde são transmitidos. Reduz os atrasos e poupa largura de banda, o que é especialmente importante para a transmissão em direto e os conteúdos interactivos. Tempos de resposta mais rápidos significam experiências mais suaves e mais envolventes para os espectadores.

Ao mesmo tempo, a tecnologia 3D está a acrescentar profundidade e realismo a programas, filmes e funcionalidades interactivas. Estes avanços também abrem a porta a novas possibilidades, como a realidade aumentada (RA) e a realidade virtual (RV). Com dispositivos como os auscultadores de RV, os espectadores podem entrar em ambientes totalmente imersivos. As linhas entre o mundo digital e o mundo físico podem ser esbatidas para criar um nível de envolvimento totalmente novo.

__wf_reserved_inherit
Figura 5. Reformulação do streaming com experiências interactivas orientadas para a RV.

Principais conclusões

A visão computacional está a redefinir as plataformas de streaming, tornando a análise de vídeo mais inteligente, a categorização de conteúdos mais rápida e as recomendações mais personalizadas. Com modelos como o Ultralytics YOLO11, as plataformas podem detetar objectos e classificar cenas em tempo real. Isso ajuda a facilitar a marcação de conteúdo e melhora a forma como programas e filmes são sugeridos.

As plataformas de streaming integradas com a Vision AI proporcionam experiências mais envolventes para os espectadores, garantindo simultaneamente operações de plataforma mais suaves e eficientes. À medida que a tecnologia avança, é provável que os serviços de streaming se tornem mais interactivos, oferecendo experiências de entretenimento mais ricas e envolventes.

Curioso sobre a IA? Visite o nosso repositório GitHub para explorar mais e ligar-se à nossa comunidade. Descubra várias aplicações de IA nos cuidados de saúde e visão computacional na agricultura.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência