Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

2024 começa com uma onda de IA generativa

Abirami Vina

Leitura de 6 min

12 de abril de 2024

Uma olhada nas inovações empolgantes de IA do primeiro trimestre de 2024. Abordaremos avanços como o Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

A comunidade de IA parece ser notícia quase diariamente. Os primeiros meses de 2024 foram empolgantes e repletos de novas inovações em IA. De novos e poderosos modelos de linguagem grandes a implantes cerebrais humanos, 2024 promete ser incrível.

Estamos vendo a IA transformar setores, tornando as informações mais acessíveis e até mesmo dando os primeiros passos para fundir nossas mentes com as máquinas. Vamos retroceder ao primeiro trimestre de 2024 e dar uma olhada mais de perto no progresso feito na IA em apenas alguns meses.

LLMs estão em alta

Os modelos de linguagem grandes (LLMs), projetados para entender, gerar e manipular a linguagem humana com base em vastas quantidades de dados de texto, ganharam destaque no primeiro trimestre de 2024. Muitas grandes empresas de tecnologia lançaram seus próprios modelos de LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores, como o GPT-3, inspirou essa tendência. Aqui estão alguns dos lançamentos de LLM mais notáveis do início de 2024.

Claude 3 da Anthropic

A Anthropic lançou o Claude 3 em 14 de março de 2024. O modelo Claude 3 vem em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas básicas e rápidas. Sonnet equilibra velocidade com inteligência e é voltado para aplicações empresariais. Opus, a versão mais avançada, oferece inteligência e raciocínio incomparáveis e é ideal para tarefas complexas e para alcançar os melhores benchmarks.

O Claude 3 possui muitos recursos e melhorias avançadas:

  • Conversas Multilíngues Aprimoradas: Habilidades aprimoradas em idiomas, incluindo espanhol, japonês e francês.
  • Recursos Avançados de Visão: Capaz de lidar com vários formatos visuais.
  • Recusas Minimizadas: Mostra mais compreensão com menos recusas desnecessárias, indicando melhor compreensão contextual.
  • Janela de Contexto Estendida: Oferece uma janela de contexto de 200K, mas é capaz de processar entradas de mais de 1 milhão de tokens com base nas necessidades do cliente.
__wf_reserved_inherit
Fig 1. Claude 3 é mais consciente do contexto do que as versões anteriores.

DBRX da Databricks

O Databricks DBRX é um LLM de código aberto e de propósito geral lançado pela Databricks em 27 de março de 2024. O DBRX tem um desempenho muito bom em vários benchmarks, incluindo compreensão de linguagem, programação e matemática. Ele supera outros modelos estabelecidos, sendo aproximadamente 40% menor do que modelos semelhantes.

__wf_reserved_inherit
Fig 2. Comparando o DBRX com outros modelos.

O DBRX foi treinado usando a previsão do próximo token com uma arquitetura de mixture-of-experts (MoE) refinada, e é por isso que podemos ver melhorias significativas no desempenho de treinamento e inferência. Sua arquitetura permite que o modelo preveja a próxima palavra em uma sequência com mais precisão, consultando um conjunto diversificado de submodelos especializados (os "experts"). Esses submodelos são bons em lidar com diferentes tipos de informações ou tarefas.

Gemini 1.5 do Google

O Google apresentou o Gemini 1.5, um modelo de IA multimodal com eficiência computacional que pode analisar extensos dados de texto, vídeo e áudio, em 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma característica fundamental do Gemini 1.5 é seu avanço na compreensão de contexto longo. O modelo é capaz de lidar com até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também são graças a uma nova arquitetura baseada em MoE.

__wf_reserved_inherit
Fig 3. Comparando os Comprimentos de Contexto de LLMs Populares

Aqui estão alguns dos recursos mais interessantes do Gemini 1.5:

  • Manuseio Aprimorado de Dados: Permite uploads diretos de grandes PDFs, repositórios de código ou vídeos longos como prompts. O modelo pode raciocinar entre modalidades e gerar texto.
  • Uploads e Consultas de Vários Arquivos: Os desenvolvedores agora podem enviar vários arquivos e fazer perguntas.
  • Pode ser usado para diferentes tarefas: É otimizado para escalar em diversas tarefas e apresenta melhorias em áreas como matemática, ciência, raciocínio, multilinguismo, compreensão de vídeo e código.

Visuais impressionantes gerados por IA

O primeiro trimestre de 2024 revelou modelos de IA generativa que podem criar visuais tão reais que provocaram debates sobre o futuro das redes sociais e o progresso da IA. Vamos mergulhar nos modelos que estão agitando a conversa.

Sora da OpenAI 

A OpenAI, criadora do ChatGPT, anunciou um modelo de deep learning de texto para vídeo de última geração chamado Sora em 15 de fevereiro de 2024. Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com alta qualidade visual com base em prompts de texto do usuário. 

Por exemplo, dê uma olhada no seguinte prompt. 

“Um mundo de papercraft lindamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.” 

E, aqui está um frame do vídeo de saída. 

__wf_reserved_inherit
Fig 4. Um frame de um vídeo gerado por Sora.

A arquitetura do Sora torna isso possível, combinando modelos de difusão para geração de textura e modelos transformer para coerência estrutural. Até o momento, o acesso ao Sora foi concedido a red teamers e a um grupo seleto de artistas visuais, designers e cineastas para entender os riscos e obter feedback. 

Stable Diffusion 3 da Stability AI 

A Stability AI anunciou a chegada do Stable Diffusion 3, um modelo de geração de texto para imagem, em 22 de fevereiro de 2024. O modelo combina arquitetura transformer de difusão e correspondência de fluxo. Eles ainda não lançaram um artigo técnico, mas há alguns recursos principais a serem observados.

__wf_reserved_inherit
Fig 5. A imagem de saída baseada no prompt: “Obra de arte épica de anime de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro que diz "Stable Diffusion 3" feito de energia colorida”

O modelo mais recente do Stable Diffusion oferece desempenho, qualidade de imagem e precisão aprimorados na criação de imagens com vários objetos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que variam de 800 milhões a 8 bilhões de parâmetros. Isso permitirá que os usuários escolham com base em suas necessidades específicas de escalabilidade e detalhes.

Lumiere do Google 

Em 23 de janeiro de 2024, o Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere usa uma arquitetura chamada Space-Time-U-Net, ou STUNet para abreviar. Ele ajuda o Lumiere a entender onde as coisas estão e como elas se movem em um vídeo. Ao fazer isso, ele pode gerar vídeos suaves e realistas.

__wf_reserved_inherit
Fig 6. Um frame de um vídeo gerado com base no prompt: “Panda tocando ukulele em casa.”

Com a capacidade de gerar 80 frames por vídeo, o Lumiere está ultrapassando limites e estabelecendo novos padrões para qualidade de vídeo no espaço da IA. Aqui estão alguns dos recursos do Lumiere:

  • Imagem para vídeo: Começando com uma imagem e um prompt, o Lumiere pode animar imagens em vídeos.
  • Geração estilizada: O Lumiere pode criar vídeos em estilos específicos usando uma única imagem de referência.
  • Cinemagraphs: O Lumiere pode animar regiões específicas dentro de uma imagem para criar cenas dinâmicas, como um objeto específico se movendo enquanto o resto da cena permanece estático.
  • Video Inpainting: Ele pode modificar partes de um vídeo, como alterar o traje de pessoas dentro dele ou alterar detalhes de fundo.

O futuro parece estar aqui

O início de 2024 também trouxe muitas inovações de IA que parecem ter saído de um filme de ficção científica. Coisas que antes diríamos que eram impossíveis agora estão sendo trabalhadas. O futuro não parece tão distante com as seguintes descobertas.

Neuralink de Elon Musk

O Neuralink de Elon Musk implantou com sucesso seu chip cerebral sem fio em um humano em 29 de janeiro de 2024. Este é um grande passo para conectar cérebros humanos a computadores. Elon Musk compartilhou que o primeiro produto da Neuralink, chamado ‘Telepathy,’ está em desenvolvimento. 

__wf_reserved_inherit
Fig 7. O Implante Neuralink

O objetivo é permitir que os usuários, principalmente aqueles que perderam a funcionalidade dos membros, controlem dispositivos sem esforço através de seus pensamentos. As aplicações potenciais vão além da conveniência. Elon Musk imagina um futuro onde indivíduos com paralisia possam se comunicar facilmente.

Piso HoloTile da Disney 

Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o Piso HoloTile. Ele foi apelidado de o primeiro piso de esteira omnidirecional multi pessoa do mundo. 

__wf_reserved_inherit
Fig 8. O Imagineer da Disney, Lanny Smoot, posa em sua mais recente inovação, o piso HoloTile.

Ele pode se mover sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Você pode caminhar em qualquer direção e evitar colisões enquanto estiver nele. O Piso HoloTile da Disney também pode ser instalado em palcos de teatro para dançar e se mover de maneiras criativas.

Vision Pro da Apple

Em 2 de fevereiro de 2024, o tão aguardado headset Vision Pro da Apple chegou ao mercado. Ele possui uma variedade de recursos e aplicações projetadas para redefinir a experiência de realidade virtual e aumentada. O headset Vision Pro atende a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple anunciou orgulhosamente que mais de 600 aplicativos, desde ferramentas de produtividade até serviços de jogos e entretenimento, foram otimizados para o Vision Pro em seu lançamento.

Devin da Cognition

Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. Devin é a primeira tentativa mundial de um engenheiro de software de IA autônomo. Ao contrário dos assistentes de codificação tradicionais que oferecem sugestões ou completam tarefas específicas, Devin foi projetado para lidar com projetos inteiros de desenvolvimento de software, desde o conceito inicial até a conclusão. 

Ele pode aprender novas tecnologias, construir e implantar aplicativos completos, encontrar e corrigir bugs, treinar seus próprios modelos, contribuir para bases de código de código aberto e de produção e até mesmo assumir trabalhos de desenvolvimento reais de sites como o Upwork. 

__wf_reserved_inherit
Fig 9. Comparando Devin com outros modelos.

Devin foi avaliado no SWE-bench, um benchmark desafiador que pede aos agentes para resolver problemas reais do GitHub encontrados em projetos de código aberto como Django e scikit-learn. Ele resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o estado da arte anterior de 1,96%.

Menções honrosas

Tem acontecido tanta coisa que cobrir tudo neste artigo não é possível. Mas, aqui estão mais algumas menções honrosas. 

  • O LATTE3D da NVIDIA, anunciado em 21 de março de 2024, é um modelo de IA de texto para 3D que cria instantaneamente representações 3D a partir de prompts de texto.
  • O novo gerador de texto para vídeo da Midjourney, provocado pelo CEO David Holz, começou a ser treinado em janeiro e deve ser lançado em breve.
  • Avançando na revolução do PC com IA, a Lenovo lançou o ThinkBook 13x com tecnologia E Ink Prism e laptops de IA de alto desempenho em 8 de janeiro de 2024.

Mantenha-se atualizado sobre as tendências de IA conosco!

O início de 2024 testemunhou avanços inovadores em IA e muitos marcos tecnológicos importantes. Mas este é apenas o começo do que a IA pode fazer. Se você quiser saber mais sobre os últimos desenvolvimentos em IA, a Ultralytics tem o que você precisa.

Confira nosso repositório GitHub para ver nossas últimas contribuições em visão computacional e IA. Você também pode consultar nossas páginas de soluções para ver como a IA está sendo usada em setores como manufatura e saúde

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência