Yolo Vision Shenzhen
Shenzhen
Junte-se agora

2024 começa com uma onda de IA generativa

Abirami Vina

Leitura de 6 min

12 de abril de 2024

Uma olhada nas inovações empolgantes de IA do primeiro trimestre de 2024. Abordaremos avanços como o Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

A comunidade de IA parece ser notícia quase diariamente. Os primeiros meses de 2024 foram empolgantes e repletos de novas inovações em IA. De novos e poderosos modelos de linguagem grandes a implantes cerebrais humanos, 2024 promete ser incrível.

Estamos vendo a IA transformar setores, tornando as informações mais acessíveis e até mesmo dando os primeiros passos para fundir nossas mentes com as máquinas. Vamos retroceder ao primeiro trimestre de 2024 e dar uma olhada mais de perto no progresso feito na IA em apenas alguns meses.

LLMs estão em alta

Os modelos de linguagem grandes (LLMs), projetados para entender, gerar e manipular a linguagem humana com base em vastas quantidades de dados de texto, ganharam destaque no primeiro trimestre de 2024. Muitas grandes empresas de tecnologia lançaram seus próprios modelos de LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores, como o GPT-3, inspirou essa tendência. Aqui estão alguns dos lançamentos de LLM mais notáveis do início de 2024.

Claude 3 da Anthropic

Anthropic lançou o Claude 3 em 14 de março de 2024. O modelo Claude 3 está disponível em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas rápidas e básicas. O Sonnet equilibra velocidade com inteligência e é direcionado para aplicações empresariais. O Opus, a versão mais avançada, oferece inteligência e raciocínio inigualáveis e é ideal para tarefas complexas e para atingir os melhores benchmarks.

O Claude 3 possui muitos recursos e melhorias avançadas:

  • Conversas Multilíngues Aprimoradas: Habilidades aprimoradas em idiomas, incluindo espanhol, japonês e francês.
  • Recursos Avançados de Visão: Capaz de lidar com vários formatos visuais.
  • Recusas Minimizadas: Mostra mais compreensão com menos recusas desnecessárias, indicando melhor compreensão contextual.
  • Janela de Contexto Estendida: Oferece uma janela de contexto de 200K, mas é capaz de processar entradas de mais de 1 milhão de tokens com base nas necessidades do cliente.
__wf_reserved_inherit
Fig 1. Claude 3 é mais consciente do contexto do que as versões anteriores.

DBRX da Databricks

O Databricks DBRX é um LLM de código aberto e de propósito geral lançado pela Databricks em 27 de março de 2024. O DBRX tem um desempenho muito bom em vários benchmarks, incluindo compreensão de linguagem, programação e matemática. Ele supera outros modelos estabelecidos, sendo aproximadamente 40% menor do que modelos semelhantes.

__wf_reserved_inherit
Fig 2. Comparando o DBRX com outros modelos.

O DBRX foi treinado usando a previsão do próximo token com uma arquitetura de mixture-of-experts (MoE) refinada, e é por isso que podemos ver melhorias significativas no desempenho de treinamento e inferência. Sua arquitetura permite que o modelo preveja a próxima palavra em uma sequência com mais precisão, consultando um conjunto diversificado de submodelos especializados (os "experts"). Esses submodelos são bons em lidar com diferentes tipos de informações ou tarefas.

Gemini 1.5 da Google

Google apresentou o Gemini 1.5, um modelo de IA multimodal e eficiente em termos de computação que pode analisar dados extensos de texto, vídeo e áudio, a 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma das principais caraterísticas do Gemini 1.5 é o seu avanço na compreensão de contextos longos. O modelo é capaz de processar até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também se devem a uma nova arquitetura baseada em MoE.

__wf_reserved_inherit
Fig 3. Comparando os Comprimentos de Contexto de LLMs Populares

Aqui estão alguns dos recursos mais interessantes do Gemini 1.5:

  • Manuseio Aprimorado de Dados: Permite uploads diretos de grandes PDFs, repositórios de código ou vídeos longos como prompts. O modelo pode raciocinar entre modalidades e gerar texto.
  • Uploads e Consultas de Vários Arquivos: Os desenvolvedores agora podem enviar vários arquivos e fazer perguntas.
  • Pode ser usado para diferentes tarefas: É otimizado para escalar em diversas tarefas e apresenta melhorias em áreas como matemática, ciência, raciocínio, multilinguismo, compreensão de vídeo e código.

Visuais impressionantes gerados por IA

O primeiro trimestre de 2024 revelou modelos de IA generativa que podem criar visuais tão reais que provocaram debates sobre o futuro das redes sociais e o progresso da IA. Vamos mergulhar nos modelos que estão agitando a conversa.

Sora da OpenAI 

A OpenAI, criadora do ChatGPT, anunciou um modelo avançado de aprendizagem profunda de texto para vídeo denominado Sora a 15 de fevereiro de 2024. O Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com elevada qualidade visual com base em instruções textuais do utilizador. 

Por exemplo, dê uma olhada no seguinte prompt. 

“Um mundo de papercraft lindamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.” 

E, aqui está um frame do vídeo de saída. 

__wf_reserved_inherit
Fig 4. Um frame de um vídeo gerado por Sora.

A arquitetura do Sora torna isso possível, combinando modelos de difusão para geração de textura e modelos transformer para coerência estrutural. Até o momento, o acesso ao Sora foi concedido a red teamers e a um grupo seleto de artistas visuais, designers e cineastas para entender os riscos e obter feedback. 

Stability AIDifusão estável da Stability AI3 

Stability AI anunciou a chegada do Stable Diffusion 3, um modelo de geração de texto para imagem, a 22 de fevereiro de 2024. O modelo mistura arquitetura de transformador de difusão e correspondência de fluxo. Ainda não foi publicado um documento técnico, mas há algumas caraterísticas importantes a ter em conta.

__wf_reserved_inherit
Fig 5. A imagem de saída baseada no prompt: “Obra de arte épica de anime de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro que diz "Stable Diffusion 3" feito de energia colorida”

O modelo mais recente do Stable Diffusion oferece desempenho, qualidade de imagem e precisão aprimorados na criação de imagens com vários objetos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que variam de 800 milhões a 8 bilhões de parâmetros. Isso permitirá que os usuários escolham com base em suas necessidades específicas de escalabilidade e detalhes.

Lumiere da Google 

Em 23 de janeiro de 2024, Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere utiliza uma arquitetura denominada Space-Time-U-Net, ou STUNet para abreviar. Esta ajuda o Lumiere a compreender onde estão as coisas e como se movem num vídeo. Ao fazê-lo, pode gerar vídeos suaves e realistas.

__wf_reserved_inherit
Fig 6. Um frame de um vídeo gerado com base no prompt: “Panda tocando ukulele em casa.”

Com a capacidade de gerar 80 frames por vídeo, o Lumiere está ultrapassando limites e estabelecendo novos padrões para qualidade de vídeo no espaço da IA. Aqui estão alguns dos recursos do Lumiere:

  • Imagem para vídeo: Começando com uma imagem e um prompt, o Lumiere pode animar imagens em vídeos.
  • Geração estilizada: O Lumiere pode criar vídeos em estilos específicos usando uma única imagem de referência.
  • Cinemagraphs: O Lumiere pode animar regiões específicas dentro de uma imagem para criar cenas dinâmicas, como um objeto específico se movendo enquanto o resto da cena permanece estático.
  • Video Inpainting: Ele pode modificar partes de um vídeo, como alterar o traje de pessoas dentro dele ou alterar detalhes de fundo.

O futuro parece estar aqui

O início de 2024 também trouxe muitas inovações de IA que parecem ter saído de um filme de ficção científica. Coisas que antes diríamos que eram impossíveis agora estão sendo trabalhadas. O futuro não parece tão distante com as seguintes descobertas.

Neuralink de Elon Musk

O Neuralink de Elon Musk implantou com sucesso seu chip cerebral sem fio em um humano em 29 de janeiro de 2024. Este é um grande passo para conectar cérebros humanos a computadores. Elon Musk compartilhou que o primeiro produto da Neuralink, chamado ‘Telepathy,’ está em desenvolvimento. 

__wf_reserved_inherit
Fig 7. O Implante Neuralink

O objetivo é permitir que os usuários, principalmente aqueles que perderam a funcionalidade dos membros, controlem dispositivos sem esforço através de seus pensamentos. As aplicações potenciais vão além da conveniência. Elon Musk imagina um futuro onde indivíduos com paralisia possam se comunicar facilmente.

Piso HoloTile da Disney 

Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o Piso HoloTile. Ele foi apelidado de o primeiro piso de esteira omnidirecional multi pessoa do mundo. 

__wf_reserved_inherit
Fig 8. O Imagineer da Disney, Lanny Smoot, posa em sua mais recente inovação, o piso HoloTile.

Ele pode se mover sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Você pode caminhar em qualquer direção e evitar colisões enquanto estiver nele. O Piso HoloTile da Disney também pode ser instalado em palcos de teatro para dançar e se mover de maneiras criativas.

Vision Pro da Apple

Em 2 de fevereiro de 2024, o tão aguardado headset Vision Pro da Apple chegou ao mercado. Ele possui uma variedade de recursos e aplicações projetadas para redefinir a experiência de realidade virtual e aumentada. O headset Vision Pro atende a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple anunciou orgulhosamente que mais de 600 aplicativos, desde ferramentas de produtividade até serviços de jogos e entretenimento, foram otimizados para o Vision Pro em seu lançamento.

Devin da Cognition

Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. Devin é a primeira tentativa mundial de um engenheiro de software de IA autônomo. Ao contrário dos assistentes de codificação tradicionais que oferecem sugestões ou completam tarefas específicas, Devin foi projetado para lidar com projetos inteiros de desenvolvimento de software, desde o conceito inicial até a conclusão. 

Ele pode aprender novas tecnologias, construir e implantar aplicativos completos, encontrar e corrigir bugs, treinar seus próprios modelos, contribuir para bases de código de código aberto e de produção e até mesmo assumir trabalhos de desenvolvimento reais de sites como o Upwork. 

__wf_reserved_inherit
Fig 9. Comparando Devin com outros modelos.

Devin foi avaliado no SWE-bench, um benchmark desafiador que pede aos agentes para resolver problemas reais do GitHub encontrados em projetos de código aberto como Django e scikit-learn. Ele resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o estado da arte anterior de 1,96%.

Menções honrosas

Tem acontecido tanta coisa que cobrir tudo neste artigo não é possível. Mas, aqui estão mais algumas menções honrosas. 

  • O LATTE3D da NVIDIA, anunciado em 21 de março de 2024, é um modelo de IA de texto para 3D que cria instantaneamente representações 3D a partir de prompts de texto.
  • O novo gerador de texto para vídeo da Midjourney, provocado pelo CEO David Holz, começou a ser treinado em janeiro e deve ser lançado em breve.
  • Avançando na revolução do PC com IA, a Lenovo lançou o ThinkBook 13x com tecnologia E Ink Prism e laptops de IA de alto desempenho em 8 de janeiro de 2024.

Mantenha-se atualizado sobre as tendências de IA conosco!

O início de 2024 assistiu a avanços revolucionários na IA e a muitos marcos tecnológicos importantes. Mas isto é apenas o início do que a IA pode fazer. Se quiser saber mais sobre os últimos desenvolvimentos da IA, Ultralytics tem tudo o que precisa.

Confira nosso repositório GitHub para ver nossas últimas contribuições em visão computacional e IA. Você também pode consultar nossas páginas de soluções para ver como a IA está sendo usada em setores como manufatura e saúde

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente