IA de visão

2024 começa com uma onda de IA generativa

Uma olhada nas empolgantes inovações de IA do primeiro trimestre de 2024. Abordaremos avanços como a Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

ABAbirami Vina

6 min readApril 12, 2024

Avanços em IA generativa do início de 2024

A comunidade de IA parece ganhar as manchetes quase diariamente. Os primeiros meses de 2024 foram empolgantes e repletos de novas inovações em IA. Desde novos e poderosos grandes modelos de linguagem até implantes cerebrais humanos, 2024 está se revelando incrível.

Estamos vendo a IA transformar setores, tornando a informação mais acessível e até dando os primeiros passos para fundir nossas mentes com as máquinas. Vamos retroceder o primeiro trimestre de 2024 e observar mais de perto o progresso feito em IA em apenas alguns meses.

Link to this sectionLLMs estão em alta#

Os grandes modelos de linguagem (LLMs), projetados para entender, gerar e manipular a linguagem humana com base em grandes volumes de dados de texto, ocuparam o centro do palco no primeiro trimestre de 2024. Muitas grandes empresas de tecnologia lançaram seus próprios modelos LLM, cada um com capacidades únicas. O sucesso incrível de LLMs anteriores, como o GPT-3, inspirou essa tendência. Aqui estão alguns dos lançamentos de LLM mais notáveis do início de 2024.

Link to this sectionClaude 3 da Anthropic#

A Anthropic lançou o Claude 3 em 14 de março de 2024. O modelo Claude 3 vem em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. O Haiku, o modelo mais rápido, é otimizado para respostas rápidas e básicas. O Sonnet equilibra velocidade com inteligência e é voltado para aplicações empresariais. O Opus, a versão mais avançada, oferece inteligência e raciocínio inigualáveis, sendo ideal para tarefas complexas e para alcançar os melhores benchmarks.

O Claude 3 possui muitos recursos avançados e melhorias:

Conversas multilíngues aprimoradas: Habilidades melhoradas em idiomas, incluindo espanhol, japonês e francês.
Recursos avançados de visão: Capaz de lidar com vários formatos visuais.
Recusas minimizadas: Demonstra maior compreensão com menos recusas desnecessárias, indicando uma melhor compreensão contextual.
Janela de contexto estendida: Oferece uma janela de contexto de 200K, mas é capaz de processar entradas acima de 1 milhão de tokens, dependendo das necessidades do cliente.

Gráfico mostrando a consciência contextual do Claude 3 em comparação com versões anteriores

Fig 1. O Claude 3 é mais contextualmente consciente do que as versões anteriores.

Link to this sectionDBRX da Databricks#

O Databricks DBRX é um LLM aberto de propósito geral lançado pela Databricks em 27 de março de 2024. O DBRX apresenta um ótimo desempenho em vários benchmarks, incluindo compreensão de linguagem, programação e matemática. Ele supera outros modelos estabelecidos, sendo aproximadamente 40% menor do que modelos semelhantes.

Comparando o DBRX com outros modelos

Fig 2. Comparando o DBRX com outros modelos.

O DBRX foi treinado usando previsão do próximo token com uma arquitetura de mistura de especialistas (MoE) de granulação fina, e é por isso que podemos ver melhorias significativas no desempenho de treinamento e inferência. Sua arquitetura permite que o modelo preveja a próxima palavra em uma sequência com mais precisão, consultando um conjunto diversificado de submodelos especializados (os "especialistas"). Esses submodelos são bons em lidar com diferentes tipos de informações ou tarefas.

Link to this sectionGemini 1.5 do Google#

O Google apresentou o Gemini 1.5, um modelo de IA multimodal e eficiente em termos computacionais, que pode analisar grandes quantidades de texto, vídeo e áudio, em 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Um recurso fundamental do Gemini 1.5 é o seu avanço na compreensão de contexto longo. O modelo é capaz de processar consistentemente até 1 milhão de tokens. As capacidades do Gemini 1.5 também se devem a uma nova arquitetura baseada em MoE.

Comparando os tamanhos de contexto de LLMs populares

Fig 3. Comparando extensões de contexto de LLMs populares

Aqui estão alguns dos recursos mais interessantes do Gemini 1.5:

Processamento de dados aprimorado: Permite o upload direto de PDFs grandes, repositórios de código ou vídeos longos como prompts. O modelo pode raciocinar entre modalidades e gerar texto.
Uploads e consultas de múltiplos arquivos: Os desenvolvedores agora podem fazer upload de múltiplos arquivos e fazer perguntas.
Pode ser usado para diferentes tarefas: É otimizado para escalar em diversas tarefas e mostra melhorias em áreas como matemática, ciência, raciocínio, multilinguismo, compreensão de vídeo e código.

Link to this sectionVisuais impressionantes de IA#

O primeiro trimestre de 2024 revelou modelos de IA generativa que podem criar visuais tão reais que provocaram debates sobre o futuro das redes sociais e o progresso da IA. Vamos mergulhar nos modelos que estão agitando a conversa.

Link to this sectionSora da OpenAI#

A OpenAI, criadora do ChatGPT, anunciou um modelo de aprendizado profundo de texto para vídeo de última geração chamado Sora em 15 de fevereiro de 2024. O Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com alta qualidade visual com base em prompts textuais do usuário.

Por exemplo, dê uma olhada no prompt a seguir.

“Um mundo de papel esculpido maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.”

E aqui está um quadro do vídeo de saída.

Um frame de um vídeo gerado pelo OpenAI Sora

Fig 4. Um quadro de um vídeo gerado pelo Sora.

A arquitetura do Sora torna isso possível ao combinar modelos de difusão para geração de textura e modelos Transformer para coerência estrutural. Até agora, o acesso ao Sora foi concedido a especialistas em "red teaming" e a um grupo selecionado de artistas visuais, designers e cineastas para compreender os riscos e obter feedback.

Link to this sectionStable Diffusion 3 da Stability AI#

A Stability AI anunciou a chegada do Stable Diffusion 3, um modelo de geração de texto para imagem, em 22 de fevereiro de 2024. O modelo combina arquitetura de Transformer de difusão e flow matching. Eles ainda não publicaram um artigo técnico, mas há alguns recursos importantes para ficar atento.

Imagem gerada pelo Stable Diffusion 3 de um mago lançando um feitiço cósmico

Fig 5. A imagem de saída com base no prompt: “Arte de anime épica de um mago no topo de uma montanha à noite lançando um feitiço cósmico no céu escuro que diz "Stable Diffusion 3" feito de energia colorida” (Fonte)

O modelo mais recente do Stable Diffusion oferece desempenho, qualidade de imagem e precisão aprimorados na criação de imagens com múltiplos sujeitos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que variam de 800 milhões a 8 bilhões de parâmetros. Isso permitirá que os usuários escolham com base em suas necessidades específicas de escalabilidade e detalhamento.

Link to this sectionLumiere do Google#

Em 23 de janeiro de 2024, o Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere usa uma arquitetura chamada Space-Time-U-Net, ou STUNet para abreviar. Ele ajuda o Lumiere a entender onde as coisas estão e como elas se movem em um vídeo. Ao fazer isso, ele pode gerar vídeos suaves e realistas.

Um frame de um vídeo gerado pelo Google Lumiere de um panda tocando ukulele

Fig 6. Um quadro de um vídeo gerado com base no prompt: “Panda tocando ukulele em casa.”

Com a capacidade de gerar 80 quadros por vídeo, o Lumiere está ultrapassando limites e estabelecendo novos padrões para a qualidade de vídeo no espaço da IA. Aqui estão alguns dos recursos do Lumiere:

Imagem para vídeo: Começando a partir de uma imagem e um prompt, o Lumiere pode animar imagens em vídeos.
Geração estilizada: O Lumiere pode criar vídeos em estilos específicos usando uma única imagem de referência.
Cinemagraphs: O Lumiere pode animar regiões específicas dentro de uma imagem para criar cenas dinâmicas, como um objeto específico se movendo enquanto o restante da cena permanece estático.
Inpainting de vídeo: Ele pode modificar partes de um vídeo, como mudar o traje das pessoas dentro dele ou alterar detalhes do plano de fundo.

Link to this sectionO futuro parece estar aqui#

O início de 2024 também trouxe muitas inovações de IA que parecem algo saído de um filme de ficção científica. Coisas que anteriormente diríamos que eram impossíveis agora estão sendo desenvolvidas. O futuro não parece tão distante com as seguintes descobertas.

Link to this sectionNeuralink de Elon Musk#

A Neuralink de Elon Musk implantou com sucesso seu chip cerebral sem fio em um humano em 29 de janeiro de 2024. Este é um grande passo para conectar cérebros humanos a computadores. Elon Musk compartilhou que o primeiro produto da Neuralink, chamado ‘Telepathy’, está em andamento.

O implante Neuralink

Fig 7. O implante Neuralink

O objetivo é permitir que os usuários, particularmente aqueles que perderam a funcionalidade dos membros, controlem dispositivos sem esforço através de seus pensamentos. As aplicações potenciais vão além da conveniência. Elon Musk imagina um futuro onde indivíduos com paralisia possam se comunicar facilmente.

Link to this sectionHoloTile Floor da Disney#

Em 18 de janeiro de 2024, a Walt Disney Imagineering apresentou o HoloTile Floor. Ele foi apelidado como a primeira esteira omnidirecional para várias pessoas do mundo.

Lanny Smoot, Imagineer da Disney, no chão HoloTile

Fig 8. O Disney Imagineer Lanny Smoot posa em sua mais recente inovação, o piso HoloTile.

Ele pode se mover sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Você pode caminhar em qualquer direção e evitar colisões enquanto estiver nele. O HoloTile Floor da Disney também pode ser instalado em palcos teatrais para dançar e se mover de maneiras criativas.

Link to this sectionVision Pro da Apple#

Em 2 de fevereiro de 2024, o tão esperado headset Vision Pro da Apple chegou ao mercado. Ele possui uma variedade de recursos e aplicações projetadas para redefinir a experiência de realidade virtual e aumentada. O headset Vision Pro atende a um público diversificado ao combinar entretenimento, produtividade e computação espacial. A Apple anunciou orgulhosamente que mais de 600 aplicativos, desde ferramentas de produtividade até serviços de jogos e entretenimento, foram otimizados para o Vision Pro em seu lançamento.

Link to this sectionDevin da Cognition#

Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. O Devin é a primeira tentativa do mundo de um engenheiro de software de IA autônomo. Diferente dos assistentes de codificação tradicionais que oferecem sugestões ou concluem tarefas específicas, o Devin foi projetado para lidar com projetos inteiros de desenvolvimento de software, desde o conceito inicial até a conclusão.

Ele pode aprender novas tecnologias, criar e implantar aplicativos completos, encontrar e corrigir bugs, treinar seus próprios modelos, contribuir para bases de código de código aberto e de produção e até mesmo assumir trabalhos reais de desenvolvimento de sites como o Upwork.

Comparando o Devin com outros modelos

Fig 9. Comparando o Devin com outros modelos.

O Devin foi avaliado no SWE-bench, um benchmark desafiador que pede aos agentes que resolvam problemas reais do GitHub encontrados em projetos de código aberto como o Django e o scikit-learn. Ele resolveu corretamente 13,86% dos problemas de ponta a ponta, comparado ao estado da arte anterior de 1,96%.

Link to this sectionMenções honrosas#

Aconteceram tantas coisas que não é possível cobrir tudo neste artigo. Mas, aqui estão mais algumas menções honrosas.

O LATTE3D da NVIDIA, anunciado em 21 de março de 2024, é um modelo de IA de texto para 3D que cria instantaneamente representações 3D a partir de prompts de texto.
O novo gerador de texto para vídeo da Midjourney, anunciado pelo CEO David Holz, começou a ser treinado em janeiro e deve ser lançado em breve.
Avançando na revolução da IA para PC, a Lenovo lançou o ThinkBook 13x com tecnologia E Ink Prism e laptops de IA de alto desempenho em 8 de janeiro de 2024.

Link to this sectionFique atualizado sobre as tendências de IA conosco!#

O início de 2024 viu avanços inovadores em IA e muitos marcos tecnológicos importantes. Mas este é apenas o começo do que a IA pode fazer. Se você quiser saber mais sobre os desenvolvimentos mais recentes em IA, a Ultralytics está aqui para ajudar.

Confira nosso repositório do GitHub para ver nossas últimas contribuições em visão computacional e IA. Você também pode dar uma olhada em nossas páginas de soluções para ver como a IA está sendo usada em setores como manufatura e saúde.

2024 começa com uma onda de IA generativa

Link to this sectionLLMs estão em alta#

Link to this sectionClaude 3 da Anthropic#

Link to this sectionDBRX da Databricks#

Link to this sectionGemini 1.5 do Google#

Link to this sectionVisuais impressionantes de IA#

Link to this sectionSora da OpenAI#

Link to this sectionStable Diffusion 3 da Stability AI#

Link to this sectionLumiere do Google#

Link to this sectionO futuro parece estar aqui#

Link to this sectionNeuralink de Elon Musk#

Link to this sectionHoloTile Floor da Disney#

Link to this sectionVision Pro da Apple#

Link to this sectionDevin da Cognition#

Link to this sectionMenções honrosas#

Link to this sectionFique atualizado sobre as tendências de IA conosco!#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!