Uma olhada nas inovações empolgantes de IA do primeiro trimestre de 2024. Abordaremos avanços como o Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.

Uma olhada nas inovações empolgantes de IA do primeiro trimestre de 2024. Abordaremos avanços como o Sora AI da OpenAI, o chip cerebral da Neuralink e os LLMs mais recentes.
A comunidade de IA parece ser notícia quase diariamente. Os primeiros meses de 2024 foram empolgantes e repletos de novas inovações em IA. De novos e poderosos modelos de linguagem grandes a implantes cerebrais humanos, 2024 promete ser incrível.
Estamos vendo a IA transformar setores, tornando as informações mais acessíveis e até mesmo dando os primeiros passos para fundir nossas mentes com as máquinas. Vamos retroceder ao primeiro trimestre de 2024 e dar uma olhada mais de perto no progresso feito na IA em apenas alguns meses.
Os modelos de linguagem grandes (LLMs), projetados para entender, gerar e manipular a linguagem humana com base em vastas quantidades de dados de texto, ganharam destaque no primeiro trimestre de 2024. Muitas grandes empresas de tecnologia lançaram seus próprios modelos de LLM, cada um com capacidades únicas. O incrível sucesso de LLMs anteriores, como o GPT-3, inspirou essa tendência. Aqui estão alguns dos lançamentos de LLM mais notáveis do início de 2024.
A Anthropic lançou o Claude 3 em 14 de março de 2024. O modelo Claude 3 vem em três versões: Opus, Sonnet e Haiku, cada uma atendendo a diferentes mercados e propósitos. Haiku, o modelo mais rápido, é otimizado para respostas básicas e rápidas. Sonnet equilibra velocidade com inteligência e é voltado para aplicações empresariais. Opus, a versão mais avançada, oferece inteligência e raciocínio incomparáveis e é ideal para tarefas complexas e para alcançar os melhores benchmarks.
O Claude 3 possui muitos recursos e melhorias avançadas:
O Databricks DBRX é um LLM de código aberto e de propósito geral lançado pela Databricks em 27 de março de 2024. O DBRX tem um desempenho muito bom em vários benchmarks, incluindo compreensão de linguagem, programação e matemática. Ele supera outros modelos estabelecidos, sendo aproximadamente 40% menor do que modelos semelhantes.
O DBRX foi treinado usando a previsão do próximo token com uma arquitetura de mixture-of-experts (MoE) refinada, e é por isso que podemos ver melhorias significativas no desempenho de treinamento e inferência. Sua arquitetura permite que o modelo preveja a próxima palavra em uma sequência com mais precisão, consultando um conjunto diversificado de submodelos especializados (os "experts"). Esses submodelos são bons em lidar com diferentes tipos de informações ou tarefas.
O Google apresentou o Gemini 1.5, um modelo de IA multimodal com eficiência computacional que pode analisar extensos dados de texto, vídeo e áudio, em 15 de fevereiro de 2024. O modelo mais recente é mais avançado em termos de desempenho, eficiência e capacidades. Uma característica fundamental do Gemini 1.5 é seu avanço na compreensão de contexto longo. O modelo é capaz de lidar com até 1 milhão de tokens de forma consistente. As capacidades do Gemini 1.5 também são graças a uma nova arquitetura baseada em MoE.
Aqui estão alguns dos recursos mais interessantes do Gemini 1.5:
O primeiro trimestre de 2024 revelou modelos de IA generativa que podem criar visuais tão reais que provocaram debates sobre o futuro das redes sociais e o progresso da IA. Vamos mergulhar nos modelos que estão agitando a conversa.
A OpenAI, criadora do ChatGPT, anunciou um modelo de deep learning de texto para vídeo de última geração chamado Sora em 15 de fevereiro de 2024. Sora é um gerador de texto para vídeo capaz de gerar vídeos de um minuto com alta qualidade visual com base em prompts de texto do usuário.
Por exemplo, dê uma olhada no seguinte prompt.
“Um mundo de papercraft lindamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas.”
E, aqui está um frame do vídeo de saída.
A arquitetura do Sora torna isso possível, combinando modelos de difusão para geração de textura e modelos transformer para coerência estrutural. Até o momento, o acesso ao Sora foi concedido a red teamers e a um grupo seleto de artistas visuais, designers e cineastas para entender os riscos e obter feedback.
A Stability AI anunciou a chegada do Stable Diffusion 3, um modelo de geração de texto para imagem, em 22 de fevereiro de 2024. O modelo combina arquitetura transformer de difusão e correspondência de fluxo. Eles ainda não lançaram um artigo técnico, mas há alguns recursos principais a serem observados.
O modelo mais recente do Stable Diffusion oferece desempenho, qualidade de imagem e precisão aprimorados na criação de imagens com vários objetos. O Stable Diffusion 3 também oferecerá uma variedade de modelos que variam de 800 milhões a 8 bilhões de parâmetros. Isso permitirá que os usuários escolham com base em suas necessidades específicas de escalabilidade e detalhes.
Em 23 de janeiro de 2024, o Google lançou o Lumiere, um modelo de difusão de texto para vídeo. O Lumiere usa uma arquitetura chamada Space-Time-U-Net, ou STUNet para abreviar. Ele ajuda o Lumiere a entender onde as coisas estão e como elas se movem em um vídeo. Ao fazer isso, ele pode gerar vídeos suaves e realistas.
Com a capacidade de gerar 80 frames por vídeo, o Lumiere está ultrapassando limites e estabelecendo novos padrões para qualidade de vídeo no espaço da IA. Aqui estão alguns dos recursos do Lumiere:
O início de 2024 também trouxe muitas inovações de IA que parecem ter saído de um filme de ficção científica. Coisas que antes diríamos que eram impossíveis agora estão sendo trabalhadas. O futuro não parece tão distante com as seguintes descobertas.
O Neuralink de Elon Musk implantou com sucesso seu chip cerebral sem fio em um humano em 29 de janeiro de 2024. Este é um grande passo para conectar cérebros humanos a computadores. Elon Musk compartilhou que o primeiro produto da Neuralink, chamado ‘Telepathy,’ está em desenvolvimento.
O objetivo é permitir que os usuários, principalmente aqueles que perderam a funcionalidade dos membros, controlem dispositivos sem esforço através de seus pensamentos. As aplicações potenciais vão além da conveniência. Elon Musk imagina um futuro onde indivíduos com paralisia possam se comunicar facilmente.
Em 18 de janeiro de 2024, a Walt Disney Imagineering revelou o Piso HoloTile. Ele foi apelidado de o primeiro piso de esteira omnidirecional multi pessoa do mundo.
Ele pode se mover sob qualquer pessoa ou objeto como telecinesia para uma experiência imersiva de realidade virtual e aumentada. Você pode caminhar em qualquer direção e evitar colisões enquanto estiver nele. O Piso HoloTile da Disney também pode ser instalado em palcos de teatro para dançar e se mover de maneiras criativas.
Em 2 de fevereiro de 2024, o tão aguardado headset Vision Pro da Apple chegou ao mercado. Ele possui uma variedade de recursos e aplicações projetadas para redefinir a experiência de realidade virtual e aumentada. O headset Vision Pro atende a um público diversificado, combinando entretenimento, produtividade e computação espacial. A Apple anunciou orgulhosamente que mais de 600 aplicativos, desde ferramentas de produtividade até serviços de jogos e entretenimento, foram otimizados para o Vision Pro em seu lançamento.
Em 12 de março de 2024, a Cognition lançou um assistente de engenharia de software chamado Devin. Devin é a primeira tentativa mundial de um engenheiro de software de IA autônomo. Ao contrário dos assistentes de codificação tradicionais que oferecem sugestões ou completam tarefas específicas, Devin foi projetado para lidar com projetos inteiros de desenvolvimento de software, desde o conceito inicial até a conclusão.
Ele pode aprender novas tecnologias, construir e implantar aplicativos completos, encontrar e corrigir bugs, treinar seus próprios modelos, contribuir para bases de código de código aberto e de produção e até mesmo assumir trabalhos de desenvolvimento reais de sites como o Upwork.
Devin foi avaliado no SWE-bench, um benchmark desafiador que pede aos agentes para resolver problemas reais do GitHub encontrados em projetos de código aberto como Django e scikit-learn. Ele resolveu corretamente 13,86% dos problemas de ponta a ponta, em comparação com o estado da arte anterior de 1,96%.
Tem acontecido tanta coisa que cobrir tudo neste artigo não é possível. Mas, aqui estão mais algumas menções honrosas.
O início de 2024 testemunhou avanços inovadores em IA e muitos marcos tecnológicos importantes. Mas este é apenas o começo do que a IA pode fazer. Se você quiser saber mais sobre os últimos desenvolvimentos em IA, a Ultralytics tem o que você precisa.
Confira nosso repositório GitHub para ver nossas últimas contribuições em visão computacional e IA. Você também pode consultar nossas páginas de soluções para ver como a IA está sendo usada em setores como manufatura e saúde.