Llama 3: A Explicação da Nova LLM de Código Aberto da Meta

Quando reunimos as inovações de inteligência artificial (IA) do primeiro trimestre de 2024, vimos que as LLMs, ou modelos de linguagem grandes, estavam sendo lançadas por diversas organizações. Dando continuidade a essa tendência, em 18 de abril de 2024, a Meta lançou o Llama 3, uma LLM de código aberto de última geração.

Você pode estar pensando: É só mais uma LLM. Por que a comunidade de IA está tão entusiasmada com ela?

Embora você possa ajustar modelos como o GPT-3 ou o Gemini para respostas personalizadas, eles não oferecem total transparência em relação ao seu funcionamento interno, como seus dados de treinamento, parâmetros do modelo ou algoritmos. Em contraste, o Llama 3 da Meta é mais transparente, com sua arquitetura e pesos disponíveis para download. Para a comunidade de IA, isso significa maior liberdade para experimentar.

Neste artigo, vamos aprender o que o Llama 3 pode fazer, como ele surgiu e seu impacto no campo da IA. Vamos direto ao assunto!

A evolução dos modelos Llama da Meta

Antes de mergulharmos no Llama 3, vamos relembrar suas versões anteriores.

A Meta lançou o Llama 1 em fevereiro de 2023, que veio em quatro variantes com parâmetros que variam de 7 bilhões a 64 bilhões. Em machine learning, "parâmetros" se referem aos elementos do modelo que são aprendidos a partir dos dados de treinamento. Devido ao seu menor número de parâmetros, o Llama 1 às vezes tinha dificuldades com a compreensão sutil e dava respostas inconsistentes.

Pouco depois do Llama 1, a Meta lançou o Llama 2 em julho de 2023. Ele foi treinado com 2 trilhões de tokens. Um token representa um pedaço de texto, como uma palavra ou parte de uma palavra, usado como a unidade básica de dados para processamento no modelo. O modelo também apresentou melhorias como uma janela de contexto dobrada de 4096 tokens para entender passagens mais longas e mais de 1 milhão de anotações humanas para diminuir erros. Apesar dessas melhorias, o Llama 2 ainda precisava de muito poder computacional, algo que a Meta pretendia corrigir com o Llama 3.

Apresentando o Llama 3 da Meta

O Llama 3 vem com quatro variantes que foram treinadas com impressionantes 15 trilhões de tokens. Mais de 5% desses dados de treinamento (cerca de 800 milhões de tokens) representavam dados em 30 idiomas diferentes. Todas as variantes do Llama 3 podem ser executadas em vários tipos de hardware de consumo e têm um comprimento de contexto de 8 mil tokens.

__wf_reserved_inherit — Fig 1. Llama 3 Vs Llama 2.

As variantes do modelo vêm em dois tamanhos: 8B e 70B, indicando 8 bilhões e 70 bilhões de parâmetros, respectivamente. Existem também duas versões, base e instruct. "Base" se refere à versão padrão pré-treinada. "Instruct" é uma versão ajustada otimizada para aplicações ou domínios específicos por meio de treinamento adicional em dados relevantes.

Estas são as variantes do modelo Llama 3:

Meta-Llama-3-8b: O modelo base 8B fornece capacidades fundamentais de IA e é ideal para tarefas gerais, como o desenvolvimento de chatbots de atendimento ao cliente.
‍
Meta-Llama-3-8b-instruct: Uma versão instruct ajustada do modelo 8B que é otimizada para tarefas específicas. Por exemplo, pode ser usado para criar ferramentas educacionais que explicam assuntos complexos.
‍
Meta-Llama-3-70b: O modelo base 70B é projetado para aplicações de IA de alto desempenho. Este modelo funcionaria bem para aplicações como o processamento de extensa literatura biomédica para descoberta de fármacos.
‍
Meta-Llama-3-70b-instruct: Esta versão é ajustada a partir do modelo 70B para aplicações de alta precisão, como a análise de documentos legais ou médicos, onde a precisão é fundamental.

Arquitetura do modelo Llama 3 da Meta

Como em qualquer outro avanço da Meta AI, medidas rigorosas de controle de qualidade foram implementadas para manter a integridade dos dados e minimizar os vieses durante o desenvolvimento do Llama 3. Assim, o produto final é um modelo poderoso que foi criado de forma responsável.

A arquitetura do modelo Llama 3 se destaca por seu foco na eficiência e no desempenho em tarefas de processamento de linguagem natural. Construído sobre uma estrutura baseada em Transformer, ele enfatiza a eficiência computacional, especialmente durante a geração de texto, usando uma arquitetura somente decodificador.

O modelo gera saídas com base apenas no contexto precedente, sem um codificador para codificar as entradas, tornando-o muito mais rápido.

Os modelos Llama 3 apresentam um tokenizador com um vocabulário de 128 mil tokens. Um vocabulário maior significa que os modelos podem entender e processar melhor o texto. Além disso, os modelos agora usam grouped query attention (GQA) para melhorar a eficiência da inferência. GQA é uma técnica que você pode considerar como um spotlight que ajuda os modelos a se concentrarem em partes relevantes dos dados de entrada para gerar respostas mais rápidas e precisas.

Aqui estão alguns detalhes mais interessantes sobre a arquitetura do modelo Llama 3:

Processamento de Documentos com Reconhecimento de Limites: O Llama 3 mantém a clareza entre os limites dos documentos, o que é fundamental para tarefas como sumarização.
‍
Melhor Compreensão de Código: Os dados de treinamento do Llama 3 incluem quatro vezes mais amostras de código, impulsionando suas habilidades de codificação.
‍
Controle de Qualidade Robusto: Medidas rigorosas, incluindo filtros heurísticos e remoção de conteúdo NSFW, garantem a integridade dos dados e minimizam os vieses.

O Llama 3 está transformando a forma como abordamos o treinamento de modelos

Para treinar os maiores modelos Llama 3, três tipos de paralelização foram combinados: paralelização de dados, paralelização de modelos e paralelização de pipeline.

A paralelização de dados divide os dados de treinamento entre várias GPUs, enquanto a paralelização de modelos particiona a arquitetura do modelo para usar o poder computacional de cada GPU. A paralelização de pipeline divide o processo de treino em fases sequenciais, optimizando a computação e a comunicação.

A implementação mais eficiente alcançou uma utilização de computação notável, excedendo 400 TFLOPS por GPU quando treinada em 16.000 GPUs em simultâneo. Essas execuções de treinamento foram realizadas em dois clusters GPU personalizados, cada um com 24.000 GPUs. Esta infraestrutura computacional substancial forneceu a potência necessária para treinar os modelos Llama 3 em grande escala de forma eficiente.

Para maximizar o tempo de atividade GPU , foi desenvolvida uma nova pilha de formação avançada, automatizando a deteção, o tratamento e a manutenção de erros. A fiabilidade do hardware e os mecanismos de deteção foram muito melhorados para mitigar os riscos de corrupção silenciosa de dados. Além disso, foram desenvolvidos novos sistemas de armazenamento escaláveis para reduzir as despesas de checkpointing e rollback.

Essas melhorias levaram a um tempo de treinamento geral com mais de 95% de eficácia. Combinadas, aumentaram a eficiência do treinamento do Llama 3 em aproximadamente três vezes em comparação com o Llama 2. Essa eficiência não é apenas impressionante; está abrindo novas possibilidades para métodos de treinamento de IA.

Abrindo portas com o Llama 3

Como o Llama 3 é de código aberto, pesquisadores e estudantes podem estudar seu código, conduzir experimentos e participar de discussões sobre preocupações éticas e vieses. No entanto, o Llama 3 não é apenas para o público acadêmico. Ele também está causando impacto em aplicações práticas. Está se tornando a espinha dorsal da Meta AI Chat Interface, integrando-se perfeitamente em plataformas como Facebook, Instagram, WhatsApp e Messenger. Com o Meta AI, os usuários podem participar de conversas em linguagem natural, acessar recomendações personalizadas, realizar tarefas e se conectar com outras pessoas facilmente.

Comparando o Llama 3 com outros LLMs

O Llama 3 tem um desempenho excepcionalmente bom em vários benchmarks importantes que avaliam a compreensão da linguagem complexa e as habilidades de raciocínio. Aqui estão alguns dos benchmarks que testam vários aspectos das capacidades do Llama 3:

Massive Multitask Language Understanding (MMLU) - Mede seu conhecimento em vários domínios.
‍
General Purpose Question Answering (GPQA) - Avalia a capacidade do modelo de gerar respostas coerentes e corretas para uma ampla gama de perguntas de conhecimento geral.
‍
HumanEval - Concentra-se em tarefas de codificação e resolução de problemas, testando a capacidade do modelo de gerar código de programação funcional e resolver desafios algorítmicos.

Os excelentes resultados do Llama 3 nestes testes distinguem-no claramente de concorrentes como o Gemma 7B da Google, o Mistral 7B da Mistral e o Claude 3 Sonnet da Anthropic. De acordo com as estatísticas publicadas, em particular o modelo 70B, o Llama 3 supera estes modelos em todos os testes de referência acima referidos.

O Meta Llama 3 está sendo amplamente disponibilizado

A Meta está expandindo o alcance do Llama 3, disponibilizando-o em uma variedade de plataformas para usuários gerais e desenvolvedores. Para usuários comuns, o Llama 3 está integrado às plataformas populares da Meta, como WhatsApp, Instagram, Facebook e Messenger. Os usuários podem acessar recursos avançados, como pesquisa em tempo real e a capacidade de gerar conteúdo criativo diretamente nesses aplicativos.

O Llama 3 também está sendo incorporado em tecnologias vestíveis, como os óculos inteligentes Ray-Ban Meta e o headset Meta Quest VR para experiências interativas.

O Llama 3 está disponível numa variedade de plataformas para programadores, incluindo AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM e Snowflake. Também é possível aceder a estes modelos diretamente a partir do Meta. A vasta gama de opções facilita aos programadores a integração destas capacidades avançadas de modelos de IA nos seus projectos, quer prefiram trabalhar diretamente com o Meta ou através de outras plataformas populares.

O resumo

Os avanços no aprendizado de máquina continuam a transformar a forma como interagimos com a tecnologia todos os dias. O Llama 3 da Meta mostra que os LLMs não se limitam mais a gerar texto. Os LLMs estão enfrentando problemas complexos e lidando com vários idiomas. No geral, o Llama 3 está tornando a IA mais adaptável e acessível do que nunca. Olhando para o futuro, as atualizações planejadas para o Llama 3 prometem ainda mais capacidades, como o gerenciamento de vários modelos e a compreensão de contextos maiores.

Confira nosso repositório no GitHub e junte-se à nossa comunidade para saber mais sobre IA. Visite nossas páginas de soluções para ver como a IA está sendo aplicada em áreas como manufatura e agricultura.

Conhecendo o Llama 3 da Meta

A evolução dos modelos Llama da Meta

Apresentando o Llama 3 da Meta

Arquitetura do modelo Llama 3 da Meta

O Llama 3 está transformando a forma como abordamos o treinamento de modelos

Abrindo portas com o Llama 3

Comparando o Llama 3 com outros LLMs

O Meta Llama 3 está sendo amplamente disponibilizado

O resumo

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

A visão computacional está a tornar os binóculos para observação de aves mais inteligentes

Vamos construir o futuro
da IA juntos!

Conhecendo o Llama 3 da Meta

A evolução dos modelos Llama da Meta

Apresentando o Llama 3 da Meta

Arquitetura do modelo Llama 3 da Meta

O Llama 3 está transformando a forma como abordamos o treinamento de modelos

Abrindo portas com o Llama 3

Comparando o Llama 3 com outros LLMs

O Meta Llama 3 está sendo amplamente disponibilizado

O resumo

Leia mais nesta categoria

Compreender por que a anotação humana no ciclo é fundamental

Os óculos Oakley Meta AI estão a redefinir os óculos com a Vision AI

A visão computacional está a tornar os binóculos para observação de aves mais inteligentes

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!