Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Conhecendo o Llama 3 da Meta

Abirami Vina

7 minutos de leitura

10 de maio de 2024

O Llama 3 da Meta foi lançado recentemente e recebido com grande entusiasmo pela comunidade de IA. Vamos aprender mais sobre o Llama 3 - o mais recente avanço da Meta AI.

Quando reunimos as inovações de inteligência artificial (IA) do primeiro trimestre de 2024, vimos que as LLMs, ou modelos de linguagem grandes, estavam sendo lançadas por diversas organizações. Dando continuidade a essa tendência, em 18 de abril de 2024, a Meta lançou o Llama 3, uma LLM de código aberto de última geração. 

Você pode estar pensando: É só mais uma LLM. Por que a comunidade de IA está tão entusiasmada com ela? 

Embora você possa ajustar modelos como o GPT-3 ou o Gemini para respostas personalizadas, eles não oferecem total transparência em relação ao seu funcionamento interno, como seus dados de treinamento, parâmetros do modelo ou algoritmos. Em contraste, o Llama 3 da Meta é mais transparente, com sua arquitetura e pesos disponíveis para download. Para a comunidade de IA, isso significa maior liberdade para experimentar.

Neste artigo, vamos aprender o que o Llama 3 pode fazer, como ele surgiu e seu impacto no campo da IA. Vamos direto ao assunto!

A evolução dos modelos Llama da Meta

Antes de mergulharmos no Llama 3, vamos relembrar suas versões anteriores.

A Meta lançou o Llama 1 em fevereiro de 2023, que veio em quatro variantes com parâmetros que variam de 7 bilhões a 64 bilhões. Em machine learning, "parâmetros" se referem aos elementos do modelo que são aprendidos a partir dos dados de treinamento. Devido ao seu menor número de parâmetros, o Llama 1 às vezes tinha dificuldades com a compreensão sutil e dava respostas inconsistentes.

Pouco depois do Llama 1, a Meta lançou o Llama 2 em julho de 2023. Ele foi treinado com 2 trilhões de tokens. Um token representa um pedaço de texto, como uma palavra ou parte de uma palavra, usado como a unidade básica de dados para processamento no modelo. O modelo também apresentou melhorias como uma janela de contexto dobrada de 4096 tokens para entender passagens mais longas e mais de 1 milhão de anotações humanas para diminuir erros. Apesar dessas melhorias, o Llama 2 ainda precisava de muito poder computacional, algo que a Meta pretendia corrigir com o Llama 3.

Apresentando o Llama 3 da Meta

O Llama 3 vem com quatro variantes que foram treinadas com impressionantes 15 trilhões de tokens. Mais de 5% desses dados de treinamento (cerca de 800 milhões de tokens) representavam dados em 30 idiomas diferentes. Todas as variantes do Llama 3 podem ser executadas em vários tipos de hardware de consumo e têm um comprimento de contexto de 8 mil tokens. 

__wf_reserved_inherit
Fig 1. Llama 3 Vs Llama 2.

As variantes do modelo vêm em dois tamanhos: 8B e 70B, indicando 8 bilhões e 70 bilhões de parâmetros, respectivamente. Existem também duas versões, base e instruct. "Base" se refere à versão padrão pré-treinada. "Instruct" é uma versão ajustada otimizada para aplicações ou domínios específicos por meio de treinamento adicional em dados relevantes.

Estas são as variantes do modelo Llama 3:

  • Meta-Llama-3-8b: O modelo base 8B fornece capacidades fundamentais de IA e é ideal para tarefas gerais, como o desenvolvimento de chatbots de atendimento ao cliente.
  • Meta-Llama-3-8b-instruct: Uma versão instruct ajustada do modelo 8B que é otimizada para tarefas específicas. Por exemplo, pode ser usado para criar ferramentas educacionais que explicam assuntos complexos.
  • Meta-Llama-3-70b: O modelo base 70B é projetado para aplicações de IA de alto desempenho. Este modelo funcionaria bem para aplicações como o processamento de extensa literatura biomédica para descoberta de fármacos.
  • Meta-Llama-3-70b-instruct: Esta versão é ajustada a partir do modelo 70B para aplicações de alta precisão, como a análise de documentos legais ou médicos, onde a precisão é fundamental.

Arquitetura do modelo Llama 3 da Meta

Como em qualquer outro avanço da Meta AI, medidas rigorosas de controle de qualidade foram implementadas para manter a integridade dos dados e minimizar os vieses durante o desenvolvimento do Llama 3. Assim, o produto final é um modelo poderoso que foi criado de forma responsável. 

A arquitetura do modelo Llama 3 se destaca por seu foco na eficiência e no desempenho em tarefas de processamento de linguagem natural. Construído sobre uma estrutura baseada em Transformer, ele enfatiza a eficiência computacional, especialmente durante a geração de texto, usando uma arquitetura somente decodificador. 

O modelo gera saídas com base apenas no contexto precedente, sem um codificador para codificar as entradas, tornando-o muito mais rápido.

__wf_reserved_inherit
Fig 2. Arquitetura do Modelo Responsável Llama 3.

Os modelos Llama 3 apresentam um tokenizador com um vocabulário de 128 mil tokens. Um vocabulário maior significa que os modelos podem entender e processar melhor o texto. Além disso, os modelos agora usam grouped query attention (GQA) para melhorar a eficiência da inferência. GQA é uma técnica que você pode considerar como um spotlight que ajuda os modelos a se concentrarem em partes relevantes dos dados de entrada para gerar respostas mais rápidas e precisas.

Aqui estão alguns detalhes mais interessantes sobre a arquitetura do modelo Llama 3:

  • Processamento de Documentos com Reconhecimento de Limites: O Llama 3 mantém a clareza entre os limites dos documentos, o que é fundamental para tarefas como sumarização.
  • Melhor Compreensão de Código: Os dados de treinamento do Llama 3 incluem quatro vezes mais amostras de código, impulsionando suas habilidades de codificação.
  • Controle de Qualidade Robusto: Medidas rigorosas, incluindo filtros heurísticos e remoção de conteúdo NSFW, garantem a integridade dos dados e minimizam os vieses.

O Llama 3 está transformando a forma como abordamos o treinamento de modelos

Para treinar os maiores modelos Llama 3, três tipos de paralelização foram combinados: paralelização de dados, paralelização de modelos e paralelização de pipeline. 

A paralelização de dados divide os dados de treinamento entre várias GPUs, enquanto a paralelização de modelos particiona a arquitetura do modelo para usar o poder computacional de cada GPU. A paralelização de pipeline divide o processo de treinamento em estágios sequenciais, otimizando a computação e a comunicação.

A implementação mais eficiente alcançou uma utilização de computação notável, excedendo 400 TFLOPS por GPU quando treinado em 16.000 GPUs simultaneamente. Essas execuções de treinamento foram conduzidas em dois clusters de GPU construídos sob medida, cada um compreendendo 24.000 GPUs. Essa infraestrutura computacional substancial forneceu a potência necessária para treinar os modelos Llama 3 de grande escala de forma eficiente.

Para maximizar o tempo de atividade da GPU, uma nova stack de treinamento avançada foi desenvolvida, automatizando a detecção, o tratamento e a manutenção de erros. A confiabilidade do hardware e os mecanismos de detecção foram muito aprimorados para mitigar os riscos de corrupção silenciosa de dados. Além disso, novos sistemas de armazenamento escaláveis foram desenvolvidos para reduzir as sobrecargas de checkpointing e rollback. 

Essas melhorias levaram a um tempo de treinamento geral com mais de 95% de eficácia. Combinadas, aumentaram a eficiência do treinamento do Llama 3 em aproximadamente três vezes em comparação com o Llama 2. Essa eficiência não é apenas impressionante; está abrindo novas possibilidades para métodos de treinamento de IA. 

Abrindo portas com o Llama 3

Como o Llama 3 é de código aberto, pesquisadores e estudantes podem estudar seu código, conduzir experimentos e participar de discussões sobre preocupações éticas e vieses. No entanto, o Llama 3 não é apenas para o público acadêmico. Ele também está causando impacto em aplicações práticas. Está se tornando a espinha dorsal da Meta AI Chat Interface, integrando-se perfeitamente em plataformas como Facebook, Instagram, WhatsApp e Messenger. Com o Meta AI, os usuários podem participar de conversas em linguagem natural, acessar recomendações personalizadas, realizar tarefas e se conectar com outras pessoas facilmente.

__wf_reserved_inherit
Fig 3. Meta AI: Desenvolvido por Llama 3.

Comparando o Llama 3 com outros LLMs

O Llama 3 tem um desempenho excepcionalmente bom em vários benchmarks importantes que avaliam a compreensão da linguagem complexa e as habilidades de raciocínio. Aqui estão alguns dos benchmarks que testam vários aspectos das capacidades do Llama 3:

  • Massive Multitask Language Understanding (MMLU) - Mede seu conhecimento em vários domínios. 
  • General Purpose Question Answering (GPQA) - Avalia a capacidade do modelo de gerar respostas coerentes e corretas para uma ampla gama de perguntas de conhecimento geral.
  • HumanEval - Concentra-se em tarefas de codificação e resolução de problemas, testando a capacidade do modelo de gerar código de programação funcional e resolver desafios algorítmicos.

Os excelentes resultados do Llama 3 nesses testes o distinguem claramente de concorrentes como o Gemma 7B do Google, o Mistral 7B do Mistral e o Claude 3 Sonnet da Anthropic. De acordo com as estatísticas publicadas, particularmente o modelo 70B, o Llama 3 supera esses modelos em todos os benchmarks acima.

__wf_reserved_inherit
Fig 4. Comparando o Llama 3 com outros LLMs.

O Meta Llama 3 está sendo amplamente disponibilizado

A Meta está expandindo o alcance do Llama 3, disponibilizando-o em uma variedade de plataformas para usuários gerais e desenvolvedores. Para usuários comuns, o Llama 3 está integrado às plataformas populares da Meta, como WhatsApp, Instagram, Facebook e Messenger. Os usuários podem acessar recursos avançados, como pesquisa em tempo real e a capacidade de gerar conteúdo criativo diretamente nesses aplicativos. 

O Llama 3 também está sendo incorporado em tecnologias vestíveis, como os óculos inteligentes Ray-Ban Meta e o headset Meta Quest VR para experiências interativas.

O Llama 3 está disponível em diversas plataformas para desenvolvedores, incluindo AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM e Snowflake. Você também pode acessar esses modelos diretamente da Meta. A ampla gama de opções facilita a integração dessas capacidades avançadas de modelos de IA em seus projetos, quer prefira trabalhar diretamente com a Meta ou por meio de outras plataformas populares.

O resumo

Os avanços no aprendizado de máquina continuam a transformar a forma como interagimos com a tecnologia todos os dias. O Llama 3 da Meta mostra que os LLMs não se limitam mais a gerar texto. Os LLMs estão enfrentando problemas complexos e lidando com vários idiomas. No geral, o Llama 3 está tornando a IA mais adaptável e acessível do que nunca. Olhando para o futuro, as atualizações planejadas para o Llama 3 prometem ainda mais capacidades, como o gerenciamento de vários modelos e a compreensão de contextos maiores. 

Confira nosso repositório no GitHub e junte-se à nossa comunidade para saber mais sobre IA. Visite nossas páginas de soluções para ver como a IA está sendo aplicada em áreas como manufatura e agricultura.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência