认识 Meta 的 Llama 3
Meta 的 Llama 3 最近发布,引起了人工智能社区的极大兴奋。让我们更多地了解 Llama 3 —— Meta 人工智能进步的最新成果。

当我们总结 2024 年第一季度的人工智能 (AI) 创新时,我们发现不同的组织正不断推出 LLM(即大语言模型)。延续这一趋势,Meta 于 2024 年 4 月 18 日发布了 Llama 3,这是一款下一代先进的开源 LLM。
你可能在想:它不过是又一个 LLM 而已。为什么 AI 社区会如此兴奋?
虽然你可以通过微调 GPT-3 或 Gemini 等模型来实现定制化回复,但它们在内部工作机制方面并不提供完全的透明度,例如训练数据、模型参数或算法等。相比之下,Meta 的 Llama 3 更为透明,其架构和权重均可供下载。对于 AI 社区而言,这意味着拥有了更大的实验自由。
在本文中,我们将了解 Llama 3 的功能、它的由来以及它对 AI 领域的影响。让我们直接开始吧!
Link to this sectionMeta 的 Llama 模型演进#
在深入了解 Llama 3 之前,让我们先回顾一下它的早期版本。
Meta 于 2023 年 2 月推出了 Llama 1,它有四个变体,参数范围从 70 亿到 650 亿不等。在机器学习中,“参数”是指模型从训练数据中学习到的元素。由于参数数量较少,Llama 1 在细微理解方面有时会遇到困难,且回复不够一致。
继 Llama 1 之后,Meta 于 2023 年 7 月推出了 Llama 2。它基于 2 万亿个 token 进行训练。Token 代表一段文本,例如一个词或词的一部分,是模型处理数据的基本单位。该模型还具备多项改进,例如将上下文窗口增加到 4096 个 token 以理解更长的段落,并包含超过 100 万个人工标注以减少错误。尽管有这些改进,Llama 2 仍然需要大量的计算能力,而 Meta 旨在通过 Llama 3 解决这一问题。
Link to this section介绍 Meta 的 Llama 3#
Llama 3 提供了四种变体,这些变体均基于惊人的 15 万亿个 token 进行了训练。超过 5% 的训练数据(约 8 亿个 token)代表了 30 种不同语言的数据。所有 Llama 3 变体均可在各类消费级硬件上运行,并拥有 8k token 的上下文长度。

图 1. Llama 3 与 Llama 2 对比。
该模型变体有两种尺寸:8B 和 70B,分别表示 80 亿和 700 亿个参数。此外还有两个版本:base(基础版)和 instruct(指令微调版)。“Base”指标准的预训练版本。“Instruct”是经过微调的版本,通过在相关数据上进行额外训练,针对特定应用或领域进行了优化。
以下是 Llama 3 模型变体:
- Meta-Llama-3-8b:基础版 8B 模型提供基础的 AI 功能,非常适合开发客户服务聊天机器人等通用任务。
- Meta-Llama-3-8b-instruct:8B 模型的指令微调版本,针对特定任务进行了优化。例如,它可用于创建讲解复杂科目的教育工具。
- Meta-Llama-3-70b:基础版 70B 模型专为高性能 AI 应用而设计。该模型非常适用于处理大量生物医学文献以进行药物发现等应用。
- Meta-Llama-3-70b-instruct:此版本基于 70B 模型微调,适用于对精度要求极高的应用,例如分析法律或医疗文档,在这些场景下准确性至关重要。
Link to this sectionMeta 的 Llama 3 模型架构#
与 Meta 的其他 AI 进展一样,在开发 Llama 3 时采用了严格的质量控制措施,以保持数据完整性并最大限度地减少偏见。因此,最终产品是一个负责任地创建出的强大模型。
Llama 3 模型架构以其在自然语言处理任务中的高效性和高性能而著称。它建立在基于 Transformer 的框架之上,通过使用纯解码器(decoder-only)架构,强调了计算效率,尤其是在文本生成过程中。
该模型仅基于前文上下文生成输出,无需编码器来编码输入,这使得处理速度大幅提升。

图 2. Llama 3 负责任的模型架构。
Llama 3 模型采用了一个词汇量为 128K token 的分词器。更大的词汇量意味着模型能更好地理解和处理文本。此外,模型现在使用分组查询注意力机制(GQA)来提高推理效率。你可以将 GQA 技术想象成一个聚光灯,帮助模型聚焦于输入数据中的相关部分,从而生成更快、更准确的响应。
以下是有关 Llama 3 模型架构的更多有趣细节:
- 边界感知文档处理:Llama 3 在文档边界处保持了清晰度,这对于摘要等任务至关重要。
- 更好的代码理解:Llama 3 的训练数据包含了四倍多的代码样本,从而提升了其编程能力。
- 强大的质量控制:包括启发式过滤器和 NSFW 内容移除在内的严格措施,确保了数据完整性并最大限度地减少了偏见。
Link to this sectionLlama 3 正在改变我们进行模型训练的方式#
为了训练规模最大的 Llama 3 模型,结合了三种并行化类型:数据并行化、模型并行化和流水线并行化。
数据并行化将训练数据分配到多个 GPU 上,而模型并行化则对模型架构进行分区以利用每个 GPU 的计算能力。流水线并行化将训练过程划分为顺序阶段,从而优化计算和通信。
最有效的实现方案实现了卓越的计算利用率,在 16,000 个 GPU 上同时训练时,每 GPU 的计算能力超过 400 TFLOPS。这些训练运行在两个定制的 GPU 集群上进行,每个集群包含 24,000 个 GPU。这种强大的计算基础设施为高效训练大规模 Llama 3 模型提供了必要动力。
为了最大化 GPU 正常运行时间,开发了全新的先进训练栈,实现了错误检测、处理和维护的自动化。硬件可靠性和检测机制得到了极大改进,以减轻静默数据损坏的风险。此外,还开发了新的可扩展存储系统,以减少检查点和回滚的开销。
这些改进使整体训练时间的效率超过了 95%。综合来看,与 Llama 2 相比,它们的训练效率提高了大约三倍。这种效率不仅令人印象深刻,而且正在为 AI 训练方法开辟新的可能性。
Link to this sectionLlama 3 开启无限可能#
由于 Llama 3 是开源的,研究人员和学生可以研究其代码、进行实验,并就道德问题和偏见展开讨论。然而,Llama 3 不仅仅面向学术界。它也在实际应用中掀起了波澜。它正成为 Meta AI 聊天界面的骨干,无缝集成到 Facebook、Instagram、WhatsApp 和 Messenger 等平台中。通过 Meta AI,用户可以进行自然语言对话、获取个性化推荐、执行任务并轻松与他人保持联系。

图 3. Meta AI:由 Llama 3 驱动。
Link to this section将 Llama 3 与其他 LLM 进行比较#
Llama 3 在多个评估复杂语言理解和推理能力的关键基准测试中表现极其出色。以下是一些测试 Llama 3 各方面能力的基准测试:
- Massive Multitask Language Understanding (MMLU) - 衡量其在各个领域的知识水平。
- General Purpose Question Answering (GPQA) - 评估模型对各种常识性问题生成连贯且正确答案的能力。
- HumanEval - 专注于编码和解决问题的任务,测试模型生成功能性编程代码和解决算法挑战的能力。
Llama 3 在这些测试中的出色结果使其与 Google 的 Gemma 7B、Mistral 的 Mistral 7B 和 Anthropic 的 Claude 3 Sonnet 等竞争对手显著区分开来。根据发布的统计数据,特别是对于 70B 模型,Llama 3 在上述所有基准测试中均优于这些模型。

图 4. Llama 3 与其他 LLM 的对比。
Link to this sectionMeta Llama 3 正变得广泛可用#
Meta 正在通过在多种平台上提供 Llama 3 来扩大其覆盖范围,同时服务于普通用户和开发者。对于日常用户,Llama 3 已集成到 Meta 的热门平台中,如 WhatsApp、Instagram、Facebook 和 Messenger。用户可以在这些应用中直接使用实时搜索和创意内容生成等高级功能。
Llama 3 也正被整合进 Ray-Ban Meta 智能眼镜和 Meta Quest VR 头显等可穿戴技术中,以提供交互式体验。
Llama 3 已在多种开发者平台上提供,包括 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake。你也可以直接从 Meta 访问这些模型。广泛的选择使开发者能够轻松地将这些先进的 AI 模型能力整合到自己的项目中,无论他们是更倾向于直接与 Meta 合作,还是通过其他热门平台进行开发。
Link to this section要点总结#
机器学习的进步正在持续改变我们与科技日常交互的方式。Meta 的 Llama 3 表明,LLM 不再仅仅局限于生成文本。LLM 正在解决复杂问题并处理多种语言。总的来说,Llama 3 使 AI 比以往任何时候都更加灵活和易于访问。展望未来,Llama 3 的计划升级承诺将带来更多功能,例如处理多个模型和理解更长的上下文。
查看我们的 GitHub 存储库 并加入我们的 社区 以了解更多关于 AI 的信息。访问我们的解决方案页面,查看 AI 如何应用于制造业和农业等领域。






