Llama 3：Meta 的新开源 LLM 详解

当我们总结2024年第一季度的人工智能（AI）创新时，我们看到各种组织都在争先恐后地发布LLM，即大型语言模型。延续这一趋势，2024年4月18日，Meta发布了Llama 3，这是一款新一代最先进的开源LLM。

您可能在想：这不就是另一个 LLM 吗？为什么 AI 社区对它如此兴奋？

虽然您可以微调 GPT-3 或 Gemini 等模型以获得自定义响应，但它们在内部运作方面（例如它们的训练数据、模型参数或算法）不提供完全透明度。相比之下，Meta 的 Llama 3 更加透明，其架构和权重可供下载。对于 AI 社区来说，这意味着更大的实验自由。

在本文中，我们将了解 Llama 3 的功能、它的发展历程以及它对人工智能领域的影响。让我们开始吧！

Meta 的 Llama 模型的演变

在深入了解Llama 3之前，让我们回顾一下它的早期版本。

Meta 于 2023 年 2 月推出了 Llama 1，它有四种变体，参数范围从 70 亿到 640 亿。在机器学习中，“参数”是指从训练数据中学习的模型元素。由于其参数数量较少，Llama 1 有时难以进行细致的理解，并且给出的响应不一致。

在Llama 1之后不久，Meta于2023年7月推出了Llama 2。它接受了2万亿个token的训练。Token代表一段文本，如一个单词或一个单词的一部分，用作模型中处理数据的基本单位。该模型还具有增强功能，如4096个token的双倍上下文窗口，以理解更长的段落，以及超过100万个人工标注，以减少错误。尽管有这些改进，Llama 2仍然需要大量的计算能力，而这正是Meta希望通过Llama 3解决的问题。

Meta Llama 3 简介

Llama 3 具有四个变体，这些变体针对惊人的 15 万亿个 tokens 进行了训练。超过 5% 的训练数据（约 8 亿个 tokens）代表 30 种不同语言的数据。所有 Llama 3 变体都可以在各种类型的消费硬件上运行，并且上下文长度为 8k 个 tokens。

__wf_reserved_inherit — 图 1. Llama 3 与 Llama 2 的对比。

模型变体有两种尺寸：8B 和 70B，分别表示 80 亿和 700 亿个参数。此外，还有两个版本：基础版 (base) 和指导版 (instruct)。“基础版”是指标准的预训练版本。“指导版”是通过对相关数据进行额外训练，针对特定应用或领域进行优化的微调版本。

以下是 Llama 3 模型变体：

Meta-Llama-3-8b：基础的8B模型提供基本的AI功能，非常适合开发客户服务聊天机器人等通用任务。
‍
Meta-Llama-3-8b-instruct：8B 模型的指令微调版本，针对特定任务进行了优化。例如，它可用于创建解释复杂科目的教育工具。
‍
Meta-Llama-3-70b：基础 70B 模型专为高性能 AI 应用而设计。该模型非常适用于处理广泛的生物医学文献以进行药物发现等应用。
‍
Meta-Llama-3-70b-instruct：此版本是从 70B 模型微调而来，适用于高度精确的应用，例如分析法律或医疗文件，在这些应用中，准确性至关重要。

Meta 的 Llama 3 模型架构

与任何其他 Meta AI 进步一样，在开发 Llama 3 时，我们采取了严格的质量控制措施，以保持数据的完整性并最大限度地减少偏差。因此，最终产品是一个以负责任的方式创建的强大模型。

Llama 3 模型架构的突出特点是注重自然语言处理任务的效率和性能。它建立在Transformer框架基础上，通过使用纯解码器架构，强调计算效率，尤其是在文本生成过程中。

该模型仅根据先前的上下文生成输出，而无需编码器来编码输入，从而使其速度更快。

Llama 3 模型采用了一个拥有 128K 个 tokens 词汇的 tokenizer。更大的词汇量意味着模型可以更好地理解和处理文本。此外，这些模型现在使用分组查询注意力 (GQA) 来提高推理效率。GQA 是一种可以被认为是一种聚光灯的技术，它可以帮助模型专注于输入数据的相关部分，从而生成更快、更准确的响应。

以下是关于 Llama 3 模型架构的一些更有趣的细节：

边界感知文档处理：Llama 3 在文档边界之间保持清晰度，这对于摘要等任务至关重要。
‍
更好的代码理解：Llama 3 的训练数据包含四倍以上的代码样本，从而提高了其编码能力。
‍
强大的质量控制：严格的措施，包括启发式过滤器和 NSFW 内容移除，确保数据完整性并最大限度地减少偏差。

Llama 3 正在改变我们进行模型训练的方式

为了训练最大的 Llama 3 模型，结合了三种并行化类型：数据并行化、模型并行化和流水线并行化。

数据并行化将训练数据划分到多个 GPU 上，而模型并行化则将模型架构分割开来，以利用每个GPU 的计算能力。管道并行化将训练过程分为多个连续阶段，优化了计算和通信。

最高效的实施方案实现了出色的计算利用率，在 16,000 个GPU 上同时进行训练时，每个 GPU 的计算利用率超过了 400 TFLOPS。这些训练运行是在两个定制的GPU 集群上进行的，每个集群由 24,000 个 GPU 组成。这些庞大的计算基础设施为高效训练大规模 Llama 3 模型提供了必要的动力。

为了最大限度地延长GPU 的正常运行时间，我们开发了先进的新培训堆栈，实现了错误检测、处理和维护的自动化。硬件可靠性和检测机制得到了极大改进，以降低静默数据损坏风险。此外，还开发了新的可扩展存储系统，以减少检查点和回滚开销。

这些改进使整体训练效率提高了 95% 以上。总的来说，与 Llama 2 相比，它们将 Llama 3 的训练效率提高了大约三倍。这种效率不仅令人印象深刻，而且为 AI 训练方法开辟了新的可能性。

Llama 3 开启无限可能

由于 Llama 3 是开源的，研究人员和学生可以研究其代码、进行实验，并参与关于伦理问题和偏见的讨论。然而，Llama 3 不仅适用于学术界，它也在实际应用中掀起波澜。它正在成为 Meta AI 聊天界面的支柱，无缝集成到 Facebook、Instagram、WhatsApp 和 Messenger 等平台中。借助 Meta AI，用户可以进行自然语言对话、访问个性化推荐、执行任务并轻松与他人联系。

Llama 3 与其他 LLM 的比较

Llama 3 在评估复杂语言理解和推理能力的多项关键基准测试中表现出色。以下是一些测试 Llama 3 各个方面能力的基准：

大规模多任务语言理解 (MMLU) - 衡量其在各个领域的知识。
‍
通用问答 (GPQA) - 评估模型对各种常识性知识问题生成连贯且正确答案的能力。
‍
HumanEval - 侧重于编码和解决问题的任务，测试模型生成功能性编程代码和解决算法挑战的能力。

Llama 3 在这些测试中取得的优异成绩使其明显有别于Google的 Gemma 7B、Mistral 的 Mistral 7B 和Anthropic的 Claude 3 Sonnet 等竞争对手。根据已公布的统计数据，特别是 70B 型号，Llama 3 在上述所有基准测试中的表现都优于这些型号。

Meta Llama 3 正在被广泛应用

Meta 正在扩展 Llama 3 的覆盖范围，使其可在各种平台上供普通用户和开发者使用。对于日常用户，Llama 3 已集成到 Meta 的热门平台（如 WhatsApp、Instagram、Facebook 和 Messenger）中。用户可以直接在这些应用程序中访问实时搜索和生成创意内容等高级功能。

Llama 3 还被整合到可穿戴技术中，例如 Ray-Ban Meta 智能眼镜和 Meta Quest VR 头显，以实现互动体验。

Llama 3 可在多种平台上供开发人员使用，包括 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake。您还可以直接从 Meta 访问这些模型。无论开发人员是喜欢直接使用 Meta 还是通过其他流行的平台，这些广泛的选择都能让他们轻松地将这些先进的人工智能模型功能集成到自己的项目中。

要点

机器学习的进步不断改变着我们每天与技术的互动方式。Meta 的 Llama 3 表明，LLM 不再仅仅是生成文本。LLM 正在解决复杂的问题并处理多种语言。总的来说，Llama 3 使 AI 比以往任何时候都更具适应性和可访问性。展望未来，Llama 3 计划的升级承诺提供更多功能，例如处理多个模型和理解更大的上下文。

请查看我们的 GitHub 仓库并加入我们的社区，以了解更多关于人工智能的信息。访问我们的解决方案页面，了解人工智能如何在制造业和农业等领域得到应用。

了解 Meta 的 Llama 3

Meta 的 Llama 模型的演变

Meta Llama 3 简介

Meta 的 Llama 3 模型架构

Llama 3 正在改变我们进行模型训练的方式

Llama 3 开启无限可能

Llama 3 与其他 LLM 的比较

Meta Llama 3 正在被广泛应用

要点

阅读更多此类别的内容

未来物体检测趋势：需要关注的 7 个关键问题

借助人工智能，足球进球更智能

探索SAM 3：Meta AI 的新细分市场模型

让我们一起构建人工智能的未来！