Meta 的 Llama 3 最近发布,受到了 AI 社区的热烈欢迎。让我们来了解更多关于 Llama 3 的信息——Meta AI 的最新进展。

Meta 的 Llama 3 最近发布,受到了 AI 社区的热烈欢迎。让我们来了解更多关于 Llama 3 的信息——Meta AI 的最新进展。
当我们总结2024年第一季度的人工智能(AI)创新时,我们看到各种组织都在争先恐后地发布LLM,即大型语言模型。延续这一趋势,2024年4月18日,Meta发布了Llama 3,这是一款新一代最先进的开源LLM。
您可能在想:这不就是另一个 LLM 吗?为什么 AI 社区对它如此兴奋?
虽然您可以微调 GPT-3 或 Gemini 等模型以获得自定义响应,但它们在内部运作方面(例如它们的训练数据、模型参数或算法)不提供完全透明度。相比之下,Meta 的 Llama 3 更加透明,其架构和权重可供下载。对于 AI 社区来说,这意味着更大的实验自由。
在本文中,我们将了解 Llama 3 的功能、它的发展历程以及它对人工智能领域的影响。让我们开始吧!
在深入了解Llama 3之前,让我们回顾一下它的早期版本。
Meta 于 2023 年 2 月推出了 Llama 1,它有四种变体,参数范围从 70 亿到 640 亿。在机器学习中,“参数”是指从训练数据中学习的模型元素。由于其参数数量较少,Llama 1 有时难以进行细致的理解,并且给出的响应不一致。
在Llama 1之后不久,Meta于2023年7月推出了Llama 2。它接受了2万亿个token的训练。Token代表一段文本,如一个单词或一个单词的一部分,用作模型中处理数据的基本单位。该模型还具有增强功能,如4096个token的双倍上下文窗口,以理解更长的段落,以及超过100万个人工标注,以减少错误。尽管有这些改进,Llama 2仍然需要大量的计算能力,而这正是Meta希望通过Llama 3解决的问题。
Llama 3 具有四个变体,这些变体针对惊人的 15 万亿个 tokens 进行了训练。超过 5% 的训练数据(约 8 亿个 tokens)代表 30 种不同语言的数据。所有 Llama 3 变体都可以在各种类型的消费硬件上运行,并且上下文长度为 8k 个 tokens。
模型变体有两种尺寸:8B 和 70B,分别表示 80 亿和 700 亿个参数。此外,还有两个版本:基础版 (base) 和指导版 (instruct)。“基础版”是指标准的预训练版本。“指导版”是通过对相关数据进行额外训练,针对特定应用或领域进行优化的微调版本。
以下是 Llama 3 模型变体:
与任何其他 Meta AI 进步一样,在开发 Llama 3 时,我们采取了严格的质量控制措施,以保持数据的完整性并最大限度地减少偏差。因此,最终产品是一个以负责任的方式创建的强大模型。
Llama 3 模型架构以其在自然语言处理任务中的效率和性能为突出特点。它建立在基于 Transformer 的框架之上,通过使用仅解码器架构,尤其是在文本生成过程中,强调计算效率。
该模型仅根据先前的上下文生成输出,而无需编码器来编码输入,从而使其速度更快。
Llama 3 模型采用了一个拥有 128K 个 tokens 词汇的 tokenizer。更大的词汇量意味着模型可以更好地理解和处理文本。此外,这些模型现在使用分组查询注意力 (GQA) 来提高推理效率。GQA 是一种可以被认为是一种聚光灯的技术,它可以帮助模型专注于输入数据的相关部分,从而生成更快、更准确的响应。
以下是关于 Llama 3 模型架构的一些更有趣的细节:
为了训练最大的 Llama 3 模型,结合了三种并行化类型:数据并行化、模型并行化和流水线并行化。
数据并行化将训练数据分配到多个 GPU 上,而模型并行化则对模型架构进行分区,以利用每个 GPU 的计算能力。流水线并行化将训练过程划分为顺序阶段,从而优化计算和通信。
在 16,000 个 GPU 上同时训练时,最有效的实现方案实现了卓越的计算利用率,超过每个 GPU 400 TFLOPS。这些训练运行是在两个定制的 GPU 集群上进行的,每个集群包含 24,000 个 GPU。这种强大的计算基础设施为高效训练大规模 Llama 3 模型提供了必要的算力。
为了最大限度地延长 GPU 正常运行时间,开发了一种先进的全新训练堆栈,可自动执行错误检测、处理和维护。硬件可靠性和检测机制得到了极大的改进,以降低静默数据损坏的风险。此外,还开发了新的可扩展存储系统,以减少检查点和回滚开销。
这些改进使整体训练效率提高了 95% 以上。总的来说,与 Llama 2 相比,它们将 Llama 3 的训练效率提高了大约三倍。这种效率不仅令人印象深刻,而且为 AI 训练方法开辟了新的可能性。
由于 Llama 3 是开源的,研究人员和学生可以研究其代码、进行实验,并参与关于伦理问题和偏见的讨论。然而,Llama 3 不仅适用于学术界,它也在实际应用中掀起波澜。它正在成为 Meta AI 聊天界面的支柱,无缝集成到 Facebook、Instagram、WhatsApp 和 Messenger 等平台中。借助 Meta AI,用户可以进行自然语言对话、访问个性化推荐、执行任务并轻松与他人联系。
Llama 3 在评估复杂语言理解和推理能力的多项关键基准测试中表现出色。以下是一些测试 Llama 3 各个方面能力的基准:
Llama 3 在这些测试中的出色结果清楚地将其与 Google 的 Gemma 7B、Mistral 的 Mistral 7B 和 Anthropic 的 Claude 3 Sonnet 等竞争对手区分开来。根据已发布的统计数据,特别是 70B 模型,Llama 3 在上述所有基准测试中均优于这些模型。
Meta 正在扩展 Llama 3 的覆盖范围,使其可在各种平台上供普通用户和开发者使用。对于日常用户,Llama 3 已集成到 Meta 的热门平台(如 WhatsApp、Instagram、Facebook 和 Messenger)中。用户可以直接在这些应用程序中访问实时搜索和生成创意内容等高级功能。
Llama 3 还被整合到可穿戴技术中,例如 Ray-Ban Meta 智能眼镜和 Meta Quest VR 头显,以实现互动体验。
Llama 3 在各种平台上为开发者提供,包括 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake。您还可以直接从 Meta 访问这些模型。广泛的选择使开发者可以轻松地将这些先进的 AI 模型功能集成到他们的项目中,无论他们喜欢直接与 Meta 合作还是通过其他流行的平台。
机器学习的进步不断改变着我们每天与技术的互动方式。Meta 的 Llama 3 表明,LLM 不再仅仅是生成文本。LLM 正在解决复杂的问题并处理多种语言。总的来说,Llama 3 使 AI 比以往任何时候都更具适应性和可访问性。展望未来,Llama 3 计划的升级承诺提供更多功能,例如处理多个模型和理解更大的上下文。
请查看我们的 GitHub 仓库 并加入我们的 社区,以了解更多关于人工智能的信息。访问我们的解决方案页面,了解人工智能如何在 制造业 和 农业 等领域得到应用。