Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Знакомство с Llama 3 от Meta

Абирами Вина

7 мин чтения

10 мая 2024 г.

Недавно выпущенная Llama 3 от Meta вызвала большой ажиотаж в AI-сообществе. Давайте узнаем больше о Llama 3 — последней разработке Meta AI.

Когда мы подводили итоги инноваций в области искусственного интеллекта (AI) первого квартала 2024 года, мы увидели, что LLM, или большие языковые модели, выпускались разными организациями направо и налево. Продолжая эту тенденцию, 18 апреля 2024 года Meta выпустила Llama 3, LLM нового поколения с открытым исходным кодом и передовыми возможностями. 

Вы можете подумать: Это всего лишь еще одна LLM. Почему AI-сообщество так взволновано этим? 

Хотя вы можете точно настроить такие модели, как GPT-3 или Gemini, для получения индивидуальных ответов, они не предлагают полной прозрачности в отношении их внутренней работы, такой как данные обучения, параметры модели или алгоритмы. В отличие от них, Llama 3 от Meta более прозрачна, ее архитектура и веса доступны для загрузки. Для AI-сообщества это означает большую свободу для экспериментов.

В этой статье мы узнаем, что может делать Llama 3, как она появилась и какое влияние она оказывает на область AI. Давайте сразу перейдем к делу!

Эволюция моделей Llama от Meta

Прежде чем мы углубимся в Llama 3, давайте посмотрим на ее более ранние версии.

Meta запустила Llama 1 в феврале 2023 года, которая поставлялась в четырех вариантах с параметрами от 7 миллиардов до 64 миллиардов. В машинном обучении «параметры» относятся к элементам модели, которые изучаются на основе данных обучения. Из-за меньшего количества параметров Llama 1 иногда испытывала трудности с нюансированным пониманием и давала непоследовательные ответы.

Вскоре после Llama 1 Meta запустила Llama 2 в июле 2023 года. Она была обучена на 2 триллионах токенов. Токен представляет собой часть текста, например слово или часть слова, используемую в качестве основной единицы данных для обработки в модели. Модель также включала в себя такие улучшения, как удвоенное контекстное окно в 4096 токенов для понимания более длинных отрывков и более 1 миллиона человеческих аннотаций для уменьшения количества ошибок. Несмотря на эти улучшения, Llama 2 все еще требовала большой вычислительной мощности, что Meta стремилась исправить с помощью Llama 3.

Представляем Llama 3 от Meta

Llama 3 поставляется с четырьмя вариантами, которые были обучены на ошеломляющих 15 триллионах токенов. Более 5% этих данных обучения (около 800 миллионов токенов) представляли собой данные на 30 различных языках. Все варианты Llama 3 могут работать на различных типах потребительского оборудования и имеют длину контекста 8 тысяч токенов. 

__wf_reserved_inherit
Рис. 1. Сравнение Llama 3 и Llama 2.

Варианты модели бывают двух размеров: 8B и 70B, что означает 8 миллиардов и 70 миллиардов параметров соответственно. Существуют также две версии: базовая и instruct. «Базовая» относится к стандартной предварительно обученной версии. «Instruct» — это точно настроенная версия, оптимизированная для конкретных приложений или доменов посредством дополнительного обучения на релевантных данных.

Вот варианты модели Llama 3:

  • Meta-Llama-3-8b: Базовая модель 8B предоставляет основные возможности ИИ и идеально подходит для общих задач, таких как разработка чат-ботов для обслуживания клиентов.
  • Meta-Llama-3-8b-instruct: Версия модели 8B, дообученная для конкретных задач. Например, ее можно использовать для создания образовательных инструментов, объясняющих сложные темы.
  • Meta-Llama-3-70b: Базовая модель 70B разработана для высокопроизводительных приложений ИИ. Эта модель хорошо подойдет для таких задач, как обработка обширной биомедицинской литературы для открытия лекарств.
  • Meta-Llama-3-70b-instruct: Эта версия, дообученная на основе модели 70B, предназначена для высокоточных приложений, таких как анализ юридических или медицинских документов, где точность имеет решающее значение.

Архитектура модели Llama 3 от Meta

Как и в случае с другими достижениями Meta AI, были приняты строгие меры контроля качества для поддержания целостности данных и минимизации предвзятости при разработке Llama 3. Таким образом, конечный продукт представляет собой мощную модель, созданную ответственным образом. 

Архитектура модели Llama 3 выделяется своей ориентацией на эффективность и производительность в задачах обработки естественного языка. Построенная на основе фреймворка Transformer, она делает акцент на вычислительной эффективности, особенно во время генерации текста, за счет использования архитектуры только с декодером. 

Модель генерирует выходные данные, основываясь исключительно на предыдущем контексте, без кодировщика для кодирования входных данных, что значительно ускоряет ее работу.

__wf_reserved_inherit
Рис. 2. Ответственная архитектура модели Llama 3.

В моделях Llama 3 используется токенизатор со словарем из 128 тысяч токенов. Более обширный словарь означает, что модели могут лучше понимать и обрабатывать текст. Кроме того, в моделях теперь используется grouped query attention (GQA) для повышения эффективности inference. GQA — это метод, который можно представить как прожектор, помогающий моделям фокусироваться на соответствующих частях входных данных для более быстрого и точного создания ответов.

Вот еще несколько интересных деталей об архитектуре модели Llama 3:

  • Обработка документов с учетом границ: Llama 3 поддерживает ясность на границах документов, что является ключевым моментом для таких задач, как суммирование.
  • Улучшенное понимание кода: Данные для обучения Llama 3 включают в четыре раза больше образцов кода, что повышает ее способности к кодированию.
  • Надежный контроль качества: Строгие меры, включая эвристические фильтры и удаление материалов категории NSFW, обеспечивают целостность данных и минимизируют предвзятость.

Llama 3 меняет наш подход к обучению моделей

Для обучения самых больших моделей Llama 3 были объединены три типа параллелизации: параллелизация данных, параллелизация модели и конвейерная параллелизация. 

Параллелизация данных разделяет данные для обучения между несколькими GPU, в то время как параллелизация модели разделяет архитектуру модели, чтобы использовать вычислительную мощность каждого GPU. Конвейерная параллелизация разделяет процесс обучения на последовательные этапы, оптимизируя вычисления и коммуникацию.

Наиболее эффективная реализация достигла замечательного использования вычислительных ресурсов, превысив 400 TFLOPS на GPU при обучении на 16 000 GPU одновременно. Эти запуски обучения проводились на двух специально созданных GPU-кластерах, каждый из которых включал 24 000 GPU. Эта существенная вычислительная инфраструктура обеспечила необходимую мощность для эффективного обучения крупномасштабных моделей Llama 3.

Чтобы максимально увеличить время безотказной работы GPU, был разработан новый продвинутый стек обучения, автоматизирующий обнаружение ошибок, обработку и обслуживание. Надежность оборудования и механизмы обнаружения были значительно улучшены для снижения рисков незаметного повреждения данных. Кроме того, были разработаны новые масштабируемые системы хранения данных для уменьшения накладных расходов на контрольные точки и откат. 

Эти улучшения привели к общей эффективности времени обучения более 95%. В совокупности они увеличили эффективность обучения Llama 3 примерно в три раза по сравнению с Llama 2. Эта эффективность не просто впечатляет; она открывает новые возможности для методов обучения ИИ. 

Открывая двери с Llama 3

Поскольку Llama 3 имеет открытый исходный код, исследователи и студенты могут изучать ее код, проводить эксперименты и участвовать в обсуждениях этических проблем и предвзятости. Однако Llama 3 предназначена не только для академической среды. Она производит фурор и в практических приложениях. Она становится основой Meta AI Chat Interface, легко интегрируясь в такие платформы, как Facebook, Instagram, WhatsApp и Messenger. С помощью Meta AI пользователи могут участвовать в разговорах на естественном языке, получать доступ к персонализированным рекомендациям, выполнять задачи и легко общаться с другими.

__wf_reserved_inherit
Рис. 3. Meta AI: На базе Llama 3.

Сравнение Llama 3 с другими LLM

Llama 3 демонстрирует исключительные результаты по нескольким ключевым бенчмаркам, оценивающим сложное понимание языка и способности к рассуждению. Вот некоторые из бенчмарков, которые проверяют различные аспекты возможностей Llama 3:

  • Massive Multitask Language Understanding (MMLU) — измеряет знания в различных областях. 
  • General Purpose Question Answering (GPQA) — оценивает способность модели генерировать связные и правильные ответы на широкий круг вопросов общего знания.
  • HumanEval — фокусируется на задачах кодирования и решения проблем, проверяя способность модели генерировать функциональный программный код и решать алгоритмические задачи.

Выдающиеся результаты Llama 3 в этих тестах явно отличают ее от конкурентов, таких как Google’s Gemma 7B, Mistral’s Mistral 7B и Anthropic’s Claude 3 Sonnet. Согласно опубликованной статистике, особенно модель 70B, Llama 3 превосходит эти модели по всем вышеуказанным бенчмаркам.

__wf_reserved_inherit
Рис. 4. Сравнение Llama 3 с другими LLM.

Meta Llama 3 становится широко доступной

Meta расширяет охват Llama 3, делая ее доступной на различных платформах как для обычных пользователей, так и для разработчиков. Для повседневных пользователей Llama 3 интегрирована в популярные платформы Meta, такие как WhatsApp, Instagram, Facebook и Messenger. Пользователи могут получить доступ к расширенным функциям, таким как поиск в реальном времени и возможность создания креативного контента непосредственно в этих приложениях. 

Llama 3 также интегрируется в носимые технологии, такие как умные очки Ray-Ban Meta и VR-гарнитура Meta Quest, для интерактивного взаимодействия.

Llama 3 доступна на различных платформах для разработчиков, включая AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake. Вы также можете получить доступ к этим моделям непосредственно от Meta. Широкий спектр опций упрощает разработчикам интеграцию этих расширенных возможностей AI-моделей в свои проекты, независимо от того, предпочитают ли они работать напрямую с Meta или через другие популярные платформы.

Главное

Достижения в области машинного обучения продолжают преобразовывать то, как мы взаимодействуем с технологиями каждый день. Meta's Llama 3 показывает, что LLM — это больше, чем просто генерация текста. LLM решают сложные проблемы и обрабатывают несколько языков. В целом, Llama 3 делает AI более адаптивным и доступным, чем когда-либо. В будущем запланированные обновления для Llama 3 обещают еще больше возможностей, таких как обработка нескольких моделей и понимание более крупных контекстов. 

Посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу, чтобы узнать больше об AI. Посетите страницы наших решений, чтобы увидеть, как AI применяется в таких областях, как производство и сельское хозяйство.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена