Недавно был выпущен Llama 3 от Meta, который вызвал большой интерес у сообщества ИИ. Давайте узнаем больше о Llama 3 - последнем достижении Meta AI.

Недавно был выпущен Llama 3 от Meta, который вызвал большой интерес у сообщества ИИ. Давайте узнаем больше о Llama 3 - последнем достижении Meta AI.
Когда мы составляли обзор новинок в области искусственного интеллекта (ИИ) за первый квартал 2024 года, мы увидели, что LLM, или большие языковые модели, выпускаются различными организациями направо и налево. Продолжая эту тенденцию, 18 апреля 2024 года компания Meta выпустила Llama 3, современную LLM нового поколения с открытым исходным кодом.
Вы можете подумать: Это просто еще один LLM. Почему сообщество ИИ так заинтересовано в нем?
Хотя такие модели, как GPT-3 или Gemini, можно точно настроить для получения индивидуального ответа, они не обеспечивают полной прозрачности своей внутренней работы, например, данных обучения, параметров модели или алгоритмов. В отличие от них, модель Llama 3 компании Meta более прозрачна: ее архитектура и весовые коэффициенты доступны для скачивания. Для сообщества ИИ это означает большую свободу для экспериментов.
В этой статье мы узнаем, что умеет Llama 3, как она появилась и как повлияла на сферу ИИ. Давайте перейдем прямо к делу!
Прежде чем мы погрузимся в Llama 3, давайте вспомним ее предыдущие версии.
В феврале 2023 года компания Meta запустила Llama 1, которая выпускалась в четырех вариантах с параметрами от 7 до 64 миллиардов. В машинном обучении под "параметрами" понимаются элементы модели, которые изучаются на основе обучающих данных. Из-за меньшего количества параметров Llama 1 иногда испытывала трудности с пониманием нюансов и давала непоследовательные ответы.
Вскоре после Llama 1, в июле 2023 года, Meta запустила Llama 2. Она была обучена на 2 триллионах токенов. Токен представляет собой фрагмент текста, например слово или часть слова, используемый в качестве основной единицы данных для обработки в модели. Модель также получила такие усовершенствования, как удвоенное контекстное окно в 4096 лексем для понимания длинных отрывков и более 1 миллиона человеческих аннотаций для уменьшения количества ошибок. Несмотря на эти улучшения, Llama 2 по-прежнему требовала много вычислительных мощностей, что Мета постаралась исправить в Llama 3.
Llama 3 поставляется с четырьмя вариантами, которые были обучены на ошеломляющем количестве 15 триллионов лексем. Более 5 % этих обучающих данных (около 800 миллионов лексем) представляют собой данные на 30 различных языках. Все варианты Llama 3 могут работать на различных типах потребительского оборудования и имеют длину контекста 8 тыс. лексем.
Варианты модели представлены в двух размерах: 8B и 70B, обозначающие 8 миллиардов и 70 миллиардов параметров соответственно. Также есть две версии: базовая и инструктивная. Под "Base" подразумевается стандартная версия с предварительным обучением. "Instruct" - это версия, оптимизированная для конкретных приложений или доменов путем дополнительного обучения на соответствующих данных.
Это варианты модели Llama 3:
Как и в случае с любыми другими достижениями в области Мета-ИИ, при разработке Llama 3 были приняты строгие меры контроля качества для сохранения целостности данных и минимизации погрешностей. В итоге получилась мощная модель, к созданию которой подошли со всей ответственностью.
Архитектура модели Llama 3 отличается своей нацеленностью на эффективность и производительность в задачах обработки естественного языка. Построенная на основе фреймворка Transformer, она подчеркивает эффективность вычислений, особенно при генерации текста, за счет использования архитектуры, состоящей только из декодера.
Модель генерирует выходные данные, основываясь исключительно на предшествующем контексте, без необходимости кодировать входные данные, что значительно ускоряет процесс.
Модели Llama 3 оснащены токенизатором со словарным запасом в 128 тыс. лексем. Увеличение словарного запаса означает, что модели могут лучше понимать и обрабатывать текст. Кроме того, для повышения эффективности выводов в моделях теперь используется группированное внимание к запросам (GQA). GQA - это техника, которую можно представить как прожектор, помогающий моделям сосредоточиться на релевантных частях входных данных, чтобы генерировать более быстрые и точные ответы.
Вот еще несколько интересных подробностей об архитектуре модели Llama 3:
Для обучения самых больших моделей Llama 3 были применены три типа распараллеливания: распараллеливание данных, распараллеливание моделей и конвейерное распараллеливание.
Распараллеливание данных распределяет обучающие данные между несколькими GPU, а распараллеливание модели разделяет архитектуру модели, чтобы использовать вычислительную мощность каждого GPU. Конвейерное распараллеливание делит процесс обучения на последовательные этапы, оптимизируя вычисления и коммуникации.
Наиболее эффективная реализация достигла значительной производительности вычислений, превышающей 400 TFLOPS на GPU при одновременном обучении на 16 000 GPU. Обучение проводилось на двух специально созданных кластерах GPU, каждый из которых состоял из 24 000 GPU. Эта значительная вычислительная инфраструктура обеспечила необходимую мощность для эффективного обучения крупномасштабных моделей Llama 3.
Чтобы максимально увеличить время работы GPU, был разработан новый передовой стек обучения, автоматизирующий обнаружение, обработку и обслуживание ошибок. Механизмы надежности и обнаружения аппаратного обеспечения были значительно улучшены, чтобы снизить риски молчаливого повреждения данных. Также были разработаны новые масштабируемые системы хранения данных для снижения накладных расходов на создание контрольных точек и откат.
Эти улучшения привели к тому, что общее время тренировки стало эффективнее более чем на 95 %. В совокупности они повысили эффективность обучения Llama 3 примерно в три раза по сравнению с Llama 2. Такая эффективность не просто впечатляет, она открывает новые возможности для методов обучения ИИ.
Поскольку Llama 3 имеет открытый исходный код, исследователи и студенты могут изучать ее код, проводить эксперименты и участвовать в дискуссиях об этических проблемах и предубеждениях. Однако Llama 3 предназначена не только для академической аудитории. Она набирает обороты и в практическом применении. Она становится основой чат-интерфейса Meta AI, легко интегрируясь в такие платформы, как Facebook, Instagram, WhatsApp и Messenger. С помощью Meta AI пользователи могут вести беседы на естественном языке, получать персональные рекомендации, выполнять задачи и легко общаться с другими людьми.
Llama 3 демонстрирует отличные результаты в нескольких ключевых тестах, оценивающих способности к пониманию сложных языков и рассуждениям. Вот некоторые из эталонов, которые проверяют различные аспекты возможностей Llama 3:
Выдающиеся результаты Llama 3 в этих тестах заметно выделяют ее на фоне таких конкурентов, как Gemma 7B от Google, Mistral 7B от Mistral и Claude 3 Sonnet от Anthropic. Согласно опубликованной статистике, особенно модель 70B, Llama 3 превосходит эти модели во всех вышеперечисленных бенчмарках.
Meta расширяет сферу применения Llama 3, делая ее доступной на различных платформах как для обычных пользователей, так и для разработчиков. Для обычных пользователей Llama 3 интегрирована в такие популярные платформы Meta, как WhatsApp, Instagram, Facebook и Messenger. Пользователи могут получить доступ к таким расширенным функциям, как поиск в реальном времени и возможность генерировать креативный контент прямо в этих приложениях.
Llama 3 также включается в носимые технологии, такие как смарт-очки Ray-Ban Meta и VR-гарнитура Meta Quest для интерактивного опыта.
Llama 3 доступна на различных платформах для разработчиков, включая AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake. Вы также можете получить доступ к этим моделям непосредственно из Meta. Широкий спектр возможностей позволяет разработчикам легко интегрировать эти передовые возможности моделей ИИ в свои проекты, независимо от того, предпочитают ли они работать напрямую с Meta или через другие популярные платформы.
Машинное обучение продолжает трансформировать то, как мы ежедневно взаимодействуем с технологиями. Llama 3 от Meta показывает, что LLM больше не просто генерируют текст. LLM решают сложные задачи и работают с несколькими языками. В целом, Llama 3 делает ИИ более адаптируемым и доступным, чем когда-либо. В перспективе запланированные обновления Llama 3 обещают еще больше возможностей, таких как работа с несколькими моделями и понимание больших контекстов.
Ознакомьтесь с нашим репозиторием GitHub и присоединяйтесь к нашему сообществу, чтобы узнать больше об искусственном интеллекте. Посетите страницы наших решений, чтобы узнать, как ИИ применяется в таких областях, как производство и сельское хозяйство.