Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

Знакомство с Llama 3 от Meta

Недавно была выпущена Llama 3 от Meta, встреченная с большим воодушевлением ИИ-сообществом. Давай узнаем больше о Llama 3 — последнем слове в достижениях Meta AI.

АБАбирами Вина
7 min read
Open-source большая языковая модель Llama 3 от Meta

Когда мы подводили итоги инноваций в области искусственного интеллекта (ИИ) за первый квартал 2024 года, мы заметили, что большие языковые модели (LLM) выпускались повсеместно разными организациями. Продолжая этот тренд, 18 апреля 2024 года компания Meta выпустила Llama 3 — LLM нового поколения с открытым исходным кодом, задающую новые стандарты в индустрии.

Возможно, ты думаешь: Это просто еще одна LLM. Почему ИИ-сообщество так взволновано?

Хотя ты можешь дообучать (fine-tune) такие модели, как GPT-3 или Gemini, для получения специализированных ответов, они не предлагают полной прозрачности в отношении своих внутренних механизмов, таких как обучающие данные, параметры модели или алгоритмы. В отличие от них, Llama 3 от Meta более прозрачна: её архитектура и веса доступны для скачивания. Для ИИ-сообщества это означает больше свободы для экспериментов.

В этой статье мы узнаем, на что способна Llama 3, как она появилась и какое влияние оказывает на сферу ИИ. Давай перейдем к делу!

Link to this sectionЭволюция моделей Llama от Meta#

Прежде чем мы погрузимся в Llama 3, давай оглянемся на предыдущие версии.

Meta выпустила Llama 1 в феврале 2023 года. Она была представлена в четырех вариантах с количеством параметров от 7 до 65 миллиардов. В машинном обучении «параметры» — это элементы модели, которые изучаются на основе обучающих данных. Из-за меньшего количества параметров Llama 1 иногда с трудом справлялась с нюансами понимания и выдавала противоречивые ответы.

Вскоре после Llama 1 компания Meta выпустила Llama 2 в июле 2023 года. Она была обучена на 2 триллионах токенов. Токен представляет собой фрагмент текста, например слово или часть слова, используемый как базовая единица данных при обработке в модели. Модель также получила улучшения, такие как удвоенное контекстное окно до 4096 токенов для понимания более длинных пассажей и более 1 миллиона человеческих аннотаций для уменьшения количества ошибок. Несмотря на эти улучшения, Llama 2 все еще требовала больших вычислительных мощностей — проблему, которую Meta стремилась решить с помощью Llama 3.

Link to this sectionПредставляем Llama 3 от Meta#

Llama 3 представлена четырьмя вариантами, которые были обучены на ошеломляющих 15 триллионах токенов. Более 5% обучающих данных (около 800 миллионов токенов) представляли данные на 30 различных языках. Все варианты Llama 3 могут работать на различных типах потребительского оборудования и имеют длину контекста 8 тысяч токенов.

Сравнение Llama 3 и Llama 2

Рис. 1. Llama 3 против Llama 2.

Модели представлены в двух размерах: 8B и 70B, что означает 8 миллиардов и 70 миллиардов параметров соответственно. Существуют также две версии: базовая (base) и инструктивная (instruct). «Base» относится к стандартной предобученной версии. «Instruct» — это дообученная версия, оптимизированная для конкретных приложений или доменов путем дополнительного обучения на соответствующих данных.

Вот варианты модели Llama 3:

  • Meta-Llama-3-8b: Базовая модель 8B предоставляет фундаментальные возможности ИИ и идеально подходит для общих задач, таких как разработка чат-ботов для обслуживания клиентов.
  • Meta-Llama-3-8b-instruct: Инструктивная дообученная версия модели 8B, оптимизированная для конкретных задач. Например, её можно использовать для создания образовательных инструментов, объясняющих сложные темы.
  • Meta-Llama-3-70b: Базовая модель 70B разработана для высокопроизводительных ИИ-приложений. Эта модель отлично подойдет для таких задач, как обработка обширной биомедицинской литературы для разработки лекарств.
  • Meta-Llama-3-70b-instruct: Эта версия дообучена на базе модели 70B для высокоточных приложений, таких как анализ юридических или медицинских документов, где точность критически важна.

Link to this sectionАрхитектура модели Llama 3 от Meta#

Как и во всех других достижениях Meta AI, при разработке Llama 3 были приняты строгие меры контроля качества для обеспечения целостности данных и минимизации предвзятости. Таким образом, конечный продукт — это мощная модель, созданная ответственно.

Архитектура модели Llama 3 выделяется своим фокусом на эффективности и производительности в задачах обработки естественного языка. Построенная на основе фреймворка Transformer, она делает упор на вычислительную эффективность, особенно во время генерации текста, используя архитектуру только декодера (decoder-only).

Модель генерирует выходные данные исключительно на основе предыдущего контекста без кодировщика для кодирования входных данных, что делает её значительно быстрее.

Схема архитектуры ответственной модели Llama 3

Рис. 2. Архитектура ответственной модели Llama 3.

Модели Llama 3 оснащены токенизатором со словарем в 128 тысяч токенов. Больший словарь означает, что модели лучше понимают и обрабатывают текст. Кроме того, теперь модели используют механизм сгруппированного внимания (GQA) для повышения эффективности логического вывода. GQA — это метод, который можно представить как прожектор, помогающий моделям фокусироваться на релевантных частях входных данных для генерации более быстрых и точных ответов.

Вот еще несколько интересных подробностей об архитектуре модели Llama 3:

  • Обработка документов с учетом границ: Llama 3 сохраняет ясность на границах документов, что является ключевым моментом для таких задач, как суммаризация.
  • Улучшенное понимание кода: обучающие данные Llama 3 включают в четыре раза больше примеров кода, что повышает её способности к программированию.
  • Надежный контроль качества: строгие меры, включая эвристические фильтры и удаление NSFW-контента, гарантируют целостность данных и минимизируют предвзятость.

Link to this sectionLlama 3 меняет подход к обучению моделей#

Для обучения самых больших моделей Llama 3 были объединены три типа параллелизации: параллелизация данных, параллелизация модели и конвейерная параллелизация.

Параллелизация данных распределяет обучающие данные между несколькими GPU, в то время как параллелизация модели разделяет архитектуру модели для использования вычислительной мощности каждого GPU. Конвейерная параллелизация разделяет процесс обучения на последовательные этапы, оптимизируя вычисления и обмен данными.

Наиболее эффективная реализация достигла замечательного использования вычислительных мощностей, превышающего 400 TFLOPS на один GPU при обучении на 16 000 GPU одновременно. Эти запуски обучения проводились на двух специально построенных кластерах GPU, каждый из которых включал 24 000 GPU. Эта внушительная вычислительная инфраструктура обеспечила необходимую мощность для эффективного обучения крупномасштабных моделей Llama 3.

Чтобы максимизировать время бесперебойной работы GPU, был разработан передовой новый стек обучения, автоматизирующий обнаружение ошибок, их обработку и обслуживание. Надежность оборудования и механизмы обнаружения были значительно улучшены для снижения рисков скрытого повреждения данных. Кроме того, были разработаны новые масштабируемые системы хранения для снижения накладных расходов на сохранение контрольных точек и откат.

Эти улучшения привели к общей эффективности обучения более 95%. В совокупности они повысили эффективность обучения Llama 3 примерно в три раза по сравнению с Llama 2. Эта эффективность не просто впечатляет — она открывает новые возможности для методов обучения ИИ.

Link to this sectionОткрывая двери с помощью Llama 3#

Поскольку Llama 3 имеет открытый исходный код, исследователи и студенты могут изучать её код, проводить эксперименты и участвовать в дискуссиях об этических проблемах и предвзятости. Однако Llama 3 предназначена не только для академической среды. Она совершает прорыв и в практических приложениях. Она становится основой интерфейса чата Meta AI, бесшовно интегрируясь в такие платформы, как Facebook, Instagram, WhatsApp и Messenger. С помощью Meta AI пользователи могут вести естественные языковые диалоги, получать персонализированные рекомендации, выполнять задачи и легко общаться с другими.

Meta AI в мессенджерах на базе Llama 3

Рис. 3. Meta AI: на базе Llama 3.

Link to this sectionСравнение Llama 3 с другими LLM#

Llama 3 показывает исключительные результаты по ряду ключевых бенчмарков, которые оценивают способности к сложному пониманию языка и логическим рассуждениям. Вот некоторые из бенчмарков, проверяющих различные аспекты возможностей Llama 3:

  • Massive Multitask Language Understanding (MMLU) — измеряет знания модели в различных предметных областях.
  • General Purpose Question Answering (GPQA) — оценивает способность модели генерировать связные и правильные ответы на широкий спектр общих вопросов.
  • HumanEval — фокусируется на задачах по программированию и решению проблем, проверяя способность модели генерировать функциональный программный код и решать алгоритмические задачи.

Выдающиеся результаты Llama 3 в этих тестах четко выделяют её на фоне конкурентов, таких как Gemma 7B от Google, Mistral 7B от Mistral и Claude 3 Sonnet от Anthropic. Согласно опубликованной статистике, модель 70B превосходит эти модели по всем вышеперечисленным бенчмаркам.

Сравнение бенчмарков Llama 3 с другими LLM

Рис 4. Сравнение Llama 3 с другими LLM.

Link to this sectionMeta Llama 3 становится широко доступной#

Meta расширяет охват Llama 3, делая её доступной на различных платформах как для обычных пользователей, так и для разработчиков. Для повседневных пользователей Llama 3 интегрирована в популярные платформы Meta, такие как WhatsApp, Instagram, Facebook и Messenger. Пользователи могут получить доступ к продвинутым функциям, таким как поиск в реальном времени и возможность генерировать креативный контент непосредственно внутри этих приложений.

Llama 3 также внедряется в носимые устройства, такие как умные очки Ray-Ban Meta и VR-гарнитуры Meta Quest, для интерактивного опыта.

Llama 3 доступна на множестве платформ для разработчиков, включая AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake. Ты также можешь получить доступ к этим моделям напрямую от Meta. Широкий спектр опций позволяет разработчикам легко интегрировать возможности этих передовых ИИ-моделей в свои проекты, независимо от того, предпочитают ли они работать напрямую с Meta или через другие популярные платформы.

Link to this sectionИтоги#

Достижения в области машинного обучения продолжают преображать то, как мы взаимодействуем с технологиями каждый день. Llama 3 от Meta показывает, что LLM — это уже не только генерация текста. LLM решают сложные проблемы и работают с несколькими языками. В целом, Llama 3 делает ИИ более адаптируемым и доступным, чем когда-либо. Заглядывая в будущее, запланированные обновления для Llama 3 обещают еще больше возможностей, таких как работа с несколькими моделями и понимание более широкого контекста.

Загляни в наш GitHub-репозиторий и присоединяйся к нашему сообществу, чтобы узнать больше об ИИ. Посети наши страницы с решениями, чтобы увидеть, как ИИ применяется в таких областях, как производство и сельское хозяйство.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения