Базовая модель - это крупномасштабная модель искусственного интеллекта (ИИ), предварительно обученная на огромном количестве обширных, немаркированных данных и предназначенная для адаптации или тонкой настройки под широкий спектр последующих задач. Эти модели, часто основанные на архитектурах вроде Transformer, учат общие паттерны, структуры и представления из данных, формируя универсальную базу для различных специализированных приложений, не требуя обучения с нуля под конкретную задачу. Разработка базовых моделей представляет собой значительный сдвиг парадигмы в машинном обучении (ML), двигаясь в сторону построения моделей общего назначения, которые могут быть эффективно специализированы.
Основные характеристики
Модели фундамента определяются несколькими основными атрибутами:
- Масштаб: Как правило, они очень большие, включают миллиарды или даже триллионы параметров и обучаются на огромных массивах данных, часто взятых из интернета или других обширных источников(Big Data).
- Предварительное обучение: Они проходят интенсивный этап предварительного обучения, обычно с использованием самоподдерживающегося обучения или несамостоятельных методов, когда модель учится на основе присущей ей структуры данных без явных меток.
- Адаптивность: Ключевым преимуществом является их адаптивность. После предварительного обучения их можно точно настроить с помощью относительно небольшого количества помеченных данных для решения конкретных задач, таких как анализ настроения, распознавание изображений или обнаружение объектов, используя общие знания, полученные в ходе предварительного обучения. Этот процесс - одна из форм трансферного обучения.
- Гомогенизация: Они, как правило, объединяют возможности, ранее требовавшие множества специализированных моделей, в единую, адаптируемую структуру, что потенциально упрощает MLOps.
Как работают модели фундаментов
Создание и использование моделей фундамента обычно включает в себя два этапа:
- Предварительное обучение: Модель обучается на массивном и разнообразном наборе данных. Для языковых моделей, таких как GPT-3, это предполагает предсказание следующего слова в предложении. Для моделей зрения это может быть восстановление замаскированных участков изображения или обучение ассоциациям между изображениями и текстом(CLIP). Этот этап требует значительных вычислительных ресурсов (GPU, TPU).
- Тонкая настройка/адаптация: Предварительно обученная модель затем адаптируется для конкретной последующей задачи с помощью меньшего набора данных, помеченных для конкретной задачи. Такие методы, как тонкая настройка, корректируют веса модели, а такие методы, как проектирование подсказок, направляют вывод модели без изменения ее весов, что особенно актуально для больших языковых моделей (LLM).
Примеры и применение
Модели фундаментов охватывают различные области:
- Обработка естественного языка (NLP): Яркими примерами являются такие LLM, как BERT и GPT-4, способные генерировать текст, переводить его, обобщать и многое другое. Пример из реального мира: Продвинутые чат-боты для обслуживания клиентов, которые понимают контекст и дают нюансы ответов, часто создаются путем тонкой настройки базовых LLM.
- Компьютерное зрение (КВ): Такие модели, как Vision Transformer (ViT) и Segment Anything Model (SAM) выступают в качестве базовых моделей для задач зрения. Они могут быть адаптированы для классификации изображений, их сегментации и обнаружения. Пример из реального мира: Инструменты для анализа медицинских изображений могут быть разработаны путем точной настройки базовой модели зрения на наборах данных рентгеновских или магнитно-резонансных снимков для обнаружения конкретных заболеваний, например опухолей.
- Мультимодальные модели: Такие модели, как CLIP или DALL-E, обрабатывают информацию из нескольких модальностей (например, текст и изображения) одновременно. Понимание этих моделей крайне важно по мере развития ИИ(Understanding Vision Language Models).
Модели фундамента по сравнению с другими моделями
- Модели для конкретных задач: В отличие от фундаментных моделей, традиционный ML часто предполагает обучение моделей с нуля на конкретных наборах данных для решения отдельных задач (например, обучение Ultralytics YOLO исключительно для обнаружения объектов на аэрофотоснимках). Хотя это и эффективно, но требует значительного количества помеченных данных и усилий для каждой новой задачи. Базовые модели призваны уменьшить это с помощью трансферного обучения.
- Большие языковые модели (БЯМ): LLM - это один из самых распространенных типов фундаментальных моделей, специально разработанных для решения языковых задач. Термин "базовая модель" более широкий и включает в себя модели для зрения, аудио и других модальностей.
- Модели CV: В то время как некоторые крупные модели видения, такие как ViT или SAM , считаются базовыми, многие CV-модели, включая специфические версии YOLOv8 или YOLO11 обученные для конкретных приложений(ИИ в сельском хозяйстве, ИИ в автомобилестроении), обычно настраиваются или обучаются специально для этих задач зрения, а не являются базовыми моделями общего назначения. Однако тенденция к использованию предварительно обученных базовых моделей разделяет основную идею использования общих характеристик.
Обучение и ресурсы
Предварительное обучение базовых моделей требует больших вычислительных затрат, часто требуя массивных кластеров GPU или TPU и значительных инженерных усилий. Обычно этим занимаются крупные исследовательские лаборатории или корпорации, такие как Google, Meta AI и OpenAI. Однако после предварительного обучения эти модели можно адаптировать более эффективно. Платформы вроде Ultralytics HUB предоставляют инструменты для обучения пользовательских моделей, управления наборами данныхUltralytics Datasets) и развертывания решений(Model Deployment Options), часто используя предварительно обученные веса, которые воплощают фундаментальные знания. Эффективная адаптация по-прежнему требует тщательной настройки гиперпараметров и, возможно, расширения данных.