Глоссарий

Модель фундамента

Узнай, как фундаментальные модели революционизируют ИИ благодаря масштабируемым архитектурам, широкому предтренингу и адаптируемости к различным приложениям.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Базовая модель - это крупномасштабная модель искусственного интеллекта (ИИ), предварительно обученная на огромном количестве обширных, немаркированных данных и предназначенная для адаптации или тонкой настройки под широкий спектр последующих задач. Эти модели, часто основанные на архитектурах вроде Transformer, учат общие паттерны, структуры и представления из данных, формируя универсальную базу для различных специализированных приложений, не требуя обучения с нуля под конкретную задачу. Разработка базовых моделей представляет собой значительный сдвиг парадигмы в машинном обучении (ML), двигаясь в сторону построения моделей общего назначения, которые могут быть эффективно специализированы.

Основные характеристики

Модели фундамента определяются несколькими основными атрибутами:

  • Масштаб: Как правило, они очень большие, включают миллиарды или даже триллионы параметров и обучаются на огромных массивах данных, часто взятых из интернета или других обширных источников(Big Data).
  • Предварительное обучение: Они проходят интенсивный этап предварительного обучения, обычно с использованием самоподдерживающегося обучения или несамостоятельных методов, когда модель учится на основе присущей ей структуры данных без явных меток.
  • Адаптивность: Ключевым преимуществом является их адаптивность. После предварительного обучения их можно точно настроить с помощью относительно небольшого количества помеченных данных для решения конкретных задач, таких как анализ настроения, распознавание изображений или обнаружение объектов, используя общие знания, полученные в ходе предварительного обучения. Этот процесс - одна из форм трансферного обучения.
  • Гомогенизация: Они, как правило, объединяют возможности, ранее требовавшие множества специализированных моделей, в единую, адаптируемую структуру, что потенциально упрощает MLOps.

Как работают модели фундаментов

Создание и использование моделей фундамента обычно включает в себя два этапа:

  1. Предварительное обучение: Модель обучается на массивном и разнообразном наборе данных. Для языковых моделей, таких как GPT-3, это предполагает предсказание следующего слова в предложении. Для моделей зрения это может быть восстановление замаскированных участков изображения или обучение ассоциациям между изображениями и текстом(CLIP). Этот этап требует значительных вычислительных ресурсов (GPU, TPU).
  2. Тонкая настройка/адаптация: Предварительно обученная модель затем адаптируется для конкретной последующей задачи с помощью меньшего набора данных, помеченных для конкретной задачи. Такие методы, как тонкая настройка, корректируют веса модели, а такие методы, как проектирование подсказок, направляют вывод модели без изменения ее весов, что особенно актуально для больших языковых моделей (LLM).

Примеры и применение

Модели фундаментов охватывают различные области:

Модели фундамента по сравнению с другими моделями

  • Модели для конкретных задач: В отличие от фундаментных моделей, традиционный ML часто предполагает обучение моделей с нуля на конкретных наборах данных для решения отдельных задач (например, обучение Ultralytics YOLO исключительно для обнаружения объектов на аэрофотоснимках). Хотя это и эффективно, но требует значительного количества помеченных данных и усилий для каждой новой задачи. Базовые модели призваны уменьшить это с помощью трансферного обучения.
  • Большие языковые модели (БЯМ): LLM - это один из самых распространенных типов фундаментальных моделей, специально разработанных для решения языковых задач. Термин "базовая модель" более широкий и включает в себя модели для зрения, аудио и других модальностей.
  • Модели CV: В то время как некоторые крупные модели видения, такие как ViT или SAM , считаются базовыми, многие CV-модели, включая специфические версии YOLOv8 или YOLO11 обученные для конкретных приложений(ИИ в сельском хозяйстве, ИИ в автомобилестроении), обычно настраиваются или обучаются специально для этих задач зрения, а не являются базовыми моделями общего назначения. Однако тенденция к использованию предварительно обученных базовых моделей разделяет основную идею использования общих характеристик.

Обучение и ресурсы

Предварительное обучение базовых моделей требует больших вычислительных затрат, часто требуя массивных кластеров GPU или TPU и значительных инженерных усилий. Обычно этим занимаются крупные исследовательские лаборатории или корпорации, такие как Google, Meta AI и OpenAI. Однако после предварительного обучения эти модели можно адаптировать более эффективно. Платформы вроде Ultralytics HUB предоставляют инструменты для обучения пользовательских моделей, управления наборами данныхUltralytics Datasets) и развертывания решений(Model Deployment Options), часто используя предварительно обученные веса, которые воплощают фундаментальные знания. Эффективная адаптация по-прежнему требует тщательной настройки гиперпараметров и, возможно, расширения данных.

Важность и будущее

Базовые модели меняют ландшафт ИИRoboflow on Foundation Models). Они ускоряют развитие, позволяют создавать новые приложения и поднимают важные вопросы, связанные с этикой ИИ, предвзятостью и доступом к вычислениям. Такие исследовательские институты, как Стэнфордский центр исследований базовых моделей (CRFM), занимаются изучением их возможностей и влияния на общество. Вероятно, в будущем появятся более мощные, эффективные и потенциально мультимодальные базовые модели, которые станут движущей силой инноваций в науке, промышленности и повседневной жизни(AI Use Cases).

Читать полностью