Глоссарий

Модель фундамента

Узнай, как фундаментальные модели революционизируют ИИ благодаря масштабируемым архитектурам, широкому предтренингу и адаптируемости к различным приложениям.

Базовая модель - это крупномасштабная модель искусственного интеллекта (ИИ), предварительно обученная на огромном количестве обширных, немаркированных данных и предназначенная для адаптации или тонкой настройки под широкий спектр последующих задач. Эти модели, часто основанные на архитектурах вроде Transformer, учат общие паттерны, структуры и представления из данных, формируя универсальную базу для различных специализированных приложений, не требуя обучения с нуля под конкретную задачу. Разработка базовых моделей представляет собой значительный сдвиг парадигмы в машинном обучении (ML), двигаясь в сторону построения моделей общего назначения, которые могут быть эффективно специализированы.

Основные характеристики

Модели фундамента определяются несколькими основными атрибутами:

Масштаб: Как правило, они очень большие, включают миллиарды или даже триллионы параметров и обучаются на огромных массивах данных, часто взятых из интернета или других обширных источников(Big Data).
Предварительное обучение: Они проходят интенсивный этап предварительного обучения, обычно с использованием самоподдерживающегося обучения или несамостоятельных методов, когда модель учится на основе присущей ей структуры данных без явных меток.
Адаптивность: Ключевым преимуществом является их адаптивность. После предварительного обучения их можно точно настроить с помощью относительно небольшого количества помеченных данных для решения конкретных задач, таких как анализ настроения, распознавание изображений или обнаружение объектов, используя общие знания, полученные в ходе предварительного обучения. Этот процесс - одна из форм трансферного обучения.
Гомогенизация: Они, как правило, объединяют возможности, ранее требовавшие множества специализированных моделей, в единую, адаптируемую структуру, что потенциально упрощает MLOps.

Как работают модели фундаментов

Создание и использование моделей фундамента обычно включает в себя два этапа:

Предварительное обучение: Модель обучается на массивном и разнообразном наборе данных. Для языковых моделей, таких как GPT-3, это предполагает предсказание следующего слова в предложении. Для моделей зрения это может быть восстановление замаскированных участков изображения или обучение ассоциациям между изображениями и текстом(CLIP). Этот этап требует значительных вычислительных ресурсов (GPU, TPU).
Тонкая настройка/адаптация: Предварительно обученная модель затем адаптируется для конкретной последующей задачи с помощью меньшего набора данных, помеченных для конкретной задачи. Такие методы, как тонкая настройка, корректируют веса модели, а такие методы, как проектирование подсказок, направляют вывод модели без изменения ее весов, что особенно актуально для больших языковых моделей (LLM).

Примеры и применение

Модели фундаментов охватывают различные области:

Обработка естественного языка (NLP): Яркими примерами являются такие LLM, как BERT и GPT-4, способные генерировать текст, переводить его, обобщать и многое другое. Пример из реального мира: Продвинутые чат-боты для обслуживания клиентов, которые понимают контекст и дают нюансы ответов, часто создаются путем тонкой настройки базовых LLM.
Компьютерное зрение (КВ): Такие модели, как Vision Transformer (ViT) и Segment Anything Model (SAM) выступают в качестве базовых моделей для задач зрения. Они могут быть адаптированы для классификации изображений, их сегментации и обнаружения. Пример из реального мира: Инструменты для анализа медицинских изображений могут быть разработаны путем точной настройки базовой модели зрения на наборах данных рентгеновских или магнитно-резонансных снимков для обнаружения конкретных заболеваний, например опухолей.
Мультимодальные модели: Такие модели, как CLIP или DALL-E, обрабатывают информацию из нескольких модальностей (например, текст и изображения) одновременно. Понимание этих моделей крайне важно по мере развития ИИ(Understanding Vision Language Models).

Модели фундамента по сравнению с другими моделями

Модели для конкретных задач: В отличие от фундаментных моделей, традиционный ML часто предполагает обучение моделей с нуля на конкретных наборах данных для решения отдельных задач (например, обучение Ultralytics YOLO исключительно для обнаружения объектов на аэрофотоснимках). Хотя это и эффективно, но требует значительного количества помеченных данных и усилий для каждой новой задачи. Базовые модели призваны уменьшить это с помощью трансферного обучения.
Большие языковые модели (БЯМ): LLM - это один из самых распространенных типов фундаментальных моделей, специально разработанных для решения языковых задач. Термин "базовая модель" более широкий и включает в себя модели для зрения, аудио и других модальностей.
Модели CV: В то время как некоторые крупные модели видения, такие как ViT или SAM , считаются базовыми, многие CV-модели, включая специфические версии YOLOv8 или YOLO11 обученные для конкретных приложений(ИИ в сельском хозяйстве, ИИ в автомобилестроении), обычно настраиваются или обучаются специально для этих задач зрения, а не являются базовыми моделями общего назначения. Однако тенденция к использованию предварительно обученных базовых моделей разделяет основную идею использования общих характеристик.

Обучение и ресурсы

Предварительное обучение базовых моделей требует больших вычислительных затрат, часто требуя массивных кластеров GPU или TPU и значительных инженерных усилий. Обычно этим занимаются крупные исследовательские лаборатории или корпорации, такие как Google, Meta AI и OpenAI. Однако после предварительного обучения эти модели можно адаптировать более эффективно. Платформы вроде Ultralytics HUB предоставляют инструменты для обучения пользовательских моделей, управления наборами данныхUltralytics Datasets) и развертывания решений(Model Deployment Options), часто используя предварительно обученные веса, которые воплощают фундаментальные знания. Эффективная адаптация по-прежнему требует тщательной настройки гиперпараметров и, возможно, расширения данных.

Важность и будущее

Базовые модели меняют ландшафт ИИRoboflow on Foundation Models). Они ускоряют развитие, позволяют создавать новые приложения и поднимают важные вопросы, связанные с этикой ИИ, предвзятостью и доступом к вычислениям. Такие исследовательские институты, как Стэнфордский центр исследований базовых моделей (CRFM), занимаются изучением их возможностей и влияния на общество. Вероятно, в будущем появятся более мощные, эффективные и потенциально мультимодальные базовые модели, которые станут движущей силой инноваций в науке, промышленности и повседневной жизни(AI Use Cases).

Модель фундамента

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Основные характеристики

Как работают модели фундаментов

Примеры и применение

Модели фундамента по сравнению с другими моделями

Обучение и ресурсы

Важность и будущее

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Модель фундамента

Обучай модели YOLO простос помощью Ultralytics HUB.

Гибкое решение для лицензирования предприятий, которое обеспечит тебе инновации

Обучай модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Обучать модели YOLO просто с помощью Ultralytics HUB.

Основные характеристики

Как работают модели фундаментов

Примеры и применение

Модели фундамента по сравнению с другими моделями

Обучение и ресурсы

Важность и будущее

Читайте больше блогов

Присоединяйся к сообществу Ultralytics

Обучай модели YOLO просто
с помощью Ultralytics HUB.