Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Фундаментальная модель

Узнайте, как фундаментальные модели революционизируют ИИ благодаря масштабируемым архитектурам, широкому предварительному обучению и адаптируемости для различных приложений.

Базовая модель — это крупномасштабная модель машинного обучения (ML), обученная на огромном количестве широких, немаркированных данных, которые можно адаптировать к широкому спектру последующих задач. Основная концепция, придуманная Стэнфордским институтом искусственного интеллекта, ориентированного на человека, — это «эмерджентные свойства», когда модель развивает удивительно универсальное понимание закономерностей, синтаксиса и семантики из данных, на которых она была обучена. Этот универсальный характер позволяет ей служить мощной отправной точкой, или «основой», для создания более специализированных моделей посредством процесса, называемого тонкой настройкой.

Основные характеристики и области применения

Определяющей особенностью фундаментальных моделей является их адаптируемость, которая проистекает из парадигмы трансферного обучения. Вместо того чтобы обучать новую модель с нуля для каждой проблемы, разработчики могут взять предварительно обученную фундаментальную модель и адаптировать ее с помощью гораздо меньшего набора данных, специфичного для конкретной задачи. Это значительно сокращает объем данных, вычислений и времени, необходимых для создания высокопроизводительных систем ИИ.

Примеры использования в реальных условиях демонстрируют их универсальность:

  1. Продвинутые чат-боты и виртуальные помощники: Большая языковая модель (LLM), такая как GPT-4 от OpenAI, служит базовой моделью для языка. Она предварительно обучена на огромном корпусе интернет-текстов, чтобы понимать грамматику, факты и навыки рассуждения. Затем компания может точно настроить ее с помощью своих внутренних документов и журналов взаимодействия с клиентами, чтобы создать специализированный чат-бот, который может отвечать на конкретные вопросы о ее продуктах или услугах с высокой точностью.
  2. Анализ медицинских изображений: В компьютерном зрении такая модель, как Segment Anything Model (SAM) от Meta AI, является базовой моделью для сегментации изображений. Она может идентифицировать и выделять объекты на любом изображении без предварительного контекста. Затем медицинские исследователи могут точно настроить эту модель на меньшем наборе МРТ- или КТ-сканов, чтобы точно сегментировать определенные органы или обнаруживать аномалии, такие как опухоли, ускоряя диагностику для анализа медицинских изображений.

Фундаментальные модели vs. Другие модели

Важно отличать фундаментальные модели от связанных концепций:

  • Модели, специфичные для задач: Традиционно машинное обучение включало обучение моделей с нуля для одной цели, например, обучение модели Ultralytics YOLO исключительно для обнаружения посылок в логистике. Хотя это эффективно, такой подход требует значительного количества размеченных данных для каждой новой задачи. Базовые модели предлагают более эффективную альтернативу.
  • Большие языковые модели (LLM): LLM — это видная разновидность фундаментальной модели, ориентированной на языковые задачи. Однако термин «фундаментальная модель» является более широким, охватывающим модели для зрения, аудио и других модальностей данных, как подробно описано в знаковой статье "On the Opportunities and Risks of Foundation Models."
  • Специализированные модели машинного зрения: В то время как большие модели машинного зрения, такие как Vision Transformer (ViT), считаются базовыми моделями, многие специализированные модели CV таковыми не являются. Например, модель YOLO11, точно настроенная для конкретного приложения, такого как ИИ в автомобильной промышленности, является специализированной моделью. Однако она использует предварительно обученную backbone, которая воплощает фундаментальные знания, полученные из больших наборов данных, таких как COCO.

Обучение и будущая важность

Предварительное обучение фундаментальных моделей — ресурсоемкая задача, часто требующая тысяч GPU и огромных инженерных усилий, обычно предпринимаемых крупными организациями, такими как Google AI и DeepMind. Однако после обучения эти модели становятся доступными для более широкого использования.

Платформы, такие как Ultralytics HUB, предоставляют инструменты, помогающие пользователям адаптировать эти фундаментальные возможности, оптимизируя рабочие процессы для обучения пользовательских моделей, управления наборами данных и развертывания решений, часто с тщательной настройкой гиперпараметров.

Фундаментальные модели преобразуют ландшафт ИИ, демократизируя доступ к мощным возможностям. Их рост также поднимает важные дискуссии вокруг этики ИИ, предвзятости наборов данных и цифрового неравенства. Будущее указывает на более мощные, эффективные и мультимодальные модели, которые могут понимать и обрабатывать информацию из текста, изображений и звука одновременно, стимулируя следующую волну вариантов использования ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена