Глоссарий

Самостоятельное обучение

Узнай, как самоконтролируемое обучение использует немаркированные данные для эффективного обучения, преобразуя ИИ в компьютерном зрении, NLP и других областях.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Самоконтролируемое обучение (SSL) - это подход к машинному обучению (ML), который позволяет моделям обучаться на огромном количестве немаркированных данных. В отличие от контролируемого обучения, которое сильно зависит от тщательно маркированных данных, SSL гениально создает свои собственные контролирующие сигналы непосредственно из самих входных данных. Это делает его исключительно ценным в таких областях, как компьютерное зрение (CV) и обработка естественного языка (NLP), где немаркированных данных много, но стоимость и усилия по ручному маркированию(аннотированию данных) могут быть непомерно высоки.

Как работает самоконтролируемое обучение

Основной механизм SSL заключается в разработке "предтекстовой задачи". Это вспомогательная, самогенерируемая задача, в которой модель должна предсказать определенные свойства данных, которые были намеренно скрыты или изменены. Решая эту предтекстовую задачу, модель вынуждена изучать значимые глубинные структуры и представления(эмбеддинги) данных без навязанных человеком меток. Этот начальный этап обучения принято называть предтренингом.

Например, в компьютерном зрении предтекстовая задача может включать в себя:

  • Предсказание относительного положения перетасованных патчей изображения.
  • Раскрась полутоновое изображение.
  • Заполни недостающие части изображения (inpainting).
  • Изучение представлений путем противопоставления различных дополненных представлений одного и того же изображения - техника, используемая в методах контрастного обучения, таких как SimCLR и MoCo.

В НЛП известной предтекстовой задачей является моделирование языка по маске, знаменитое тем, что используется в таких моделях, как BERT. Здесь модель учится предсказывать слова, которые были случайным образом замаскированы (скрыты) в предложениях.

После предварительного обучения на больших наборах немаркированных данных модель получает богатые представления признаков. Затем эта предварительно обученная модель может быть адаптирована для решения конкретных задач - например, обнаружения объектов, классификации изображений или анализа настроений - с помощьюпроцесса, называемого тонкой настройкой. Тонкая настройка обычно требует гораздо меньшего количества помеченных данных по сравнению с обучением модели с нуля, что делает SSL ключевым фактором для эффективного трансферного обучения.

SSL по сравнению с другими парадигмами обучения

Очень важно отличать SSL от смежных парадигм ML:

  • Супервизорное обучение: Полностью полагается на помеченные данные, где каждый входной сигнал сопряжен с правильным выходным сигналом. SSL, наоборот, генерирует свои метки из самих данных.
  • Неподконтрольное обучение: Цель - найти закономерности (например, кластеризация) или уменьшить размерность в немеченых данных без заранее поставленных задач. Хотя SSL использует немеченые данные, как и несамостоятельное обучение, оно отличается тем, что создает явные управляющие сигналы через предтекстовые задачи, чтобы направлять обучение представлений.
  • Полуподконтрольное обучение: Использует комбинацию небольшого количества меченых данных и большого количества немеченых. Предварительное обучение SSL часто может быть предварительным шагом перед полусупервизорной тонкой настройкой.

Применение в реальном мире

SSL значительно продвинул возможности искусственного интеллекта (ИИ):

  1. Продвижение моделей компьютерного зрения: Предварительное обучение SSL позволяет таким моделям, как Ultralytics YOLO11 обучаться надежным визуальным признакам на огромных наборах немаркированных изображений, прежде чем их можно будет точно настроить для таких задач, как обнаружение объектов в автономных транспортных средствах или анализ медицинских изображений. Использование предварительно обученных весов, полученных из SSL, часто приводит к улучшению производительности и ускорению сходимости во время обучения модели.
  2. Питание больших языковых моделей (LLM): Такие базовые модели, как GPT-4 и BERT, в значительной степени опираются на предтекстовые задачи SSL (например, моделирование языка по маске) на этапе предварительного обучения на обширных текстовых корпорациях. Это позволяет им понимать структуру языка, грамматику и контекст, обеспечивая работу самых разных приложений - от сложных чат-ботов и машинного перевода до резюмирования текста.

SSL значительно снижает зависимость от дорогостоящих меченых наборов данных, демократизируя разработку мощных моделей ИИ. Такие инструменты, как PyTorch и TensorFlowа также такие платформы, как Ultralytics HUB, предоставляют среду для использования методов SSL для создания и развертывания передовых решений в области ИИ.

Читать полностью