Глоссарий

Самостоятельное обучение

Узнайте, как самоконтролируемое обучение использует неразмеченные данные для эффективного обучения, преобразуя ИИ в компьютерном зрении, НЛП и других областях.

Самоконтролируемое обучение (SSL) - это метод машинного обучения, который позволяет моделям обучаться на огромных объемах немаркированных данных. Вместо того чтобы полагаться на предоставленные человеком метки, SSL автоматически генерирует метки из самих данных, создавая и решая "предтекстовую задачу". Этот процесс заставляет модель изучать значимые базовые паттерны и особенности данных, такие как текстуры и формы на изображениях или грамматические структуры в тексте. Эти изученные особенности создают мощный фундамент, позволяющий модели демонстрировать исключительные результаты при решении последующих задач с гораздо меньшим количеством помеченных данных на этапе тонкой настройки. SSL преодолевает разрыв между полностью контролируемым обучением, которое требовательно к данным, и чисто неконтролируемым обучением, которое может быть менее направленным.

Как работает самоконтролируемое обучение

Основной идеей SSL является задача с предлогом - самостоятельно созданная проблема, которую должна решить модель. Метки для этой задачи берутся непосредственно из входных данных. Решая предтекстовую задачу, нейронная сеть обучается ценным представлениям, или вкраплениям, которые отражают основные характеристики данных.

К числу распространенных предтекстовых задач в компьютерном зрении относятся:

  • Предсказание поворота изображения: Модели показывают изображение, повернутое в случайном порядке (например, на 0, 90, 180 или 270 градусов), и она должна предсказать угол поворота. Чтобы сделать это правильно, она должна распознать исходную ориентацию объекта.
  • Окрашивание изображений: Часть изображения маскируется или удаляется, и модель должна предсказать недостающий участок. Это побуждает модель изучать контекст и текстуру изображений.
  • Контрастное обучение: Модель обучают подтягивать представления похожих (дополненных) изображений ближе друг к другу и отодвигать представления разных изображений дальше друг от друга. Примерами такого подхода являются такие фреймворки, как SimCLR.

Такое предварительное обучение на немаркированных данных приводит к созданию надежных весов модели, которые можно использовать в качестве отправной точки для решения более специфических задач.

SSL по сравнению с другими парадигмами обучения

Очень важно отличать SSL от смежных парадигм машинного обучения:

  • Контролируемое обучение: Полностью полагается на маркированные данные, где каждый входной сигнал сопряжен с правильным выходным сигналом. SSL, наоборот, генерирует свои собственные метки из самих данных, что значительно сокращает необходимость в ручном маркировании данных.
  • Неподконтрольное обучение: Цель - найти закономерности (например, кластеризация) или уменьшить размерность в неразмеченных данных без заранее определенных задач. Хотя SSL использует немеченые данные, как и несамостоятельное обучение, оно отличается тем, что создает явные управляющие сигналы через предтекстовые задачи, чтобы направлять обучение представлений.
  • Полуподконтрольное обучение: Использует комбинацию небольшого количества меченых данных и большого количества немеченых данных. Предварительное обучение SSL часто может быть предварительным шагом перед полуконтролируемой тонкой настройкой.
  • Активное обучение: Сосредоточено на интеллектуальном выборе наиболее информативных точек данных из пула неразмеченных, которые должны быть помечены человеком. SSL обучается на всех немеченых данных без вмешательства человека. Эти два метода могут дополнять друг друга в рабочем процессе ИИ, ориентированного на данные.

Применение в реальном мире

SSL значительно расширил возможности искусственного интеллекта (ИИ) в различных областях:

  1. Усовершенствование моделей компьютерного зрения: Предварительное обучение SSL позволяет таким моделям, как Ultralytics YOLO, изучать надежные визуальные характеристики на огромных массивах немаркированных изображений, прежде чем их можно будет точно настроить для решения таких задач, как обнаружение объектов в автономных транспортных средствах или анализ медицинских изображений. Использование предварительно обученных весов, полученных из SSL, часто приводит к улучшению производительности и ускорению сходимости во время обучения модели.
  2. Питание больших языковых моделей (LLM): Такие базовые модели, как GPT-4 и BERT, в значительной степени опираются на предтекстовые задачи SSL (например, моделирование языка по маске) на этапе предварительного обучения на обширных текстовых корпорациях. Это позволяет им понимать структуру языка, грамматику и контекст, обеспечивая работу самых разных приложений - от сложных чат-ботов и машинного перевода до резюмирования текста.

SSL значительно снижает зависимость от дорогостоящих наборов данных с метками, демократизируя разработку мощных моделей ИИ. Такие инструменты, как PyTorch и TensorFlow, а также платформы, такие как Ultralytics HUB, предоставляют среду для использования методов SSL при создании и развертывании передовых решений в области ИИ. С последними исследованиями в области SSL вы можете ознакомиться на ведущих конференциях по ИИ, таких как NeurIPS и ICML.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена