Глоссарий

Capsule Networks (CapsNet)

Открой для себя Capsule Networks (CapsNets): Новаторская архитектура нейронных сетей, превосходно справляющаяся с пространственными иерархиями и взаимосвязями признаков.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Капсульные сети, часто сокращенно называемые CapsNets, представляют собой инновационный тип архитектуры нейронных сетей (НС), разработанный в качестве альтернативы традиционным конволюционным нейронным сетям (КНС). Впервые представленная исследователем в области искусственного интеллекта Джеффри Хинтоном и его командой, CapsNet направлена на устранение фундаментальных ограничений в том, как CNN обрабатывают пространственные иерархии и отношения между признаками внутри изображения. Хотя CNN отлично справляются с извлечением признаков, использование ими объединяющих слоев может привести к потере точной пространственной информации. CapsNets предлагают другой подход, используя "капсулы" - группы нейронов, которые выводят векторы вместо отдельных скалярных значений. Эти векторы кодируют более богатую информацию об обнаруженных признаках, включая такие свойства, как поза (положение, ориентация, масштаб) и вероятность присутствия признака. Такая структура позволяет CapsNet лучше моделировать отношения "часть-целое" и сохранять пространственную осведомленность, что потенциально повышает устойчивость к изменениям точки зрения в задачах компьютерного зрения (КЗ).

Основные понятия

Центральный элемент CapsNet - это "капсула". В отличие от стандартных нейронов, каждая капсула обнаруживает определенную сущность в определенной области входного сигнала и выдает на выходе вектор. Величина (длина) вектора указывает на вероятность существования обнаруженной сущности, а его ориентация представляет параметры инстанса, такие как его точная поза или детали текстуры. Такой векторный вывод резко контрастирует со скалярной активацией, характерной для многих других моделей глубокого обучения (DL).

Капсулы в нижних слоях генерируют предсказания для выходов капсул в более высоких слоях с помощью матриц преобразования. Важнейший механизм, известный как "маршрутизация по соглашению", динамически определяет связи между этими слоями. Если предсказания от нескольких капсул нижнего уровня совпадают (согласуются) относительно наличия и позы признака более высокого уровня, то соответствующая капсула верхнего уровня становится активной. Этот динамический процесс маршрутизации позволяет сети распознавать части и понимать, как они собираются в единое целое, эффективно сохраняя пространственные иерархии. Основополагающие идеи подробно изложены в статье"Динамическая маршрутизация между капсулами". Этот подход помогает в задачах, требующих тонкого понимания состава объектов, потенциально повышая производительность при меньшей потребности в обширном дополнении данных.

Основные отличия от конволюционных нейронных сетей (КНС)

CapsNet предлагают другую парадигму по сравнению с широко распространенными CNN, особенно в работе с пространственными данными и представлении признаков:

  • Обработка пространственной иерархии: CNN часто теряют пространственную информацию из-за объединения слоев, которые суммируют наличие признаков по регионам. CapsNet разработаны таким образом, чтобы явно сохранять иерархические позиционные связи между признаками, что делает их по своей сути лучше в понимании структуры объектов.
  • Представление признаков: CNN обычно используют скалярные активации для представления наличия признака. CapsNet используют векторные выходы (капсулы), которые кодируют как наличие, так и свойства (например, позу и деформацию) признака.
  • Эквивариантность точки зрения: CapsNet стремятся к эквивариантности, то есть представление предсказуемо меняется при смене точки зрения, в то время как CNN часто требуют большого количества обучающих данных, чтобы научиться инвариантности точки зрения.
  • Механизм маршрутизации: CNN используют max-pooling или другие методы статической маршрутизации. В CapsNets используется динамическая маршрутизация по соглашению, которая взвешивает соединения на основе согласованности предсказаний между слоями капсулы.

Преимущества капсульных сетей

CapsNets обладают рядом потенциальных преимуществ перед обычными нейросетевыми архитектурами:

  • Улучшенная устойчивость к точкам зрения: Их структура позволяет им лучше обобщать новые точки зрения без необходимости видеть эти конкретные точки во время обучения.
  • Улучшенное моделирование отношений "часть-целое": Механизм маршрутизации помогает CapsNets понять, как части объединяются в объекты, что крайне важно для сложных задач распознавания образов.
  • Эффективность работы с данными: Они могут достигать высокой точности при использовании меньших наборов данных по сравнению с CNN, особенно в задачах, чувствительных к пространственным отношениям.
  • Сегментация перекрывающихся объектов: Возможность представлять несколько объектов и их позы в пределах одного региона может помочь в таких задачах, как сегментация экземпляров, когда объекты значительно перекрываются. Управлять обучением и развертыванием можно с помощью таких платформ, как Ultralytics HUB.

Применение в реальном мире

Хотя CapsNet все еще остается в основном областью активных исследований и применяется реже, чем такие устоявшиеся модели, как Ultralytics YOLO или YOLO11но они уже продемонстрировали свои перспективы в нескольких областях:

  1. Распознавание символов: Сети CapsNet достигли передовых результатов на наборе данных MNIST, содержащем рукописные цифры, продемонстрировав свою способность эффективно обрабатывать вариации ориентации и стиля, превзойдя традиционные подходы к классификации изображений в некоторых тестах.
  2. Анализ медицинских изображений: Их сила в понимании пространственных конфигураций делает их подходящими для анализа медицинских снимков. Например, в исследованиях изучалось использование CapsNet для таких задач, как сегментация опухолей мозга, где определение точной формы и расположения аномалий является критически важным. Это относится к более широкой области анализа медицинских изображений.

Среди возможных применений - улучшение обнаружения объектов, особенно в загроможденных сценах, улучшение понимания сцен в робототехнике и создание более надежных систем восприятия для автономных транспортных средств. Хотя вычислительные требования остаются проблемой, текущие исследования направлены на оптимизацию эффективности CapsNet для более широких приложений машинного обучения (ML) и потенциальной интеграции в такие фреймворки, как PyTorch или TensorFlow. Ты можешь изучить сравнения между различными моделями обнаружения объектов, чтобы понять, какое место CapsNet может занять в будущем.

Читать полностью