Открой для себя Capsule Networks (CapsNets): Новаторская архитектура нейронных сетей, превосходно справляющаяся с пространственными иерархиями и взаимосвязями признаков.
Капсульные сети, часто сокращенно называемые CapsNets, представляют собой инновационный тип архитектуры нейронных сетей (НС), разработанный в качестве альтернативы традиционным конволюционным нейронным сетям (КНС). Впервые представленная исследователем в области искусственного интеллекта Джеффри Хинтоном и его командой, CapsNet направлена на устранение фундаментальных ограничений в том, как CNN обрабатывают пространственные иерархии и отношения между признаками внутри изображения. Хотя CNN отлично справляются с извлечением признаков, использование ими объединяющих слоев может привести к потере точной пространственной информации. CapsNets предлагают другой подход, используя "капсулы" - группы нейронов, которые выводят векторы вместо отдельных скалярных значений. Эти векторы кодируют более богатую информацию об обнаруженных признаках, включая такие свойства, как поза (положение, ориентация, масштаб) и вероятность присутствия признака. Такая структура позволяет CapsNet лучше моделировать отношения "часть-целое" и сохранять пространственную осведомленность, что потенциально повышает устойчивость к изменениям точки зрения в задачах компьютерного зрения (КЗ).
Центральный элемент CapsNet - это "капсула". В отличие от стандартных нейронов, каждая капсула обнаруживает определенную сущность в определенной области входного сигнала и выдает на выходе вектор. Величина (длина) вектора указывает на вероятность существования обнаруженной сущности, а его ориентация представляет параметры инстанса, такие как его точная поза или детали текстуры. Такой векторный вывод резко контрастирует со скалярной активацией, характерной для многих других моделей глубокого обучения (DL).
Капсулы в нижних слоях генерируют предсказания для выходов капсул в более высоких слоях с помощью матриц преобразования. Важнейший механизм, известный как "маршрутизация по соглашению", динамически определяет связи между этими слоями. Если предсказания от нескольких капсул нижнего уровня совпадают (согласуются) относительно наличия и позы признака более высокого уровня, то соответствующая капсула верхнего уровня становится активной. Этот динамический процесс маршрутизации позволяет сети распознавать части и понимать, как они собираются в единое целое, эффективно сохраняя пространственные иерархии. Основополагающие идеи подробно изложены в статье"Динамическая маршрутизация между капсулами". Этот подход помогает в задачах, требующих тонкого понимания состава объектов, потенциально повышая производительность при меньшей потребности в обширном дополнении данных.
CapsNet предлагают другую парадигму по сравнению с широко распространенными CNN, особенно в работе с пространственными данными и представлении признаков:
CapsNets обладают рядом потенциальных преимуществ перед обычными нейросетевыми архитектурами:
Хотя CapsNet все еще остается в основном областью активных исследований и применяется реже, чем такие устоявшиеся модели, как Ultralytics YOLO или YOLO11но они уже продемонстрировали свои перспективы в нескольких областях:
Среди возможных применений - улучшение обнаружения объектов, особенно в загроможденных сценах, улучшение понимания сцен в робототехнике и создание более надежных систем восприятия для автономных транспортных средств. Хотя вычислительные требования остаются проблемой, текущие исследования направлены на оптимизацию эффективности CapsNet для более широких приложений машинного обучения (ML) и потенциальной интеграции в такие фреймворки, как PyTorch или TensorFlow. Ты можешь изучить сравнения между различными моделями обнаружения объектов, чтобы понять, какое место CapsNet может занять в будущем.