Глоссарий

Capsule Networks (CapsNet)

Откройте для себя Capsule Networks (CapsNets): Новаторская архитектура нейронных сетей, которая отлично справляется с пространственными иерархиями и отношениями между признаками.

Капсульные сети, часто сокращенно называемые CapsNets, - это тип архитектуры нейронных сетей (НС), призванный преодолеть некоторые из ключевых ограничений конволюционных нейронных сетей (КНС). CapsNet, представленные Джеффри Хинтоном и его командой, предназначены для лучшего распознавания иерархических отношений между признаками на изображении. В отличие от нейронов стандартной CNN, которые выводят одно скалярное значение, "капсулы" в CapsNet выводят вектор, что позволяет им кодировать более подробную информацию о свойствах объекта, таких как его поза (положение, размер, ориентация), деформация и текстура. Такая структура делает их по своей природе более устойчивыми к изменениям точки зрения и ориентации.

Как работают капсульные сети?

Основная инновация CapsNet заключается в способности сохранять пространственную иерархию между признаками. Хотя CNN может распознавать компоненты лица - рот, нос и глаза, - она не понимает их пространственных отношений. CapsNet же использует группы нейронов, называемые капсулами, для идентификации этих частей и их относительной ориентации. Это достигается с помощью процесса, называемого "динамической маршрутизацией", когда капсулы нижнего уровня отправляют свои выводы капсулам более высокого уровня, которые могут наилучшим образом учесть их результаты. Такой подход кардинально отличается от объединения слоев в CNN, которые часто отбрасывают важную пространственную информацию. Оригинальная концепция была подробно описана в статье Dynamic Routing Between Capsules.

CapsNets против конволюционных нейронных сетей

Основное различие между CapsNet и CNN заключается в том, как они обрабатывают пространственную информацию и абстракции.

  • Пространственная инвариантность: CNN достигают пространственной инвариантности за счет объединения слоев, что может привести к потере точных данных о местоположении. CapsNet, напротив, разработаны как "эквивариантные", то есть они могут понимать и сохранять информацию о положении объекта при его перемещении по кадру.
  • Эффективность использования данных: Благодаря сложной внутренней структуре CapsNet могут достигать высокой точности при значительно меньшем количестве обучающих данных по сравнению с моделями глубокого обучения (DL), требующими большого количества данных.
  • Иерархическое представление: CapsNet строят явное дерево разбора визуальных объектов, что позволяет им понимать целое как композицию его частей. Это более интуитивный способ выполнения таких задач, как обнаружение объектов, чем тот, который предлагают стандартные CNN.

В то время как такие модели, как Ultralytics YOLO, оптимизированы для достижения скорости и точности в практических задачах компьютерного зрения (КВ), CapsNets представляют собой альтернативную архитектурную философию, нацеленную на улучшение фундаментального понимания визуальных сцен. Вы можете изучить сравнения между различными моделями обнаружения объектов, чтобы понять текущую ситуацию.

Применение в реальном мире

Хотя сети CapsNet все еще остаются областью активных исследований и применяются реже, чем устоявшиеся модели, такие как YOLO11, они уже продемонстрировали свои перспективы в нескольких областях:

  1. Распознавание символов: Сети CapsNet достигли передовых результатов на наборе данных MNIST, содержащем рукописные цифры, продемонстрировав свою способность эффективно обрабатывать вариации ориентации и стиля, превосходя традиционные подходы к классификации изображений в некоторых тестах.
  2. Анализ медицинских изображений: Способность понимать пространственные конфигурации делает их пригодными для анализа медицинских снимков. Например, в исследованиях изучалось использование CapsNet для таких задач, как сегментация опухолей мозга, где определение точной формы и местоположения аномалий является критически важным. Это относится к более широкой области анализа медицинских изображений.

Другие потенциальные применения включают улучшение обнаружения объектов, особенно в загроможденных сценах, улучшение понимания сцен в робототехнике и вклад в создание более надежных систем восприятия для автономных транспортных средств. Хотя вычислительные требования остаются сложной задачей, текущие исследования направлены на оптимизацию эффективности CapsNet для более широких приложений машинного обучения (ML) и потенциальной интеграции в такие фреймворки, как PyTorch или TensorFlow.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена