Откройте для себя Capsule Networks (CapsNets): революционную архитектуру нейронных сетей, превосходно справляющуюся с пространственными иерархиями и взаимосвязями признаков.
Капсульные сети (CapsNets) представляют собой сложную эволюцию в области Глубокое обучение (ГОО), разработанное для решения специфических ограничения, обнаруженные в традиционных Конволюционные нейронные сети (CNN). Впервые эта архитектура была представлена известным исследователем Джеффри Хинтоном и его коллегами. Эта архитектура организует нейроны в группы, известные как "капсулы". В отличие от стандартных нейронов которые выводят одно скалярное значение активации, капсула выводит вектор. Ориентация и длина вектора позволяют сети кодировать более богатую информацию об объекте, такую как его точное положение, размер, ориентация и текстура. Эта возможность позволяет модели лучше понимать иерархические отношения между признаками, по сути выполнять "обратную графику" для деконструкции визуальной сцены.
Определяющей характеристикой CapsNet является ее способность сохранять пространственные отношения между различными частями объекта. В стандартном компьютерного зрения (КЗ) с использованием CNN, слои часто используют операции объединения для уменьшения размерности, что обычно приводит к отбрасыванию точных пространственных данных для достижения инвариантности. Однако сети CapsNet стремятся к "эквивариантности", то есть если объект перемещается или поворачивается в изображении изображение, векторное представление капсулы изменяется пропорционально, а не становится неузнаваемым.
Это достигается с помощью процесса, называемого "динамической маршрутизацией" или "маршрутизацией по соглашению". Вместо того чтобы просто пересылать сигналы всем нейронам следующего слоя, капсулы нижнего уровня посылают свои выходы капсулам более высокого уровня. капсулам более высокого уровня, которые "согласны" с их предсказаниями. Например, капсула, обнаруживающая нос, подаст сигнал капсуле капсулу лица, если пространственная ориентация совпадает, что усиливает структурное понимание процесса выделения признаков. процесса извлечения признаков. Эта концепция была подробно описана в исследовательской работе, посвященной Динамическая маршрутизация между капсулами.
Хотя обе архитектуры играют ключевую роль в машинном обучении (ML), они значительно отличаются друг от друга в том, как они обрабатывают визуальные данные:
Хотя сети CapsNet требуют больших вычислительных затрат и не так широко распространены, как оптимизированные архитектуры, такие как YOLO11они показали себя перспективными в определенных областях с высокими ставками доменах:
Хотя теоретические преимущества CapsNet несомненны, современные промышленные стандарты часто отдают предпочтение высоко оптимизированным CNN или
моделям на основе трансформаторов для повышения скорости. Тем не менее, вы можете поэкспериментировать с задачами классификации - основным эталоном для
CapsNets - используя ultralytics библиотека. Следующий пример демонстрирует обучение модели классификации YOLO11
классификационной модели на наборе данных MNIST - распространенной площадке для тестирования иерархического распознавания признаков.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
Исследование сетей капсул продолжает оказывать влияние на развитие безопасности и интерпретируемости ИИ. Благодаря явному моделированию отношения "часть-целое", они предлагают путь к более объяснимому ИИ по сравнению с "черным ящиком" некоторых глубоких сетей. некоторых глубоких сетей. Будущие достижения могут быть направлены на интеграцию этих концепций в обнаружение 3D-объектов и снижение вычислительных затрат алгоритмов маршрутизации, потенциально объединяя эффективность таких моделей, как YOLO26 с надежным пространственным пониманием капсул.