Глоссарий

Магистраль

Открой для себя роль магистралей в глубоком обучении, изучи лучшие архитектуры, такие как ResNet и ViT, и узнай об их реальных применениях в ИИ.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

В глубоком обучении, особенно в области компьютерного зрения (КВ), под "костяком" понимается начальный, основополагающий набор слоев в модели нейронной сети (НС). Его основная задача - извлечение признаков: обработка исходных данных, например изображения, и преобразование их в компактное, информативное представление. Это представление, часто называемое картой признаков, фиксирует важные паттерны, текстуры и формы входных данных. Думай о костяке как о глазах ИИ, выполняющих первоначальную интерпретацию, прежде чем начнутся рассуждения более высокого уровня. Эта фундаментальная обработка критически важна для общей способности модели понимать и интерпретировать визуальную информацию для последующих задач.

Основной функционал

Типичный костяк состоит из последовательности слоев, обычно включающих конволюционные слои, слои объединения (которые уменьшают пространственные размеры) и функции активации (которые вносят нелинейность). По мере того как входные данные проходят через эти слои, сеть постепенно обучается иерархическим признакам. Ранние слои могут обнаруживать простые элементы, такие как края и углы, а более глубокие слои объединяют эти простые признаки, чтобы распознавать более сложные структуры, части объектов и, в конечном итоге, целые объекты. На выходе костяк генерирует набор высокоуровневых карт признаков, которые обобщают важнейшую информацию из исходных данных. Этот процесс эффективно снижает размерность данных, сохраняя их семантическое значение, и является основой для многих успешных моделей глубокого обучения.

Роль в моделях компьютерного зрения

В сложных моделях компьютерного зрения, предназначенных для решения таких задач, как обнаружение объектов, сегментация объектов или оценка позы, основа обеспечивает представление основных характеристик. Последующие компоненты, часто называемые "шеей" (которая уточняет и агрегирует признаки) и "головой" (которая выполняет окончательное предсказание задачи), строятся на основе признаков, извлеченных основой. Например, голова обнаружения использует эти уточненные признаки для предсказания ограничительных рамок вокруг обнаруженных объектов и соответствующих им классов. Костяк отличается от этих последующих этапов; его единственным фокусом является генерация мощного, часто общего назначения, представления признаков из входных данных. Общепринятой практикой является использование костяков, предварительно обученных на таких масштабных наборах данных, как ImageNet, и последующая настройка их под конкретные последующие задачи с помощью трансферного обучения, что значительно ускоряет процесс обучения.

Распространенные магистральные архитектуры

Несколько хорошо зарекомендовавших себя нейросетевых архитектур часто используются в качестве основы благодаря своей доказанной эффективности в извлечении признаков:

  • ResNet (Residual Networks): Ввел остаточные связи, чтобы можно было обучать гораздо более глубокие сети, решая проблему исчезающего градиента.(Работа: arXiv:1512.03385).
  • VGG: известен своей простой и единообразной архитектурой, использующей небольшие (3x3) конволюционные фильтры.(Работа: arXiv:1409.1556).
  • MobileNet: Разработан для мобильных и встраиваемых приложений технического зрения, ориентированных на эффективность и низкую задержку.(Работа: arXiv:1704.04861).
  • EfficientNet: Использует метод составного масштабирования для равномерного изменения глубины, ширины и разрешения сети для достижения оптимальной эффективности.(Статья: arXiv:1905.11946).
  • Vision Transformers (ViT): Применяет архитектуру Transformer, изначально успешную в NLP, непосредственно к последовательностям патчей изображений.(Работа: arXiv:2010.11929).
  • CSPDarknet: Вариант даркнета, включающий в себя сети Cross Stage Partial, эффективно используется в таких моделях, как Ultralytics YOLOv5 и более поздних версиях, балансирующих между скоростью и точностью.

Выбор магистрали существенно влияет на характеристики производительности модели, включая скорость, стоимость вычислений(FLOPs) и точность, что подтверждается различными сравнениями моделей. Такие фреймворки, как PyTorch и TensorFlowнаряду с такими библиотеками, как OpenCV, являются важнейшими инструментами для реализации и использования этих основ. Платформы вроде Ultralytics HUB еще больше упрощают процесс использования моделей с разными основами.

Отличай Backbone от смежных терминов

Важно не путать костяк со всей нейросетью или другими специфическими компонентами:

  • Вся нейронная сеть: Магистраль - это всего лишь одна часть, как правило, начальная часть извлечения признаков, в архитектуре более крупной сети. Полная сеть также включает в себя шею и голову (головы), отвечающие за предсказания, специфичные для конкретной задачи.
  • Голова обнаружения: это конечная часть модели обнаружения объектов, которая принимает признаки (часто обрабатываемые и позвоночником, и шеей) и выдает координаты ограничительной рамки и вероятности классов. Она специфична для конкретной задачи, в отличие от более универсального хребта.
  • Экстрактор признаков: Хотя хребет - это экстрактор признаков, термин "экстрактор признаков" иногда может относиться к любой части сети, которая извлекает признаки, или даже к отдельным алгоритмам извлечения признаков, не относящимся к глубокому обучению (например, SIFT или HOG). В контексте современных архитектур глубокого обучения, таких как Ultralytics YOLO, под "основой" подразумевается именно начальная конволюционная база.

Применение в реальном мире

Магистрали являются фундаментальными компонентами в бесчисленных приложениях искусственного интеллекта:

  1. Автономное вождение: Системы, используемые в самоуправляемых автомобилях, в значительной степени полагаются на надежные магистрали (например, варианты ResNet или EfficientNet) для обработки данных, поступающих с камер и датчиков LiDAR. Извлеченные характеристики позволяют обнаруживать и классифицировать транспортные средства, пешеходов, светофоры и линии движения, что очень важно для безопасной навигации и принятия решений, как это показано в системах, разработанных такими компаниями, как Waymo.
  2. Анализ медицинских изображений: В решениях ИИ для здравоохранения магистрали используются для анализа медицинских снимков, таких как рентгеновские, компьютерные или магнитно-резонансные томографы. Например, такая магистраль, как DenseNet, может извлекать особенности из рентгеновского снимка грудной клетки, чтобы помочь обнаружить признаки пневмонии, или из компьютерной томографии, чтобы выявить потенциальные опухоли(соответствующее исследование в Radiology: AI). Это помогает радиологам в диагностике и планировании лечения. Ultralytics модели, такие как YOLO11 могут быть адаптированы для решения таких задач, как обнаружение опухолей, за счет использования мощных магистралей.
Читать полностью