Глоссарий

Магистраль

Откройте для себя роль магистралей в глубоком обучении, изучите лучшие архитектуры, такие как ResNet и ViT, и узнайте об их реальных применениях в искусственном интеллекте.

Костяк - это основной компонент модели глубокого обучения, особенно в компьютерном зрении (CV). Он служит основной сетью извлечения признаков. Его основная задача - принимать исходные данные, например изображение, и преобразовывать их в набор высокоуровневых признаков, или карт признаков, которые могут быть использованы для решения последующих задач, таких как обнаружение объектов, сегментация изображений или классификация. Костяк можно рассматривать как часть нейронной сети (НС), которая учится "видеть" и понимать фундаментальные закономерности - края, текстуры, формы и объекты - в изображении.

Как работают спины

В качестве основы обычно используется глубокая конволюционная нейронная сеть (CNN), предварительно обученная на крупном наборе данных для классификации изображений, например ImageNet. Этот процесс предварительного обучения, представляющий собой форму трансферного обучения, учит сеть распознавать обширную библиотеку общих визуальных признаков. При создании модели для новой задачи разработчики часто используют эти предварительно обученные основы вместо того, чтобы начинать с нуля. Такой подход значительно сокращает время обучения и количество необходимых помеченных данных, при этом зачастую повышая производительность модели. Признаки, извлеченные опорной сетью, передаются в "шею" и "голову" сети, которые выполняют дальнейшую обработку и генерируют конечный результат. Выбор магистрали часто предполагает компромисс между точностью, размером модели и задержкой вывода, что очень важно для достижения производительности в реальном времени.

Общие магистральные архитектуры

С годами конструкция магистральных сетей развивалась, и каждая новая архитектура предлагала повышение эффективности и производительности. К наиболее влиятельным архитектурам магистральных сетей относятся:

  • Сети с остаточными функциями (ResNet): В моделях ResNet, разработанных Microsoft Research, используются "пропущенные соединения", позволяющие сети обучаться остаточным функциям. Это новшество позволило обучать гораздо более глубокие сети, не страдая от проблемы исчезающего градиента.
  • EfficientNet: Разработанное Google AI, это семейство моделей использует метод комбинированного масштабирования для равномерного балансирования глубины, ширины и разрешения сети. В результате получаются модели, которые одновременно отличаются высокой точностью и эффективностью вычислений.
  • Трансформатор зрения (ViT): Адаптируя успешную архитектуру Transformer из NLP к зрению, ViT рассматривают изображение как последовательность патчей и используют самовнимание для захвата глобального контекста, предлагая другой подход по сравнению с локальными рецептивными полями CNN.
  • CSPNet (Cross Stage Partial Network): Эта архитектура, описанная в оригинальной статье, улучшает обучение за счет интеграции карт признаков из начала и конца этапа сети, что улучшает градиентное распространение и уменьшает узкие места в вычислениях. Она является ключевым компонентом многих моделей Ultralytics YOLO.

Позвоночник против головы и шеи

В типичной архитектуре обнаружения объектов модель состоит из трех основных частей:

  1. Магистраль: Его роль заключается в извлечении признаков из входного изображения, создании карт признаков в различных масштабах.
  2. Шея: Этот компонент находится между позвоночником и головой. Он уточняет и агрегирует карты признаков, полученные от позвоночника, часто комбинируя признаки из разных слоев для создания более богатого представления. Частым примером является сеть пирамид признаков (FPN).
  3. Головка обнаружения: это последняя часть сети, которая получает уточненные характеристики от шеи и выполняет фактическую задачу обнаружения. Она предсказывает ограничительные рамки, метки классов и баллы доверия для объектов на изображении.

Таким образом, основа - это фундамент, на котором строится остальная часть модели обнаружения. Такие модели, как YOLOv8 и YOLO11, объединяют мощные основы для обеспечения высококачественного извлечения признаков, что является залогом их высочайшей производительности в различных задачах. Вы можете изучить различные сравнения моделей YOLO, чтобы увидеть, как выбор архитектуры влияет на производительность.

Применение в реальном мире

Магистрали являются основополагающими компонентами в бесчисленных приложениях искусственного интеллекта:

  1. Автономное вождение: Системы для самоуправляемых автомобилей в значительной степени полагаются на надежные магистрали (например, варианты ResNet или EfficientNet) для обработки данных, поступающих от камер и датчиков LiDAR. Извлеченные функции позволяют обнаруживать и классифицировать транспортные средства, пешеходов, светофоры и линии движения, что имеет решающее значение для безопасной навигации и принятия решений, как это показано в системах, разработанных такими компаниями, как Waymo.
  2. Анализ медицинских изображений: В решениях ИИ для здравоохранения магистрали используются для анализа медицинских снимков, таких как рентгеновские, компьютерные или магнитно-резонансные томографы. Например, такая магистраль, как DenseNet, может извлекать особенности из рентгеновского снимка грудной клетки, чтобы помочь обнаружить признаки пневмонии, или из компьютерной томографии, чтобы выявить потенциальные опухоли(соответствующее исследование в журнале Radiology: AI). Это помогает радиологам в диагностике и планировании лечения. Модели Ultralytics, такие как YOLO11, могут быть адаптированы для решения таких задач, как обнаружение опухолей, за счет использования мощных магистралей.

Вы можете упростить процесс использования мощной основы для собственных проектов с помощью таких платформ, как Ultralytics HUB, которая упрощает управление наборами данных и обучение пользовательских моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена