Узнайте, как якорные ящики позволяют обнаруживать объекты на основе якорей, использовать прайоры для классификации, регрессии и NMS, что находит применение в автономном вождении и розничной торговле.
Якорные ящики являются основополагающим компонентом многих моделей обнаружения объектов, основанных на якорях, и представляют собой предопределенный набор опорных ящиков с определенной высотой и шириной. Эти ящики выступают в роли предикторов, или обоснованных предположений, о потенциальном расположении и масштабе объектов на изображении. Вместо того чтобы искать объекты вслепую, модели используют эти якоря в качестве отправных точек, прогнозируя смещения для уточнения их положения и размера в соответствии с реальными объектами. Такой подход превращает сложную задачу локализации объектов в более управляемую проблему регрессии, где модель учится корректировать эти шаблоны, а не генерировать коробки с нуля.
Основной механизм заключается в том, что изображение покрывается плотной сеткой якорных ящиков, расположенных в разных местах. В каждой позиции используется несколько якорей с разным масштабом и соотношением сторон, чтобы обеспечить эффективное обнаружение объектов различных форм и размеров. В процессе обучения модели основная часть детектора сначала извлекает карту признаков из входного изображения. Затем головка обнаружения использует эти признаки для выполнения двух задач для каждого якорного блока:
Модель использует такие метрики, как Intersection over Union (IoU), чтобы определить, какие якорные ящики лучше всего соответствуют наземным объектам во время обучения. После предсказания применяется этап постобработки под названием Non-Maximum Suppression (NMS) для устранения избыточных и перекрывающихся боксов для одного и того же объекта.
В компьютерном зрении важно отличать якорные ящики от смежных терминов:
Структурированный подход к якорным ящикам делает их эффективными в сценариях, где объекты имеют предсказуемые формы и размеры.
Эти модели обычно разрабатываются с помощью мощных фреймворков глубокого обучения, таких как PyTorch и TensorFlow. Для продолжения обучения такие платформы, как DeepLearning.AI, предлагают комплексные курсы по основам компьютерного зрения.