Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Достоверность

Определение оценок достоверности ИИ. Узнайте, как модели оценивают достоверность прогнозов, устанавливают пороговые значения для надежности и отличают достоверность от точности.

В машинном обучении оценка достоверности — это числовое значение, присваиваемое отдельному прогнозу, указывающее на уверенность модели в том, что прогноз верен. Выраженная в процентах или в виде значения вероятности от 0 до 1, она количественно определяет «веру» модели в свой собственный результат для отдельного экземпляра. Например, в задаче обнаружения объектов модель, такая как Ultralytics YOLO11, может идентифицировать автомобиль на изображении и присвоить оценку достоверности 0,95 (или 95%), предполагая, что она очень уверена в своем выводе. Эта оценка является важным выходным параметром, который помогает пользователям фильтровать, приоритизировать и интерпретировать результаты модели в реальных сценариях.

Оценка достоверности обычно получается из выходных данных последнего слоя нейронной сети (NN), часто функции softmax или сигмоиды. Это значение играет важную роль в практических приложениях, где устанавливается порог достоверности для отбрасывания прогнозов, которые падают ниже определенного уровня уверенности. Регулируя этот порог, разработчики могут сбалансировать компромисс между захватом всех релевантных обнаружений и минимизацией ложных срабатываний, что является ключевым фактором при развертывании модели.

Применение в реальном мире

Оценки достоверности необходимы для повышения надежности и практичности систем искусственного интеллекта. Они позволяют системам оценивать неопределенность и соответственно запускать различные реакции.

  • Автономные транспортные средства: В автомобилях с автоматическим управлением показатели уверенности имеют жизненно важное значение для безопасности. Детектор объектов может идентифицировать пешехода с уверенностью 98%, что является четким сигналом для автомобиля замедлить ход или остановиться. И наоборот, если он обнаруживает объект с уверенностью всего 30%, система может пометить его как неопределенный и использовать другие датчики для проверки его природы, прежде чем предпринимать какие-либо действия. Это помогает предотвратить несчастные случаи, сосредотачиваясь на угрозах с высокой степенью уверенности. Подробнее об этом можно прочитать в статье о роли ИИ в самоуправляемых автомобилях.
  • Анализ медицинских изображений: Когда модель ИИ анализирует медицинские снимки на наличие признаков заболевания, например, обнаруживает опухоли на медицинских изображениях, оценка достоверности имеет неоценимое значение. Обнаружение с 99% уверенностью может быть немедленно отмечено для просмотра радиологом. Результат с 60% уверенностью может быть помечен как "неоднозначный" или "требующий дальнейшего рассмотрения", что гарантирует, что сомнительные случаи будут подвергнуты проверке человеком, не перегружая экспертов ложными тревогами. FDA предоставляет рекомендации по использованию ИИ/МО в медицинских устройствах.

Достоверность в сравнении с другими метриками

Важно не путать оценку достоверности отдельного предсказания с общими метриками оценки модели. Хотя они и связаны, они измеряют разные аспекты производительности:

  • Точность: Измеряет общий процент правильных предсказаний по всему набору данных. Она дает общее представление о работе модели, но не отражает достоверность отдельных предсказаний. Модель может иметь высокую точность, но при этом делать некоторые предсказания с низкой уверенностью.
  • Точность: Указывает на долю положительных предсказаний, которые были действительно верными. Высокая точность означает меньшее количество ложных срабатываний. Уверенность отражает веру модели в свое предсказание, которая может совпадать или не совпадать с правильностью.
  • Отзыв (чувствительность): Измеряет долю реальных положительных случаев, которые модель правильно идентифицировала. Высокий показатель recall означает меньшее количество пропущенных обнаружений. Уверенность не имеет прямого отношения к количеству найденных положительных результатов.
  • F1-Score: Среднее гармоническое значение Precision и Recall, представляющее собой единую метрику, которая уравновешивает оба показателя. Уверенность остается показателем уровня предсказания, а не совокупной мерой эффективности модели.
  • Средняя точность (mAP): Общая метрика для обнаружения объектов, которая обобщает кривую "точность-отзыв" для различных порогов уверенности и классов. В то время как при расчете mAP используются пороги уверенности, сама оценка уверенности применяется к каждому отдельному обнаружению.
  • Калибровка: Относится к тому, насколько хорошо оценки достоверности соответствуют фактической вероятности правильности. Прогнозы хорошо откалиброванной модели с 80% уверенностью должны быть правильными примерно в 80% случаев. Оценки достоверности современных нейронных сетей не всегда хорошо откалиброваны, как обсуждается в исследованиях по калибровке моделей.

В заключение, уверенность является ценным результатом для оценки достоверности отдельных прогнозов ИИ, позволяя лучше фильтровать, приоритизировать и принимать решения в реальных приложениях. Она дополняет, но отличается от метрик, которые оценивают общую производительность модели, таких как те, которые вы можете отслеживать и анализировать с помощью инструментов, таких как Ultralytics HUB.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена