Узнайте о точках Accuracy, Precision и Recall в машинном обучении. Изучите матрицу запутанности, оценку F1 и то, как использовать эти важные показатели оценки.

Узнайте о точках Accuracy, Precision и Recall в машинном обучении. Изучите матрицу запутанности, оценку F1 и то, как использовать эти важные показатели оценки.
Машинное обучение (ML) - это направление искусственного интеллекта (ИИ), которое занимается созданием систем, обучающихся на основе данных. Оно играет центральную роль во многих других областях ИИ, включая компьютерное зрение, где машины интерпретируют изображения, и обработку естественного языка, где они понимают и генерируют человеческую речь.
Часто такие модели ИИ используют методы глубокого обучения для прогнозирования на основе данных. Хотя такие системы могут быть очень эффективными, они не всегда дают правильные прогнозы. Некоторые результаты могут быть точными, а другие не попадают в цель.
Знание того, как возникают эти ошибки, является ключевой частью оценки того, насколько хорошо работает модель. Для измерения эффективности мы можем использовать метрики оценки модели.
К общим показателям оценки относятся точность (общая корректность), точность (надежность положительных предсказаний) и отзыв (насколько хорошо модель выявляет реальные положительные результаты). На первый взгляд они могут показаться похожими, но каждый из них фокусируется на разных аспектах поведения модели.
В этой статье мы подробно рассмотрим каждый из этих показателей производительности моделей ИИ. Мы также рассмотрим, как они связаны друг с другом и как выбрать правильную для вашего случая использования. Давайте начнем!
Поначалу может показаться, что модель машинного обучения работает хорошо. Но без правильных оценочных показателей трудно понять, насколько точны ее результаты. Эти метрики придают структуру оценке модели и помогают ответить на ключевой вопрос: Являются ли предсказания модели полезными и надежными для данной задачи?
Такие метрики, как точность, прецизионность и отзыв, дают разработчикам ИИ четкий способ оценить, насколько хорошо работает модель. Например, при сравнении различных моделей эти метрики позволяют увидеть, какая из них лучше всего справляется с конкретной задачей. Они помогают оценить производительность и выбрать модель, которая лучше всего соответствует целям проекта ИИ.
Эти метрики также делают сравнение производительности более объективным. Вместо того чтобы полагаться на догадки или неполные наблюдения, они дают измеримое представление о том, как модель ведет себя в различных ситуациях. Таким образом, они показывают, какие аспекты производительности наиболее важны в каждом контексте.
Например, выбор метрики часто зависит от области применения. В приложениях ИИ для здравоохранения важен показатель recall, поскольку цель состоит в том, чтобы выявить как можно больше положительных случаев, даже если некоторые отрицательные случаи будут ошибочно отмечены. В отличие от этого, фильтр почтового спама может отдавать предпочтение точности, чтобы избежать ошибочного определения легитимных писем как спама.
Матрица путаницы - это таблица два на два, которая является основой для оценки моделей ИИ. Она распределяет предсказания по четырем категориям, сравнивая фактические и предсказанные результаты (ответы, которые дает модель).
Это сравнение дает подробное представление о производительности модели. Оно служит основой для ключевых оценочных показателей, таких как точность и отзыв, которые рассчитываются непосредственно на основе значений в матрице.
В строках таблицы представлены фактические классы, а в столбцах - прогнозируемые классы. Каждая ячейка показывает количество исходов в данной категории. Проще говоря, здесь показано, сколько предсказаний было верным и какие ошибки допустила модель.
Матрица путаницы особенно полезна, когда данные несбалансированы, то есть некоторые категории имеют гораздо больше примеров, чем другие. Она также полезна, когда разные типы ошибок имеют разную стоимость.
Например, при выявлении мошенничества очень важно уловить мошеннические действия, но неправильная пометка реальных транзакций также может привести к проблемам. Матрица позволяет понять, как часто происходят ошибки каждого типа.
Вот обзор различных элементов матрицы путаницы:
Матрица путаницы отображается в виде сетки. По вертикальной оси отображаются реальные классы, а по горизонтальной - предсказанные. Правильные предсказания отображаются по диагонали, представляя собой истинно положительные и истинно отрицательные результаты.
Ошибки выходят за пределы диагонали, охватывая ложноположительные и ложноотрицательные результаты. Такая структура позволяет легко выявить сильные и слабые стороны.
Точность - одна из самых распространенных метрик для оценки эффективности работы модели машинного обучения. Она измеряет, насколько часто прогнозы оказываются верными для всех классов. Другими словами, она отвечает на простой вопрос: Сколько из всех предсказаний, сделанных моделью ИИ, оказались верными?
Формула точности - это количество правильных предсказаний (включающих как истинно положительные, так и истинно отрицательные результаты), деленное на общее количество предсказаний. Точность легко вычислить и легко понять, что делает ее общей отправной точкой при оценке модели.
Как правило, точность надежна при работе со сбалансированными наборами данных. Однако точность часто может вводить в заблуждение в несбалансированных наборах данных, где один класс доминирует над другими. Модель, которая всегда предсказывает класс большинства, может получить высокую точность, но при этом не обнаружить другие классы меньшинства.
Например, в наборе данных изображений, где только несколько изображений содержат пешеходов, модель, предсказывающая "нет пешехода" для каждого изображения, может достичь высокой точности, но полностью не обнаружить реальных пешеходов.
Это связано с тем, что точность сама по себе не показывает, какие ошибки допускает модель и как часто они происходят. Вот почему важно также смотреть на такие показатели, как точность и отзыв, чтобы полностью понять, насколько хорошо работает модель ИИ.
Точность - это ключевая метрика оценки, которая измеряет точность положительных предсказаний модели. Она отвечает на вопрос: Сколько из всех экземпляров, предсказанных как положительные, были правильными?
Формула точности - это количество истинно положительных результатов, деленное на сумму истинно положительных и ложноположительных результатов. Это особенно важно, когда положительное предсказание будет стоить дорого, если окажется неверным.
Например, при обнаружении мошенничества модель с низкой точностью может помечать многие действительные транзакции как мошеннические, создавая ненужные проблемы как для пользователей, так и для службы поддержки. Модель с высокой точностью снижает этот риск, поскольку гарантирует, что отмеченные транзакции с большей вероятностью окажутся настоящим мошенничеством.
Высокая точность - это хорошо, но модели, которые уделяют ей слишком много внимания, могут стать очень избирательными, пропуская реальные положительные случаи. Поэтому метрику точности часто проверяют вместе с показателем recall, чтобы поддерживать сбалансированную производительность.
Recall - это метрика, которая используется для измерения того, насколько хорошо модель идентифицирует реальные положительные случаи. Она известна как чувствительность или показатель истинных положительных результатов и отвечает на вопрос: Сколько из всех реальных положительных случаев модель определила правильно?
Формула для запоминания - это количество истинных положительных результатов, деленное на сумму истинных положительных и ложноотрицательных результатов. Высокий показатель recall показывает, что модель улавливает большинство реальных положительных случаев в данных.
Отзыв крайне важен в таких отраслях, как здравоохранение, где неспособность обнаружить заболевание может привести к задержке лечения и подвергнуть пациентов риску. Даже если некоторые негативные случаи будут неправильно отмечены, выявление всех истинных случаев остается первоочередной задачей.
Однако модели, ориентированные только на запоминание, могут фиксировать слишком много ложных срабатываний, что снижает точность и ухудшает общую эффективность модели. Баланс между запоминанием и точностью очень важен для надежной работы модели ИИ.
Точность и отзыв часто движутся в противоположных направлениях. Когда одна из них улучшается, другая может снижаться. Такой компромисс является общей проблемой в задачах машинного обучения.
Высокоточная модель предсказывает что-то как положительное только тогда, когда она уверена в этом. Это снижает количество ложных срабатываний, но может пропустить реальные положительные результаты, что снижает запоминаемость. Модель, которая пытается уловить каждое положительное срабатывание, повышает отзыв, но рискует получить больше ложных срабатываний, что снижает точность.
Этот компромисс становится более понятным, когда вы настраиваете порог принятия решения в модели. Порог - это граница, которую система использует для превращения оценки или вероятности в действие или метку. Понижение порога заставляет систему чаще действовать положительно, что может повысить запоминаемость, но может снизить точность. Повышение порога имеет обратный эффект: модель предсказывает меньше положительных результатов, точность повышается, но запоминаемость обычно падает.
Допустим, вы работаете над обнаружением спама. Модель должна балансировать между риском попадания спама во входящие и риском блокировки реальных писем. Строгий фильтр может пропустить некоторое количество спама, в то время как более мягкий фильтр может случайно заблокировать легитимные сообщения. Правильный баланс зависит от конкретного случая использования и стоимости каждого типа ошибок.
Кривая "точность-отзыв" или кривая PR показывает, как меняются точность и отзыв при изменении порога принятия решения в модели. Каждая точка представляет собой компромисс между этими двумя показателями. Кривая PR особенно полезна для несбалансированных наборов данных, где один класс встречается гораздо реже другого.
Она также дает более полное представление, чем кривая операционной характеристики получателя (ROC), которая также показывает, насколько хорошо модель отделяет положительные результаты от отрицательных при различных порогах принятия решения. Модель с высокой точностью и высоким показателем recall будет иметь кривую precision-recall, которая находится вблизи правого верхнего угла, что, как правило, является идеальным вариантом.
F1-score - это единое значение, отражающее баланс между точностью и отзывом. F1-score рассчитывается как двукратное произведение precision и recall, деленное на сумму precision и recall. Он полезен, когда важны как ложноположительные, так и ложноотрицательные результаты, а также при работе с несбалансированными наборами данных или когда необходимо получить сбалансированное представление о производительности модели.
В то время как точность, прецизионность и отзыв являются важнейшими показателями, другие метрики дают дополнительные сведения в зависимости от типа модели и характеристик набора данных.
Вот несколько часто используемых показателей, которые помогают оценить различные аспекты производительности:
Теперь, когда у нас есть более четкое понимание точности, прецизионности и запоминания, давайте рассмотрим, как эти метрики применяются в компьютерном зрении.
Модели компьютерного зрения, подобные Ultralytics YOLO11, поддерживают такие задачи, как обнаружение объектов, когда модель определяет, какие объекты присутствуют на изображении, и определяет их местоположение с помощью ограничительных рамок. Каждое предсказание включает в себя как метку объекта, так и его положение, что делает оценку более сложной, чем простая проверка правильности метки.
Рассмотрим приложение для розничной торговли, в котором камеры используются для автоматического отслеживания товаров на полках. Модель обнаружения объектов может идентифицировать такие предметы, как коробки с хлопьями, банки с газировкой или бутылки с водой, и отмечать их положение.
В данном случае точность говорит о том, сколько из обнаруженных предметов на самом деле являются правильными. Высокая точность означает, что система избегает ложных срабатываний, таких как определение тени или фонового объекта как товара. Recall показывает, сколько реальных товаров на полке удалось обнаружить модели. Высокая точность означает, что меньше товаров пропущено, что очень важно для точного подсчета запасов.
Точность все еще может служить общей мерой правильности, но в таких условиях пропуск даже нескольких товаров или обнаружение товаров, которых там нет, может сильно повлиять на управление запасами. Именно поэтому разработчики рассматривают точность, отзыв и погрешность вместе, чтобы убедиться, что система надежна и практична для использования в реальных условиях.
Точность, точность и отзыв отражают различные аспекты работы модели машинного обучения. Полагаясь только на одну метрику, можно ввести в заблуждение.
Такие инструменты и метрики, как матрица путаницы, кривые "точность-отдача" и F1-score, помогают выявить компромиссы и принять решение о внесении улучшений в модель ИИ. Выбрав правильную комбинацию метрик для конкретного решения ИИ, вы сможете обеспечить точность, надежность и эффективность моделей в реальных приложениях.
Познакомьтесь с нашим растущим сообществом! Ознакомьтесь с нашим репозиторием GitHub, чтобы узнать больше об искусственном интеллекте. Готовы начать работу над проектами в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Откройте для себя ИИ в сельском хозяйстве и ИИ зрения в робототехнике, посетив страницы наших решений!