Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Машинное обучение (ML) — это раздел искусственного интеллекта (AI), который фокусируется на создании систем, которые учатся на данных. Оно играет центральную роль во многих других областях ИИ, включая компьютерное зрение, где машины интерпретируют изображения, и обработку естественного языка, где они понимают и генерируют человеческий язык.
Часто такие модели ИИ используют методы глубокого обучения для прогнозирования на основе данных. Хотя такие системы могут быть весьма эффективными, они не всегда выдают верные прогнозы. Некоторые результаты могут быть точными, а другие — нет.
Понимание того, как возникают эти ошибки, является ключевым аспектом оценки эффективности модели. Для измерения производительности мы можем использовать метрики оценки модели.
К общим метрикам оценки относятся точность (общая правильность), прецизионность (надежность положительных прогнозов) и полнота (насколько хорошо модель идентифицирует фактические положительные результаты). На первый взгляд они могут показаться похожими, но каждая из них фокусируется на разных аспектах поведения модели.
В этой статье мы подробно рассмотрим каждую из этих метрик производительности AI-моделей. Мы также изучим, как они связаны друг с другом, и как выбрать подходящую для вашего варианта использования. Начнем!
Метрики оценки модели имеют значение в машинном обучении
На первый взгляд может показаться, что модель машинного обучения работает хорошо. Но без правильных метрик оценки трудно понять, насколько точны ее результаты. Эти метрики структурируют оценку модели и помогают ответить на ключевой вопрос: полезны и надежны ли прогнозы модели для данной задачи?
Метрики, такие как точность, прецизионность и полнота, дают разработчикам ИИ четкий способ измерить, насколько хорошо работает модель. Например, при сравнении различных моделей эти метрики позволяют увидеть, какая из них лучше всего подходит для конкретной задачи. Они помогают оценить производительность и выбрать модель, которая лучше всего соответствует целям проекта ИИ.
Рис. 1. Рабочий процесс обучения и оценки модели (Источник)
Эти метрики также делают сравнение производительности более объективным. Вместо того чтобы полагаться на догадки или неполные наблюдения, они предоставляют измеримые сведения о том, как модель ведет себя в различных ситуациях. Тем самым они выделяют те аспекты производительности, которые наиболее важны в каждом контексте.
Например, выбор метрики часто зависит от приложения. В приложениях ИИ для здравоохранения важна полнота, поскольку цель состоит в том, чтобы выявить как можно больше положительных случаев, даже если некоторые отрицательные случаи ошибочно помечены. В отличие от этого, фильтр спама электронной почты может отдавать приоритет точности, чтобы избежать ошибочной пометки законных писем как спама.
Матрица ошибок: основа метрик классификации
Матрица ошибок – это таблица два на два, которая имеет основополагающее значение для оценки моделей ИИ. Она организует прогнозы по четырем категориям, сравнивая фактические результаты с прогнозируемыми результатами (ответами, которые дает модель).
Это сравнение дает детальное представление о производительности модели. Оно является основой для ключевых метрик оценки, таких как точность и полнота, которые рассчитываются непосредственно из значений в матрице.
Строки таблицы представляют фактические классы, а столбцы — предсказанные классы. Каждая ячейка показывает количество результатов в этой категории. Проще говоря, она показывает, сколько прогнозов было правильным, и типы ошибок, которые сделала модель.
Матрица ошибок особенно полезна, когда данные несбалансированы, то есть в некоторых категориях гораздо больше примеров, чем в других. Она также полезна, когда разные типы ошибок имеют разную цену.
Например, при обнаружении мошенничества выявление мошеннических действий имеет решающее значение, но неправильная пометка реальных транзакций также может вызвать проблемы. Матрица дает четкое представление о том, как часто происходит каждый тип ошибки.
Элементы матрицы ошибок
Вот обзор различных элементов матрицы ошибок:
Истинно положительный результат (TP): Когда модель правильно предсказывает положительный случай, это регистрируется как истинно положительный результат. Например, модель компьютерного зрения правильно классифицирует транспортное средство на изображении.
Истинно отрицательный (TN): Истинно отрицательный результат возникает, когда модель правильно идентифицирует отрицательный экземпляр. Например, классификатор электронной почты помечает обычное сообщение как не спам.
Ложноположительный результат (FP): Модель генерирует ложноположительный результат, когда она ошибочно предсказывает положительный исход для экземпляра, который на самом деле является отрицательным. Также известен как ошибка первого рода; это может произойти, когда система обнаружения мошенничества помечает действительную транзакцию как мошенническую.
Ложноотрицательный результат (FN): Ложноотрицательный результат регистрируется, когда модель не обнаруживает положительный случай и ошибочно предсказывает его как отрицательный. Также называется ошибкой второго рода; это может произойти, когда диагностический инструмент пропускает заболевание у пациента, который на самом деле болен.
Визуальное представление и интерпретация матрицы ошибок
Матрица ошибок отображается в виде сетки. По вертикальной оси указаны фактические классы, а по горизонтальной – прогнозируемые. Правильные прогнозы отображаются по диагонали, представляя истинно положительные и истинно отрицательные результаты.
Ошибки находятся за пределами диагонали, охватывая ложноположительные и ложноотрицательные результаты. Такая структура позволяет легко выявлять сильные и слабые стороны.
Что такое точность в машинном обучении?
Точность - одна из наиболее широко используемых метрик для оценки эффективности модели машинного обучения. Она измеряет, как часто прогнозы оказываются верными для всех классов. Другими словами, она отвечает на простой вопрос: из всех прогнозов, сделанных моделью ИИ, сколько было правильных?
Формула точности — это количество правильных прогнозов (которое включает как истинно положительные, так и истинно отрицательные результаты), деленное на общее количество прогнозов. Точность проста в вычислении и легка для понимания, что делает ее распространенной отправной точкой в оценке модели.
Как правило, точность является надежной при работе со сбалансированными наборами данных. Однако точность часто может вводить в заблуждение в несбалансированных наборах данных, где один класс доминирует над другими. Модель, которая всегда предсказывает класс большинства, все равно может достичь высокого показателя точности, не обнаруживая при этом другие классы меньшинства.
Например, в наборе данных изображений, где лишь на нескольких изображениях есть пешеходы, модель, которая предсказывает «нет пешехода» для каждого изображения, все равно может достичь высокой точности, но полностью не сможет обнаружить фактических пешеходов.
Это связано с тем, что точность сама по себе не показывает, какие ошибки делает модель и как часто они происходят. Вот почему важно также смотреть на такие метрики, как точность (precision) и полнота (recall), чтобы полностью понять, насколько хорошо работает модель ИИ.
Глубокое погружение в точность: минимизация ложных срабатываний
Точность (Precision) — это ключевая метрика оценки, которая измеряет точность положительных прогнозов модели. Она отвечает на вопрос:Из всех экземпляров, предсказанных как положительные, сколько было правильных?
Формула точности — это количество истинно положительных результатов, деленное на сумму истинно положительных и ложноположительных результатов. Это особенно важно, когда положительный прогноз может оказаться дорогостоящим, если он окажется неверным.
Рис. 3. Сравнение точности и прецизионности. (Источник)
Например, при обнаружении мошенничества модель с низкой точностью может пометить многие действительные транзакции как мошеннические, создавая ненужные проблемы как для пользователей, так и для групп поддержки. Модель с высокой точностью снижает этот риск, гарантируя, что помеченные транзакции с большей вероятностью будут фактическим мошенничеством.
Хотя высокая точность — это хорошо, модели, которые слишком сильно на ней фокусируются, могут стать очень избирательными, пропуская фактические положительные случаи. Вот почему метрика точности часто проверяется вместе с полнотой, чтобы поддерживать сбалансированную производительность.
Что такое полнота?
Полнота (Recall) — это метрика, используемая для измерения того, насколько хорошо модель идентифицирует фактические положительные случаи. Она известна как чувствительность или частота истинно положительных результатов и отвечает на вопрос: Из всех фактических положительных экземпляров, сколько модель обнаружила правильно?
Формула полноты — это количество истинно положительных результатов, деленное на сумму истинно положительных и ложно отрицательных результатов. Высокий показатель полноты показывает, что модель фиксирует большинство реальных положительных случаев в данных.
Полнота (Recall) имеет важное значение в таких отраслях, как здравоохранение, где необнаружение заболевания может привести к задержке лечения и поставить под угрозу здоровье пациентов. Даже если некоторые отрицательные случаи будут ошибочно помечены, выявление всех истинных случаев остается главным приоритетом.
Однако модели, которые фокусируются только на полноте, могут отмечать слишком много ложных срабатываний, что снижает точность и ухудшает общую эффективность модели. Баланс между полнотой и точностью имеет решающее значение для надежной работы моделей ИИ.
Балансировка: компромисс между точностью и полнотой
Точность и полнота часто движутся в противоположных направлениях. Когда один показатель улучшается, другой может ухудшиться. Этот компромисс является распространенной проблемой в задачах машинного обучения.
Высокоточная модель прогнозирует что-то как положительное только тогда, когда она уверена. Это уменьшает количество ложных срабатываний, но может пропустить реальные положительные результаты, что снижает полноту. Модель, которая пытается поймать каждый положительный результат, повышает полноту, но рискует получить больше ложных срабатываний, что снижает точность.
Этот компромисс становится более очевидным при регулировке порога принятия решений модели. Порог — это отсечка, которую система использует для преобразования оценки или вероятности в действие или метку. Снижение порога заставляет систему действовать положительно чаще, что может увеличить полноту, но может снизить точность. Повышение порога имеет противоположный эффект: модель предсказывает меньше положительных результатов, точность улучшается, но полнота обычно падает.
Предположим, вы работаете над обнаружением спама. Модель должна сбалансировать риск попадания спама во входящие с риском блокировки реальных писем. Строгий фильтр все еще может пропускать некоторый спам, в то время как более мягкий может случайно заблокировать законные сообщения. Правильный баланс зависит от варианта использования и стоимости каждого типа ошибки.
Значение кривой точности-полноты
Кривая точности-полноты или PR-кривая показывает, как изменяются точность и полнота при изменении порога принятия решений модели. Каждая точка представляет собой различный компромисс между этими двумя параметрами. PR-кривая особенно полезна для несбалансированных наборов данных, где один класс встречается гораздо реже.
Он также предоставляет более значимую информацию, чем ROC-кривая (Receiver Operating Characteristic), которая также показывает, насколько хорошо модель отделяет положительные результаты от отрицательных при различных пороговых значениях принятия решений. Модель с высокой точностью и полнотой будет иметь кривую точности-полноты, которая остается вблизи верхнего правого угла, что обычно является идеальным.
Представляем F1-score: комбинированную метрику для баланса
F1-мера предоставляет единое значение, которое отражает баланс между точностью и полнотой. F1-мера рассчитывается как удвоенное произведение точности и полноты, деленное на сумму точности и полноты. Она полезна, когда важны как ложноположительные, так и ложноотрицательные результаты, а также при работе с несбалансированными наборами данных или когда требуется сбалансированное представление о производительности модели.
Рис. 4. Расчет F1-меры с использованием точности и полноты (Источник)
Помимо точности, прецизионности и полноты
Хотя точность, прецизионность и полнота важны, другие метрики предлагают дополнительные сведения, основанные на типе модели и характеристиках набора данных.
Вот некоторые часто используемые метрики, которые помогают оценить различные аспекты производительности:
Специфичность: Она измеряет, насколько хорошо модель идентифицирует фактические отрицательные результаты. Это полезно, когда важно избегать ложных срабатываний.
AUC: AUC, или Area Under the Curve (Площадь под кривой), дает единую оценку, которая отражает, насколько хорошо модель может различать классы.
Log loss (логарифмическая потеря): Log loss используется для измерения уверенности модели при прогнозировании и больше штрафует за неправильные прогнозы, сделанные с высокой уверенностью. Здесь уверенность относится к тому, насколько модель уверена в своем прогнозе.
Оценка нескольких меток: В задачах с несколькими метками метрики усредняются по меткам, чтобы отразить общую производительность модели.
Применение точности, прецизионности и полноты в компьютерном зрении
Теперь, когда у нас есть более четкое понимание точности, прецизионности и полноты, давайте рассмотрим, как эти метрики применяются в компьютерном зрении.
Модели компьютерного зрения, такие как Ultralytics YOLO11, поддерживают такие задачи, как обнаружение объектов, когда модель определяет, какие объекты присутствуют на изображении, и определяет их местоположение с помощью ограничивающих рамок. Каждый прогноз включает в себя как метку объекта, так и его положение, что делает оценку более сложной, чем просто проверка правильности метки.
Рис. 5. Пример использования Ultralytics YOLO11 для обнаружения объектов. (Источник)
Рассмотрим розничное приложение, в котором камеры используются для автоматического отслеживания товаров на полках. Модель обнаружения объектов может идентифицировать такие предметы, как коробки с хлопьями, банки с газировкой или бутылки с водой, и отмечать их положение.
В этом случае точность показывает, сколько из обнаруженных элементов действительно верны. Высокая точность означает, что система избегает ложных срабатываний, таких как маркировка тени или фонового объекта как продукта. Полнота показывает, сколько реальных продуктов на полке модель смогла обнаружить. Высокая полнота означает, что меньше элементов будет пропущено, что критически важно для точного подсчета запасов.
Точность по-прежнему может служить общей мерой правильности, но в подобных условиях даже небольшое количество пропущенных товаров или обнаружение несуществующих может оказать существенное влияние на управление запасами. Поэтому разработчики рассматривают точность (precision), полноту (recall) и достоверность (accuracy) вместе, чтобы убедиться, что система надежна и практична для реального использования.
Точность, прецизионность и полнота: основные выводы
Точность, прецизионность и полнота демонстрируют различные аспекты производительности модели машинного обучения. Опора только на одну метрику может ввести в заблуждение.
Такие инструменты и метрики, как матрица ошибок, кривые точности-полноты и F1-мера, помогают выявить компромиссы и принять решения по улучшению модели машинного обучения. Выбирая правильную комбинацию метрик для конкретного решения ИИ, вы можете обеспечить точность, надежность и эффективность моделей в реальных приложениях.