Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Настройки файлов cookie
Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Поймите, что такое межкорреспондентская надежность, каппа Коэна, ICC, обучение по ставкам и процентное согласие. Узнайте, как эти статистические показатели обеспечивают согласованность и согласие между наблюдателями при проведении исследований и анализе данных.
Когда вы создаете модель искусственного интеллекта, качество данных так же важно, как и алгоритмы, лежащие в их основе. Когда несколько человек маркируют или анализируют одни и те же данные, неизбежно возникают разногласия. Это справедливо для многих областей, включая научные исследования, здравоохранение и образование.
В частности, в компьютерном зрении- области искусственного интеллекта, которая предполагает обучение моделей, подобных Ultralytics YOLO11, интерпретации визуальных данных, таких как изображения или видео, - маркированные примеры играют решающую роль. Если эти метки непоследовательны, модели компьютерного зрения с трудом обучаются правильным паттернам.
Межкорреспондентская надежность (Inter-rater reliability, IRR) измеряет, насколько последовательно разные люди, или маркировщики, соглашаются с заданием. Это помогает контролировать согласованность и выявлять пробелы в обучении, рекомендациях или интерпретации. Это особенно важно при обучении пользовательских моделей, когда модели ИИ строятся на основе конкретных данных для определенной цели.
В этой статье мы рассмотрим, что такое межрейтинговая надежность, как ее измерить и как повысить в реальных проектах. Давайте начнем!
Что такое межрейтинговая надежность?
Межрейтинговая надежность измеряет, насколько часто два или более человека (также известные как рейтеры) соглашаются при маркировке, оценке или рецензировании одного и того же контента. Она используется для проверки того, насколько последовательно разные оценщики используют заданные критерии. Высокое согласие между оценщиками означает, что задача хорошо определена и четко понятна.
Это понятие используется в различных областях. В зависимости от области оно известно под разными названиями, такими как межкорреспондентское согласие, межсерверная надежность или межкодерная надежность. Однако основополагающий принцип остается неизменным.
В области искусственного интеллекта межкорреспондентская надежность является ключевой частью процесса маркировки данных. Обучение моделей компьютерного зрения часто требует маркировки огромных наборов данных изображений или видеокадров, поэтому несколько разработчиков ИИ работают над одними и теми же данными вместе.
Чтобы получить точные результаты, они должны следовать одним и тем же правилам маркировки. Например, при обозначении животных все должны четко договориться о том, что считать собакой, как рисовать вокруг нее ограничительную рамку и как обозначать или игнорировать размытые объекты.
Межрейтинговая и внутрирейтинговая надежность и надежность "тест-retest
Когда люди занимаются маркировкой или оценкой данных, необходимо учитывать три основных типа надежности. Каждый из них служит разным целям в измерении степени согласованности результатов. Вот более подробный обзор каждого из них:
Межрейтинговая надежность: Межрейтинговая надежность показывает, насколько согласны между собой разные люди, выполняющие одну и ту же задачу. Это особенно полезно, когда несколько аннотаторов участвуют в таких проектах, как маркировка изображений, анализ настроения или медицинские обзоры.
Внутрирейтинговая надежность: Она переносит фокус внимания на одного человека. Внутрирейтинговая надежность проверяет, остается ли рейтера последовательным при повторении одного и того же задания в разные моменты времени. Если оценки меняются слишком часто, это может быть результатом нечетких инструкций или недостаточной ясности задания.
Надежность "тест-ретест": Надежность при повторном тестировании зависит не от аннотатора, а от используемого инструмента или метода. Она измеряет, появляется ли один и тот же результат при повторном проведении теста в аналогичных условиях. Если результат остается неизменным, метод считается надежным.
В совокупности эти меры помогают подтвердить, что и люди, и процессы дают стабильные и надежные результаты.
Рис. 2. Обзор межрейтинговой, внутрирейтинговой и тестовой надежности (иллюстрация автора)
Почему важна межрейтинговая надежность?
В крупномасштабных проектах Vision AI качество маркированных данных напрямую влияет на эффективность работы модели. Даже небольшие различия в том, как аннотаторы применяют рекомендации, могут внести несоответствия, которые сбивают модель с толку во время обучения. Со временем это может привести к неточным прогнозам, напрасной трате ресурсов и необходимости дорогостоящего перемаркирования.
Измерение межрейтинговой надежности помогает выявить эти проблемы на ранней стадии. Высокое согласие означает, что аннотаторы работают согласованно, создавая более чистые и надежные наборы данных. Низкое согласие сигнализирует о том, что инструкции, примеры или обучение, возможно, нуждаются в доработке, прежде чем проект будет продвигаться вперед. Обеспечив согласованную работу маркировщиков, команды смогут создавать модели ИИ, которые будут обучаться более эффективно и давать лучшие результаты в реальных приложениях.
Практические соображения относительно межрейтинговой надежности
Вот несколько основных практических соображений, которые следует иметь в виду, работая с несколькими экспертами и стремясь поддерживать высокую межрейтинговую надежность:
Неоднозначные или субъективные задания: Когда маркировка предполагает интерпретацию, например, при решении вопроса о том, является ли размытый объект пешеходом, или при оценке качества изображения, несколько оценщиков помогают обеспечить последовательность решений и избежать чрезмерного влияния индивидуальных предубеждений.
Простые, объективные задачи: Такие простые задачи, как подсчет количества автомобилей на изображении или подтверждение наличия объекта, часто требуют только одного хорошо обученного эксперта, так как согласие обычно высокое, если процесс четко определен.
Четкие инструкции по маркировке: Подробные, легко выполнимые инструкции уменьшают неопределенность в применении этикеток, что улучшает согласие между экспертами. Руководства должны четко охватывать крайние случаи, чтобы избежать противоречивых интерпретаций.
Периодическое обучение и калибровка: Даже опытные оценщики могут со временем отклоняться в своих суждениях. Регулярные тренировки и калибровка помогают поддерживать последовательность и минимизировать предвзятость экспериментатора.
Показатели межрейтинговой надежности
Существует несколько способов измерения межрейтинговой надежности, и выбор оптимального зависит от типа данных и задачи. Некоторые методы хорошо подходят для одиночных оценщиков, отвечающих на простые вопросы "да-или-нет", в то время как другие разработаны для ситуаций с участием нескольких оценщиков.
К распространенным методам относятся процентное согласие, каппа Коэна, каппа Флейсса и коэффициент внутриклассовой корреляции. Каждый метод измеряет уровень согласия между оценщиками и учитывает возможность того, что некоторое согласие может быть случайным.
Каппа Коэна и каппа Флейса
Каппа Коэна - это широко используемый метод измерения межрейтинговой надежности двух оценщиков. Он рассчитывает, насколько часто они соглашаются с заданием, корректируя при этом возможность того, что некоторое согласие может быть случайным. Баллы варьируются от -1 до 1, при этом 1 означает полное согласие, а 0 - согласие не лучше, чем случайное предположение.
Аналогичным образом каппа Флейсса используется, когда в оценке участвуют более двух экспертов. Он дает общий балл, который показывает, насколько согласована группа. Оба метода используются для задач с заданными категориями, например для маркировки изображений или обозначения эмоций. Их легко рассчитать, и они поддерживаются большинством инструментов аннотирования.
Согласие в процентах и коэффициент внутриклассовой корреляции (ICC)
Другой способ измерения межрейтинговой надежности - процентное согласие, которое рассчитывает процентное соотношение случаев, когда рейтеры принимают одинаковое решение. Хотя этот способ прост в использовании, он не учитывает совпадения, которые могут возникнуть случайно.
Между тем, коэффициент внутриклассовой корреляции - это более продвинутый метод, используемый для непрерывных или основанных на шкале данных. Он измеряет степень согласованности оценок нескольких экспертов и часто применяется в исследованиях, где используются баллы, измерения или другие типы данных, выходящие за рамки фиксированных категорий.
Примеры и применение межкорреспондентской надежности
Теперь, когда мы лучше понимаем, как измерять межкорреспондентскую надежность, давайте рассмотрим, как эти методы могут быть использованы в реальных приложениях.
Межрейтинговая надежность при аннотировании медицинских изображений
Когда речь идет о медицинской визуализации, даже незначительные различия в интерпретации могут привести к значительным изменениям в результатах. Например, радиологов часто просят выявлять тонкие, неоднозначные или трудноопределимые закономерности. Когда эти паттерны становятся обучающими данными для систем искусственного интеллекта, ставки становятся еще выше. Если эксперты по-разному обозначат один и тот же снимок, модель может выучить неправильные паттерны или вообще не научиться.
Межрейтинговая надежность помогает командам, работающим с такими данными, оценить, насколько согласованными на самом деле являются суждения экспертов. Например, в недавнем исследовании, посвященном ОКТ-сканам сетчатки, два эксперта промаркировали 500 изображений.
Согласие было высоким для таких четких признаков, как друзы (желтые отложения под сетчаткой), с коэффициентом каппа 0,87. Но для более трудноопределимых элементов, таких как гиперрефлекторные очаги (небольшие яркие пятна, видимые на сканах сетчатки), этот показатель упал до 0,33. Это говорит о том, что более четкие, хорошо определенные признаки, как правило, дают более согласованные экспертные оценки, в то время как неоднозначные оставляют больше возможностей для интерпретации.
Рис. 3. Примеры меток для различных признаков, связанных с заболеваниями сетчатки(Источник)
Наборы данных по автономным транспортным средствам и межтерриториальная надежность
Обучение моделей искусственного интеллекта для систем автономного вождения зависит от точных, последовательных меток в широком диапазоне дорожных условий. Аннотаторов, работающих над такими проектами, обычно просят идентифицировать пешеходов, транспортные средства, дорожные знаки и разметку полос движения, часто в условиях плохого освещения или большого скопления людей.
Эти решения определяют, как модель учится реагировать в сложных условиях реального мира. Межрейтинговая надежность позволяет командам проверять, одинаково ли применяются эти метки разными аннотаторами.
Рис. 4. Взгляд на разногласия в аннотациях(Источник)
За пределами межрейтинговой надежности: Другие меры обеспечения качества
Хотя измерение межкорреспондентской надежности - важный шаг в создании ИИ-решения, это часть более широкого процесса обеспечения качества. Вот некоторые другие методы, которые помогут повысить качество данных в командах и проектах:
Четкие рекомендации по аннотированию: Инструкции должны точно объяснять, как наносить надписи, чтобы все работали по единому стандарту.
Обучение и калибровка: Регулярные занятия помогают аннотаторам оставаться на уровне и дают им возможность задавать вопросы и адаптироваться к нестандартным ситуациям.
Постоянные проверки качества: Точечные проверки и примеры золотых стандартов позволяют выявлять ошибки на ранних стадиях и поддерживать качество на высоком уровне по мере масштабирования проекта.
Разрешение разногласий: Когда аннотаторы расходятся во мнениях, должен существовать четкий процесс рассмотрения таких случаев и принятия окончательных решений.
Разнообразный пул аннотаторов: Привлечение людей с разным опытом работы может уменьшить предвзятость и улучшить качество набора данных, отражающего реальные различия.
Основные выводы
Межкорреспондентская надежность измеряет, насколько согласованно люди применяют ярлыки или принимают решения. Такие методы, как каппа Коэна, каппа Флисса и ICC, помогают количественно оценить это согласие. При наличии четких инструкций, обучения и контроля смещений надежные аннотации приводят к получению более надежных данных и улучшению результатов моделирования.