AIモデルを構築する場合、データの質はその背後にあるアルゴリズムと同じくらい重要だ。複数の人間が同じデータにラベルを付けたり、レビューしたりすると、必ず意見の相違が生じる。これは研究、医療、教育など多くの分野で当てはまることだ。
特に、Ultralytics YOLO11のようなモデルを訓練して、画像や動画のような視覚データを解釈するAIの一分野であるコンピュータ・ビジョンでは、ラベル付きの例が重要な役割を果たす。これらのラベルに一貫性がない場合、コンピュータ・ビジョンのモデルは正しいパターンを学習するのに苦労することになる。
評価者間信頼性(IRR)は、異なる個人(ラベラー)がどの程度一貫してタスクに同意しているかを測定する。これは一貫性を監視し、トレーニング、ガイドライン、解釈のギャップを特定するのに役立ちます。これは、AIモデルが特定の目的のために特定のデータを使用して構築される、カスタムモデルのトレーニングにおいて特に重要です。
この記事では、評価者間信頼性とは何か、どのように評価者間信頼性を測定するのか、そして実際のプロジェクトでどのように評価者間信頼性を向上させるのかを探っていきます。さっそく始めよう!
評定者間信頼性とは、2人以上の人(評定者ともいう)が、同じ内容にラベルを貼ったり、評価したり、レビューしたりする際に、どれくらいの頻度で意見が一致するかを測定するものである。これは、異なる評価者が与えられた基準をどれだけ一貫して使用しているかをチェックするために使用される。評価者間の一致率が高いということは、タスクが十分に定義され、明確に理解されていることを意味する。
この概念はさまざまな分野で用いられている。分野によって、評価者間一致、観察者間信頼性、コーダー間信頼性など異なる名前で知られている。しかし、根本的な原理は変わりません。
ビジョンAIにおいて、評価者間の信頼性はデータラベリングプロセスの重要な部分である。コンピュータ・ビジョン・モデルのトレーニングには、画像やビデオ・フレームの膨大なデータセットをラベリングする必要があることが多いため、複数のAI開発者が同じデータを一緒に扱うことになります。
正確な結果を得るためには、同じラベリング・ガイドラインに従わなければならない。例えば、動物にラベルを付ける場合、何を犬と数えるのか、その周囲にどのようにバウンディング・ボックスを描くのか、ぼやけたオブジェクトにラベルを付けるのか無視するのか、などについての明確な合意が必要である。
人がデータのラベル付けや採点に関わる場合、考慮すべき信頼性には主に3つのタイプがある。それぞれ、結果がどの程度一貫しているかを測る上で、異なる目的を果たす。それぞれについて詳しく見ていきましょう:
これらの手段を組み合わせることで、人とプロセスの両方が安定した信頼できる結果を生み出していることを確認することができる。
大規模なビジョンAIプロジェクトでは、ラベル付けされたデータの品質がモデルの性能に直接影響する。アノテーターがガイドラインを適用する方法のわずかな違いでさえ、トレーニング中にモデルを混乱させる不整合を引き起こす可能性があります。時間が経つにつれて、これは不正確な予測、リソースの浪費、コストのかかる再ラベリングの必要性につながります。
評価者間の信頼性を測定することは、このような問題を早期に発見するのに役立つ。一致率が高いということは、アノテーターが一致し、よりクリーンで信頼性の高いデータセットが作成されていることを意味する。一致率が低い場合は、プロジェクトを進める前に、指示、例、またはトレーニングを改善する必要があることを示します。ラベラーの同期を確実にすることで、チームはより効果的に学習し、実世界のアプリケーションでより良い結果をもたらすAIモデルを構築することができます。
ここでは、複数の評価者を用いて作業し、高い評価者間信頼性を維持することを目指す際に留意すべき、実務上の主な留意点を紹介する:
評価者間信頼性を測定する方法はいくつかあり、データの種類や課題によって最適な方法が異なります。単純な「はい」か「いいえ」の質問を1人の評価者が扱う場合に有効な方法もあれば、複数の評価者が関与する状況用に設計された方法もある。
一般的なアプローチには、一致率、コーエンのカッパ、フライスのカッパ、およびクラス内相関係数が含まれる。各方法は、評価者間の一致のレベルを測定し、偶然に一致が生じる可能性を考慮する。
コーエンのカッパは、2人の評価者間の信頼性を測定するために広く用いられている方法である。偶然の一致が起こりうる可能性を調整しながら、ある課題に関して両者が一致する頻度を計算する。スコアは-1から1の範囲で、1は完全な一致を示し、0はランダムな推測より一致が良くないことを意味する。
同様に、Fleiss' Kappaは、2人以上の評価者が関与している場合に使用される。これは、グループの一貫性を示す全体的なスコアを提供する。どちらの方法も、画像のラベリングや感情のタグ付けのように、カテゴリが設定されているタスクに使用される。計算は簡単で、ほとんどのアノテーションツールでサポートされている。
評定者間信頼性を測定するもう一つの方法は、一致率であり、評定者が同じ判定をした割合を計算する。使い方は簡単ですが、偶然に起こるかもしれない一致を考慮していません。
一方、クラス内相関係数は、連続的または尺度ベースのデータに使用されるより高度な手法である。これは、複数の評価者間で評価がどの程度一貫しているかを測定するもので、スコア、測定値、または固定カテゴリを超える他のデータタイプを含む研究に適用されることが多い。
さて、評価者間信頼性の測定方法について理解を深めたところで、これらの方法が実際のアプリケーションでどのように使用できるかを説明しよう。
医用画像に関しては、解釈の些細な違いで結果が大きく変わることがある。例えば、放射線科医は微妙であいまいな、あるいは定義が難しいパターンを識別するよう求められることが多い。そのようなパターンがAIシステムの学習データとなれば、利害はより大きくなる。専門家が同じスキャンに異なるラベルを付けると、モデルは間違ったパターンを学習したり、完全に学習できなかったりする可能性がある。
評価者間信頼性は、このようなデータを扱うチームが、専門家の判断が実際にどの程度一貫しているかを評価するのに役立つ。例えば、網膜OCTスキャンに焦点を当てた最近の研究では、2人の評価者が500枚の画像にラベル付けを行った。
κスコアは0.87で、ドルーゼン(網膜下の黄色い沈着物)のような明確な特徴については一致度が高かった。しかし、高反射巣(網膜スキャンで見られる小さな明るい斑点)のような定義が難しい要素では、スコアは0.33に低下した。これは、より明確で、より明確に定義された特徴は、より一貫した専門家の判断を生む傾向がある一方、あいまいなものは解釈の余地を残すことを示している。
自律走行システムのためのAIモデルのトレーニングは、広範囲の道路状況にわたって正確で一貫性のあるラベルに依存する。このようなプロジェクトに携わるアノテーターは、通常、歩行者、車両、交通標識、車線標示を識別するよう求められますが、照明が乏しかったり、混雑したシーンで識別することがよくあります。
これらの決定が、過酷な実世界環境においてモデルがどのように対応するかを学習させる。評価者間信頼性は、これらのラベルが注釈者間で同じように適用されているかどうかをチームがチェックすることを可能にする。
評価者間信頼性の測定はAIソリューションを構築する上で極めて重要なステップであるが、それはより広範な品質保証プロセスの一部である。ここでは、チームやプロジェクト全体のデータ品質向上に役立つその他のプラクティスをいくつか紹介する:
評価者間信頼性とは、人々がどれだけ一貫してラベルを適用し、決定を下しているかを測定するものである。CohenのKappa、FleissのKappa、ICCのような方法は、その一致を定量化するのに役立つ。明確なガイドライン、トレーニング、バイアスのコントロールにより、信頼性の高いアノテーションは、より強力なデータとより良いモデルの結果につながります。
私たちのコミュニティに参加して、GitHubリポジトリを探索し、AIについてもっと発見してください。ビジョンAIのプロジェクトを始めたい方は、 ライセンスオプションをご覧ください。また、ヘルスケアにおけるAIや 小売業におけるビジョンAIがどのようにインパクトを与えているか、ソリューションのページをご覧ください。