一貫性のない人間による注釈が AI 主導の臨床意思決定に及ぼす影響

npj デジタルメディスン第 6 巻、記事番号: 26 (2023) この記事を引用

3210 アクセス

5 引用

18 オルトメトリック

メトリクスの詳細

教師あり学習モデルの開発では、クラスラベル (アノテーション) を提供するためにドメインの専門家がよく使用されます。注釈の不一致は、経験豊富な臨床専門家でも同じ現象 (医療画像、診断、予後状態など) に注釈を付ける場合によく発生します。これは、専門家の固有の偏見、判断、失言などの要因が原因です。それらの存在は比較的よく知られていますが、このような「ノイズの多い」ラベル付きデータに教師あり学習を適用する場合、現実世界の設定ではそのような不一致の影響はほとんど研究されていません。これらの問題を明らかにするために、私たちは 3 つの現実世界の集中治療室 (ICU) データセットに対して広範な実験と分析を実施しました。具体的には、個々のモデルは共通のデータセットから構築され、グラスゴークイーンエリザベス大学病院 ICU コンサルタント 11 人によって独立して注釈が付けられ、モデルのパフォーマンス推定値は内部検証を通じて比較されました (Fleiss の κ = 0.383、つまり公正な一致)。さらに、これら 11 個の分類器の広範な外部検証 (静的データセットと時系列データセットの両方) が HiRID 外部データセットで実行され、モデルの分類のペアごとの一致度が低いことが判明しました (平均コーエンの κ = 0.255、つまり最小限の一致)。。さらに、彼らは死亡率の予測 (フライスの κ = 0.267) よりも、退院の決定 (フライスの κ = 0.174) について意見が一致しない傾向があります。これらの矛盾を考慮して、ゴールドスタンダードモデルを取得し、コンセンサスを決定する際の現在のベストプラクティスを評価するために、さらなる分析が行われました。この結果は次のことを示唆しています。(a) 急性期の臨床現場には常に「スーパーエキスパート」が存在するとは限らない(内部および外部の検証モデルのパフォーマンスを代理として使用)。 (b) 標準的な合意形成 (多数決など) を求めると、常に次善のモデルが生成されます。しかし、さらなる分析により、アノテーションの学習可能性を評価し、コンセンサスを決定するために「学習可能な」アノテーション付きデータセットのみを使用することで、ほとんどの場合に最適なモデルが得られることが示唆されています。

古典的な教師あり機械学習では、クラスノイズや不正確さの存在を無視して、トレーニングサンプルのラベルがすべて正しいと想定されます。ヘルスケアでは、ノイズの程度、観察者の主観、バイアスが含まれるため、経験豊富な臨床医がこれらのラベルを提供した場合でも、この仮定が当てはまらない場合があります。機械学習意思決定支援システム (ML-DSS) のトレーニングで注釈の不一致が無視されると、グラウンドトゥルースの任意の部分バージョンが生成され、その後、誤った分類などの予測できない臨床結果が生じる可能性があります 2、3、4。

理想的には、クラスラベルは、知識ベースシステム (KBS) を構築するために、これらのグラウンドトゥルースクラスラベルの基礎となる適切な「ゴールドスタンダード」を選択することを含む、知識獲得プロセスを通じて取得されます。ヘルスケアおよび生物医学の設定では、臨床分野の専門家がこれらのラベルを提供するためによく使用されます5。しかし、多くの臨床分野では、医学に固有の病態生理学的、診断的、予後的不確実性のため、これらの真実を見つけて定義することは困難です2,6。

認知心理学は、人間（したがって専門家）は、たとえば認知の過負荷や偏見によって「失敗」をしてしまうことを実験的に示しています。一方、エキスパートシステムやKBSの分野では、（ほとんどの）分野において「滑りのない」高度なスキルを持つ専門家が存在すると想定されており、そのような専門家を客観的または主観的にどのように識別できるかが重要な課題となっている。しかし、文献から得られる証拠の増加により、一般的な一連のタスク（分類など）に関して、専門家のグループが互いに大きく意見を異にすることがよくあることが示されています5、7、8。 2021 年に、カーネマンら 9 は、「ノイズ: 人間の判断の欠陥」と呼ばれるこのトピックへの主要な貢献を発表し、多くの分野の専門家仲間が実際に異なることを説得力を持って主張しています。これらの著者9は、判断と意見を区別しており、前者では専門家が（固定された）選択肢のセットから回答を提供することが期待されているのに対し、意見ははるかに自由回答である。この論文では、さまざまな専門家の判断が必要なタスクを扱います。

0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert’s judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen’s κ, Fleiss’ κ and Krippendorff’s α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d72589267e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>