本研究は、ラベルノイズが実世界のデータセットに存在する一般的な問題に取り組んでいる。特に、ラベルノイズがインスタンス依存の場合の頑健な分類タスクに焦点を当てている。
ノイズラベルの遷移行列を正確に推定することは困難であり、サンプル選択に基づく手法は確認バイアスの問題を抱えている。
過剰パラメータ化された学習(SOP)は、ノイズラベルの推定と回復に理論的に効果的であるが、モデル予測とノイズ回復の協調が欠如しており、一般化誤差の増大を招いている。
そこで本研究は、協調スパース回復(CSR)を提案する。CSRは、コラボレーションマトリクスと信頼重み付けを導入し、モデル予測とノイズ回復の協調を図ることで、エラーの漏洩を低減する。
さらに、CSRに基づいて、損失分布とノイズ確率分布を活用した新しいサンプル選択戦略を開発し、CSR+と呼ばれる包括的で強力な学習フレームワークを構築した。
CSR+は、クラス数が多く、インスタンス依存ノイズの割合が高いデータセットにおいて、特に確認バイアスを大幅に低減できる。
シミュレーションデータおよび実世界ノイズデータセットでの実験結果から、CSRおよびCSR+が同レベルの手法と比較して優れた性能を示すことが確認された。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询