核心概念
ノイズラベルを持つ大量のサンプルから、ノイズの影響を受けにくい特徴表現を学習する手法を提案する。ペアワイズの類似度分布に基づいてサンプルを清潔なサンプルとノイズサンプルに分割し、清潔なサンプルを教師あり学習、ノイズサンプルを教師なし学習に活用することで、ノイズの影響を受けにくい特徴表現を学習できる。
摘要
本論文は、ノイズラベル学習のための新しい手法であるペアワイズ類似度分布クラスタリング(PSDC)を提案している。ノイズラベルを持つ大量のデータから、ノイズの影響を受けにくい特徴表現を学習することが目的である。
具体的な手法は以下の通り:
- 各クラスのサンプル間の類似度を計算し、類似度分布を表すアフィニティ行列を作成する。
- アフィニティ行列の行和を計算し、それがガウス分布に従うことを利用して、各サンプルを清潔サンプルとノイズサンプルに分類する。
- 分類結果に基づき、清潔サンプルを教師あり学習、ノイズサンプルを教師なし学習に活用する半教師あり学習を行う。
理論的な分析から、提案手法はノイズの影響を受けにくいことが示されている。また、実験結果では、CIFAR-10、CIFAR-100、Clothing1Mデータセットにおいて、ノイズの高い環境下でも高い精度を達成している。
统计
清潔なサンプルとノイズサンプルの平均類似度の差が大きいほど、ノイズの影響を受けにくい。
ノイズサンプルの類似度分布がリアプノフ条件を満たせば、ノイズの影響を受けにくい。
引用
"ノイズラベル学習の主要な課題は、誤ったラベルによる不正確な教師信号をどのように扱うかである。"
"提案手法は、ペアワイズの類似度分布に基づいてサンプルを清潔なサンプルとノイズサンプルに分割し、清潔なサンプルを教師あり学習、ノイズサンプルを教師なし学習に活用することで、ノイズの影響を受けにくい特徴表現を学習できる。"