本研究は、線形分類器を用いた自己教師あり学習(Self-Training)の挙動を、高次元極限における解析的な特徴付けを行うことで明らかにしている。
まず、自己教師あり学習のアルゴリズムを統計物理学の枠組みで定式化し、レプリカ法を用いて解析を行っている。その結果、以下のような知見が得られた:
十分な反復回数と適切な正則化パラメータ、中程度の未ラベル化データサイズ、ソフトなプセウドラベルを用いることで、自己教師あり学習は、ラベル不均衡にかかわらず、最適な分類平面を見つけられる。これは、自己教師あり学習の小さな更新が、ほぼノイズのない方法でデータの情報を蓄積できるためである。
しかし、真のラベルにラベル不均衡が存在する場合、自己教師あり学習の性能は教師あり学習に比べて大幅に低下する。これは、重みノルムとバイアスの大きさの比率が大きくなってしまうためである。
そこで本研究では、ラベル不均衡の問題に対処するため、2つのヒューリスティックを提案している:
これらのヒューリスティックを用いることで、自己教師あり学習は、教師あり学習と同等の性能を達成できることが数値解析により示された。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések