本研究は、最小ベイズリスク復号の性能変動の原因を分析したものである。
まず、候補文と擬似参照文のサンプリング方法を変えて、最小ベイズリスク復号の性能が変動することを示した。この変動は言語ペアを横断して一貫して観察された。
次に、先行研究で提案された擬似参照文の性質(平均対数確率、累積確率質量、候補文との類似度、参照文との類似度)と性能変動の相関を調べたが、明確な関係は見出せなかった。
一方、本研究で提案した異常検知スコアと性能変動の相関は高かった。これは、参照文が擬似参照文の大多数から外れていないほど、性能が高くなることを示唆している。
つまり、擬似参照文が真の分布を良く近似しているほど、最小ベイズリスク復号の性能が高くなるという、理論的前提と実際の性能の関係が初めて実証的に示された。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania