本文介绍了MCTS数据集的构建过程。首先从中文树库(CTB)中选取了723个复杂句子作为原始句子。然后通过招募和培训注释员,为每个原始句子收集了5个参考简化句子。这些简化句子包含词汇替换、句子压缩和结构调整等多种简化转换操作。
通过分析MCTS数据集的各种文本特征,我们发现其包含丰富的简化操作,可以全面反映人工简化中文文本的特点。相比于之前提出的CSS数据集,MCTS在数据量、简化程度等方面都有明显优势。
此外,我们在MCTS数据集上评估了几种无监督的中文文本简化方法和大型语言模型的性能。结果表明,即使是先进的大型语言模型在零样本和少样本设置下,也无法完全达到人工简化的水平。这为未来中文文本简化研究提供了重要的基准参考。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies