本研究では、文書レベルの複雑さ指標であるLIXスコアを用いて、語彙の複雑さを推定する手法を提案している。
まず、子供の本、新聞記事、百科事典記事、議会文書の4つのコーパスを収集し、LIXスコアがこれらのコーパスを適切に区別できることを確認した。
次に、各語彙の出現文書のLIXスコアの中央値を計算し、語彙の複雑さ指標とした。この手法は事前に注釈付けされたデータを必要とせず、ノルウェー語以外の言語にも適用可能である。
提案手法を精神健康アセスメントツールの例文に適用し、語彙の置き換えによって複雑さを低減できる可能性を示した。また、語彙の出現頻度や単語長、音節数との関係を分析した。
提案手法は、精神健康アセスメントツールの開発などにおいて、言語の複雑さを考慮する上で有用な手法であると考えられる。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Pertanyaan yang Lebih Dalam