本研究では、インドネシア語とスンダ語の文化的に関連性のある常識的な質問回答データセットを作成した。データの生成には、既存の英語データの自動適応、人手による生成、LLMによる自動生成の3つの手法を用いた。
分析の結果、英語データからの自動適応は特にスンダ語では効果的ではないことが分かった。一方、GPT-4 Turboを使用して直接的に生成した場合、両言語において一定の基本的な知識を持つ質問を生成できることが示された。ただし、人手で生成したデータほど文化的な深みは備えていない。
LLMが生成したデータは人手で生成したデータに比べて質が低いが、リソースの少ない言語においてデータを効率的に作成する手段として活用できる可能性がある。ただし、LLMと人間の協力によりデータの品質を高めていくことが重要である。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Rifki Afina ... klo arxiv.org 04-17-2024
https://arxiv.org/pdf/2402.17302.pdfSyvällisempiä Kysymyksiä