マグレブ地域は、リビア、ラテン、オスマン帝国などの影響を受けて、クラシック・アラビア語の地域方言やベルベル語の方言など、多様な言語資源が蓄積されてきた。新聞、広告、民衆文学など、複数の共通語や限定言語(文語アラビア語、口語アラビア語、フランス語、英語、ベルベル語)で書かれた資源も多数存在する。これらの資源は、クラシックアラビア語と方言アラビア語を混在させた文字や、ラテン文字、アラビア文字、ティフィナグ文字(ベルベル語の伝統的な文字)を組み合わせた表記形式で書かれている。
従来の印刷物や中世写本とは異なり、方言の文字資源は十分に集積されていない。しかし、これらの言語的多様性への関心が高まれば、古典的な文字資源や口頭伝承の収集と研究に多くの研究者が関心を持つようになると考えられる。TEIの標準的な符号化フォーマットは、これらの資源を国際的な文化遺産に統合し、最大限の技術的柔軟性を持って活用できる機会を提供する。
本プロジェクトでは、口頭コーパスと、マグレブ地域で書かれた豊かな文字資源に焦点を当てている。特に、12世紀以上にわたって生き続けているクラシック・アラビア語と、リビア、ローマ、ヘブライ、オスマン帝国の影響、さらにはフランス語、スペイン語、イタリア語の干渉によって生み出された方言の極端な混成化に注目している。
TEIは本来、ラテン語や中世ヨーロッパ語などの古典的・近代ヨーロッパ語を対象として設計されたものだが、文語アラビア語や混合言語・文字のコーパスを扱うためにはどのように変容させればよいかが課題となる。例えば、フランス語の韻律研究に精通したマグレブの研究者がTEIのマークアップを理解する一方で、アラビア語の韻律マークアップの微妙さをどのように理解し、英語、フランス語、アラビア語の韻律記述の用語の対応関係を示すことができるか。また、「アラビア語固有」の構造概念があるかどうかを見極め、適切なタグを提供することができるか。このような課題は、「写本」「校訂装置」「パフォーマンステキスト」などでも生じる。一方で、「TEIスピーチ」については、まだ具体的な方法論は確立されていないが、今後の検討が必要である。
このように、マグレブ地域やアラブ地域におけるTEIの利用は未だ散発的で関連性に乏しい。主に写本や稀覯書の研究に集中しているが、これは西洋の電子コレクションにおいてアラビア語写本がTEIでエンコーディングされてきたことや、アラブの文化機関が文化遺産の劣化を食い止める緊急性を感じていることによる。しかし、言語的・構造的な複雑性の異なる他のタイプの資源からのフィードバックが不足しているのが現状である。本プロジェクトでは、マグレブの文化遺産の複雑性がTEIにどのような貢献ができるか、またその文化的・技術的な特性と解決策は何かを探ることが目的である。
プロジェクトでは、多言語コーパスの特殊な構造に対応するTEIの実装方法に焦点を当てている。長期的には、言語コミュニティ(ここではマグレブ世界)が将来の翻訳技術やセマンティクスとの適切な相互作用を可能にする、標準化された言語的に構造化された大規模コーパスの実用的・展望的な課題に取り組む。
このためには、3つの段階を経る必要がある。
アラブ文化的文脈の言語的・社会文化的分析を行い、現行およびTEIの将来のバージョンがアラブの文化遺産をどのようにエンコーディングできるか、MARC、ISBD、AACR2、Dublin Coreなどの標準カタログ化レベルを超えられるか、その学術的アプローチを標準化できるかを明らかにする。
本プロジェクトの直接的な優先事項として、地域言語でのTEI標準リファレンスを作成し、学術・専門家コミュニティに導入する。これにより、デジタルリソースの言語的ハイブリッド化(地域方言)や、千年以上の口頭伝承と芸術遺産の保護といった特殊な複雑性に対処できる。
特定のリソースの処理に特化した実践コミュニティを構築する。これらのリソースの多くは複雑であり、特定の特徴には特別なマークアップ方式が必要となる。そのため、単純な構造を簡単にエンコーディングできるが、より複雑な構造も表現できる動的な環境が必要である。新しい興味深い特徴が特定されるたびに、仕様を容易に拡張できるようにする。
本プロジェクトでは、TEIの言語的多様性への開放性、学際的な研究分野、多様性を維持・拡充し文書化しつつ相互運用性を確保するための厳密性に興味を持っている。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések