時系列分析において、大規模言語モデルは優れた一般化能力、零shot/few-shot学習能力、説明可能性を発揮し、様々な課題を同時に解決できる統一的なモデルの開発に貢献している。
JetMoE-8Bは、100万ドル未満の予算で訓練されたにもかかわらず、Llama2-7Bを上回る性能を示し、Llama2-13B-Chatを上回るJetMoE-8B-Chatを実現した。これは、大規模言語モデルの訓練がこれまで考えられていたよりもはるかに低コストで実現できることを示唆している。
大規模言語モデルの性格生成能力を高めるため、性格評価機能を組み込み、キャラクターの性格情報を活用してパーソナリティを動的に生成する。
本研究では、大規模言語モデルの検索補助型生成タスクにおいて、効率性と精度を同時に向上させる新しい手法「Superposition Prompting」を提案する。
大規模言語モデルをストリーミング環境で効率的に活用するための新しい手法「StreamingLLM」を提案する。StreamingLLMは、モデルの事前学習時に注意スインクを導入することで、長文入力に対しても安定した性能を発揮できる。
大規模言語モデルのインストラクション調整においては、データの質が量よりも重要である。本研究では、モデル自身が自己ガイド型でデータを選択する手法を提案し、わずか10%のデータで既存の手法を上回る性能を実現した。
微調整や量子化によってLLMのセーフティ対策が弱まり、悪意のある攻撃に対する脆弱性が高まる。
大規模言語モデル(LLM)の相互作用が増加するにつれ、イテレーション学習の枠組みを用いることで、LLMの振る舞いを理解し、望ましい方向に導くことができる。
大規模言語モデル(LLM)の信頼性を高めるために、特定の望ましくない情報の影響を効率的かつ効果的に排除し、同時に重要な知識生成の完全性を維持する方法を探る。
大規模言語モデルのパラメータ数が増大するにつれ、モデル全体のファインチューニングが非常に計算コストが高くなる課題に対し、主要特異値と特異ベクトルを利用したPiSSAという手法を提案する。PiSSAは大幅に削減されたパラメータ空間を最適化しながら、全パラメータのファインチューニングと同等以上の性能を達成する。