TPI-LLMは、低リソースのエッジデバイス上で70B級のLLMを効率的に提供するための、計算とメモリ効率の高いテンソル並列推論フレームワークである。ユーザーのプロンプトとジェネレーテッドシーケンスをユーザーデバイス内に保持し、高リンク遅延に対応するためスター型のallreduceアルゴリズムを採用し、メモリ不足に対処するためスライディングウィンドウメモリスケジューラを導入している。
大規模言語モデルの訓練には、従来のフル接続ネットワークは必要ではなく、より低コストで効率的な「Rail-only」ネットワーク設計が可能である。