本論文では、一般的な環境擾乱に対するロバスト性と安全性を両立する強化学習フレームワークを提案する。最適輸送コストに基づく不確実性集合を用いることで、データ収集中に環境を変更することなく、仮想的な状態遷移を構築し、ロバストな性能と安全性を保証する。