核心概念
本稿では、従来の線形モデルよりも正確に住宅ローンのデフォルト確率とポートフォリオ損失分布を予測できる、ツリーブースティングと時空間ガウス過程モデルを組み合わせた新しい機械学習モデルを提案する。
摘要
時空間フラクティリティ相関とツリーブースティングを用いた住宅ローン信用リスクモデリング: デフォルト確率とローンポートフォリオ
本稿は、時空間フラクティリティ相関とツリーブースティングを用いた新しい機械学習モデルを提案し、住宅ローンのデフォルト確率とローンポートフォリオの損失分布を予測する研究についてまとめたものです。
従来の信用リスクモデルでは、線形判別分析、ロジスティック回帰、線形離散ハザードモデルなどの線形モデルが用いられてきました。近年、線形ハザードモデルは、観測可能な共変量では捉えきれない時間的相関(フラクティリティ相関)を考慮するように拡張されてきました。
しかし、非線形機械学習モデルは、線形モデルよりも高い予測精度を達成することが多く、特に、ツリーブースティングは表形式データセットにおいて優れた予測精度を達成することが示されています。
本稿では、ツリーブースティングと潜在時空間ガウス過程を組み合わせた新しいアプローチを導入し、予測変数の非線形および相互作用効果のモデリングと、観測可能な予測変数では考慮されないローン間の時空間フラクティリティ相関の考慮を可能にしました。
時空間フラクティリティ相関の考慮
ローン間の独立性の仮定を解除するために、空間的および時空間的相関をモデル化する潜在フラクティリティ変数を導入します。
空間モデルでは、ガウス過程は空間的にのみ変化し、時間的には一定です。時空間モデルでは、ガウス過程は空間と時間の両方で変化し、時空間共分散関数によって定義されます。
ツリーブースティングを用いた時空間ガウス過程モデル
固定効果予測変数関数の線形性の仮定を、ツリーブースティングを用いて緩和します。ツリーブースティングは、表形式データセットにおいて優れた予測精度を達成することが多い機械学習手法です。
本稿では、潜在ガウス過程モデルブースティング(LaGaBoost)アルゴリズムを用いて、経験的リスク関数の最小化を反復的に行います。
大規模データセットへの適用のための近似
大規模データセットで実行可能な計算を行うために、線形ガウス過程モデルとツリーブースティングされたガウス過程モデルの両方に対して、いくつかの近似を適用する必要があります。
まず、積分を閉形式で計算することはできないため、ラプラス近似を用いて近似します。
さらに、ガウス過程を用いた計算が大規模データセットにも対応できるように、潜在ガウス過程に対してVecchia近似を用います。