Core Concepts
本論文では、時系列データにおけるモチーフ検出の新しい定義である「k-Motiflets」を提案する。k-Motiflets は、モチーフの出現数kを中心パラメータとし、モチーフ間の最大距離を最小化する。これにより、従来のモチーフ検出手法で問題となっていた距離閾値rの設定が不要となり、より直感的で使いやすい手法を実現した。
Abstract
本論文では、時系列データにおけるモチーフ検出の新しい定義である「k-Motiflets」を提案している。従来のモチーフ検出手法では、モチーフの長さlと距離閾値rの2つのパラメータを設定する必要があったが、k-Motiflets では、モチーフの出現数kを中心パラメータとし、モチーフ間の最大距離を最小化することで、rの設定が不要となる。
具体的には以下の通り:
- k-Motiflets は、時系列データTから長さlの部分列のうち、k個の部分列からなる集合Sを見つける。Sの部分列間の最大距離が最小となるようにSを選択する。
- 従来手法では、rの設定が難しく、わずかな変化でモチーフが大きく変わってしまうという問題があった。一方、k-Motiflets ではkの概念の方が直感的に理解しやすく、kの値も整数値に限定されるため、探索範囲が狭くなる。
- k-Motiflets の近似アルゴリズムは2-近似解を保証し、効率的に動作する。また、lとkの自動推定手法も提案している。
- 実験では、k-Motiflets が従来手法に比べ、より大きなモチーフ集合を高い類似度で発見でき、かつ、解釈が容易なモチーフを得られることを示している。
Stats
時系列データの長さnに対して、距離行列の計算はO(n^2)の時間計算量となる。
近似アルゴリズムの全体の時間計算量はO(kn^2 + nk^2)である。
正確なアルゴリズムは指数時間の計算量となるが、近似アルゴリズムの結果を初期解として用いることで効率化できる。
Quotes
"時系列モチーフ発見(TSMD)は、与えられた時系列データ内で近似的に繰り返される短い時系列パターンを見つける問題である。"
"k-Motiflets は、モチーフの出現数kを中心パラメータとし、モチーフ間の最大距離を最小化する新しい定義を提案する。"
"k-Motiflets では、rの設定が不要となり、kの概念の方が直感的に理解しやすい。"