📘
データ可視化 - 相互相関分析
相互相関分析とは?
相互相関分析は、変数間の時間的な相互作用を確認する際に使用するカードです。
ある変数が他の変数にどのように影響を及ぼすかを確認し、適切な変数選択などに役立ちます。
具体的には、2つの変数間の時間差を考慮した相関の強さを可視化することができます。
これにより モデル準備 - 時間窓切り出し の窓幅 M の検討にも活用できます。
目的変数と説明変数との間に時間差で関係性があれば、その時間分だけ窓幅に含めることで精度向上が期待できるからです。
例えば、天候データと、ある商品の売上データの関係を調べたいとしましょう。
天候は商品の売上に影響する可能性があります。しかし、その影響が即座ではなく数時間や数日後に現れるかもしれません。
このような相互作用を可視化したい場合は相互相関分析が有効です。
相互相関分析カードの操作方法
結線
対象データを結線してください。
パラメータの設定
設定項目 | 任意/必須 | 初期値 | 説明 |
---|---|---|---|
固定対象カラム | 必須 | 無し | 相互相関分析適用の固定する対象のカラム |
変動対象カラム | 必須 | 無し | 相互相関分析適用の遅れ幅を変動させる対象のカラム |
最大の遅れ幅(ラグ数) | 必須 | 10 | 固定対象カラムに対して変動対象カラムの相関を求める際にずらす時間(レコード数)の最大値 |
遅れ幅表示範囲切り替え | 必須 | ON | 遅れ幅の範囲にマイナスを含むかどうかを設定します。遅れ幅がマイナスの範囲は、固定対象カラムを過去にずらして相関を計算することに相当します。 |
上述の天候と売上の関係性を調べる例の場合、 “固定対象カラム” として売上データを示すカラム、 “変動対象カラム” として天候データを示すカラムを設定することが適切と言えます。
天候データを時間的に遅らせて売上データとの相関を取ることで、何時間前/何日前の天候が売上に影響しているのか調べることができます。
例えばレコード毎の時間間隔が1時間である場合、最大の遅れ幅としては24と設定することで24時間前までの影響を調べることができます。
一方、天候による売上への影響は調べる価値があっても、売上による天候への影響は分析する必要がないと言えるためマイナスの範囲を表示する必要はないでしょう。
実行
- “実行”ボタンを押してください。
- 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。
相互相関分析の結果の確認
- 上図は公開データである「ベルギーの住宅消費電力予測」において、家電の消費電力を表す”Appliances”とキッチンの湿度を表す”RH_1”の相互相関を可視化した結果です。
- このデータセットは 10 分間隔のデータとなっており、上図では Appliances に対して同じ時刻の RH_1 よりも 30 分前の RH_1 との関係が強いことがわかります。(10 分間隔のデータであり、遅れ時間が 3 のところで関係が強くなっていることが表示された図からわかるためです。)