🎓
モデル評価(相関係数/決定係数)
相関係数(CORR)
相関係数(CORR:Correlation Coefficient) は、2 つの変数間の直線的な関係の強さと方向を表す の範囲の数値です。
の時「変数間は負の相関」(一方の値が増加すると一方の値は減少する)ような関係性があり、
の時「変数間は正の相関」(一方の値が増加すると一方の値も増加する)ような関係性を、
の時「変数間に相関がない」(2 つの変数には直線的な関係がない)ことを示します。
相関係数の求め方は、 と の共分散をそれぞれの変数の標準偏差で割って計算します。
下記に相関係数の定義を示します。
数式で理解する(初学者の場合は読み飛ばしてください)
sxyはとの共分散
sxはの標準偏差
syはの標準偏差
Nはの総数
はそれぞれの平均値
決定係数を用いたモデル評価
決定係数を用いてモデルを評価する際には、予測値が実測値にどれくらい当てはまるかの割合(、負の値の場合もあり)と解釈するとイメージしやすいです。
1に近づくほど、当てはまりが良いことを意味しており、モデル改善としては0.7 < 0.9の範囲であれば、十分当てはまっていると考えられます。
回帰モデルの予測値が実測値に対してどの程度当てはまっているかをわかりやすく解釈できるので、モデルの精度改善において重宝します。
一般に 0 ≦ R2 ≦ 1 の間の値を取ることから、MAE や RMSE のような指標とは異なり、スケールの影響を受けません。そのため、どのようなデータや問題設定に対しても、分析者として常に同じように解釈できる指標となっています。
データ分析プロジェクトでは、モデル評価の良し悪しを、決定係数の値だけで判断するのではなく、MAE や RMSE と合わせて評価することが望ましいです。
というのも、データ分析プロジェクトはどんな問題設定であれ、ビジネス価値を生み出すために行うものです。
そのため、MAE や RMSE のようなビジネス価値を数値化し、その効果を推定できるような指標を用いることがプロジェクトの進行において重要となります。
決定係数はビジネス価値を評価する指標ではなく、データの当てはまり具合を評価する指標ですので、MAE や RMSE といった指標と合わせて使うことで、モデル評価の納得感を補強するような指標と考えるのが良いと思います。
モデル評価における相関係数と決定係数の注意点
相関係数は、二変数間の直線的関係の強さと方向を表す指標でした。
そのため、外れ値の影響を大きく受ける場合があり注意が必要です。
外れ値がある場合、目的変数がいくつかのクラスターに分かれているような分布になることがあります。そこで、予測値と実測値を散布図と時系列でプロットしたものを用いて、外れ値の影響を確認します。
下図から確認できるように、相関係数を扱う際には、外れ値の影響で相関係数が高くなることが確認できます。また、決定係数においても数値の向上が確認できることから、同様に外れ値の影響を考慮する必要があります。
外れ値の考慮はここだけに限った話ではなく分析全体に関わる話ですが、
モデル評価の場合においても、予測値と実測値の散布図を確認した方が良いかと思います。