📘
データ可視化 - 散布図
散布図とは?
散布図は2つのカラムのデータの分布を可視化したい時に利用するカードです。
例えば、目的変数と、ある説明変数の散布図を可視化することで、説明変数がモデルの精度向上に寄与するかどうか分析することができます。
また、外れ値がどのように分布しているのかを確認することも有効です。
散布図カードの操作方法
結線
対象データを結線してください。
パラメータの設定
設定項目 | 任意/必須 | 初期値 | 説明 |
---|---|---|---|
横軸とするカラム | 必須 | - | 選択されたカラムは図の横軸となります。 |
縦軸とするカラム | 必須 | - | 選択されたカラムは図の縦軸となります。 |
実行
- “実行”ボタンを押してください。
- 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。
散布図の結果の確認
- 上の図は公開データである「オーストラリア電力需要予測」において、横軸を “最高気温” 、縦軸を “総電力需要(MWh)” に設定した場合の散布図(青色)と回帰線(黄色)です。
- 黄色の薄色の範囲は回帰直線の95%信頼区間を示しています。
- 散布図は最高気温が約20度の点を境目にV字に分布しており、単純な回帰直線では表現できていないことがわかります。
- この例では「気温が低い場合は暖房の利用が多くなるため電力需要が増え、気温が高い場合は冷房の利用が多くなるため電力需要が増える」と解釈することができます。
- この例は公開データである「シェアサイクル利用の総台数予測クイックスタート」において、横軸を “湿度” 、 縦軸を “自転車の総利用台数” とした場合の散布図と回帰線です。
- 湿度が高くなると利用台数は少なくなる傾向があり、回帰線でもその特徴が現れています。
- また湿度が0の点にもデータが存在することがわかりますが、不自然な分布をしていることからデータの不備である可能性が考えられます。このような場合には データ前処理 - 閾値データ削除 カード等の機能を使ってデータを整形することを検討します。