📘

データ前処理 - 欠損値補間

 

欠損値補間とは?

  • 与えられたデータに欠損値が含まれている場合、前後の値を用いて補間します。
    • 欠損値の有無は、各カードの 統計タブの “欠損値数” の値を確認してください。
データに欠損値が含まれる原因は様々ですが、例えば次のような原因が挙げられます。
  • 人為的ミスや入力エラー
 
データを収集する際、誤って情報を欠落させたり、誤ったデータを入力したりすることがあります。例えば、アンケート回答者が特定の質問に回答しなかったりする場合が考えられます。また、売上や商品カテゴリーのような需要データの場合、営業時間外や定休日などの特定の時間帯のデータを欠損値とする場合もあります。
  • 装置の故障や動作の不具合
 
センサーなどを使いデータを収集している場合、そのセンサーの不具合時や停止している期間は欠損値として登録されることがあります。

欠損値補間カードの操作方法

結線

処理対象データを結線してください。

パラメータの設定

設定項目説明
直前の値で置換直前の値で補間する
直後の値で置換直後の値で補間する
線形補間前後の値を用いて線形補間します(前後の値を直線で結ぶイメージです)
先頭行か末尾の行に欠損値が含まれている場合は、直前/直後の値が存在しないため、エラーが表示されます。

実行

  • パラメーターに従い欠損値補間が行われます
  • 処理が成功すると、メッセージが表示されます
  • 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。

処理結果の確認

  • 処理された件数が表示されます
  • 必要に応じて、表形式、統計量、グラフ形式で分割結果を確認してください(画像は “線形補間” で補間した例)