📘

データ前処理 - 時間情報抽出

 

時間情報抽出とは?

データの時刻カラムの日時から時間情報を抽出し、説明変数に追加します。
ここでの時間情報とは、日時における年、月、曜日、日、時間、分、秒の情報を指します。
例えば という日時に対しては、以下の時間情報が抽出されます。
曜日については月曜日を0、火曜日を1、日曜日を6のように数値が割り当てられます。
時間情報抽出される値
2023
4
曜日0
24
時間12
34
56
時間情報を抽出し説明変数に加えることで、時間が影響するデータの予測がしやすくなり精度が向上する場合があります。 例えば曜日によって需要の波がある需要予測などの課題に適用することが有効です。
 
なお時間情報を説明変数に追加した場合、学習モデルの種類によっては時間情報の周期性を効率的に学習できない場合があります。 本カードにより時間情報を説明変数にする場合は、時間の周期性を考慮する必要がない 決定木回帰モデル を使用することを推奨します。
💡
時間情報の周期性について
時間情報の周期性とは、月、日、曜日などの時間情報における値の周期的な特性のことを指します。 例えば曜日の時間情報の場合、月曜日は0、日曜日は6の値が抽出されますが、月曜日と日曜日は現実世界では隣り合っている曜日であるにも関わらず、値は6の差があります。
これを線形モデル等で学習した場合、月曜日と火曜日は1の差のため近い特徴量として捉えることができる一方、日曜日と月曜日は遠い特徴量と学習する場合があります。
このように本来周期性のある値は、周期性を考慮した変換(sin/cos変換など)により線形モデル等でも適切に取り扱うことができます。
時間情報の周期性を考慮した特徴量化をするためのカードは将来的に追加される予定です。

時間情報抽出カードの操作方法

結線

処理対象データを結線してください。

パラメータの設定

選択した項目に応じて説明変数がデータに追加されます。
設定項目説明追加されるカラム名
『年』を抽出年の情報を抽出するかを選択します。時刻カラム名 + “_year”
『月』を抽出月の情報を抽出するかを選択します。時刻カラム名 + “_month”
『曜日』を抽出曜日の情報を抽出するかを選択します。時刻カラム名 + “_day_of_week”
『日』を抽出日の情報を抽出するかを選択します。時刻カラム名 + “_day_of_month”
『時間』を抽出時間の情報を抽出するかを選択します。時刻カラム名 + “_hour”
『分』を抽出分の情報を抽出するかを選択します。時刻カラム名 + “_minute”
『秒』を抽出秒の情報を抽出するかを選択します。時刻カラム名 + “_second”
元の日時の値に各項目の情報が含まれない場合は 0 として抽出されます。 値が変動しない説明変数は精度低下の原因となるため、元の日時に含まれる情報のみを抽出する ことを推奨します。

実行

  • パラメーターに従い時間情報の抽出処理が行われます
  • 抽出と説明変数への追加が成功すると、メッセージが表示されます
  • 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。

処理結果の確認

テーブルタブを見ると、時間情報の説明変数のカラムが追加されていることが確認できます。