📘
データ前処理 - リサンプリング
リサンプリングとは?
データのリサンプリングを行います。
時系列データは秒単位、分単位等など一定間隔である場合もあれば、等間隔ではないデータから構成される場合もあります。
この時刻間隔を任意の間隔に変更することをリサンプリングと言います。
例えば以下のように、元の時刻間隔よりも長い時刻間隔に変更することをダウンサンプリング、元の時刻間隔よりも短い時刻間隔に変更することをアップサンプリングと言います。
- 1 分単位のデータを 1 時間単位に変更する(ダウンサンプリング)。
- 1 時間単位のデータを 1 分単位に補間する(アップサンプリング)。
- 1 日単位や 2 日単位が混在するデータを 2 日単位に揃える(ダウンサンプリング)。
アップサンプリングの制約について
リサンプリングカードでは、単純に時刻間隔を短くするアップサンプリングや、等間隔ではないデータに対するアップサンプリングの実行に制約があります。 例えば 1 日ごとの時刻間隔であるデータのうち、一部(土日など)のみ欠損があり等間隔となっていないような場合は、アップサンプリングにより 1 日単位に変更することが可能です。 一方、2 日ごとの時刻間隔のデータのうち、一部が 1 日間隔であるようなデータに対して、 1 日単位に変更するようなアップサンプリングは適用できません(適用可否は時刻間隔の中央値を基準に判定されます)。
リサンプリングカードでは、単純に時刻間隔を短くするアップサンプリングや、等間隔ではないデータに対するアップサンプリングの実行に制約があります。 例えば 1 日ごとの時刻間隔であるデータのうち、一部(土日など)のみ欠損があり等間隔となっていないような場合は、アップサンプリングにより 1 日単位に変更することが可能です。 一方、2 日ごとの時刻間隔のデータのうち、一部が 1 日間隔であるようなデータに対して、 1 日単位に変更するようなアップサンプリングは適用できません(適用可否は時刻間隔の中央値を基準に判定されます)。
下図は、1か月分の取得したデータを1日ごとに折れ線グラフ(青色)として可視化したものです。今回の例では、このデータを5日ごとの最初のデータで丸めてダウンサンプリング(橙色)しています。
ダウンサンプリングには、データを簡略化し計算リソースを節約できたり、変動を平滑化することで中長期的な傾向を捉えられるメリットがありますが、適切にサンプリングを行わないと重要な情報の損失に繋がったりAIモデルの精度が低下する場合があるので注意が必要です。
欠損値の補間方法について
リサンプリングカードを適用するデータと、リサンプリングの設定内容によっては、元々データが存在しない点にインデックスを付与することがあります。
例えば時刻間隔が1日のデータにおいて、平日のデータしか存在しない場合に1日でリサンプリングすると、土日の日付にもインデックスが付与されたデータとなります。
このような場合、新規に追加されたインデックスにおける欠損値は「線形補間」で補間されます。
つまり、金曜日が10、月曜日が40というデータがあったとすると、土曜日は20、日曜日は30でデータが補間されます。
また、データの時刻付与の方法とリサンプリングの設定内容によっては線形補間が適用できない場合があります。
このような場合には自動的に「最近傍補間」が適用されます。
つまり上記の例であれば土曜日は10(金曜日の値で補間)、日曜日は40(月曜日の値で補間)となります。
最近傍補間が適用された場合は実行後のメッセージに表示されます。
リサンプリングカードの操作方法
結線
対象データを結線してください。
パラメータの設定
サンプリング単位を選択してください。
- 秒
- 秒単位
- サンプリング間隔
- 0 より大きい値で入力してください。
- 分
- 分単位
- サンプリング間隔
- 0 より大きい値で入力してください。
- 時間
- 時間単位
- サンプリング間隔
- 0 より大きい値で入力してください。
- 日
- 日単位
- サンプリング間隔
- 0 より大きい値で入力してください。
実行
- パラメーターに従いリサンプリング処理が行われます
- データとパラメーターの組み合わせによっては、処理結果の先頭行に欠損値が現れる場合があります。その際は、欠損値が現れた該当行を削除しています。
- 処理が成功すると、メッセージが表示されます
- 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。
処理結果の確認
- 必要に応じて、表形式、統計量、グラフ形式で分割結果を確認してください
- 統計タブやグラフタブから確認できます