📘

モデル準備 - 時間窓切り出し(高度な設定)

 

時間窓切り出しの高度な設定について

📘モデル準備 - 時間窓切り出し では基本的なパラメータとして N(予測先) と M(窓幅) を設定します。
しかし、データの性質によってはそれ以外のパラメータを調整することでAIモデルの精度向上や処理時間の削減が見込める場合があります。
 
それぞれの設定は設定タブの “高度な設定” の中にあります。必要に応じて設定してください。
 
 

パラメータの設定

L (丸め幅)

  • 窓幅 M のデータを L 毎に分割し、区間内の平均値に丸めます。L は M の約数にしてください。
  • 窓幅 M が大きいとき、L を適切に定めることによりデータサイズを小さく出来ます。
    • モデルの学習時間が長過ぎる場合に、Lを大きくすることで学習時間を短縮できる場合があります。
    • M が大きすぎると説明変数の数が増加し、モデルの学習がうまく進まない(予測精度が低くなる)ことがあります。その場合に L を大きくすることで説明変数の数を減らし、精度の向上につながる場合があります。

S (ストライド幅)

  • ストライド幅 S 毎に、時間窓データを作成します。
  • データ数が多く、学習・評価時間が長くなる場合ストライド幅を大きな値に調整してください。
  • ストライド幅を大きくしすぎると、学習・評価データが減少するので注意してください。
 
 

欠落区間スキップ

欠落区間スキップとは

時系列データ分析では、常に一定の時刻間隔でデータが並んでいることが処理の前提となることがあります。
しかし、何らかの理由でデータの一部の時刻に欠落があるデータを扱いたい場合に、この機能を使うことで欠落区間をスキップして時間窓切り出し処理を行うことができます。これを、欠落区間スキップといいます。
なお、デフォルトでは欠落区間スキップ機能はONの状態となっています。
 
💡
欠落区間スキップ機能は、特許を取得しています
登録番号: 特許第7783238号
発明の名称: 情報処理装置、情報処理方法、及び情報処理プログラム
要約: データセットに欠落部分が生じている場合であっても、時間窓切り出し処理を適切に行うこと。

機能の解説

ここでは、10分ごとにデータを収集しているシステムを例として、00:00~07:50の間は計測器が稼働しない(時刻が欠落している)データを使って解説します。

自動でスキップする場合(欠落区間スキップON: デフォルト)

データセットで欠落している期間がある場合、その期間は自動的に回避して時間窓切り出しを行います。
すなわち予測先時刻のデータが存在しない、もしくは説明変数の中に必要な時刻が存在しないデータは時間窓切り出しされません。

自動でスキップしない場合(欠落区間スキップOFF)

事例のように、休日や稼働していない時間帯が欠落する場合、自動的に回避しては不都合が生じるといったケースもあります。 そのため、データセットが欠落している区間を自動的に回避せずにデータを切り出したい場合は、欠落区間スキップを OFF にしてください。

メリット・デメリット・ユースケースまとめ

欠落区間スキップの設定にはメリット・デメリットやユースケースによる相性があるため、状況に応じて設定してください。
欠落区間スキップメリットデメリットユースケース
ONの場合データに欠落がある箇所はモデルに入力されないため、意図しないデータの混入を防ぎ、モデルの精度向上が見込めます。欠落の箇所が多い場合は切り出し後のデータ数が減るため、モデルが十分に学習されない場合があります。 月次データは月によって日数が異なる(時刻が欠落していると見なされる)ことから、ONにすると切り出しが基本的にできません。・動作停止やシステムエラーなどで、稀にデータの欠損があるセンサーデータ ・データ取得時間があらかじめ限定されている(例: 営業時間内のみ)1時間単位のデータ
OFFの場合時刻の欠落が定期的である場合などは、切り出し後のデータ数が増やせるためモデルの精度向上が見込めます。 また、月次データを扱うことができます。時刻が不連続である(欠落がある)場合でも連続的にデータを切り出すため、分析者が意図しない時間窓データが生成され、モデルの精度低下につながる場合があります。・月次データ ・土曜日と日曜日のみにデータが存在しない日次データ ・ミリ秒単位などに小さな時間誤差があるセンサーデータ(本来はリサンプリングなどで事前に対処することを推奨)