モデル開発 - カウントデータ回帰モデルの設計

2025/4/1 13:112025/6/10 13:01

カウントデータ回帰とはカウントデータ回帰カードの操作方法アルゴリズムの選択、各種パラメータの設定設計の保存

カウントデータ回帰とは

カウントデータ回帰とは、予測対象のデータがカウントデータであるという事前知識をうまくモデルに取り込み、予測精度や解釈性を向上させることができるアルゴリズムです。

カウントデータの持つ特性を無視して通常のモデルなどで予測してしまうと、思うような精度が出なかったり、本来あり得ない負の値を出力してしまったりします。

💡

カウントデータとは

一定間隔で期間内に発生したイベントの発生回数を集計カウントした、ゼロ以上の整数値を持つデータです。例えば、1年間で発生した地震の回数、コールセンターにおける1週間の架電数、特定商品の1日の売り上げ個数などの時系列データです。Node-AIで使える公開データの中では、「シェアサイクル利用の総代数予測」なども該当します。

💡

ポアソン(Poisson)回帰の詳細

ポアソン回帰は、カウントデータに対する回帰手法の一つです。

線形モデルやMLPなどでは、を説明変数、を予測モデルとした時、「目的変数＝ + 誤差」といった加法的な誤差を考えます。また、誤差は多くの場合ガウス分布という確率分布に従うと仮定され、学習データの発生確率が高くなるように誤差の二乗値 (Mean Squared Error, MSE)を最小化して予測モデルを最適化します。

ポアソン回帰ではカウントデータの発生過程を考慮して、ガウス分布ではなくポアソン分布という特殊な確率分布と、非加法的な”誤差”を考えます。

ポアソン分布は「一定期間内に平均回起こるイベントが、実際に回起こる確率」の分布です。

例えば、「1年に平均5回程度発生する地震が、実際に10回起こる確率はどれだけなのか」などをモデル化できます。1年に平均5回程度発生する地震が10回も20回も発生する確率は低いと考えられますし、逆に一度も地震が発生しない確率も低いと考えられます。

ある意味ではこの平均からのズレが誤差ですが、同じ1のズレでも、平均より1回多い場合と1回少ない場合の確率は非対称です。

ポアソン回帰では単純な誤差ではなく、をで予測した後ポアソン分布を介して、データの分布を計算し、学習データの発生確率が高くなるようにを最適化する、間接的な予測モデル構築をします。

例えば「特定商品の1日の売り上げ個数」などでは、曜日などによって平均売上個数の値は変わりますが、ある1日の中ではは一定とみなせ、売上個数はポアソン分布に従います。また説明変数に曜日を含めれば、1日ごとに動的に変化するの値を、曜日に応じてモデリングすることができます。

このようにポアソン分布に従うようなカウントデータに対して、ポアソン回帰を使えばデータの発生過程を正しく表現した精度の良いモデル構築が可能になるのです。

カウントデータ回帰カードの操作方法

アルゴリズムの選択、各種パラメータの設定

各アルゴリズムで設定が必要となるパラメータは以下です。

アルゴリズム名	概要	パラメータ
poisson	詳細はポアソン回帰を参照	正則化係数 alpha

各アルゴリズムのパラメータの説明は以下です。

poisson

正則化係数

ポアソン分布に基づく損失と、L2正則化による損失の割合をコントロールする係数
線形モデルと同様、を大きくすると説明変数の寄与が抑制され過学習が起きにくくなる

設計の保存

“実行” ボタンを押して、設定を保存します。

設定内容に矛盾が存在する場合は、エラーが表示されます。

処理時間が 5 分を超えるとタイムアウトし、処理が強制終了されます。この場合は再度実行をお試しください。再度実行しても結果が表示されない場合は、お手数ですが Node-AI サポートへお問い合わせください。