📘
モデル開発 - カウントデータ回帰モデルの設計
カウントデータ回帰とは
カウントデータ回帰とは、予測対象のデータがカウントデータであるという事前知識をうまくモデルに取り込み、予測精度や解釈性を向上させることができるアルゴリズムです。
カウントデータの持つ特性を無視して通常のモデルなどで予測してしまうと、思うような精度が出なかったり、本来あり得ない負の値を出力してしまったりします。
カウントデータとは
一定間隔で期間内に発生したイベントの発生回数を集計カウントした、ゼロ以上の整数値を持つデータです。例えば、1年間で発生した地震の回数、コールセンターにおける1週間の架電数、特定商品の1日の売り上げ個数などの時系列データです。Node-AIで使える公開データの中では、「シェアサイクル利用の総代数予測」なども該当します。
ポアソン(Poisson)回帰とは
ポアソン回帰は、カウントデータに対する回帰手法の一つです。
線形モデルやMLPなどでは、 を説明変数、 を予測モデルとした時、「目的変数 = + 誤差」といった加法的な誤差を考えます。また、誤差は多くの場合ガウス分布という確率分布に従うと仮定され、学習データの発生確率が高くなるように誤差の二乗値 (Mean Squared Error, MSE)を最小化して予測モデル を最適化します。
ポアソン回帰ではカウントデータの発生過程を考慮して、ガウス分布ではなくポアソン分布という特殊な確率分布と、非加法的な”誤差”を考えます。
ポアソン分布は「一定期間内に平均 回起こるイベントが、実際に 回起こる確率」の分布です。
例えば、「1年に平均5回程度発生する地震が、実際に10回起こる確率はどれだけなのか」などをモデル化できます。1年に平均5回程度発生する地震が10回も20回も発生する確率は低いと考えられますし、逆に一度も地震が発生しない確率も低いと考えられます。
ある意味ではこの平均からのズレが誤差ですが、同じ1のズレでも、平均より1回多い場合と1回少ない場合の確率は非対称です。

ポアソン回帰では単純な誤差ではなく、 を で予測した後ポアソン分布を介して、データの分布を計算し、学習データの発生確率が高くなるように を最適化する、間接的な予測モデル構築をします。
例えば「特定商品の1日の売り上げ個数」などでは、曜日などによって平均売上個数 の値は変わりますが、ある1日の中では は一定とみなせ、売上個数はポアソン分布に従います。また説明変数 に曜日を含めれば、1日ごとに動的に変化する の値を、曜日に応じてモデリングすることができます。
このようにポアソン分布に従うようなカウントデータに対して、ポアソン回帰を使えばデータの発生過程を正しく表現した精度の良いモデル構築が可能になるのです。
カウントデータ回帰カードの操作方法

アルゴリズムの選択、各種パラメータの設定
各アルゴリズムで設定が必要となるパラメータは以下です。
アルゴリズム名 | 概要 | パラメータ |
---|---|---|
poisson | 詳細はポアソン回帰を参照 | 正則化係数 alpha |
各アルゴリズムのパラメータの説明は以下です。
- poisson
- 正則化係数
- ポアソン分布に基づく損失と、L2正則化による損失の割合をコントロールする係数
- 線形モデルと同様、 を大きくすると説明変数の寄与が抑制され過学習が起きにくくなる
設計の保存
- “実行” ボタンを押して、設定を保存します。
- 設定内容に矛盾が存在する場合は、エラーが表示されます。
- 処理時間が 5 分を超えるとタイムアウトし、処理が強制終了されます。この場合は再度実行をお試しください。再度実行しても結果が表示されない場合は、お手数ですが Node-AI サポートへお問い合わせください。