モデル開発 - PCA異常検知モデルの設計

2025/6/10 11:452025/11/12 14:41

PCA異常検知モデルとは PCA異常検知モデルの操作方法各種パラメータの設定設計の保存

PCA異常検知モデルとは

PCA異常検知モデルとは、主成分分析（PCA）を用いて正常データのパターンを学習することで、そこから外れた異常データを検出するアルゴリズムです。

入力データから重要な特徴を残しながら次元削減するPCAの性質を利用し、入力データとPCAで次元削減した後に元の次元に戻したデータとの差である再構成誤差を計算することで、再構成誤差が大きいデータを異常とみなします。

💡

PCA異常検知モデルと他のモデルとの比較

Node-AIでは他にもいくつかのモデルで異常検知を行うことができますが、PCA異常検知のメリットは以下が考えられます。

📘モデル開発 - ルールベース異常検知モデルの設計のように条件を明示する必要がなく、特徴量が多くなってもルールをその都度追加したりするコストがないので柔軟性が高いです。

📘モデル開発 - 深層学習モデルの設計 (MLP) を用いた異常検知モデルと比較し、成分数のパラメータひとつのみで簡便に設計が可能で、学習速度が大幅に速いのが特徴です。

データカードの特徴量を変えたり（参考: 📗データ確認/説明変数・目的変数の設定）、各カードのパラメータを変更したりして一連の流れを再実行する場合、時間的コストがかからないのが大きなメリットです。

一方で、データの持つ関係性が直線的（線形）であることを前提としています。そのため、変数同士が曲線を描くような複雑な（非線形な）関係を持つデータの異常検知は苦手な場合があります。その場合は非線形手法である📘モデル開発 - 深層学習モデルの設計 (MLP) の方が適している可能性があります。

PCA異常検知モデルの操作方法

各種パラメータの設定

設定可能なパラメータは以下の通りです。各パラメータの設定は、モデルの性能と過学習のリスクに直接影響を与えるため、データセットの特性や解析の目的に応じて設定してください。

パラメータ	設定範囲	概要
(主成分数)	0 < x < 窓幅 * 特徴量数 (int)	正常データの特徴を要約するために用いる主成分の数。この値が、異常検知モデルの性能や精度を左右します。

(主成分数)の上限値はお使いのデータによって決まるため、以下の(主成分数)の決め方を参考にしながら調整をしてください。

💡

(主成分数)の決め方

元の特徴量の次元数を考慮しては決定しますが、最初は5に設定してみましょう。この後の評価カードにて異常がうまく検知できていなければモデルの汎化性能が足りない可能性があるので、を10、20と少しづつ段階的に設定することでモデルの汎化性能と過学習のリスクとの間でバランスを取り、異常検知精度の両方を考慮して調整することができます。

もし、設定値が間違っていた場合は以下の用にエラーメッセージが表示されます。上限値が記載されているため、参考にしてください。

設計の保存

“実行” ボタンを押して、設定を保存します。

設定内容に矛盾が存在する場合は、エラーが表示されます。

処理時間が 5 分を超えるとタイムアウトし、処理が強制終了されます。この場合は再度実行をお試しください。再度実行しても結果が表示されない場合は、お手数ですが Node-AI サポートへお問い合わせください。