📘
データ前処理 - 文字列置換
文字列置換とは?
与えられたデータに対し、指定した値で文字列を置き換えます。
Node-AI の AI モデルでは、文字列データはすべて数値データに変換する必要があります。文字列のデータが登録されるケースは次のような例が考えられます。
- 欠損値が”NULL”という文字列になって登録されている
- 数値や欠損値ではなく英語や日本語の文字データが登録されている
- 名義尺度
- 時系列データにおいては、例えば化学プラントの製造データにおける材料の種類(材料A、材料B、…)などが考えられます。それぞれの値の大小は比較できないため、値ごとに適当な数値を割り当ててください。
- 名義尺度、順序尺度、間隔尺度は比例関係を持たないため、 モデル開発 - 線形モデルの設計 などでは意図しない予測結果につながる可能性があります。そのため置換結果を説明変数に使用する場合は モデル開発 - 決定木回帰モデルの設計 や モデル開発 - LightGBM モデルの設計 などの利用を推奨します。(順序尺度、名義尺度も同様)
- 順序尺度
- 時系列データにおいては、例えば小売業における需要予測用データの、各商品の月ごとの売り上げランキング(1位、2位、…)などが考えられます。その文字列が表す意味の順序どおりに数値に変換することを推奨します。(例: 1, 2, …)
- 間隔尺度・比尺度
- 間隔尺度・比尺度が文字列として登録されるケースは少ないと考えられますが、元の文字が意味する数値に置換することを推奨します。
文字列置換カードの操作方法
結線
処理対象データを結線してください
パラメータの設定
例として、‘cbwd’ の列にある ‘SE’ を’1’に置換する場合
“検索する文字列” に “SE” 、 “置換する数値” に “1” と入力します
検索する文字列の推薦について
“検索する文字列” に入力カーソルを合わせると、データに含まれる文字列が一覧となって表示されます。 (表示されない場合は文字列置換カードに接続しているカードを再実行してください。)
“検索する文字列” に入力カーソルを合わせると、データに含まれる文字列が一覧となって表示されます。 (表示されない場合は文字列置換カードに接続しているカードを再実行してください。)
文字列置換カードの実行後は、実行後に残っている文字列のみが表示されるため、文字列の種類が多い場合は設定を少しずつ増やして実行すると設定がしやすくなります。
“検索する文字列” に重複がある場合は、設定パネルの上側にある設定が優先され、下側にある設定は実行後に削除されます。
また、“検索する文字列” が空欄の場合は、実行後に削除されます。
設定パラメータ
設定項目 | 説明 |
---|---|
検索する文字列 | 置換前の文字列を指定します |
置換する数値 | 指定した文字列の置換後の数値を指定します |
“条件を追加” を押すことで、複数の置換を同時に行うことが可能です。
実行
“実行” ボタンを押し、実行します。
- パラメーターに従い置換処理が行われます。
- 置換が成功すると、メッセージが表示されます。
- 処理された件数が表示されます。
- 置換する文字列ごとに置換件数も確認できます。
- 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。
処理結果の確認
必要に応じて、テーブルタブで置換結果を確認してください。