📘

データ可視化 - バイオリンプロット

 

バイオリンプロットとは?

バイオリンプロットはカテゴリごとにデータの分布を比較したい時に利用するカードです。例えば季節による分布の変動を確認したい時などに利用できます。

バイオリンプロットカードの操作方法

結線

対象データを結線してください。

パラメータの設定

設定項目任意/必須初期値説明
横軸とするカラム必須-例えば 月、火、水、… のようなカテゴリーを表すカラムを選択します。選択されたカラムは図の横軸となります。
縦軸とするカラム必須-分布を比較したいカラムを選択します。選択されたカラムは図の縦軸となります。
色分けするカラム任意-例えば 平日が0、休日が1 のようなカテゴリーを表すカラムを選択します。この値によってバイオリン図が色分けされます。
データポイントの表示形式任意なしバイオリン図中のデータポイントの表示形式を選択します。(詳しくは後述)
分割描画任意オフ各レベルでバイオリンの半分が描画され、分布を直接比較しやすくなります。「色分けするカラム」を設定したときのみオンにできます。
「データポイントの表示形式」のパラメータは以下です。
データポイントの表示形式説明
なし (デフォルト)データポイントを描画しません。
box箱ひげ図を描画します。データのばらつき具合を確認する場合に適しています。
quartile四分位数を描画します。データのおおまかな傾向を確認する場合に適しています。
point元のデータ点を描画します。

実行

  • “実行”ボタンを押してください。
  • 処理時間が 10 分を超えるとタイムアウトし、処理が強制終了されます。

バイオリンプロットの結果の確認

上の図では、cbwd(風向き)カテゴリごとのpm2.5の分布を比較しています。
結果を解釈する際は以下に注意してください。
  • 縦軸にする値が離散的な場合でも滑らかなバイオリン図が描画されるため、間の値を取るサンプルが存在するように見えてしまう場合があります。
    • 「データポイントの表示形式」でpointを設定して実行することで実データの分布を確認してください。
  • 分割描画時の左右のバイオリン図のデータ数の差は面積比に反映されません。