散布度(分散・標準偏差など)


データのひろがり・ばらつきを表す指標として「散布度」があります。
主な指標には、偏差平方和分散標準偏差などがあります。

目次

偏差と偏差平方和

分散

標準偏差

変動係数

四分位数


偏差と偏差平方和

偏差

 \(\scriptsize x_i-\bar{x} \)

ばらつきの度合いを示そうとする場合、おそらく多くの人は個々のデータが平均値からどのくらい離れた値なのかを表そうとするでしょう。

ある1つのデータ \(\scriptsize\color{blue}{x_i}\) に着目した場合、平均値 \(\scriptsize\color{blue}{\bar{x}}\) との差 \(\scriptsize\color{red}{x_i-\bar{x}}\) を偏差(deviation)といいます。


偏差平方和

 \(\scriptsize S=\sum \left( x_i-\bar{x} \right)^{2} \)

データ全体についてばらつきを示すには偏差を足し合わせればよいですが、ここで問題が生じます。データ値が平均値よりも大きければ偏差は正の値になりますが、小さい場合は偏差は負の値となるため、足し合わせていく際に相殺されてしまいます
そこで、偏差の絶対値を足せばよいわけですが、その作業を簡単な計算で実現させるために、偏差を2乗することによって正値にしてから足し合わせることにします。これを偏差平方和といいます。

Excel関数:devsq(x1, x2, …)

分散

 \( \scriptsize s^{2}= \normalsize \frac{1}{n} \scriptsize\sum \left(x_i-\bar{x} \right)^{2}\)
  \( \tiny n\): データの数(サイズ) \( \tiny \bar{x} \): 平均

偏差平方和をデータの数で割ることによって、偏差二乗の平均にしたものが分散(variance)です。分散は、その単位が元のデータの2乗の次元になります。

Excel関数:var.s(x1, x2, …) または var(x1, x2, …)

標準偏差

 \( \scriptsize s=\sqrt{s^{2}}=\sqrt{ \normalsize \frac{1}{n} \scriptsize \sum \left(x_i-\bar{x} \right)^{2}}\)
  \( \tiny n\): データの数(サイズ) \( \tiny \bar{x} \): 平均

分散を元のデータと同じ次元の単位に戻すために平方根をとった値が標準偏差(standard deviation)になります。

Excel関数:stdev.s(x1, x2, …) または stdev(x1, x2, …)

変動係数

 \(\scriptsize {CV=} \normalsize {\frac{s}{\bar{x}}}\)

標準偏差を平均値で割った無次元の数値が変動係数(Coefficient of Variation)です。

単位や平均値が異なる複数のグループ間において、 
平均値に対するばらつきの関係を相対的に評価する際に用います。

Excel関数: stdev.s(x1, x2, …) / average(x1, x2, …)

四分位数

データを小さい方から並べたとき、データの個数で4等分した時の区切り点を四分位数といいます。25パーセンタイル第一四分位数)、50パーセンタイル中央値)、75パーセンタイル第三四分位数)があります。