分散について

分散の感覚的な説明なので厳密性を欠いていても悪しからず

70,80,70,80の平均は75だが、平均と各値の差の和は

(70-75)+(80-75)+(70-75)+(80-75)=0

一方、100,100,50,50の平均は75だが、平均と各値の差の和は

(100-75)+(100-75)+(50-75)+(50-75)=0

直感的にばらつきが多いのは後者だが、それを上手く反映できていない。

(70-75)2+(80-75)2+(70-75)2+(80-75)2=100

(100-75)2+(100-75)2+(50-75)2+(50-75)2=2500

例えば、70,80,70,80と70,70,70,80,80,80ではデータのばらつきは直感的に同じだが、平均と各値の差の2乗の和は

(70-75)2+(80-75)2+(70-75)2+(80-75)2=100

(70-75)2+(70-75)2+(70-75)2+(80-75)2+(80-75)2+(80-75)2=150

つまり、70,80,70,80の分散は

{\displaystyle
\frac{(70-75)^2+(80-75)^2+(70-75)^2+(80-75)^2}{4}=25
}

70,70,70,80,80,80の分散は

{\displaystyle
\frac{(70-75)^2+(70-75)^2+(70-75)^2+(80-75)^2+(80-75)^2+(80-75)^2}{6}=25
}

となり直感通りで等しくなる。

 簡潔に数式化すると、データが

{\displaystyle
a_1,a_2,\cdots,a_n
}

のときの分散σは平均をmとして

{\displaystyle
\sigma = \frac{(a_1-m)^2+(a_2-m)^2+\cdots+(a_n-m)^2}{n}
}