機械学習 - 標準偏差

標準偏差とは何ですか?

標準偏差(Standard Deviation、又は均方根と呼ばれることがあります)は、値の分散度を示す数字です。

低い標準偏差は、ほとんどの数字が平均値(平均値)に近いことを示します。

高い標準偏差は、これらの値がより広い範囲に分布していることを示します。

例えば:この回では、7台の車の速度を登録しました:

speed = [86,87,88,86,87,85,86]

標準偏差は:

0.9

これは、ほとんどの値が平均値の0.9の範囲内にあることを意味します、つまり86.4。

範囲が広い数字の集合を処理してみましょう:

speed = [32,111,138,28,59,77,97]

標準偏差は:

37.85

これは、ほとんどの値が平均値(平均値は77.4)の37.85の範囲内にあることを意味します。

ご覧の通り、高い標準偏差は、これらの値が広い範囲に分布していることを示します。

NumPyモジュールには標準偏差を計算する方法があります:

NumPyを使用してください std() 標準偏差を検索する方法:

import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)

実行例

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

実行例

分散

分散は、値の分散度を示す別の数字です。

実際には、分散の平方根を取ると、標準偏差が得られます!

またはその逆で、標準偏差を自身で乗じると、分散が得られます!

分散を計算するには、以下の手順を実行する必要があります:

1. 平均値を求める:

(32+111+138+28+59+77+97) / 7 = 77.4

2. 各値に対して:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

3. それぞれの差に対して:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 (-49.4) 
= 2440.362 (-18.4) 
= 338.562 (- 0.4) 
 = 0.162 (19.6)

= 384.16

4. 分散はこれらの平方差の平均です:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

幸いなことに、NumPyを使用して分散を計算する方法があります: var() 方法で分散を確定します:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)

実行例

標準偏差

私たちが知っているように、標準偏差を計算する公式は、分散の平方根です:

√1432.25 = 37.85

または、上記の例のように、NumPyを使用して標準偏差を計算します:

NumPyのstd()メソッドを使用して標準偏差を検索してください:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

実行例

シンボル

標準偏差は通常、Sigma シンボルで表されます:σ

分散は通常、Sigma Square シンボルで表されます: σ2 表現

章のまとめ

標準偏差と分散は機械学習でよく使用される用語であるため、それらを取得する方法やその背後の概念を理解することは非常に重要です。