Machine Learning - Standard Deviation

Wat is de standaardafwijking?

De standaardafwijking (Standard Deviation, ook wel gemiddelde kwadratische afwijking genoemd) is een cijfer dat de verspreidingsgraad van de waarden beschrijft.

Een lage standaardafwijking betekent dat de meeste cijfers dicht bij het gemiddelde (gemiddelde) liggen.

Een hoge standaardafwijking betekent dat deze waarden zich verspreiden over een bredere range.

Bijvoorbeeld: deze keer hebben we de snelheid van 7 auto's geregistreerd:

snelheid = [86,87,88,86,87,85,86]

De standaardafwijking is:

0.9

Dit betekent dat de meeste waarden zich binnen een bereik van 0.9 van het gemiddelde bevinden, dat is 86.4.

Laten we een breder bereik van cijfersverzamelingen behandelen:

speed = [32,111,138,28,59,77,97]

De standaardafwijking is:

37.85

Dit betekent dat de meeste waarden zich binnen een bereik van 37.85 van het gemiddelde (gemiddelde is 77.4) bevinden.

Zoals je kunt zien, een hogere standaardafwijking betekent dat deze waarden zich verspreiden over een bredere range.

De NumPy-module heeft een methode om de standaardafwijking te berekenen:

Example

Gebruik NumPy std() Methode om de standaardafwijking te vinden:

import numpy
snelheid = [86,87,88,86,87,85,86]
x = numpy.std(snelheid)
print(x)

Running Instance

Example

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(snelheid)
print(x)

Running Instance

Variantie

De variantie is een ander cijfer dat de verspreidingsgraad van de waarden aangeeft.

In feite, als je de wortel van de variantie neemt, krijg je de standaarddeviatie!

Of omgekeerd, als je de standaardafwijking vermenigvuldigt met zichzelf, krijg je de variantie!

Om de variantie te berekenen, moet je de volgende stappen uitvoeren:

1. Bereken het gemiddelde:

(32+111+138+28+59+77+97) / 7 = 77.4

Voor elke waarde: vind het verschil met het gemiddelde:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

Voor elke afwijking: vind het kwadraat:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 = 2440.36 
(-18.4)2 =  338.56 
(- 0.4)2 =    0.16 
 (19.6)2 =  384.16

4. Variance is the average of these squared differences:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

Fortunately, NumPy has a method for calculating variance:

Example

Using NumPy var() Method to determine variance:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)

Running Instance

Standard Deviation

As we know, the formula for calculating the standard deviation is the square root of the variance:

√ 1432.25 = 37.85

Or, as shown in the example above, use NumPy to calculate the standard deviation:

Example

Please use the NumPy std() method to find the standard deviation:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Running Instance

Symbols

Standard deviation is usually represented by the Sigma symbol:σ

Variance is usually represented by the Sigma Square symbol σ2 Representation

Chapter Summary

Standard deviation and variance are frequently used terms in machine learning, so it is very important to understand how to obtain them and the concepts behind them.