Machine Learning - Standard Deviation
- Previous Page Average Median Pattern
- Next Page Percentiles
Wat is de standaardafwijking?
De standaardafwijking (Standard Deviation, ook wel gemiddelde kwadratische afwijking genoemd) is een cijfer dat de verspreidingsgraad van de waarden beschrijft.
Een lage standaardafwijking betekent dat de meeste cijfers dicht bij het gemiddelde (gemiddelde) liggen.
Een hoge standaardafwijking betekent dat deze waarden zich verspreiden over een bredere range.
Bijvoorbeeld: deze keer hebben we de snelheid van 7 auto's geregistreerd:
snelheid = [86,87,88,86,87,85,86]
De standaardafwijking is:
0.9
Dit betekent dat de meeste waarden zich binnen een bereik van 0.9 van het gemiddelde bevinden, dat is 86.4.
Laten we een breder bereik van cijfersverzamelingen behandelen:
speed = [32,111,138,28,59,77,97]
De standaardafwijking is:
37.85
Dit betekent dat de meeste waarden zich binnen een bereik van 37.85 van het gemiddelde (gemiddelde is 77.4) bevinden.
Zoals je kunt zien, een hogere standaardafwijking betekent dat deze waarden zich verspreiden over een bredere range.
De NumPy-module heeft een methode om de standaardafwijking te berekenen:
Example
Gebruik NumPy std()
Methode om de standaardafwijking te vinden:
import numpy snelheid = [86,87,88,86,87,85,86] x = numpy.std(snelheid) print(x)
Example
import numpy speed = [32,111,138,28,59,77,97] x = numpy.std(snelheid) print(x)
Variantie
De variantie is een ander cijfer dat de verspreidingsgraad van de waarden aangeeft.
In feite, als je de wortel van de variantie neemt, krijg je de standaarddeviatie!
Of omgekeerd, als je de standaardafwijking vermenigvuldigt met zichzelf, krijg je de variantie!
Om de variantie te berekenen, moet je de volgende stappen uitvoeren:
1. Bereken het gemiddelde:
(32+111+138+28+59+77+97) / 7 = 77.4
Voor elke waarde: vind het verschil met het gemiddelde:
32 - 77.4 = -45.4 111 - 77.4 = 33.6 138 - 77.4 = 60.6 28 - 77.4 = -49.4 59 - 77.4 = -18.4 77 - 77.4 = - 0.4 97 - 77.4 = 19.6
Voor elke afwijking: vind het kwadraat:
(-45.4)2 = 2061.16 (33.6)2 = 1128.96 (60.6)2 = 3672.36 (-49.4)2 = 2440.36 (-18.4)2 = 338.56 (- 0.4)2 = 0.16 (19.6)2 = 384.16
4. Variance is the average of these squared differences:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2
Fortunately, NumPy has a method for calculating variance:
Example
Using NumPy var()
Method to determine variance:
import numpy speed = [32,111,138,28,59,77,97] x = numpy.var(speed) print(x)
Standard Deviation
As we know, the formula for calculating the standard deviation is the square root of the variance:
√ 1432.25 = 37.85
Or, as shown in the example above, use NumPy to calculate the standard deviation:
Example
Please use the NumPy std() method to find the standard deviation:
import numpy speed = [32,111,138,28,59,77,97] x = numpy.std(speed) print(x)
Symbols
Standard deviation is usually represented by the Sigma symbol:σ
Variance is usually represented by the Sigma Square symbol σ2 Representation
Chapter Summary
Standard deviation and variance are frequently used terms in machine learning, so it is very important to understand how to obtain them and the concepts behind them.
- Previous Page Average Median Pattern
- Next Page Percentiles