Odchylenie standardowe w uczeniu maszynowym

Co to jest odchylenie standardowe?

Odchylenie standardowe (Standard Deviation, często nazywane średnim kwadratowym) jest liczbą, która opisuje stopień rozproszenia wartości.

Niskie odchylenie standardowe oznacza, że większość liczb jest bliska średniej (średnia).

Wysokie odchylenie standardowe oznacza, że te wartości są rozłożone w szerszym zakresie.

Na przykład: tym razem zarejestrowaliśmy prędkości 7 pojazdów:

speed = [86,87,88,86,87,85,86]

Odchylenie standardowe jest:

0.9

Oznacza to, że większość wartości znajduje się w zakresie 0.9 od średniej, tj. 86.4.

Zacznijmy od liczby o większym zakresie:

speed = [32,111,138,28,59,77,97]

Odchylenie standardowe jest:

37.85

Oznacza to, że większość wartości znajduje się w zakresie 37.85 od średniej (średnia wynosi 77.4).

Jak widać, wyższe odchylenie standardowe oznacza, że te wartości są rozłożone w szerszym zakresie.

Moduł NumPy ma metodę obliczania odchylenia standardowego:

Przykład

Użyj NumPy std() Metoda wyszukiwania odchylenia standardowego:

import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)

Uruchom przykład

Przykład

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Uruchom przykład

Odchylenie kwadratowe

Odchylenie kwadratowe jest inną liczbą, która wskazuje na stopień rozproszenia wartości.

W rzeczywistości, jeśli używasz pierwiastka kwadratowego odchylenia kwadratowego, uzyskasz odchylenie standardowe!

Lub odwrotnie, jeśli mnożysz odchylenie standardowe przez siebie, uzyskasz odchylenie kwadratowe!

Aby obliczyć odchylenie standardowe, musisz wykonać następujące kroki:

1. Oblicz średnią:

(32+111+138+28+59+77+97) / 7 = 77.4

2. Dla każdej wartości: znaleźć różnicę od średniej:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

3. Dla każdej różnicy: znaleźć kwadrat wartości:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 (-49.4) 
= 2440.362 (-18.4) 
=  338.562 (- 0.4) 
 =    0.162 (19.6)

= 384.16

4. Wariancja to średnia tych kwadratów różnic:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

Przykład

Na szczęście, NumPy ma metodę obliczania wariancji: var() Metoda określania wariancji:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)

Uruchom przykład

Odchylenie standardowe

Jak wiemy, formuła obliczania odchylenia standardowego to pierwiastek kwadratowy odchylenia:

√ 1432.25 = 37.85

Albo, jak w przykładzie powyżej, oblicz odchylenie standardowe za pomocą NumPy:

Przykład

Użyj metody std() NumPy, aby znaleźć odchylenie standardowe:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Uruchom przykład

Symbol

Odchylenie standardowe jest zazwyczaj oznaczane przez symbol Sigma:σ

Wariancja jest zazwyczaj oznaczana przez symbol Sigma Square σ2 Wyrażenie

Podsumowanie rozdziału

Odchylenie standardowe i wariancja to terminy często używane w uczeniu maszynowym, więc zrozumienie, jak uzyskać je oraz ich założenia, jest bardzo ważne.