Maschinelles Lernen - Standardabweichung

Was ist die Standardabweichung?

Die Standardabweichung (Standard Deviation, auch als Quadratmittel bekannt) ist eine Zahl, die die Streuung der Werte beschreibt.

Eine niedrigere Standardabweichung deutet darauf hin, dass die meisten Zahlen nahe am Durchschnitt (Durchschnittswert) liegen.

Eine höhere Standardabweichung deutet darauf hin, dass diese Werte in einem breiteren Bereich verteilt sind.

Zum Beispiel: Diesmal haben wir die Geschwindigkeiten von 7 Autos erfasst:

speed = [86,87,88,86,87,85,86]

Die Standardabweichung ist:

0.9

Das bedeutet, dass die meisten Werte im Bereich von 0.9 um den Durchschnitt liegen, d.h. 86.4.

Lassen Sie uns eine größere Zahlengruppe behandeln:

speed = [32, 111, 138, 28, 59, 77, 97]

Die Standardabweichung ist:

37.85

Das bedeutet, dass die meisten Werte im Bereich von 37.85 um den Durchschnitt (77.4) liegen.

Wie Sie sehen können, deutet eine höhere Standardabweichung darauf hin, dass diese Werte in einem breiteren Bereich verteilt sind.

Das NumPy-Modul verfügt über eine Methode zur Berechnung der Standardabweichung:

Beispiel

Verwenden Sie NumPy std() Methode zur Bestimmung der Standardabweichung:

import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)

Führen Sie ein Beispiel aus

Beispiel

import numpy
speed = [32, 111, 138, 28, 59, 77, 97]
x = numpy.std(speed)
print(x)

Führen Sie ein Beispiel aus

Varianz

Die Varianz ist eine andere Zahl, die die Streuung der Werte angibt.

Tatsächlich erhalten Sie durch die Wurzel aus der Varianz die Standardabweichung!

Oder umgekehrt, wenn Sie die Standardabweichung mit sich selbst multiplizieren, erhalten Sie die Varianz!

Um die Varianz zu berechnen, müssen Sie die folgenden Schritte ausführen:

1. Berechnen Sie das Mittel:

(32+111+138+28+59+77+97) / 7 = 77.4

2. Für jeden Wert: Finden Sie den Abstand zur durchschnittlichen Werte:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

3. Für jede Differenz: Finden Sie den Quadratwert:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 = 2440.36 
(-18.4)2 = 338.56 
(- 0.4)2 = 0.16 
 (19.6)2 = 384.16

4. Die Varianz ist der Durchschnitt dieser Quadratdifferenzen:

(2061.16 + 1128.96 + 3672.36 + 2440.36 + 338.56 + 0.16 + 384.16) / 7 = 1432.2

Glücklicherweise hat NumPy eine Methode, um die Varianz zu berechnen:

Beispiel

Mit NumPy var() Methode zur Bestimmung der Varianz:

import numpy
speed = [32, 111, 138, 28, 59, 77, 97]
x = numpy.var(speed)
print(x)

Führen Sie ein Beispiel aus

Standardabweichung

Wie wir wissen, ist die Formel zur Berechnung der Standardabweichung die Quadratwurzel der Varianz:

√ 1432.25 = 37.85

Oder wie im obigen Beispiel gezeigt, verwenden Sie NumPy, um die Standardabweichung zu berechnen:

Beispiel

Verwenden Sie die NumPy std() Methode, um die Standardabweichung zu finden:

import numpy
speed = [32, 111, 138, 28, 59, 77, 97]
x = numpy.std(speed)
print(x)

Führen Sie ein Beispiel aus

Symbol

Die Standardabweichung wird normalerweise durch das Symbol Sigma dargestellt:σ

Die Varianz wird normalerweise durch das Symbol Sigma Square dargestellt σ2 Darstellung

Kapitelzusammenfassung

Standardabweichung und Varianz sind häufig verwendete Begriffe in der Maschinelles Lernen, daher ist es wichtig zu verstehen, wie man sie erhält und was hinter diesen Konzepten steht.