Aprendizaje automático - Desviación estándar

¿Qué es la desviación estándar?

La desviación estándar (Standard Deviation, también conocida como varianza media) es un número que describe el grado de dispersión de los valores.

Una desviación estándar baja indica que la mayoría de los números están cerca del promedio (el valor promedio).

Una desviación estándar alta indica que estos valores se distribuyen en un rango más amplio.

Por ejemplo: esta vez hemos registrado las velocidades de 7 autos:

speed = [86,87,88,86,87,85,86]

La desviación estándar es:

0.9

Esto significa que la mayoría de los valores están dentro de un rango de 0.9 del valor promedio, es decir, 86.4.

Vamos a tratar con un conjunto de números más amplio:

speed = [32,111,138,28,59,77,97]

La desviación estándar es:

37.85

Esto significa que la mayoría de los valores están dentro de un rango de 37.85 del valor promedio (el valor promedio es 77.4).

Como puede ver, una desviación estándar alta indica que estos valores se distribuyen en un rango más amplio.

El módulo NumPy tiene un método para calcular la desviación estándar:

Ejemplo

Use NumPy std() Método para encontrar la desviación estándar:

import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)

Ejecutar Instancia

Ejemplo

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Ejecutar Instancia

Varianza

La varianza es otro número que indica el grado de dispersión de los valores.

En realidad, si se toma la raíz cuadrada de la varianza, se obtiene la desviación estándar!

¡O反之,如果将标准偏差乘以自身,则会得到方差!

Si desea calcular la varianza, debe realizar las siguientes operaciones:

1. Calcular el promedio:

(32+111+138+28+59+77+97) / 7 = 77.4

2. Para cada valor: encontrar la diferencia con el valor promedio:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

Para cada diferencia: encontrar el valor cuadrado:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 (-49.4) 
= 2440.362 (-18.4) 
=  338.562 (- 0.4) 
 =    0.162 (19.6)

= 384.16

4. La varianza es el promedio de estas diferencias cuadradas:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

Ejemplo

Afortunadamente, NumPy tiene un método para calcular la varianza: var() Método para determinar la varianza:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)

Ejecutar Instancia

Desviación Estándar

Como sabemos, la fórmula para calcular la desviación estándar es la raíz cuadrada de la varianza:

√ 1432.25 = 37.85

O, como se muestra en el ejemplo anterior, calcule la desviación estándar usando NumPy:

Ejemplo

Utilice el método std() de NumPy para encontrar la desviación estándar:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Ejecutar Instancia

Símbolo

La desviación estándar se representa generalmente con el símbolo Sigmaσ

La varianza se representa generalmente con el símbolo Sigma Square σ2 Representación

Resumen del Capítulo

La desviación estándar y la varianza son términos comunes en el aprendizaje automático, por lo que es muy importante entender cómo obtenerlos y los conceptos subyacentes.