Aprendizado de Máquina - Desvio Padrão

O que é o desvio padrão?

O desvio padrão (Standard Deviation, também conhecido como variança média) é um número que descreve o grau de dispersão dos valores.

Um desvio padrão baixo indica que a maioria dos números está perto da média (média).

Um desvio padrão alto indica que esses valores se distribuem em um intervalo mais amplo.

Por exemplo: dessa vez, já registramos as velocidades de 7 carros:

speed = [86,87,88,86,87,85,86]

O desvio padrão é:

0.9

Isso significa que a maioria dos valores está dentro de um intervalo de 0.9 da média, ou seja, 86.4.

Vamos lidar com um conjunto de números mais amplo:

speed = [32,111,138,28,59,77,97]

O desvio padrão é:

37.85

Isso significa que a maioria dos valores está dentro de um intervalo de 37.85 do valor médio (média de 77.4).

Como você pode ver, uma alta desvio padrão indica que esses valores se distribuem em um intervalo mais amplo.

O módulo NumPy tem um método para calcular o desvio padrão:

Exemplo

Use o NumPy std() Método para encontrar o desvio padrão:

import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)

Executar Instância

Exemplo

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Executar Instância

Variância

A variância é outro número que indica o grau de dispersão dos valores.

Na verdade, se você usar a raiz quadrada da variância, obterá o desvio padrão!

Ou vice-versa, se você multiplicar a desvio padrão por si mesmo, obterá a variância!

Para calcular a variância, você deve executar as seguintes operações:

1. Calcular a média:

(32+111+138+28+59+77+97) / 7 = 77.4

2. Para cada valor: encontrar a diferença com a média:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

3. Para cada diferença: encontrar o quadrado:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 (-49.4) 
= 2440.362 (-18.4) 
=  338.562 (- 0.4) 
 =    0.162 (19.6)

= 384.16

4. A variância é a média dessas diferenças ao quadrado:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

Exemplo

Felizmente, o NumPy tem um método para calcular a variância: var() Método para determinar a variância:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)

Executar Instância

Desvio Padrão

Como sabemos, a fórmula para calcular o desvio padrão é a raiz quadrada da variância:

√ 1432.25 = 37.85

Ou, como no exemplo acima, use o NumPy para calcular o desvio padrão:

Exemplo

Use o método std() do NumPy para encontrar o desvio padrão:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Executar Instância

Símbolo

O Desvio Padrão é geralmente representado pelo símbolo Sigma:σ

A Variância é geralmente representada pelo símbolo Sigma Square σ2 Representação

Resumo do Capítulo

Desvio Padrão e Variância são termos frequentemente usados na aprendizado de máquina, portanto, entender como obtê-los e os conceitos por trás deles é muito importante.