Gráfico de Dispersão no Aprendizado de Máquina

Gráfico de dispersão (Scatter Plot)

O gráfico de dispersão é um gráfico onde cada valor do conjunto de dados é representado por um ponto.


O módulo Matplotlib tem um método de desenho de gráfico de dispersão, que requer dois arrays de comprimento iguais, um array para os valores do eixo x e outro array para os valores do eixo y:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

O array x representa a idade de cada carro.

O array y representa a velocidade de cada carro.

Exemplo

Use scatter() Método de desenho de gráfico de dispersão:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

Resultados:


Executar Exemplo

Explicação de Gráficos de Dispersão

O eixo x representa a idade do carro, o eixo y representa a velocidade.

Do gráfico pode ser visto, os dois carros mais rápidos usaram 2 anos, o carro mais lento usou 12 anos.

Notas:}Parece que os carros novos dirigem mais rápido, mas isso pode ser uma coincidência,毕竟我们只注册了 13 辆汽车.

Distribuição de Dados Aleatórios

Em aprendizado de máquina, conjuntos de dados podem conter dezenas de milhares até milhões de valores.

Quando testamos algoritmos, você pode não ter dados reais, você pode precisar usar valores gerados aleatoriamente.

Como aprendemos no capítulo anterior, o módulo NumPy pode nos ajudar!

Vamos criar dois arrays, ambos preenchidos com 1000 números aleatórios da distribuição de dados normais.

O valor médio do primeiro array é configurado para 5.0 e a desvio padrão para 1.0.

O valor médio do segundo array é configurado para 10.0 e a desvio padrão para 2.0:

Exemplo

Gráfico de dispersão com 1000 de pontos:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()

Resultados:


Executar Exemplo

Explicação de Gráficos de Dispersão

Podemos ver que os pontos se concentram em torno dos valores 5 no eixo x e 10 no eixo y.

Podemos ver que a difusão é maior no eixo y do que no eixo x.