Gráfico de Dispersão no Aprendizado de Máquina
- Página Anterior Distribuição de Dados Normais
- Próxima Página Regressão Linear
Gráfico de dispersão (Scatter Plot)
O gráfico de dispersão é um gráfico onde cada valor do conjunto de dados é representado por um ponto.

O módulo Matplotlib tem um método de desenho de gráfico de dispersão, que requer dois arrays de comprimento iguais, um array para os valores do eixo x e outro array para os valores do eixo y:
x = [5,7,8,7,2,17,2,9,4,11,12,9,6] y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
O array x representa a idade de cada carro.
O array y representa a velocidade de cada carro.
Exemplo
Use scatter()
Método de desenho de gráfico de dispersão:
import matplotlib.pyplot as plt x = [5,7,8,7,2,17,2,9,4,11,12,9,6] y = [99,86,87,88,111,86,103,87,94,78,77,85,86] plt.scatter(x, y) plt.show()
Resultados:

Explicação de Gráficos de Dispersão
O eixo x representa a idade do carro, o eixo y representa a velocidade.
Do gráfico pode ser visto, os dois carros mais rápidos usaram 2 anos, o carro mais lento usou 12 anos.
Notas:}Parece que os carros novos dirigem mais rápido, mas isso pode ser uma coincidência,毕竟我们只注册了 13 辆汽车.
Distribuição de Dados Aleatórios
Em aprendizado de máquina, conjuntos de dados podem conter dezenas de milhares até milhões de valores.
Quando testamos algoritmos, você pode não ter dados reais, você pode precisar usar valores gerados aleatoriamente.
Como aprendemos no capítulo anterior, o módulo NumPy pode nos ajudar!
Vamos criar dois arrays, ambos preenchidos com 1000 números aleatórios da distribuição de dados normais.
O valor médio do primeiro array é configurado para 5.0 e a desvio padrão para 1.0.
O valor médio do segundo array é configurado para 10.0 e a desvio padrão para 2.0:
Exemplo
Gráfico de dispersão com 1000 de pontos:
import numpy import matplotlib.pyplot as plt x = numpy.random.normal(5.0, 1.0, 1000) y = numpy.random.normal(10.0, 2.0, 1000) plt.scatter(x, y) plt.show()
Resultados:

Explicação de Gráficos de Dispersão
Podemos ver que os pontos se concentram em torno dos valores 5 no eixo x e 10 no eixo y.
Podemos ver que a difusão é maior no eixo y do que no eixo x.
- Página Anterior Distribuição de Dados Normais
- Próxima Página Regressão Linear