Aprendizaje automático - Diagramas de dispersión

Gráfico de dispersión (Scatter Plot)

El gráfico de dispersión es un gráfico en el que cada valor del conjunto de datos se representa por un punto.


El módulo Matplotlib tiene un método para dibujar gráficos de dispersión, que necesita dos arrays de longitud igual: uno para los valores del eje x y otro para los valores del eje y:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

El array x representa la edad de cada coche.

El array y representa la velocidad de cada coche.

Ejemplo

Por favor, use scatter() Método para dibujar un gráfico de dispersión:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

Resultados:


Ejecutar ejemplo

Explicación de diagrama de dispersión

El eje x representa la antigüedad del coche, y el eje y representa la velocidad.

Se puede ver en la imagen que los dos coches más rápidos han utilizado 2 años, y el coche más lento ha utilizado 12 años.

Notas:Parece que los autos nuevos van más rápido, pero esto puede ser una coincidencia, después de todo, solo registramos 13 autos.

Distribución de datos aleatorios

En el aprendizaje automático, los conjuntos de datos pueden contener miles e incluso millones de valores.

Cuando prueba algoritmos, es posible que no tenga datos reales y tenga que usar valores generados aleatoriamente.

Como aprendimos en el capítulo anterior, el módulo NumPy nos ayuda!

Vamos a crear dos arreglos que estén llenos de 1000 números aleatorios de distribución de datos normales.

El promedio del primer conjunto de números se establece en 5.0 y la desviación estándar en 1.0.

El promedio del segundo conjunto de números se establece en 10.0 y la desviación estándar en 2.0:

Ejemplo

Gráfico de dispersión con 1000 puntos:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()

Resultados:


Ejecutar ejemplo

Explicación de diagrama de dispersión

Podemos ver que los puntos se concentran alrededor de los valores 5 en el eje x y 10 en el eje y.

Podemos ver que la dispersión en el eje y es mayor que en el eje x.