Aprendizaje automático - Diagramas de dispersión
- Página anterior Distribución de datos normales
- Página siguiente Regresión lineal
Gráfico de dispersión (Scatter Plot)
El gráfico de dispersión es un gráfico en el que cada valor del conjunto de datos se representa por un punto.

El módulo Matplotlib tiene un método para dibujar gráficos de dispersión, que necesita dos arrays de longitud igual: uno para los valores del eje x y otro para los valores del eje y:
x = [5,7,8,7,2,17,2,9,4,11,12,9,6] y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
El array x representa la edad de cada coche.
El array y representa la velocidad de cada coche.
Ejemplo
Por favor, use scatter()
Método para dibujar un gráfico de dispersión:
import matplotlib.pyplot as plt x = [5,7,8,7,2,17,2,9,4,11,12,9,6] y = [99,86,87,88,111,86,103,87,94,78,77,85,86] plt.scatter(x, y) plt.show()
Resultados:

Explicación de diagrama de dispersión
El eje x representa la antigüedad del coche, y el eje y representa la velocidad.
Se puede ver en la imagen que los dos coches más rápidos han utilizado 2 años, y el coche más lento ha utilizado 12 años.
Notas:Parece que los autos nuevos van más rápido, pero esto puede ser una coincidencia, después de todo, solo registramos 13 autos.
Distribución de datos aleatorios
En el aprendizaje automático, los conjuntos de datos pueden contener miles e incluso millones de valores.
Cuando prueba algoritmos, es posible que no tenga datos reales y tenga que usar valores generados aleatoriamente.
Como aprendimos en el capítulo anterior, el módulo NumPy nos ayuda!
Vamos a crear dos arreglos que estén llenos de 1000 números aleatorios de distribución de datos normales.
El promedio del primer conjunto de números se establece en 5.0 y la desviación estándar en 1.0.
El promedio del segundo conjunto de números se establece en 10.0 y la desviación estándar en 2.0:
Ejemplo
Gráfico de dispersión con 1000 puntos:
import numpy import matplotlib.pyplot as plt x = numpy.random.normal(5.0, 1.0, 1000) y = numpy.random.normal(10.0, 2.0, 1000) plt.scatter(x, y) plt.show()
Resultados:

Explicación de diagrama de dispersión
Podemos ver que los puntos se concentran alrededor de los valores 5 en el eje x y 10 en el eje y.
Podemos ver que la dispersión en el eje y es mayor que en el eje x.
- Página anterior Distribución de datos normales
- Página siguiente Regresión lineal