Lehrplan

Python-Tutorial

Datei bearbeiten

Python NumPy

Maschinelles Lernen

Python MySQL

Python MongoDB

Python Referenzhandbuch

Modul-Referenzhandbuch

Python How To

Python Beispiel

Wahlpflichtkurs

Kursempfehlung:

CodeW3C.com Schatzkiste

Maschinelles Lernen - Streudiagramm

Vorherige Seite Gaußische Datenverteilung
Nächste Seite Lineare Regression

Streudiagramm (Scatter Plot)

Ein Streudiagramm ist ein Diagramm, bei dem jeder Wert im Datensatz durch einen Punkt dargestellt wird.

Das Matplotlib-Modul hat eine Methode zum Zeichnen von Streudiagrammen, die zwei gleich lange Arrays erfordert, eines für die x-Achsenwerte und eines für die y-Achsenwerte:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

Das x-Array repräsentiert das Alter jedes Autos.

Das y-Array stellt die Geschwindigkeit jedes Autos dar.

Beispiel

Bitte verwenden Sie scatter() Methode zum Zeichnen von Streudiagrammen:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

Ergebnis:

Laufendes Beispiel

Scatter-Diagramm Erklärung

Der x-Achse entspricht dem Alter des Autos, der y-Achse entspricht der Geschwindigkeit.

Von dem Diagramm ist zu sehen, dass beide schnellsten Autos 2 Jahre verwendet haben, das langsamste Auto hat 12 Jahre verwendet.

Anmerkung:Es scheint, dass Autos schneller gefahren werden, je neuer sie sind, aber das könnte ein Zufall sein, schließlich haben wir nur 13 Autos registriert.

Zufällige Datenverteilung

In der maschinellen Lernung können Datensätze Tausende oder Millionen von Werten enthalten.

Wenn Sie Algorithmen testen, haben Sie möglicherweise keine echten Daten und müssen möglicherweise zufällig generierte Werte verwenden.

Wie wir im letzten Kapitel gelernt haben, kann das NumPy-Modul uns helfen!

Lassen Sie uns zwei Arrays erstellen, die beide mit 1000 zufälligen Zahlen aus der normalen Datenverteilung gefüllt sind.

Der Durchschnittswert des ersten Arrays ist auf 5.0 und die Standardabweichung auf 1.0 gesetzt.

Der Durchschnittswert des zweiten Arrays ist auf 10.0 und die Standardabweichung auf 2.0 gesetzt: