Maschinelles Lernen - Datenverteilung
- Vorherige Seite Perzentil
- Nächste Seite Normalverteilung der Daten
Datenverteilung (Data Distribution)
In einem früheren Abschnitt dieses Tutorials haben wir nur sehr wenig Daten in Beispielen verwendet, um verschiedene Konzepte zu verstehen.
In der Realität sind Datensätze viel größer, aber mindestens in den frühen Stadien eines Projekts ist es schwer, realistische Daten zu sammeln.
Wie erhalten wir große Datenmengen?
Um große Datenmengen für Tests zu erstellen, verwenden wir das Python-Modul NumPy, das viele Methoden zum Erstellen zufälliger Datenmengen verschiedener Größen enthält.
Beispiel
Erstellen Sie ein Array mit 250 zufälligen Fließkommawerten zwischen 0 und 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogramm
Um die Datenmenge visuell darzustellen, können wir Histogramme der gesammelten Daten zeichnen.
Wir werden das Python-Modul Matplotlib verwenden, um ein Histogramm zu zeichnen:
Beispiel
Histogramm zeichnen:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Ergebnis:

Erklärung des Histogramms
Wir zeichnen 5 Balkendiagramme mit dem Array aus dem obigen Beispiel.
Das erste Feld stellt dar, wie viele Werte zwischen 0 und 1 im Array vorhanden sind.
Das zweite Feld stellt dar, wie viele Werte zwischen 1 und 2 liegen.
etc.
Das Ergebnis, das wir erhalten, ist:
52 Werte liegen zwischen 0 und 1 48 Werte liegen zwischen 1 und 2 49 Werte liegen zwischen 2 und 3 51 Werte liegen zwischen 3 und 4 50 Werte liegen zwischen 4 und 5
Anmerkung:Die Arraywerte sind zufällige Zahlen und die Ergebnisse werden nicht auf Ihrem Computer vollständig gleich sein.
Großes Datenverteilung
Ein Array mit 250 Werten wird nicht als groß angesehen, aber jetzt wissen Sie, wie Sie eine Sammlung zufälliger Werte erstellen können und können durch Ändern der Parameter Datenmengen der gewünschten Größe erstellen.
Beispiel
Erstellen Sie ein Array mit 100000 zufälligen Zahlen und zeichnen Sie sie mit einem Histogramm mit 100 Spalten dar:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Vorherige Seite Perzentil
- Nächste Seite Normalverteilung der Daten