Maschinelles Lernen - Datenverteilung

Datenverteilung (Data Distribution)

In einem früheren Abschnitt dieses Tutorials haben wir nur sehr wenig Daten in Beispielen verwendet, um verschiedene Konzepte zu verstehen.

In der Realität sind Datensätze viel größer, aber mindestens in den frühen Stadien eines Projekts ist es schwer, realistische Daten zu sammeln.

Wie erhalten wir große Datenmengen?

Um große Datenmengen für Tests zu erstellen, verwenden wir das Python-Modul NumPy, das viele Methoden zum Erstellen zufälliger Datenmengen verschiedener Größen enthält.

Beispiel

Erstellen Sie ein Array mit 250 zufälligen Fließkommawerten zwischen 0 und 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Laufende Instanz

Histogramm

Um die Datenmenge visuell darzustellen, können wir Histogramme der gesammelten Daten zeichnen.

Wir werden das Python-Modul Matplotlib verwenden, um ein Histogramm zu zeichnen:

Beispiel

Histogramm zeichnen:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Ergebnis:


Laufende Instanz

Erklärung des Histogramms

Wir zeichnen 5 Balkendiagramme mit dem Array aus dem obigen Beispiel.

Das erste Feld stellt dar, wie viele Werte zwischen 0 und 1 im Array vorhanden sind.

Das zweite Feld stellt dar, wie viele Werte zwischen 1 und 2 liegen.

etc.

Das Ergebnis, das wir erhalten, ist:

52 Werte liegen zwischen 0 und 1
48 Werte liegen zwischen 1 und 2
49 Werte liegen zwischen 2 und 3
51 Werte liegen zwischen 3 und 4
50 Werte liegen zwischen 4 und 5

Anmerkung:Die Arraywerte sind zufällige Zahlen und die Ergebnisse werden nicht auf Ihrem Computer vollständig gleich sein.

Großes Datenverteilung

Ein Array mit 250 Werten wird nicht als groß angesehen, aber jetzt wissen Sie, wie Sie eine Sammlung zufälliger Werte erstellen können und können durch Ändern der Parameter Datenmengen der gewünschten Größe erstellen.

Beispiel

Erstellen Sie ein Array mit 100000 zufälligen Zahlen und zeichnen Sie sie mit einem Histogramm mit 100 Spalten dar:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Laufende Instanz