Machine Learning - Data Distributie

Data-distributie (Data Distribution)

In een eerdere fase van deze tutorial hebben we slechts een zeer kleine hoeveelheid gegevens gebruikt in voorbeelden, met als doel verschillende concepten te begrijpen.

In de werkelijke wereld zijn datasets veel groter, maar ten minste in de vroege fase van een project is het moeilijk om gegevens van de werkelijke wereld te verzamelen.

Hoe verkrijgen we een grote dataset?

Om een grote dataset voor testen te creëren, gebruiken we het Python-module NumPy, dat veel methoden bevat om willekeurige datasets van elke grootte te maken.

Voorbeeld

Maak een array van 250 willekeurige float-getallen tussen 0 en 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Uitvoer van een voorbeeld

Histogram

Om de dataset visueel te maken, kunnen we een histogram van de verzamelde gegevens tekenen.

We zullen het Python-module Matplotlib gebruiken om een histogram te tekenen:

Voorbeeld

Tekening van een histogram:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Resultaat:


Uitvoer van een voorbeeld

Uitleg van het histogram

We trekken 5 histogrammen met de array uit het voorbeeld.

De eerste kolom vertegenwoordigt het aantal waarden tussen 0 en 1 in de array.

De tweede kolom vertegenwoordigt het aantal waarden tussen 1 en 2.

enzovoort.

Het resultaat dat we krijgen is:

52 waarden liggen tussen 0 en 1
48 waarden liggen tussen 1 en 2
49 waarden liggen tussen 2 en 3
51 waarden liggen tussen 3 en 4
50 waarden liggen tussen 4 en 5

Opmerking:De arraywaarden zijn willekeurige getallen en de resultaten zullen niet identiek zijn op je computer.

Grote data-distributie

Een array met 250 waarden wordt niet groot beschouwd, maar nu weet je hoe je een verzameling willekeurige waarden kunt maken en door parameters aan te passen, kun je datasets van de gewenste grootte maken.

Voorbeeld

Maak een array van 100000 willekeurige getallen en toon deze met een histogram van 100 kolommen:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Uitvoer van een voorbeeld