Machine Learning - Data Distributie
- Vorige pagina Percentiel
- Volgende pagina Normale data-distributie
Data-distributie (Data Distribution)
In een eerdere fase van deze tutorial hebben we slechts een zeer kleine hoeveelheid gegevens gebruikt in voorbeelden, met als doel verschillende concepten te begrijpen.
In de werkelijke wereld zijn datasets veel groter, maar ten minste in de vroege fase van een project is het moeilijk om gegevens van de werkelijke wereld te verzamelen.
Hoe verkrijgen we een grote dataset?
Om een grote dataset voor testen te creëren, gebruiken we het Python-module NumPy, dat veel methoden bevat om willekeurige datasets van elke grootte te maken.
Voorbeeld
Maak een array van 250 willekeurige float-getallen tussen 0 en 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogram
Om de dataset visueel te maken, kunnen we een histogram van de verzamelde gegevens tekenen.
We zullen het Python-module Matplotlib gebruiken om een histogram te tekenen:
Voorbeeld
Tekening van een histogram:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Resultaat:

Uitleg van het histogram
We trekken 5 histogrammen met de array uit het voorbeeld.
De eerste kolom vertegenwoordigt het aantal waarden tussen 0 en 1 in de array.
De tweede kolom vertegenwoordigt het aantal waarden tussen 1 en 2.
enzovoort.
Het resultaat dat we krijgen is:
52 waarden liggen tussen 0 en 1 48 waarden liggen tussen 1 en 2 49 waarden liggen tussen 2 en 3 51 waarden liggen tussen 3 en 4 50 waarden liggen tussen 4 en 5
Opmerking:De arraywaarden zijn willekeurige getallen en de resultaten zullen niet identiek zijn op je computer.
Grote data-distributie
Een array met 250 waarden wordt niet groot beschouwd, maar nu weet je hoe je een verzameling willekeurige waarden kunt maken en door parameters aan te passen, kun je datasets van de gewenste grootte maken.
Voorbeeld
Maak een array van 100000 willekeurige getallen en toon deze met een histogram van 100 kolommen:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Vorige pagina Percentiel
- Volgende pagina Normale data-distributie