Maskinlæring - datafordeling
- Forrige side Procentdel
- Næste side Normalfordeling
Datafordeling (Data Distribution)
I de tidlige faser af denne tutorial brugte vi kun meget små mængder data i eksemplerne for at forstå forskellige koncepter.
I virkeligheden er datasets meget større, men i de tidlige faser af et projekt er det svært at indsamle virkelige datasæt.
Hvordan får vi store datasets?
For at oprette et stort testdataset bruger vi Python-modulet NumPy, som kommer med mange metoder til at oprette tilfældige datasets af hvilken som helst størrelse.
Eksempel
Opret en array med 250 tilfældige flyttalsværdier mellem 0 og 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogram
For at visualisere datasettet, kan vi tegne et histogram over de indsamlede data.
Vi vil bruge Python-modulet Matplotlib til at tegne et histogram:
Eksempel
Tegning af histogram
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Resultat:}}

Histograms Forklaring
Vi tegner 5 histogrammer med arrayet fra det tidligere eksempel.
Det første kolonne repræsenterer, hvor mange værdier der er mellem 0 og 1 i arrayet.
Det andet kolonne repræsenterer, hvor mange tal der er mellem 1 og 2.
og så videre.
Vi får følgende resultat:
52 værdier er mellem 0 og 1 48 værdier er mellem 1 og 2 49 værdier er mellem 2 og 3 51 værdier er mellem 3 og 4 50 værdier er mellem 4 og 5
Kommentar:Arrayværdier er tilfældige tal, og resultaterne vil ikke være helt ens på din computer.
Stor datafordeling
En array med 250 værdier anses ikke for at være stor, men nu ved du, hvordan du kan oprette en samling af tilfældige værdier, og ved at ændre parametre kan du oprette dataæt af den ønskede størrelse.
Eksempel
Opret en array med 100000 tilfældige tal, og vis dem med en histogram med 100 kolonner:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Forrige side Procentdel
- Næste side Normalfordeling