Maskininlärning - datafördelning
- Föregående Sida Procentandel
- Nästa Sida Normalt Jämförelsedata
Datafördelning (Data Distribution)
I början av denna tutorial använde vi endast en mycket liten mängd data i exempel, med målet att förstå olika koncept.
I den verkliga världen är dataset mycket större, men åtminstone i de tidiga stadierna av projektet är det svårt att samla in verkliga världens data.
Hur får vi stora dataset?
För att skapa en stor testdataset, använder vi Python-modulen NumPy, som kommer med många metoder för att skapa tillfälliga dataset av vilken storlek som helst.
Exempel
Skapa ett array som innehåller 250 tillfälliga flyttalsvärden mellan 0 och 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogram
För att visualisera dataset, kan vi rita histogram över insamlade data.
Vi kommer att använda Python-modulen Matplotlib för att rita histogram
Exempel
Rita histogram
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Resultat:

Histograms förklaring
Vi ritade 5 stapelgraplar med arrayen från föregående exempel.
Det första fältet representerar hur många värden som ligger mellan 0 och 1 i arrayen.
Det andra fältet representerar hur många tal som ligger mellan 1 och 2.
etc.
Vi får följande resultat:
52 värden är mellan 0 och 1 48 värden är mellan 1 och 2 49 värden är mellan 2 och 3 51 värden är mellan 3 och 4 50 värden är mellan 4 och 5
Kommentar:Arrayvärden är slumpmässiga och kommer inte att visa samma resultat på din dator.
Stor Datafördelning
En array med 250 värden anses inte vara stor, men nu vet du hur du skapar en samling slumpmässiga värden och genom att ändra parametrar kan du skapa datauppsättningar av önskad storlek.
Exempel
Skapa ett array med 100000 slumpmässiga tal och visa dem med en histogram med 100 kolumner:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Föregående Sida Procentandel
- Nästa Sida Normalt Jämförelsedata