Maskininlärning - datafördelning

Datafördelning (Data Distribution)

I början av denna tutorial använde vi endast en mycket liten mängd data i exempel, med målet att förstå olika koncept.

I den verkliga världen är dataset mycket större, men åtminstone i de tidiga stadierna av projektet är det svårt att samla in verkliga världens data.

Hur får vi stora dataset?

För att skapa en stor testdataset, använder vi Python-modulen NumPy, som kommer med många metoder för att skapa tillfälliga dataset av vilken storlek som helst.

Exempel

Skapa ett array som innehåller 250 tillfälliga flyttalsvärden mellan 0 och 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Kör Exempel

Histogram

För att visualisera dataset, kan vi rita histogram över insamlade data.

Vi kommer att använda Python-modulen Matplotlib för att rita histogram

Exempel

Rita histogram

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Resultat:


Kör Exempel

Histograms förklaring

Vi ritade 5 stapelgraplar med arrayen från föregående exempel.

Det första fältet representerar hur många värden som ligger mellan 0 och 1 i arrayen.

Det andra fältet representerar hur många tal som ligger mellan 1 och 2.

etc.

Vi får följande resultat:

52 värden är mellan 0 och 1
48 värden är mellan 1 och 2
49 värden är mellan 2 och 3
51 värden är mellan 3 och 4
50 värden är mellan 4 och 5

Kommentar:Arrayvärden är slumpmässiga och kommer inte att visa samma resultat på din dator.

Stor Datafördelning

En array med 250 värden anses inte vara stor, men nu vet du hur du skapar en samling slumpmässiga värden och genom att ändra parametrar kan du skapa datauppsättningar av önskad storlek.

Exempel

Skapa ett array med 100000 slumpmässiga tal och visa dem med en histogram med 100 kolumner:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Kör Exempel