Maskinlæring - normalfordeling

Normalfordeling af data (Normal Data Distribution)

I det foregående kapitel lærte vi, hvordan man opretter en fuldstændig tilfældig array med en given størrelse og mellem to givne værdier.

I dette kapitel vil vi lære, hvordan man opretter en array, hvor værdierne koncentrerer sig omkring en given værdi.

I sandsynlighedsregning foreslog matematikeren Carl Friedrich Gauss (Carl Friedrich Gauss) formelen for denne datafordeling efter, at han havde fremsat den, og denne datafordeling kaldes normalfordeling af data eller Gauss-fordeling.

Eksempel

Typisk normalfordeling af data:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 100000)
plt.hist(x, 100)
plt.show()

Resultat:


Kør eksempel

Bemærk:Da den normale fordelingsgraf har en klokkeformet form, kaldes den også klokkeformet kurve.

Histogramforklaring

Vi bruger numpy.random.normal() Metoden opretter en array (med 100000 værdier) og tegner et histogram med 100 kolonner.

Vi angiver gennemsnittet som 5.0 og standardafvigelsen som 1.0.

Dette betyder, at disse værdier bør koncentrere sig omkring 5.0, og de skal sjældent afvige fra gennemsnittet med mere end 1.0.

Man kan se fra histogrammet, at de fleste værdier ligger mellem 4.0 og 6.0, og den højeste værdi er omkring 5.0.