koneoppiminen - tietojen jakautuminen

Tietojen jakautuminen (Data Distribution)

Tässä oppaassa käytimme aiemmin vain erittäin pieniä määriä tietoja, jotta ymmärrettäisiin erilaisia käsitteitä.

Todellisessa maailmassa tietojoukot ovat suurempia, mutta ainakin projektin alkuvaiheessa on vaikeaa kerätä todellisia tietoja.

Miten saamme suuren tietojoukon?

Luoaksemme testatavaa suurta tietojoukkoa, käytämme Python Moduuli NumPy, joka sisältää monia tapoja luoda satunnaisia tietojoukkoja.

Esimerkki

Luo taulukko, joka sisältää 250 satunnaista reaalilukua väliltä 0.0-5.0:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Suorita esimerkki

Histogrammi

Visualisoidaksemme tietojoukon, voimme piirtää histogrammeja kerätystä datasta.

Käytämme Python Moduuli Matplotlib piirtäämään histogrammeja:

Esimerkki

piirrä histogrammi:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Tulos:


Suorita esimerkki

Histogrammin selitys

Piirrämme viisi pylväsdiagrammia esimerkistä.

Ensimmäinen sarake edustaa kuinka monta lukua on välillä 0 ja 1.

Toinen sarake edustaa kuinka monta lukua on välillä 1 ja 2.

ja niin edelleen.

Saatujamme tulokset ovat:

52 arvoa on välillä 0 ja 1
48 arvoa on välillä 1 ja 2
49 arvoa on välillä 2 ja 3
51 arvoa on välillä 3 ja 4
50 arvoa on välillä 4 ja 5

Huomautus:Taulukon arvot ovat satunnaisia lukuja, eikä tulos ole täysin sama tietokoneellasi.

Suuri tietojoukon jakautuminen

Taulukko, joka sisältää 250 arvoa, ei ole suuri, mutta nyt tiedät, miten luoda satunnaisten arvojen joukko ja muuttamalla parametreja voit luoda tarvittavan kokoisen tietojoukon.

Esimerkki

Luo taulukko, joka sisältää 100000 satunnaista lukua ja näytä ne 100 sarakkeen histogrammina:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Suorita esimerkki