koneoppiminen - tietojen jakautuminen
- Edellinen sivu Prosenttiluku
- Seuraava sivu Normaalidatan jakautuminen
Tietojen jakautuminen (Data Distribution)
Tässä oppaassa käytimme aiemmin vain erittäin pieniä määriä tietoja, jotta ymmärrettäisiin erilaisia käsitteitä.
Todellisessa maailmassa tietojoukot ovat suurempia, mutta ainakin projektin alkuvaiheessa on vaikeaa kerätä todellisia tietoja.
Miten saamme suuren tietojoukon?
Luoaksemme testatavaa suurta tietojoukkoa, käytämme Python Moduuli NumPy, joka sisältää monia tapoja luoda satunnaisia tietojoukkoja.
Esimerkki
Luo taulukko, joka sisältää 250 satunnaista reaalilukua väliltä 0.0-5.0:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogrammi
Visualisoidaksemme tietojoukon, voimme piirtää histogrammeja kerätystä datasta.
Käytämme Python Moduuli Matplotlib piirtäämään histogrammeja:
Esimerkki
piirrä histogrammi:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Tulos:

Histogrammin selitys
Piirrämme viisi pylväsdiagrammia esimerkistä.
Ensimmäinen sarake edustaa kuinka monta lukua on välillä 0 ja 1.
Toinen sarake edustaa kuinka monta lukua on välillä 1 ja 2.
ja niin edelleen.
Saatujamme tulokset ovat:
52 arvoa on välillä 0 ja 1 48 arvoa on välillä 1 ja 2 49 arvoa on välillä 2 ja 3 51 arvoa on välillä 3 ja 4 50 arvoa on välillä 4 ja 5
Huomautus:Taulukon arvot ovat satunnaisia lukuja, eikä tulos ole täysin sama tietokoneellasi.
Suuri tietojoukon jakautuminen
Taulukko, joka sisältää 250 arvoa, ei ole suuri, mutta nyt tiedät, miten luoda satunnaisten arvojen joukko ja muuttamalla parametreja voit luoda tarvittavan kokoisen tietojoukon.
Esimerkki
Luo taulukko, joka sisältää 100000 satunnaista lukua ja näytä ne 100 sarakkeen histogrammina:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Edellinen sivu Prosenttiluku
- Seuraava sivu Normaalidatan jakautuminen