Oppitunnit

Python opas

Tiedoston käsittely

Python NumPy

Mekaaninen oppiminen

Python MySQL

Python MongoDB

Python Viittausopas

Moduuli referenssikäsikirja

Python How To

Python Esimerkki

Valinnainen kurssi

Kurssisuositus:

CodeW3C.com Kassikirja

koneoppiminen - tietojen jakautuminen

Edellinen sivu Prosenttiluku
Seuraava sivu Normaalidatan jakautuminen

Tietojen jakautuminen (Data Distribution)

Tässä oppaassa käytimme aiemmin vain erittäin pieniä määriä tietoja, jotta ymmärrettäisiin erilaisia käsitteitä.

Todellisessa maailmassa tietojoukot ovat suurempia, mutta ainakin projektin alkuvaiheessa on vaikeaa kerätä todellisia tietoja.

Miten saamme suuren tietojoukon?

Luoaksemme testatavaa suurta tietojoukkoa, käytämme Python Moduuli NumPy, joka sisältää monia tapoja luoda satunnaisia tietojoukkoja.

Esimerkki

Luo taulukko, joka sisältää 250 satunnaista reaalilukua väliltä 0.0-5.0:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Suorita esimerkki

Histogrammi

Visualisoidaksemme tietojoukon, voimme piirtää histogrammeja kerätystä datasta.

Käytämme Python Moduuli Matplotlib piirtäämään histogrammeja:

Esimerkki

piirrä histogrammi:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Tulos:

Suorita esimerkki

Histogrammin selitys

Piirrämme viisi pylväsdiagrammia esimerkistä.

Ensimmäinen sarake edustaa kuinka monta lukua on välillä 0 ja 1.

Toinen sarake edustaa kuinka monta lukua on välillä 1 ja 2.

ja niin edelleen.

Saatujamme tulokset ovat:

52 arvoa on välillä 0 ja 1
48 arvoa on välillä 1 ja 2
49 arvoa on välillä 2 ja 3
51 arvoa on välillä 3 ja 4
50 arvoa on välillä 4 ja 5

Huomautus:Taulukon arvot ovat satunnaisia lukuja, eikä tulos ole täysin sama tietokoneellasi.

Suuri tietojoukon jakautuminen

Taulukko, joka sisältää 250 arvoa, ei ole suuri, mutta nyt tiedät, miten luoda satunnaisten arvojen joukko ja muuttamalla parametreja voit luoda tarvittavan kokoisen tietojoukon.

Esimerkki

Luo taulukko, joka sisältää 100000 satunnaista lukua ja näytä ne 100 sarakkeen histogrammina:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Suorita esimerkki

Edellinen sivu Prosenttiluku
Seuraava sivu Normaalidatan jakautuminen

Oppitunnit

Python opas

Tiedoston käsittely

Python NumPy

Mekaaninen oppiminen

Python MySQL

Python MongoDB

Python Viittausopas

Moduuli referenssikäsikirja

Python How To

Python Esimerkki

Valinnainen kurssi

Kurssisuositus:

koneoppiminen - tietojen jakautuminen

Tietojen jakautuminen (Data Distribution)

Miten saamme suuren tietojoukon?

Esimerkki

Histogrammi

Esimerkki

Tulos:

Histogrammin selitys

Suuri tietojoukon jakautuminen

Esimerkki

Työkalupakka

Python Viittausopas

Python Esimerkki

Python Testi

Sponsoroitu linkki