Machine Learning - Data Distribution
- Previous Page Percentile
- Next Page Normal Data Distribution
Distribusyon ng datos (Data Distribution)
Sa mas maagang bahagi ng tutorial na ito, gumamit lamang kami ng napakaliit na datos sa mga halimbawa, upang maunawaan ang iba't ibang konsepto.
Sa tunay na mundo, ang dataset ay mas malaki, ngunit sa hinaharap ng proyekto, mahirap nang magkolekta ng tunay na mundo na datos.
Paano namin makakakuha ng malaking dataset?
Para sa paglikha ng malaking dataset na gagamitin sa pagsusuri, ginagamit namin ang module ng Python na NumPy, na may maraming mga paraan para sa paglikha ng anumang laki ng random dataset.
Example
Lumikha ng isang array na naglalaman ng 250 na random floating-point number na nasa pagitan ng 0 at 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histograma
Para sa pagpapakita ng datos ng dataset, maaari naming idraw ang histograma ng datos na napapagkolekta.
Ginagamit namin ang module ng Python na Matplotlib upang magdrow histograma:
Example
Drahan ang histograma:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Resulta:

Pagtutukoy ng Histograma
Gumagamit tayo ng array na ginamit sa nakaraang halimbawa upang magpinta ng 5 mga histograma.
Ang unang pader ay nagrerepresenta ng kung gaano karami ang halaga na nasa pagitan ng 0 at 1.
Ang ikalawang pader ay nagrerepresenta ng kung gaano karami ang halaga na nasa pagitan ng 1 at 2.
atbp.
Ang resulta na nakakuha namin ay:
52 halaga ay nasa pagitan ng 0 at 1 48 halaga ay nasa pagitan ng 1 at 2 49 halaga ay nasa pagitan ng 2 at 3 51 halaga ay nasa pagitan ng 3 at 4 50 halaga ay nasa pagitan ng 4 at 5
Komentaryo:Ang halaga ng array ay mga random na numero, hindi magiging kapareho ang resulta na ipapakita sa iyong kompyuter.
Big Data Distribution
Ang array na may 250 na halaga ay hindi magiging napakalaki, ngunit ngayon ay nakikilala mo kung paano lumikha ng kumpilasyon ng random na halaga, at sa pamamagitan ng pagbabago ng mga parameter, maaring lumikha ng dataset na kinakailangan mong laki.
Example
Lumikha ng isang array na may 100000 na random na numero, at ipakita ang mga ito sa pamamagitan ng histograma na may 100 na linya:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Previous Page Percentile
- Next Page Normal Data Distribution