Machine Learning - Data Distribution

Distribusyon ng datos (Data Distribution)

Sa mas maagang bahagi ng tutorial na ito, gumamit lamang kami ng napakaliit na datos sa mga halimbawa, upang maunawaan ang iba't ibang konsepto.

Sa tunay na mundo, ang dataset ay mas malaki, ngunit sa hinaharap ng proyekto, mahirap nang magkolekta ng tunay na mundo na datos.

Paano namin makakakuha ng malaking dataset?

Para sa paglikha ng malaking dataset na gagamitin sa pagsusuri, ginagamit namin ang module ng Python na NumPy, na may maraming mga paraan para sa paglikha ng anumang laki ng random dataset.

Example

Lumikha ng isang array na naglalaman ng 250 na random floating-point number na nasa pagitan ng 0 at 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Run Instance

Histograma

Para sa pagpapakita ng datos ng dataset, maaari naming idraw ang histograma ng datos na napapagkolekta.

Ginagamit namin ang module ng Python na Matplotlib upang magdrow histograma:

Example

Drahan ang histograma:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Resulta:


Run Instance

Pagtutukoy ng Histograma

Gumagamit tayo ng array na ginamit sa nakaraang halimbawa upang magpinta ng 5 mga histograma.

Ang unang pader ay nagrerepresenta ng kung gaano karami ang halaga na nasa pagitan ng 0 at 1.

Ang ikalawang pader ay nagrerepresenta ng kung gaano karami ang halaga na nasa pagitan ng 1 at 2.

atbp.

Ang resulta na nakakuha namin ay:

52 halaga ay nasa pagitan ng 0 at 1
48 halaga ay nasa pagitan ng 1 at 2
49 halaga ay nasa pagitan ng 2 at 3
51 halaga ay nasa pagitan ng 3 at 4
50 halaga ay nasa pagitan ng 4 at 5

Komentaryo:Ang halaga ng array ay mga random na numero, hindi magiging kapareho ang resulta na ipapakita sa iyong kompyuter.

Big Data Distribution

Ang array na may 250 na halaga ay hindi magiging napakalaki, ngunit ngayon ay nakikilala mo kung paano lumikha ng kumpilasyon ng random na halaga, at sa pamamagitan ng pagbabago ng mga parameter, maaring lumikha ng dataset na kinakailangan mong laki.

Example

Lumikha ng isang array na may 100000 na random na numero, at ipakita ang mga ito sa pamamagitan ng histograma na may 100 na linya:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Run Instance