Mafunzo ya Machine Learning - Data Distribution

数据分布(Data Distribution)

在本教程稍早之前,我们仅在例子中使用了非常少量的数据,目的是为了了解不同的概念。

在现实世界中,数据集要大得多,但是至少在项目的早期阶段,很难收集现实世界的数据。

我们如何获得大数据集?

为了创建用于测试的大数据集,我们使用 Python 模块 NumPy,该模块附带了许多创建任意大小的随机数据集的方法。

Mfano

Kufaa kifaa cha data ya mtafiti ya 250 yenye namba za kina cha kina za maelezo ya 0 hadi 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Mfano wa Muafuturo

Hisabu cha kifaa

Kufaa kifaa cha hisabu cha data set kina, tunaweza kufaa kifaa cha data zilizotolewa na hisabu cha kifaa cha hisabu:

Tunastia, tunaongeza kifaa cha Python cha Matplotlib kufaa kifaa cha hisabu:

Mfano

Kufaa kifaa cha hisabu

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Matokeo:


Mfano wa Muafuturo

Muhtasari wa Histogram

Tumekuwa na kumekua kati ya 5 baraka kwenye mtafiti wa mafanikio.

Kolona ya kwanza inaonyesha namba ya thamani ambazo ni kati ya 0 na 1.

Kolona ya pili inaonyesha namba ya thamani ambazo ni kati ya 1 na 2.

na wengine.

Matokeo yetu ni:

52 thamani ni kati ya 0 na 1
48 thamani ni kati ya 1 na 2
49 thamani ni kati ya 2 na 3
51 thamani ni kati ya 3 na 4
50 thamani ni kati ya 4 na 5

Mafikirio:Wadhihi wa kitabia ni thamani pekee, hauonekana kwa uadilifu kwenye kompyuta yako.

Tendaa ya Data ya Kina ya Kwanza

Kitabia ya 250 ya thamani inaitwa kidogo, lakini sasa tunajua kumekua kwa thamani pekee za kawaida, na kuminga paramita, inaweza kumekua kwa ukubwa wa data set wa uchaguzi.

Mfano

Kumekua kitabia ya namba za pekee 100000, na kusadika kwenye tabia ya kima 100:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Mfano wa Muafuturo