التعلم الآلي - توزيع البيانات

توزيع البيانات

في بداية هذا الدرس، استخدمنا بيانات قليلة جدًا في الأمثلة، من أجل فهم المفاهيم المختلفة

في العالم الحقيقي، تكون مجموعات البيانات أكبر بكثير، ولكن في مراحل البداية من المشروع، يكون جمع بيانات العالم الحقيقي صعبًا

كيف يمكننا الحصول على مجموعة بيانات كبيرة؟

لإنشاء مجموعة بيانات كبيرة للاختبار، نستخدم مكتبة NumPy بـ Python، التي تأتي بمجموعة من طرق إنشاء مجموعات بيانات عشوائية بأحجام مختلفة

实例

إنشاء مصفوفة تحتوي على 250 عدد عشوائي من الفترات بين 0 و 5

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

运行实例

الرسم البياني

لرؤية توزيع البيانات، يمكننا رسم رسم بياني للبيانات المجمعة

سنستخدم مكتبة Matplotlib بـ Python لرسم الرسم البياني

实例

رسم الرسم البياني

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

结果:


运行实例

直方图解释

我们使用上例中的数组绘制 5 条柱状图。

第一栏代表数组中有多少 0 到 1 之间的值。

第二栏代表有多少 1 到 2 之间的数值。

等等。

我们得到的结果是:

52 values are between 0 and 1
48 values are between 1 and 2
49 values are between 2 and 3
51 values are between 3 and 4
50 values are between 4 and 5

注释:数组值是随机数,不会在您的计算机上显示完全相同的结果。

大数据分布

包含 250 个值的数组被认为不是很大,但是现在您知道了如何创建一个随机值的集,并且通过更改参数,可以创建所需大小的数据集。

实例

创建一个具有 100000 个随机数的数组,并使用具有 100 栏的直方图显示它们:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

运行实例