آموزش توزیع داده‌ها

توزیع داده‌ها (Data Distribution)

در بخش‌های اولیه این آموزش، ما تنها از مقدار بسیار کمی داده استفاده کردیم، که هدف آن آشنایی با مفاهیم مختلف است.

در دنیای واقعی، مجموعه داده‌ها بسیار بزرگتر است، اما حداقل در مراحل اولیه پروژه، جمع‌آوری داده‌های دنیای واقعی بسیار دشوار است.

چگونه می‌توانیم مجموعه داده‌های بزرگ را به دست آوریم؟

برای ایجاد مجموعه داده‌های بزرگ برای تست از ماژول NumPy Python استفاده می‌کنیم که شامل بسیاری از روش‌های ایجاد مجموعه داده‌های تصادفی با اندازه‌های مختلف است.

مثال

یک آرایه از ۲۵۰ عدد تصادفی با اعداد بین ۰ تا ۵ ایجاد کنید:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

اجرای مثال

نمودار توزیع

برای نمایش مجموعه داده‌ها، می‌توانیم نمودار توزیع مجموعه داده‌های جمع‌آوری شده را رسم کنیم.

ما از ماژول Python Matplotlib برای رسم نمودار توزیع استفاده خواهیم کرد:

مثال

نمودار توزیع را رسم کنید:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

نتیجه:}}


اجرای مثال

توضیح نمودار ستونی

ما از آرایه‌ای که در مثال قبلی استفاده کردیم، 5 نمودار ستونی رسم کردیم.

ستون اول نشان‌دهنده تعداد مقدارهایی است که بین 0 تا 1 هستند.

ستون دوم نشان‌دهنده تعداد مقدارهایی است که بین 1 تا 2 هستند.

و غیره.

نتایجی که به دست می‌آوریم:

52 مقدار بین 0 و 1 هستند
48 مقدار بین 1 و 2 هستند
49 مقدار بین 2 و 3 هستند
51 مقدار بین 3 و 4 هستند
50 مقدار بین 4 و 5 هستند

نکته:مقدارهای آرایه‌ها اعداد تصادفی هستند و نتایج کاملاً مشابهی در کامپیوتر شما نمایش داده نمی‌شوند.

توزیع داده‌های بزرگ

یک آرایه با 250 مقدار به نظر نمی‌رسد که بزرگ باشد، اما اکنون می‌دانید که چگونه یک مجموعه از مقادیر تصادفی ایجاد کنید و با تغییر پارامترها، می‌توانید مجموعه‌ای از اندازه مورد نیاز را ایجاد کنید.

مثال

یک آرایه از 100000 عدد تصادفی ایجاد کنید و آن‌ها را با استفاده از یک نمودار ستونی با 100 ستون نمایش دهید:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

اجرای مثال