آموزش یادگیری ماشین - پراکندگی داده‌ها

توزیع داده‌ها (Data Distribution)

در بخش‌های اولیه این آموزش، ما تنها از مقدار بسیار کمی داده در مثال‌ها استفاده کردیم، تا بفهمیم که چگونه مفاهیم مختلف را به کار ببریم.

در دنیای واقعی، مجموعه داده‌ها بسیار بزرگ‌تر است، اما حداقل در مراحل اولیه پروژه، جمع‌آوری داده‌های دنیای واقعی بسیار دشوار است.

چگونه می‌توانیم مجموعه داده‌های بزرگ را به دست آوریم؟

برای ایجاد مجموعه داده‌های بزرگ برای تست از ماژول NumPy Python استفاده می‌کنیم، که شامل بسیاری از روش‌های ایجاد مجموعه داده‌های تصادفی با اندازه‌های مختلف است.

مثال

یک آرایه شامل 250 عدد تصادفی بین 0 تا 5 ایجاد کنید:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

چلائی مثال

نمودار توزیع

برای تصویرسازی مجموعه داده‌ها، می‌توانیم نمودار توزیع جمع‌آوری‌شده را ترسیم کنیم.

ما از ماژول Python Matplotlib برای ترسیم نمودار توزیع استفاده خواهیم کرد:

مثال

نمودار توزیع را ترسیم کنید:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

نتائج:


چلائی مثال

هسٹ گراف کی توجیہ

ہم نے مثال میں دیئے گئے اعداد کا 5 سارنوں والا ہسٹ گراف بنایا ہے۔

پہلا پینل 0 سے 1 کے درمیان کی اعداد کا تعداد کا نمائش کرتا ہے۔

دوسرا پینل 1 سے 2 کے درمیان کی اعداد کا تعداد کا نمائش کرتا ہے۔

اور بغیر

ہماری حاصل کیے جانے والی نتائج:

52 اعداد 0 اور 1 کے درمیان ہیں
48 اعداد 1 اور 2 کے درمیان ہیں
49 اعداد 2 اور 3 کے درمیان ہیں
51 اعداد 3 اور 4 کے درمیان ہیں
50 اعداد 4 اور 5 کے درمیان ہیں

نوٹ:مجموعہ کی اعداد رینڈم اعداد ہیں، ان کا آپ کے کمپیوٹر پر پورا طور پر اکسرا نہیں ہوتا۔

بڑا اعداد توزیع

250 کی اعداد کا مجموعہ بہت بڑا نہیں سمجھا جاتا، لیکن اب آپ جانتے ہیں کہ کیسے رینڈم اعداد کا مجموعہ بنایا جاتا ہے، اور پارامتروں کو بدل کر، درکار حجم کا اعداد کا مجموعہ بنایا جاسکتا ہے۔

مثال

ایک 100000 کی عدد کی مجموعہ کا قائمہ بنائیں، جس میں 100 سارنوں والا ہسٹ گراف استعمال کیا جائے:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

چلائی مثال