মেশিন লার্নিং - ডেটা বিতরণ

ডাটা বিতরণ (Data Distribution)

এই ট্যুটোরিয়ালের আগে, আমরা শুধুমাত্র অল্প পরিমাণের ডাটা ব্যবহার করেছি, যার উদ্দেশ্য ভিন্ন ধরনের কনসেপটকে বোঝা

প্রকৃতপক্ষে, ডাটাসেট খুবই বড় হতে পারে, কিন্তু প্রকল্পের প্রাথমিক পর্যায়ে, প্রকৃত বিশ্বের ডাটা সংগ্রহ করা খুবই কঠিন

আমরা কিভাবে বড় ডাটাসেট পাই?

পরীক্ষার জন্য বড় ডাটাসেট সৃষ্টি করতে, আমরা Python মডিউল NumPy ব্যবহার করি, যা বিভিন্ন আকারের র‍্যান্ডম ডাটাসেট সৃষ্টির পদ্ধতি সহ সমৃদ্ধ রয়েছে。

ইনস্ট্যান্স

0 থেকে 5-এর মধ্যে 250টি একক ফ্লোটিং পদার্থ সমূহ সৃষ্টি করুন:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

রান ইনস্ট্যান্স

ডিগ্রাম

ডাটাসেটকে ভিজুয়ালাইজ করতে, আমরা সংগ্রহকৃত ডাটা ডিগ্রাম নির্মাণ করতে পারি。

আমরা Python মডিউল Matplotlib ব্যবহার করে ডিগ্রাম নির্মাণ করব:

ইনস্ট্যান্স

ডিগ্রাম নির্মাণ:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

ফলাফল:


রান ইনস্ট্যান্স

হিস্টোগ্রাম ব্যাখ্যা

আমরা উপরোক্ত উদাহরণের আইন দিয়ে ৫টি বার্ডগ্রাফ আঁকি

প্রথম স্তম্ভ ০ থেকে ১ মধ্যের মানগুলির সংখ্যা প্রতিনিধিত্ব করে

দ্বিতীয় স্তম্ভ ১ থেকে ২ মধ্যের সংখ্যাগুলির সংখ্যা প্রতিনিধিত্ব করে

ইত্যাদি。

আমরা পাওয়া ফলাফল হল:

৫২ মান ০ এবং ১ মধ্যে রয়েছে
৪৮ মান ১ এবং ২ মধ্যে রয়েছে
৪৯ মান ২ এবং ৩ মধ্যে রয়েছে
৫১ মান ৩ এবং ৪ মধ্যে রয়েছে
৫০ মান ৪ এবং ৫ মধ্যে রয়েছে

মন্তব্য:আইনগুলি একই স্বাভাবিক সংখ্যা, আপনার কম্পিউটারে সম্পূর্ণভাবে একই ফলাফল দেখা যাবে না。

বড় তথ্য বিতর্ক

একটি ২৫০ মান ধারণকারী আইন খুবই বড় নয়, কিন্তু এখন আপনি কিভাবে একটি স্বাভাবিক মানের সেট তৈরি করতে পারেন এবং প্রায়ামান্য প্রায়োগিক পরিমাণের তথ্য সেট তৈরি করতে পারেন

ইনস্ট্যান্স

একটি ১০০০০০০ স্বাভাবিক সংখ্যা ধারণকারী আইনকে তৈরি করুন এবং ১০০ স্তম্ভ সহ গ্রাফিক দ্রষ্টব্য দিয়ে তাদের প্রদর্শন করুন:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

রান ইনস্ট্যান্স