मशीन शिक्षा - डाटा वितरण

डाटा वितरण (Data Distribution)

इस ट्यूटोरियल के पहले ही कोने में, हमें केवल अत्यधिक कम डाटा का उपयोग किया गया था, जिसका उद्देश्य विभिन्न संकेतांकों को समझना था।

वास्तविक दुनिया में, डाटासेट के आकार काफी बड़ा होता है, लेकिन परियोजना के प्रारंभिक चरणों में कम से कम, वास्तविक दुनिया के डाटा का संग्रह करना मुश्किल होता है।

हम कैसे बड़े डाटासेट प्राप्त करते हैं?

परीक्षण के लिए बड़े डाटासेट को बनाने के लिए, हम NumPy मॉड्यूल का उपयोग करते हैं, जो कई तरह के अनुक्रमित डाटासेट बनाने के तरीकों को प्रदान करता है।

उदाहरण

0 से 5 के बीच 250 तक के अनुक्रमित बेतरतीब फ्लोटिंग नंबरों की एक बट्टी को बनाएं:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

रन इंस्टांस

हैक्टोग्राम

डाटासेट को दृश्यकृत करने के लिए, हम संग्रहित डाटा को हैक्टोग्राम चित्रण कर सकते हैं।

हम Matplotlib मॉड्यूल का उपयोग करके हैक्टोग्राम चित्रण करेंगे:

उदाहरण

चित्रण करें:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

परिणाम:


रन इंस्टांस

हिस्टोग्राम व्याख्या

हमने उपरोक्त उदाहरण में 5 बार ग्राफ बनाए हैं।

पहला स्तम्भ 0 से 1 के बीच तालिका में कितने मूल्य हैं का प्रतिनिधित्व करता है।

दूसरा स्तम्भ 1 से 2 के बीच कितने मूल्य हैं का प्रतिनिधित्व करता है।

आगे भी।

हमारे परिणाम हैं:

52 मूल्य 0 और 1 के बीच हैं
48 मूल्य 1 और 2 के बीच हैं
49 मूल्य 2 और 3 के बीच हैं
51 मूल्य 3 और 4 के बीच हैं
50 मूल्य 4 और 5 के बीच हैं

टिप्पणी:एक तालिका के मूल्य रेंडम संख्या हैं, आपके कंप्यूटर पर उसी परिणाम को पूरी तरह से दिखाया नहीं जाएगा।

बड़े डेटा वितरण

250 मूल्यों वाली एक तालिका बहुत बड़ी नहीं है, लेकिन अब आपको एक रेंडम मूल्यों के सेट को बनाना पता है और पैरामीटरों को बदलकर, आवश्यक आकार के डेटा सेट को बनाया जा सकता है।

उदाहरण

100000 एक तालिका बनाएं जो 100 स्तम्भों वाले हिस्टोग्राम में दिखाएं:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

रन इंस्टांस