मशीन लर्निंग - इन्ट्रूडक्शन

मशीन लर्निंग कंप्यूटर को डाटा और सांख्यिकी से सीखने की क्षमता प्रदान करता है。

मशीन लर्निंग आर्टिफिशियल इंटेलिजेंस (AI) की दिशा में अग्रसर होने का एक चरण है。

मशीन लर्निंग एक प्रोग्राम है जो डाटा का विश्लेषण करता है और परिणामों को भविष्यवाणी करता है。

कहाँ से शुरू करें?

इस ट्यूटोरियल में, हम मेट्रिक्स और सांख्यिकी की जांच करेंगे, और डाटासेट के आधार पर महत्वपूर्ण मूल्यों की गणना करने के तरीकों को जानेंगे。

हम अच्छे प्रयोगों के लिए विभिन्न पायथन मॉड्यूल का इस्तेमाल करने के लिए भी सीखेंगे।

और, हम इस ज्ञान के आधार पर परिणामों की भविष्यवाणी करने वाले फ़ंक्शन लिखने के लिए सीखेंगे।

डाटासेट

कंप्यूटर में, डाटासेट किसी भी डाटा सेट को कहते हैं। यह एक तारा से पूर्ण डाटाबेस तक की किसी भी चीज़ हो सकती है。

एक तारा का उदाहरण:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

एक डाटाबेस का उदाहरण:

कार नाम रंग आयु स्पीड ऑटोपास
बीएमडब्ल्यू रेड 5 99 Y
वोल्वो ब्लैक 7 86 Y
वीडब्ल्यू ग्रे 8 87 N
वीडब्ल्यू व्हाइट 7 88 Y
फोर्ड व्हाइट 2 111 Y
वीडब्ल्यू व्हाइट 17 86 Y
टेस्ला रेड 2 103 Y
बीएमडब्ल्यू ब्लैक 9 87 Y
वोल्वो ग्रे 4 94 N
फोर्ड व्हाइट 11 78 N
टोयोटा ग्रे 12 77 N
वीडब्ल्यू व्हाइट 9 85 N
टोयोटा ब्लू 6 86 Y

एक तारा को देखकर, हम कल्पना कर सकते हैं कि औसत शायद 80 या 90 हो, और हम अधिकतम और न्यूनतम मूल्यों को भी निर्धारित कर सकते हैं, लेकिन हम क्या और कर सकते हैं?

डेटाबेस को देखकर, हमें देखा जा सकता है कि सबसे अधिक पसंदीदा रंग श्वेत है, सबसे पुरानी कार की आयु 17 साल है, लेकिन अगर केवल अन्य मानों को देखकर किसी कार को AutoPass होने की भविष्यवाणी करना है, तो क्या करें?

यही ही मशीन शिक्षा का उद्देश्य है! डेटा का विश्लेषण करें और परिणाम की भविष्यवाणी करें!

मशीन शिक्षा में, आमतौर पर बहुत बड़े डेटा सेटों का उपयोग किया जाता है।इस पाठ्यक्रम में, हम आपको जितना संभव हो सके मशीन शिक्षा के विभिन्न संकेतों को समझाने की कोशिश करेंगे और छोटे डेटा सेट का उपयोग करेंगे।

डेटा टाइप

डेटा का विश्लेषण करने के लिए, हमें इसके डेटा टाइप को जानना बहुत महत्वपूर्ण है।

हम डेटा टाइप को तीन प्रमुख श्रेणियों में वर्गीकृत कर सकते हैं:

  • संख्यात्मक (संख्यात्मक)
  • वर्गीकृत (वर्गीकृत)
  • अनुक्रमांक (अनुक्रमांक)

संख्यात्मक डेटासंख्या है, जो दो प्रकार के आंकड़ों में विभाजित हो सकती है:

विभाजित डेटा (विभाजित डेटा)
- पूर्णांक संख्याओं को सीमित किया गया है।उदाहरण: गतिशील कारों की संख्या।
सर्वसाधारण डेटा (सर्वसाधारण डेटा)
- असीमित मानों वाला संख्या।उदाहरण: एक वस्तु की कीमत या एक वस्तु का आकार।

वर्गीकृत डेटाएक-दूसरे को माप नहीं किये जा सकने वाले मान हैं।उदाहरण: रंग मान या किसी yes/no मान के रूप में।

अनुक्रमांक डेटावर्गीकृत डेटा के समान, लेकिन एक-दूसरे को माप सकते हैं।उदाहरण: A ब की स्कूली स्कोर बेहतर है, इसी प्रकार।

डेटा स्रोत के डेटा टाइप को जानने से आपको डेटा का विश्लेषण करते समय कौन-सी तकनीक का उपयोग करना होगा, इसे जानना संभव होगा。

अगले अध्याय में, आपको आँकड़ों और विश्लेषण के बारे में अधिक जानकारी मिलेगी。