ورود به یادگیری ماشین

Machine Learning به کامپیوتر این امکان را می‌دهد که از داده‌ها و اطلاعات آماری یاد بگیرد.

Machine Learning یکی از قدم‌های راه به سمت هوش مصنوعی (AI) است.

Machine Learning یک برنامه است که می‌تواند داده‌ها را تحلیل کند و نتایج پیش‌بینی کند.

از کجا باید شروع کنیم؟

در این آموزش، ما به ریاضیات باز خواهیم گشت و آمار را مطالعه خواهیم کرد و چگونه می‌توان از مجموعه داده‌ها برای محاسبه مقادیر مهم استفاده کرد.

ما همچنین یاد خواهیم گرفت که چگونه از Various Python Modules برای دریافت پاسخ‌های مورد نیاز خود استفاده کنیم.

و همچنین، ما یاد خواهیم گرفت که چگونه با استفاده از دانشی که کسب کرده‌ایم، توابعی بنویسیم که می‌توانند نتایج را پیش‌بینی کنند.

مجموعه داده‌ها

در کامپیوتر، مجموعه داده‌ها به هر مجموعه داده‌ای اطلاق می‌شود. این می‌تواند از یک آرایه تا یک پایگاه داده کامل باشد.

مثالی از یک آرایه:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

مثالی از یک پایگاه داده:

نام اتومبیل رنگ سن سرعت پاسپورت اتومبیل
ب‌ام‌و قرمز 5 99 Y
ولوو سیاه 7 86 Y
وای‌وای خاکستری 8 87 N
وای‌وای سفید 7 88 Y
فورد سفید 2 111 Y
وای‌وای سفید 17 86 Y
تسلا قرمز 2 103 Y
ب‌ام‌و سیاه 9 87 Y
ولوو خاکستری 4 94 N
فورد سفید 11 78 N
توئینا خاکستری 12 77 N
وای‌وای سفید 9 85 N
توئینا آبی 6 86 Y

با بررسی آرایه، می‌توانیم حدس بزنیم که میانگین ممکن است حدود 80 یا 90 باشد و همچنین ما می‌توانیم بیشترین و کمترین ارزش‌ها را تعیین کنیم، اما ما چه کاری می‌توانیم انجام دهیم؟

با بررسی دیتابیس، می‌توانیم ببینیم که رنگ محبوب سفید است، سن قدیمی‌ترین خودرو 17 سال است، اما اگر فقط از بررسی دیگر مقادیر بتوانیم پیش‌بینی کنیم که آیا خودرو AutoPass دارد یا خیر، چگونه؟

این هدف یادگیری ماشین است! تحلیل داده‌ها و پیش‌بینی نتایج!

در یادگیری ماشین، معمولاً از مجموعه داده‌های بزرگ استفاده می‌شود. در این آموزش، سعی خواهیم کرد تا مفاهیم مختلف یادگیری ماشین را به شما به گونه‌ای که ممکن است درک کنید آموزش دهیم و از مجموعه داده‌های کوچک استفاده خواهیم کرد.

نوع داده

برای تحلیل داده‌ها، مهم است که بدانیم نوع داده‌هایی که با آن‌ها کار می‌کنیم چیست.

ما می‌توانیم نوع داده‌ها را به سه دسته اصلی تقسیم کنیم:

  • عددی (Numerical)
  • دسته‌بندی شده (Categorical)
  • ترتیبی (Ordinal)

داده‌های عددیاعداد هستند که می‌توانند به دو دسته数值ی تقسیم شوند:

داده‌های گسسته (Discrete Data)
- عددی که محدود به اعداد صحیح است. مثال: تعداد ماشینهایی که عبور کرده‌اند.
داده‌های پیوسته (Continuous Data)
- عددی با تعداد نامحدود. مثال: قیمت یک محصول یا اندازه یک محصول.

داده‌های دسته‌بندی شدهارزشهایی هستند که نمی‌توانند به یکدیگر اندازه‌گیری شوند. مثال: رنگ‌ها یا هر ارزش yes/no.

داده‌های ترتیبیمانند داده‌های دسته‌بندی شده، اما می‌توانند به یکدیگر اندازه‌گیری شوند. مثال: امتیاز مدرسه A نسبت به B، به همین ترتیب.

با شناخت نوع داده‌های منبع داده، شما می‌توانید بدانید که در تحلیل داده‌ها از چه فناوری‌هایی استفاده کنید.

در فصل بعدی، شما یاد خواهید گرفت که بیشتر از آمار و تحلیل داده‌ها بدانید.