مکین لرننگ - آغاز

Machine learning به کامپیوترها اجازه می‌دهد از داده‌ها و اطلاعات آماری یاد بگیرند.

Machine learning یکی از قدم‌های سفر به سوی هوش مصنوعی (AI) است.

Machine learning یک برنامه است که می‌تواند داده‌ها را تحلیل کند و نتایج پیش‌بینی کند.

از کجا شروع کنیم؟

در این آموزش، ما به ریاضیات بازمی‌گردیم و آمار را مطالعه می‌کنیم و چگونه می‌توان数值‌های مهم را بر اساس مجموعه داده‌ها محاسبه کرد.

ما همچنین یاد خواهیم گرفت که چگونه از مجموعه‌ای از ماژول‌های مختلف پایتون برای دریافت پاسخ‌های مورد نیاز خود استفاده کنیم.

و همچنین ما یاد خواهیم گرفت که چگونه با استفاده از دانشی که کسب کرده‌ایم، توابعی بنویسیم که می‌توانند نتایج را پیش‌بینی کنند.

مجموعه داده‌ها

در کامپیوتر، مجموعه داده‌ها هرگونه مجموعه داده است. این می‌تواند از یک آرایه تا یک دیتابیس کامل باشد.

مثالی از آرایه:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

مثالی از دیتابیس:

Carname Color Age Speed AutoPass
BMW red 5 99 Y
Volvo black 7 86 Y
VW gray 8 87 N
VW white 7 88 Y
Ford white 2 111 Y
VW white 17 86 Y
Tesla red 2 103 Y
BMW black 9 87 Y
Volvo gray 4 94 N
Ford white 11 78 N
Toyota gray 12 77 N
VW white 9 85 N
Toyota blue 6 86 Y

دریافت کریپتور، ما می‌توانیم حدس بزنیم که میانگین ممکن است حدود 80 یا 90 باشد و ما همچنین می‌توانیم بیشترین و کمترین مقادیر را تعیین کنیم، اما ما چه کاری می‌توانیم انجام دهیم؟

با بررسی پایگاه داده، می‌توانیم ببینیم که رنگ محبوب سفید است، سن قدیمی‌ترین خودرو 17 سال است، اما اگر فقط از بررسی سایر مقادیر بتوانیم پیش‌بینی کنیم که خودرو AutoPass دارد، چه کنیم؟

این هدف یادگیری ماشین است! تحلیل داده‌ها و پیش‌بینی نتایج!

در یادگیری ماشین، معمولاً از مجموعه‌های داده بسیار بزرگ استفاده می‌شود. در این آموزش، سعی داریم تا حد امکان مفاهیم مختلف یادگیری ماشین را به شما آموزش دهیم و از مجموعه‌های داده کوچک و قابل درک استفاده خواهیم کرد.

نوع داده

برای تحلیل داده‌ها، مهم است که بدانیم نوع داده‌هایی که با آن‌ها کار می‌کنیم چیست.

ما می‌توانیم نوع داده‌ها را به سه دسته اصلی تقسیم کنیم:

  • عددی (Numerical)
  • طبقه‌بندی شده (Categorical)
  • ترتیبی (Ordinal)

داده‌های عددیاعداد هستند که می‌توانند به دو دسته数值ی تقسیم شوند:

داده‌های گسسته (Discrete Data)
- عددی که محدود به اعداد صحیح است. مثال: تعداد خودروهایی که رد شده‌اند.
داده‌های پیوسته (Continuous Data)
- عددی با تعداد نامحدود. مثال: قیمت یک محصول یا اندازه یک محصول.

داده‌های طبقه‌بندی شدهارزش‌هایی هستند که نمی‌توانند به یکدیگر اندازه‌گیری شوند. مثال: رنگ‌ها یا هر ارزش yes/no.

داده‌های ترتیبیمانند داده‌های طبقه‌بندی شده، اما می‌توانند به یکدیگر اندازه‌گیری شوند. مثال: نمرات مدارس A بهتر از B است، به همین ترتیب.

با شناخت نوع داده‌های منبع داده، شما می‌توانید بدانید که در تحلیل داده‌ها از چه تکنیک‌هایی استفاده کنید.

در فصل بعدی، شما یاد خواهید گرفت که چگونه بیشتر درباره آمار و تحلیل داده‌ها بدانید.