Maskinlæring - introduktion

Maskinlæring gør det muligt for computere at lære fra data og statistiske informationer.

Maskinlæring er et skridt mod kunstig intelligens (AI).

Maskinlæring er et program, der kan analysere data og lære at forudsige resultater.

Hvor starter vi?

I denne tutorial vil vi vende tilbage til matematik og studere statistik, samt hvordan man beregner vigtige værdier baseret på datasets.

Vi vil også lære, hvordan vi kan bruge forskellige Python-moduler til at få de ønskede svar.

Og vi vil lære, hvordan vi kan skrive funktioner, der kan forudsige resultater baseret på vores viden.

Data集

I en computer refererer datasets til enhver datamængde. Det kan være alt fra en array til en hel database.

Et eksempel på en array:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

Et eksempel på en database:

Carname Color Age Speed AutoPass
BMW red 5 99 Y
Volvo black 7 86 Y
VW gray 8 87 N
VW white 7 88 Y
Ford white 2 111 Y
VW white 17 86 Y
Tesla red 2 103 Y
BMW black 9 87 Y
Volvo gray 4 94 N
Ford white 11 78 N
Toyota gray 12 77 N
VW white 9 85 N
Toyota blue 6 86 Y

Ved at se på arrayet, kan vi gætte på, at gennemsnittet sandsynligvis er omkring 80 eller 90, og vi kan også bestemme maksimum og minimum, men hvad kan vi endnu mere gøre?

Ved at se på databasen kan vi se, at den mest populære farve er hvid, den ældste bilalder er 17 år, men hvad hvis vi kun ved at se på andre værdier kan forudsige, om en bil har AutoPass?

Dette er formålet med maskinlæring! Analyse af data og prædiktion af resultater!

I maskinlæring bruges ofte meget store datamængder. I denne tutorial vil vi forsøge at gøre det så nemt som muligt for dig at forstå forskellige koncepter inden for maskinlæring, og vi vil bruge nogle let forståelige små datamængder.

Datatype

For at analysere data er det vigtigt at vide, hvilken datatype vi håndterer.

Vi kan opdele datatyper i tre hovedkategorier:

  • Numeriske (Numerical)
  • Kategoriske (Categorical)
  • Numeriske (Ordinal)

Numeriske dataEr tal, der kan opdeles i to værdikategorier:

Diskrete data (Discrete Data)
- Begrænset til hele tal. Eksempel: Antallet af biler, der er gået forbi.
Kontinuerlige data (Continuous Data)
- Har uendelige værdier. Eksempel: Prisen på et produkt eller størrelsen på et produkt.

Kategoriserede dataEr værdier, der ikke kan måles sammen. Eksempel: Farveværdier eller ja/nej-værdier.

Numeriske dataLignende kategoriserede data, men kan måles. Eksempel: Skolekarakterer, der er bedre end B, osv.

Ved at forstå datakildens datatyper kan du vide, hvilke teknologier der skal bruges til analyse af data.

I det næste kapitel vil du lære mere om statistik og analyse af data.