機器學習 - 入門

機器學習使計算機能夠從研究數據和統計信息中學習。

機器學習是邁向人工智能(AI)方向的其中一步。

機器學習是一種程序,可以分析數據并學習預測結果。

從何處開始?

在本教程中,我們將回到數學并研究統計學,以及如何根據數據集計算重要數值。

我們還將學習如何使用各種 Python 模塊來獲得所需的答案。

并且,我們將學習如何根據所學知識編寫能夠預測結果的函數。

數據集

在計算機中,數據集指的是任何數據集合。它可以是從數組到完整數據庫的任何內容。

一個數組的例子:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

一個數據庫的例子:

Carname Color Age Speed AutoPass
BMW red 5 99 Y
Volvo black 7 86 Y
VW gray 8 87 N
VW white 7 88 Y
Ford white 2 111 Y
VW white 17 86 Y
Tesla red 2 103 Y
BMW black 9 87 Y
Volvo gray 4 94 N
Ford white 11 78 N
Toyota gray 12 77 N
VW white 9 85 N
Toyota blue 6 86 Y

通過查看數組,我們可以猜測平均值可能約為 80 或 90,并且我們還可以確定最大值和最小值,但是我們還能做什么?

通過查看數據庫,我們可以看到最受歡迎的顏色是白色,最老的車齡是 17 年,但是如果僅通過查看其他值就可以預測汽車是否具有 AutoPass,該怎么辦?

這就是機器學習的目的!分析數據并預測結果!

在機器學習中,通常使用非常大的數據集。在本教程中,我們會嘗試讓您盡可能容易地理解機器學習的不同概念,并將使用一些易于理解的小型數據集。

數據類型

如需分析數據,了解我們要處理的數據類型非常重要。

我們可以將數據類型分為三種主要類別:

  • 數值(Numerical)
  • 分類(Categorical)
  • 序數(Ordinal)

數值數據是數字,可以分為兩種數值類別:

離散數據(Discrete Data)
- 限制為整數的數字。例如:經過的汽車數量。
連續數據(Continuous Data)
- 具有無限值的數字。例如:一件商品的價格或一件商品的大小。

分類數據是無法相互度量的值。例如:顏色值或任何 yes/no 值。

序數數據類似于分類數據,但可以相互度量。示例:A 優于 B 的學校成績,依此類推。

通過了解數據源的數據類型,您就能夠知道在分析數據時使用何種技術。

在下一章中,您將學習有關統計和分析數據的更多知識。