機器學習 - 入門
- 上一頁 NumPy ufuncs
- 下一頁 平均中位數模式
機器學習使計算機能夠從研究數據和統計信息中學習。
機器學習是邁向人工智能(AI)方向的其中一步。
機器學習是一種程序,可以分析數據并學習預測結果。
從何處開始?
在本教程中,我們將回到數學并研究統計學,以及如何根據數據集計算重要數值。
我們還將學習如何使用各種 Python 模塊來獲得所需的答案。
并且,我們將學習如何根據所學知識編寫能夠預測結果的函數。
數據集
在計算機中,數據集指的是任何數據集合。它可以是從數組到完整數據庫的任何內容。
一個數組的例子:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
一個數據庫的例子:
Carname | Color | Age | Speed | AutoPass |
---|---|---|---|---|
BMW | red | 5 | 99 | Y |
Volvo | black | 7 | 86 | Y |
VW | gray | 8 | 87 | N |
VW | white | 7 | 88 | Y |
Ford | white | 2 | 111 | Y |
VW | white | 17 | 86 | Y |
Tesla | red | 2 | 103 | Y |
BMW | black | 9 | 87 | Y |
Volvo | gray | 4 | 94 | N |
Ford | white | 11 | 78 | N |
Toyota | gray | 12 | 77 | N |
VW | white | 9 | 85 | N |
Toyota | blue | 6 | 86 | Y |
通過查看數組,我們可以猜測平均值可能約為 80 或 90,并且我們還可以確定最大值和最小值,但是我們還能做什么?
通過查看數據庫,我們可以看到最受歡迎的顏色是白色,最老的車齡是 17 年,但是如果僅通過查看其他值就可以預測汽車是否具有 AutoPass,該怎么辦?
這就是機器學習的目的!分析數據并預測結果!
在機器學習中,通常使用非常大的數據集。在本教程中,我們會嘗試讓您盡可能容易地理解機器學習的不同概念,并將使用一些易于理解的小型數據集。
數據類型
如需分析數據,了解我們要處理的數據類型非常重要。
我們可以將數據類型分為三種主要類別:
- 數值(Numerical)
- 分類(Categorical)
- 序數(Ordinal)
數值數據是數字,可以分為兩種數值類別:
- 離散數據(Discrete Data)
- - 限制為整數的數字。例如:經過的汽車數量。
- 連續數據(Continuous Data)
- - 具有無限值的數字。例如:一件商品的價格或一件商品的大小。
分類數據是無法相互度量的值。例如:顏色值或任何 yes/no 值。
序數數據類似于分類數據,但可以相互度量。示例:A 優于 B 的學校成績,依此類推。
通過了解數據源的數據類型,您就能夠知道在分析數據時使用何種技術。
在下一章中,您將學習有關統計和分析數據的更多知識。
- 上一頁 NumPy ufuncs
- 下一頁 平均中位數模式