機械学習 - 入門

機械学習はコンピュータがデータや統計情報から学ぶことができるようにします。

機械学習は人工知能(AI)への道筋の一つです。

機械学習はデータを分析し、予測結果を学ぶプログラムです。

どこから始めるべきですか?

このチュートリアルでは、数学に戻り、統計学を研究し、データセットに基づいて重要な数値を計算する方法を学びます。

また、必要な答えを得るためにさまざまなPythonモジュールを使用する方法も学びます。

さらに、学んだ知識を基に結果を予測できる関数を書く方法を学びます。

データセット

コンピュータでは、データセットとはどんなデータ集合でも指します。それは配列から完全なデータベースまでのどんな内容でもできます。

配列の例:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

データベースの例:

Carname Color Age Speed AutoPass
BMW レッド 5 99 Y
ボルボ ブラック 7 86 Y
VW グレー 8 87 N
VW ホワイト 7 88 Y
フォード ホワイト 2 111 Y
VW ホワイト 17 86 Y
テスラ レッド 2 103 Y
BMW ブラック 9 87 Y
ボルボ グレー 4 94 N
フォード ホワイト 11 78 N
トヨタ グレー 12 77 N
VW ホワイト 9 85 N
トヨタ ブルー 6 86 Y

配列を確認することで、平均値が80または90くらいである可能性を推測することができます。また、最大値や最小値も確定できますが、さらに何ができるのでしょうか?

通过查看数据库,我们可以看到最受欢迎的颜色是白色,最老的车龄是 17 年,但是如果仅通过查看其他值就可以预测汽车是否具有 AutoPass,该怎么办?

这就是机器学习的目的!分析数据并预测结果!

在机器学习中,通常使用非常大的数据集。在本教程中,我们会尝试让您尽可能容易地理解机器学习的不同概念,并将使用一些易于理解的小型数据集。

数据类型

如需分析数据,了解我们要处理的数据类型非常重要。

我们可以将数据类型分为三种主要类别:

  • 数值(Numerical)
  • 分类(Categorical)
  • 序数(Ordinal)

数值数据是数字,可以分为两种数值类别:

离散数据(Discrete Data)
- 限制为整数的数字。例如:经过的汽车数量。
连续数据(Continuous Data)
- 具有无限值的数字。例如:一件商品的价格或一件商品的大小。

分类数据是无法相互度量的值。例如:颜色值或任何 yes/no 值。

序数数据类似于分类数据,但可以相互度量。示例:A 优于 B 的学校成绩,依此类推。

通过了解数据源的数据类型,您就能够知道在分析数据时使用何种技术。

在下一章中,您将学习有关统计和分析数据的更多知识。