機械学習 - 散布図

散点図(Scatter Plot)

散点図はデータセットの各値が点で表現される図です。


Matplotlibモジュールには散点図を描画する方法があります。この方法は、x軸の値とy軸の値を含む長さが同じ2つの配列が必要です:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

x配列は各車の年齢を示します。

y配列は各車の速度を示します。

以下を使用してください scatter() 散点図を描画する方法:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

結果:


実行例

散点図の説明

x軸は車の年齢を示し、y軸は速度を示します。

図から見て取れるように、最も速い2台の車は2年間、最も遅い車は12年間使用されています。

注释:注釈:

車が新しいほど、運転速度が速いようですが、これは偶然かもしれません。なぜなら、私たちは13台の車を登録しているだけだからです。

ランダムデータ分布

機械学習では、データセットには何千、何百万もの値が含まれることがあります。

アルゴリズムをテストする際には、実際のデータがない場合があります。その場合、ランダムに生成された値を使用する必要があるかもしれません。

前章で学んだように、NumPyモジュールが私たちを助けます!

一番目の配列の平均値は5.0、標準偏差は1.0に設定されています。

二番目の配列の平均値は10.0、標準偏差は2.0に設定されています:

1000個の点の散点図:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()

結果:


実行例

散点図の説明

点がx軸の値5とy軸の値10の周りに集中していることがわかります。

y軸上での拡散はx軸よりも大きいことがわかります。