機械学習 - データ分布

データ分布(Data Distribution)

このチュートリアルの少し前に、非常に少ないデータを使用して、異なる概念を理解するために使いました。

現実世界では、データセットはもっと大きくなりますが、プロジェクトの初期段階では、現実世界のデータを収集するのは難しいです。

どうすれば大規模データセットを取得できますか?

テスト用の大規模データセットを作成するために、PythonモジュールNumPyを使用します。このモジュールには、任意のサイズのランダムデータセットを作成するための多くの方法があります。

0から5までのランダムな浮動小数点数を含む250個の配列を作成します:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

実行例

散布図

データセットを可視化するために、収集したデータに散布図を描画することができます。

PythonモジュールMatplotlibを使用して散布図を描画します:

散布図を描画:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

結果:


実行例

ヒストグラムの説明

私たちは上記の例の配列を使用して5つの棒グラフを描画しました。

1番目のバーは、配列に0から1の間の値がいくつあるかを表します。

2番目のバーは、1から2の間の数の数を表します。

など。

私たちが得た結果は:

52の値は0と1の間にあります
48の値は1と2の間にあります
49の値は2と3の間にあります
51の値は3と4の間にあります
50の値は4と5の間にあります

注:配列の値はランダムな数であり、あなたのコンピュータ上では完全に同じ結果が表示されません。

大規模データ分布

250個の値を持つ配列は大きくはありませんが、ランダムな値の集合を作成する方法を知った今、パラメータを変更することで必要なサイズのデータセットを作成できます。

100,000個のランダムな数を持つ配列を作成し、100列のヒストグラムでそれらを表示する:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

実行例