機械学習 - データ分布
データ分布(Data Distribution)
このチュートリアルの少し前に、非常に少ないデータを使用して、異なる概念を理解するために使いました。
現実世界では、データセットはもっと大きくなりますが、プロジェクトの初期段階では、現実世界のデータを収集するのは難しいです。
どうすれば大規模データセットを取得できますか?
テスト用の大規模データセットを作成するために、PythonモジュールNumPyを使用します。このモジュールには、任意のサイズのランダムデータセットを作成するための多くの方法があります。
例
0から5までのランダムな浮動小数点数を含む250個の配列を作成します:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
散布図
データセットを可視化するために、収集したデータに散布図を描画することができます。
PythonモジュールMatplotlibを使用して散布図を描画します:
例
散布図を描画:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
結果:

ヒストグラムの説明
私たちは上記の例の配列を使用して5つの棒グラフを描画しました。
1番目のバーは、配列に0から1の間の値がいくつあるかを表します。
2番目のバーは、1から2の間の数の数を表します。
など。
私たちが得た結果は:
52の値は0と1の間にあります 48の値は1と2の間にあります 49の値は2と3の間にあります 51の値は3と4の間にあります 50の値は4と5の間にあります
注:配列の値はランダムな数であり、あなたのコンピュータ上では完全に同じ結果が表示されません。
大規模データ分布
250個の値を持つ配列は大きくはありませんが、ランダムな値の集合を作成する方法を知った今、パラメータを変更することで必要なサイズのデータセットを作成できます。
例
100,000個のランダムな数を持つ配列を作成し、100列のヒストグラムでそれらを表示する:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()