カレンダー

Python チュートリアル

ファイル処理

Python NumPy

機械学習

Python MySQL

Python MongoDB

Python リファレンスマニュアル

モジュールリファレンスマニュアル

Python How To

Python インスタンス

選択科目

コース推薦：

CodeW3C.com 宝箱

機械学習 - データ分布

前のページパーセンタイル
次のページ正規分布

データ分布（Data Distribution）

このチュートリアルの少し前に、非常に少ないデータを使用して、異なる概念を理解するために使いました。

現実世界では、データセットはもっと大きくなりますが、プロジェクトの初期段階では、現実世界のデータを収集するのは難しいです。

どうすれば大規模データセットを取得できますか？

テスト用の大規模データセットを作成するために、PythonモジュールNumPyを使用します。このモジュールには、任意のサイズのランダムデータセットを作成するための多くの方法があります。

例

0から5までのランダムな浮動小数点数を含む250個の配列を作成します：

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

実行例

散布図

データセットを可視化するために、収集したデータに散布図を描画することができます。

PythonモジュールMatplotlibを使用して散布図を描画します：

例

散布図を描画：

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

結果：

実行例

ヒストグラムの説明

私たちは上記の例の配列を使用して5つの棒グラフを描画しました。

1番目のバーは、配列に0から1の間の値がいくつあるかを表します。

2番目のバーは、1から2の間の数の数を表します。

など。

私たちが得た結果は：

52の値は0と1の間にあります
48の値は1と2の間にあります
49の値は2と3の間にあります
51の値は3と4の間にあります
50の値は4と5の間にあります

注：配列の値はランダムな数であり、あなたのコンピュータ上では完全に同じ結果が表示されません。

大規模データ分布

250個の値を持つ配列は大きくはありませんが、ランダムな値の集合を作成する方法を知った今、パラメータを変更することで必要なサイズのデータセットを作成できます。

例

100,000個のランダムな数を持つ配列を作成し、100列のヒストグラムでそれらを表示する：

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

実行例

前のページパーセンタイル
次のページ正規分布

カレンダー

Python チュートリアル

ファイル処理

Python NumPy

機械学習

Python MySQL

Python MongoDB

Python リファレンスマニュアル

モジュールリファレンスマニュアル

Python How To

Python インスタンス

選択科目

コース推薦：

機械学習 - データ分布

データ分布（Data Distribution）

どうすれば大規模データセットを取得できますか？

例

散布図

例

結果：

ヒストグラムの説明

大規模データ分布

例

ツールボックス

Python リファレンスマニュアル

Python インスタンス

Python テスト

スポンサーリンク