Apprendimento automatico - Distribuzione dei dati

Distribuzione dei dati (Data Distribution)

In una lezione precedente di questo tutorial, abbiamo utilizzato solo una piccola quantità di dati negli esempi, al fine di comprendere diversi concetti.

Nel mondo reale, i set di dati sono molto più grandi, ma almeno nelle fasi iniziali del progetto, è difficile raccogliere dati del mondo reale.

Come possiamo ottenere un grande set di dati?

Per creare un grande set di dati per il test, utilizziamo il modulo NumPy di Python, che include molti metodi per creare set di dati casuali di qualsiasi dimensione.

实例

Creare un array contenente 250 numeri casuali a virgola mobile tra 0 e 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

运行实例

Istogramma

Per visualizzare il set di dati, possiamo disegnare un istogramma dei dati raccolti.

Utilizzeremo il modulo Matplotlib di Python per disegnare l'istogramma:

实例

Disegnare l'istogramma:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Risultato:


运行实例

Spiegazione del grafico a barre

Utilizziamo l'array dell'esempio precedente per disegnare 5 grafici a colonne.

La prima colonna rappresenta il numero di valori tra 0 e 1 nell'array.

La seconda colonna rappresenta il numero di valori tra 1 e 2.

等等。

Risultato ottenuto:

52 valori sono tra 0 e 1
48 valori sono tra 1 e 2
49 valori sono tra 2 e 3
51 valori sono tra 3 e 4
50 valori sono tra 4 e 5

注释:数组值是随机数,不会在您的计算机上显示完全相同的结果。

大数据分布

包含 250 个值的数组被认为不是很大,但是现在您知道了如何创建一个随机值的集,并且通过更改参数,可以创建所需大小的数据集。

实例

创建一个具有 100000 个随机数的数组,并使用具有 100 栏的直方图显示它们:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

运行实例