Distribuição de Dados em Aprendizado de Máquina

Distribuição de dados (Data Distribution)

Antes disso, neste tutorial, usamos apenas uma quantidade muito pequena de dados em exemplos, com o objetivo de entender diferentes conceitos.

No mundo real, os conjuntos de dados são muito maiores, mas pelo menos no início do projeto, é difícil coletar dados do mundo real.

Como obter conjuntos de dados de grande规模?

Para criar um grande conjunto de dados para teste, usamos o módulo NumPy em Python, que vem com muitos métodos para criar conjuntos de dados aleatórios de qualquer tamanho.

Exemplo

Criar um array contendo 250 números flutuantes aleatórios entre 0 e 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Executar Exemplo

Histograma

Para visualizar o conjunto de dados, podemos desenhar histogramas dos dados coletados.

Vamos usar o módulo Matplotlib em Python para desenhar histogramas:

Exemplo

Desenhar histograma:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Resultados:


Executar Exemplo

Explicação do Histograma

Usamos o array do exemplo anterior para desenhar 5 gráficos de barras.

A primeira coluna representa quantos valores estão entre 0 e 1 no array.

A segunda coluna representa quantos valores estão entre 1 e 2.

etc.

Os resultados que obtemos são:

52 valores estão entre 0 e 1
48 valores estão entre 1 e 2
49 valores estão entre 2 e 3
51 valores estão entre 3 e 4
50 valores estão entre 4 e 5

Notas:Os valores do array são números aleatórios e não mostrarão o mesmo resultado em seu computador.

Distribuição de Grandes Dados

Um array com 250 valores não é muito grande, mas agora você sabe como criar um conjunto de valores aleatórios e, alterando os parâmetros, pode criar conjuntos de dados de tamanho desejado.

Exemplo

Crie um array com 100000 números aleatórios e mostre-os em um gráfico de histograma com 100 colunas:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Executar Exemplo