Distribuição de Dados em Aprendizado de Máquina
- Página Anterior Percentis
- Próxima Página Distribuição Normal de Dados
Distribuição de dados (Data Distribution)
Antes disso, neste tutorial, usamos apenas uma quantidade muito pequena de dados em exemplos, com o objetivo de entender diferentes conceitos.
No mundo real, os conjuntos de dados são muito maiores, mas pelo menos no início do projeto, é difícil coletar dados do mundo real.
Como obter conjuntos de dados de grande规模?
Para criar um grande conjunto de dados para teste, usamos o módulo NumPy em Python, que vem com muitos métodos para criar conjuntos de dados aleatórios de qualquer tamanho.
Exemplo
Criar um array contendo 250 números flutuantes aleatórios entre 0 e 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histograma
Para visualizar o conjunto de dados, podemos desenhar histogramas dos dados coletados.
Vamos usar o módulo Matplotlib em Python para desenhar histogramas:
Exemplo
Desenhar histograma:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Resultados:

Explicação do Histograma
Usamos o array do exemplo anterior para desenhar 5 gráficos de barras.
A primeira coluna representa quantos valores estão entre 0 e 1 no array.
A segunda coluna representa quantos valores estão entre 1 e 2.
etc.
Os resultados que obtemos são:
52 valores estão entre 0 e 1 48 valores estão entre 1 e 2 49 valores estão entre 2 e 3 51 valores estão entre 3 e 4 50 valores estão entre 4 e 5
Notas:Os valores do array são números aleatórios e não mostrarão o mesmo resultado em seu computador.
Distribuição de Grandes Dados
Um array com 250 valores não é muito grande, mas agora você sabe como criar um conjunto de valores aleatórios e, alterando os parâmetros, pode criar conjuntos de dados de tamanho desejado.
Exemplo
Crie um array com 100000 números aleatórios e mostre-os em um gráfico de histograma com 100 colunas:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Página Anterior Percentis
- Próxima Página Distribuição Normal de Dados