Apprentissage automatique - Distribution des données
- Page précédente Valeur percentile
- Page suivante Distribution normale des données
Distribution des données (Data Distribution)
Dans la partie précédente de ce tutoriel, nous avons utilisé uniquement une très petite quantité de données dans des exemples, afin de comprendre différents concepts.
Dans le monde réel, les ensembles de données sont beaucoup plus grands, mais au moins au début du projet, il est difficile de collecter des données du monde réel.
Comment obtenons-nous de grands jeux de données ?
Pour créer de grands jeux de données pour les tests, nous utilisons le module NumPy en Python, qui est livré avec de nombreuses méthodes pour créer des jeux de données aléatoires de toute taille.
Exemple
Créer un tableau contenant 250 nombres flottants aléatoires entre 0 et 5 :
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogramme
Pour visualiser le jeu de données, nous pouvons dessiner un histogramme des données collectées.
Nous utiliserons le module Matplotlib en Python pour tracer les histogrammes :
Exemple
tracer les histogrammes :
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Résultat :

Explication de l'histogramme
Nous avons tracé 5 histogrammes avec l'exemple du tableau précédent.
La première colonne représente combien de valeurs sont entre 0 et 1 dans le tableau.
La deuxième colonne représente combien de nombres sont entre 1 et 2.
etc.
Les résultats que nous obtenons sont :
52 valeurs sont entre 0 et 1 48 valeurs sont entre 1 et 2 49 valeurs sont entre 2 et 3 51 valeurs sont entre 3 et 4 50 valeurs sont entre 4 et 5
Remarque :Les valeurs de tableau sont des nombres aléatoires et les résultats affichés sur votre ordinateur ne seront pas complètement identiques.
Distribution des grandes données
Un tableau contenant 250 valeurs n'est pas grand, mais maintenant vous savez comment créer un ensemble de valeurs aléatoires et, en changeant les paramètres, vous pouvez créer des ensembles de données de la taille souhaitée.
Exemple
Créez un tableau avec 100000 nombres aléatoires et affichez-les avec un histogramme de 100 colonnes :
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Page précédente Valeur percentile
- Page suivante Distribution normale des données