Rozkład danych w uczeniu maszynowym

Dystrybucja danych (Data Distribution)

Wcześniej w tym kursie używaliśmy tylko bardzo małych ilości danych w przykładach, aby zrozumieć różne koncepty.

W rzeczywistym świecie zestawy danych są znacznie większe, ale przynajmniej na wczesnym etapie projektu trudno jest zebranie danych z rzeczywistego świata.

Jak uzyskujemy duży zestaw danych?

Aby utworzyć duży zestaw danych do testów, używamy modułu NumPy w Pythonie, który zawiera wiele metod do tworzenia losowych zestawów danych o dowolnym rozmiarze.

Przykład

Utwórz tablicę zawierającą 250 losowych liczb zmiennoprzecinkowych z przedziału 0 do 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Uruchom przykład

Histogram

Aby wizualizować zbiór danych, możemy narysować histogram zebranych danych.

Użyjemy modułu Matplotlib w Pythonie do rysowania histogramu:

Przykład

Rysowanie histogramu:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Wynik:}}


Uruchom przykład

Wyjaśnienie histogramu

Rysujemy 5 histogramów za pomocą tablicy z poprzedniego przykładu.

Pierwsze pole reprezentuje liczbę wartości między 0 a 1 w tablicy.

Drugie pole reprezentuje liczbę wartości między 1 a 2.

i tak dalej.

Otrzymane wyniki to:

52 wartości jest między 0 a 1
48 wartości jest między 1 a 2
49 wartości jest między 2 a 3
51 wartości jest między 3 a 4
50 wartości jest między 4 a 5

Komentarz:Wartości w tablicy są liczbami losowymi, więc wyniki nie będą identyczne na Twoim komputerze.

Rozproszenie danych

Tablica zawierająca 250 wartości nie jest zbyt duża, ale teraz wiesz, jak utworzyć zbiór losowych wartości i za pomocą zmiany parametrów możesz utworzyć zestaw danych o wymaganym rozmiarze.

Przykład

Stwórz tablicę z 100000 losowych liczb i pokaż je za pomocą histogramu z 100 kolumnami:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Uruchom przykład