Rozkład danych w uczeniu maszynowym
- Poprzednia strona Procentyl
- Następna strona Normalne rozproszenie danych
Dystrybucja danych (Data Distribution)
Wcześniej w tym kursie używaliśmy tylko bardzo małych ilości danych w przykładach, aby zrozumieć różne koncepty.
W rzeczywistym świecie zestawy danych są znacznie większe, ale przynajmniej na wczesnym etapie projektu trudno jest zebranie danych z rzeczywistego świata.
Jak uzyskujemy duży zestaw danych?
Aby utworzyć duży zestaw danych do testów, używamy modułu NumPy w Pythonie, który zawiera wiele metod do tworzenia losowych zestawów danych o dowolnym rozmiarze.
Przykład
Utwórz tablicę zawierającą 250 losowych liczb zmiennoprzecinkowych z przedziału 0 do 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogram
Aby wizualizować zbiór danych, możemy narysować histogram zebranych danych.
Użyjemy modułu Matplotlib w Pythonie do rysowania histogramu:
Przykład
Rysowanie histogramu:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Wynik:}}

Wyjaśnienie histogramu
Rysujemy 5 histogramów za pomocą tablicy z poprzedniego przykładu.
Pierwsze pole reprezentuje liczbę wartości między 0 a 1 w tablicy.
Drugie pole reprezentuje liczbę wartości między 1 a 2.
i tak dalej.
Otrzymane wyniki to:
52 wartości jest między 0 a 1 48 wartości jest między 1 a 2 49 wartości jest między 2 a 3 51 wartości jest między 3 a 4 50 wartości jest między 4 a 5
Komentarz:Wartości w tablicy są liczbami losowymi, więc wyniki nie będą identyczne na Twoim komputerze.
Rozproszenie danych
Tablica zawierająca 250 wartości nie jest zbyt duża, ale teraz wiesz, jak utworzyć zbiór losowych wartości i za pomocą zmiany parametrów możesz utworzyć zestaw danych o wymaganym rozmiarze.
Przykład
Stwórz tablicę z 100000 losowych liczb i pokaż je za pomocą histogramu z 100 kolumnami:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Poprzednia strona Procentyl
- Następna strona Normalne rozproszenie danych