Распределение данных в машинном обучении
- Предыдущая страница Процентиль
- Следующая страница Нормальное распределение данных
Распределение данных (Data Distribution)
Ранее в этом руководстве мы использовали очень少量的 данных только в примерах, чтобы понять различные концепции.
В реальном мире наборы данных значительно больше, но по крайней мере на ранних этапах проекта很难 собирать данные из реального мира.
Как мы можем получить большое множество данных?
Чтобы создать большое тестовое множество данных, мы используем модуль NumPy на Python, который предоставляет множество методов для создания случайных множеств данных любого размера.
Пример
Создание массива из 250 случайных浮инговых чисел между 0 и 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Гистограмма
Чтобы визуализировать набор данных, мы можем нарисовать гистограмму собранных данных.
Мы будем использовать модуль Matplotlib на Python для рисования гистограммы:
Пример
Рисование гистограммы:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Результаты:

Интерпретация гистограммы
Мы нарисовали 5 гистограмм с использованием массива из примера
Первый столбец показывает, сколько значений находится между 0 и 1 в массиве
Второй столбец показывает, сколько значений находится между 1 и 2
и т.д.
Мы получили следующие результаты:
52 значений находятся между 0 и 1 48 значений находятся между 1 и 2 49 значений находятся между 2 и 3 51 значений находятся между 3 и 4 50 значений находятся между 4 и 5
Комментарий:Значения массива являются случайными числами и не будут отображаться полностью одинаково на вашем компьютере.
Распределение больших данных
Массив из 250 значений не считается большим, но теперь вы знаете, как создавать набор случайных значений, и с помощью изменения параметров можно создать данные необходимого размера.
Пример
Создайте массив из 100000 случайных чисел и покажите их с помощью гистограммы с 100 столбцами:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Предыдущая страница Процентиль
- Следующая страница Нормальное распределение данных