Masalah Belajar Mesin - Distribusi Data

Distribusi Data (Data Distribution)

Di tutorial yang lebih awal, kami hanya menggunakan sedikit data di contoh, tujuannya untuk memahami konsep yang berbeda.

Dalam dunia nyata, dataset jauh lebih besar, tetapi setidaknya di tahap awal proyek, sulit mengumpulkan data dunia nyata.

Bagaimana kami mendapatkan dataset besar?

Untuk membuat dataset besar untuk pengujian, kami menggunakan modul NumPy Python, modul yang disertai dengan banyak metode untuk membuat dataset acak ukuran apapun.

Contoh

Buat sebuah array yang berisi 250 angka floating-point acak antara 0 dan 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Jalankan Instan

Histogram

Untuk memvisualisasikan dataset, kami dapat menggambar histogram data yang kami kerjakan.

Kami akan menggunakan modul Matplotlib Python untuk menggambar histogram:

Contoh

Menggambar histogram:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Hasil:


Jalankan Instan

Penjelasan Histogram

Kami menggunakan array di contoh sebelumnya untuk menggambar 5 grafik batang.

Kolom pertama mewakili berapa banyak nilai di antara 0 dan 1 di dalam array.

Kolom kedua mewakili berapa banyak nilai di antara 1 dan 2.

dan lainnya.

Hasil yang kami dapatkan adalah:

52 nilai antara 0 dan 1
48 nilai antara 1 dan 2
49 nilai antara 2 dan 3
51 nilai antara 3 dan 4
50 nilai antara 4 dan 5

Keterangan:Nilai array adalah angka acak, dan hasil yang ditampilkan di komputer Anda tidak akan sama sepenuhnya.

Distribusi Data Besar

Sebuah array yang mengandung 250 nilai dianggap bukan besar, tetapi sekarang Anda mengetahui bagaimana membuat kumpulan nilai acak dan dapat membuat dataset ukuran yang diinginkan dengan mengubah parameter.

Contoh

Buat sebuah array dengan 100000 angka acak, dan tampilkan dengan histogram yang memiliki 100 kolom:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Jalankan Instan