Pengedaran Data Pengajaran Pembelajaran Mesin
- Halaman Sebelumnya Penilai
- Halaman Berikutnya Distribusi Data Normal
Distribusi Data (Data Distribution)
Di awal tutorial ini, kami hanya menggunakan sedikit data di contoh, tujuannya untuk memahami konsep yang berbeda.
Dalam dunia nyata, dataset sangat besar, tetapi setidaknya di tahap awal proyek, sulit mengumpulkan data dunia nyata.
Bagaimana kita dapat memperoleh dataset besar?
Untuk membuat dataset besar untuk pengujian, kami menggunakan modul Python NumPy, modul yang disertai dengan banyak metode untuk membuat dataset acak ukuran apapun.
Contoh
Buat sebuah array yang mengandung 250 angka random floating-point antara 0 hingga 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Histogram
Untuk memvisualisasikan dataset, kami dapat menggambar histogram data yang dikumpulkan.
Kami akan menggunakan modul Python Matplotlib untuk gambar histogram:
Contoh
gambar histogram:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Hasil:

Penjelasan Histogram
Kami menggambarkan 5 graf bar dengan array contoh di atas.
Baris pertama mewakili berapa banyak nilai di antara 0 dan 1 di dalam array.
Baris kedua mewakili berapa banyak nilai di antara 1 dan 2.
dan lain-lain.
Hasil yang kami dapatkan adalah:
52 nilai antara 0 dan 1 48 nilai antara 1 dan 2 49 nilai antara 2 dan 3 51 nilai antara 3 dan 4 50 nilai antara 4 dan 5
Keterangan:Nilai array adalah angka acak, dan hasil yang ditampilkan di komputer Anda tidak akan sama sepenuhnya.
Distribusi Data Besar
Sebuah array yang mengandung 250 nilai dianggap bukan besar, tetapi sekarang Anda mengetahui bagaimana untuk membuat set nilai acak, dan dengan mengubah parameter, dapat membuat set data ukuran yang diinginkan.
Contoh
Buat sebuah array dengan 100000 angka acak, dan tunjukkan dengan histogram yang mempunyai 100 bar:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Halaman Sebelumnya Penilai
- Halaman Berikutnya Distribusi Data Normal