Pengedaran Data Pengajaran Pembelajaran Mesin

Distribusi Data (Data Distribution)

Di awal tutorial ini, kami hanya menggunakan sedikit data di contoh, tujuannya untuk memahami konsep yang berbeda.

Dalam dunia nyata, dataset sangat besar, tetapi setidaknya di tahap awal proyek, sulit mengumpulkan data dunia nyata.

Bagaimana kita dapat memperoleh dataset besar?

Untuk membuat dataset besar untuk pengujian, kami menggunakan modul Python NumPy, modul yang disertai dengan banyak metode untuk membuat dataset acak ukuran apapun.

Contoh

Buat sebuah array yang mengandung 250 angka random floating-point antara 0 hingga 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Jalankan Instan

Histogram

Untuk memvisualisasikan dataset, kami dapat menggambar histogram data yang dikumpulkan.

Kami akan menggunakan modul Python Matplotlib untuk gambar histogram:

Contoh

gambar histogram:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Hasil:


Jalankan Instan

Penjelasan Histogram

Kami menggambarkan 5 graf bar dengan array contoh di atas.

Baris pertama mewakili berapa banyak nilai di antara 0 dan 1 di dalam array.

Baris kedua mewakili berapa banyak nilai di antara 1 dan 2.

dan lain-lain.

Hasil yang kami dapatkan adalah:

52 nilai antara 0 dan 1
48 nilai antara 1 dan 2
49 nilai antara 2 dan 3
51 nilai antara 3 dan 4
50 nilai antara 4 dan 5

Keterangan:Nilai array adalah angka acak, dan hasil yang ditampilkan di komputer Anda tidak akan sama sepenuhnya.

Distribusi Data Besar

Sebuah array yang mengandung 250 nilai dianggap bukan besar, tetapi sekarang Anda mengetahui bagaimana untuk membuat set nilai acak, dan dengan mengubah parameter, dapat membuat set data ukuran yang diinginkan.

Contoh

Buat sebuah array dengan 100000 angka acak, dan tunjukkan dengan histogram yang mempunyai 100 bar:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Jalankan Instan