Học máy - Phân phối dữ liệu

Phân phối dữ liệu (Data Distribution)

Trong phần hướng dẫn này, chúng ta chỉ sử dụng một lượng dữ liệu rất nhỏ trong các ví dụ, mục đích là để hiểu rõ các khái niệm khác nhau.

Trong thế giới thực, tập dữ liệu lớn hơn nhiều, nhưng ít nhất trong giai đoạn đầu của dự án, việc thu thập dữ liệu từ thế giới thực rất khó.

Chúng ta làm thế nào để có được tập dữ liệu lớn?

Để tạo tập dữ liệu lớn cho mục đích kiểm tra, chúng ta sử dụng mô-đun Python NumPy, mô-đun này đi kèm với nhiều phương pháp tạo tập dữ liệu ngẫu nhiên của kích thước bất kỳ.

Mô Hình

Tạo một mảng chứa 250 số thực ngẫu nhiên nằm trong khoảng từ 0 đến 5:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

Chạy Mô Hình

Biểu đồ histogram

Để thể hiện dữ liệu tập hợp, chúng ta có thể vẽ biểu đồ histogram cho dữ liệu đã thu thập.

Chúng ta sẽ sử dụng mô-đun Python Matplotlib để vẽ biểu đồ histogram:

Mô Hình

Vẽ biểu đồ histogram:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

Kết quả:


Chạy Mô Hình

Giải thích Histogram

Chúng ta đã vẽ 5 biểu đồ cột từ mảng trong ví dụ trên.

Cột thứ nhất đại diện cho số lượng giá trị nằm trong khoảng từ 0 đến 1 trong mảng.

Cột thứ hai đại diện cho số lượng giá trị nằm trong khoảng từ 1 đến 2.

và thế

Kết quả chúng ta nhận được là:

52 giá trị nằm trong khoảng 0 và 1
48 giá trị nằm trong khoảng 1 và 2
49 giá trị nằm trong khoảng 2 và 3
51 giá trị nằm trong khoảng 3 và 4
50 giá trị nằm trong khoảng 4 và 5

Ghi Chú:Giá trị mảng là số ngẫu nhiên, kết quả sẽ không hoàn toàn giống nhau trên máy tính của bạn.

Phân Bố Dữ Liệu Lớn

Mảng chứa 250 giá trị được coi là không lớn, nhưng bây giờ bạn đã biết cách tạo một tập giá trị ngẫu nhiên và thông qua việc thay đổi các tham số, bạn có thể tạo dữ liệu tập hợp cần thiết.

Mô Hình

Tạo một mảng có 100000 số ngẫu nhiên và hiển thị chúng bằng histogram có 100 cột:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

Chạy Mô Hình