Học máy - Phân phối dữ liệu
- Trang Trước Phần Trăm Cột
- Trang Tiếp Theo Phân Bố Đa Điểm Norm
Phân phối dữ liệu (Data Distribution)
Trong phần hướng dẫn này, chúng ta chỉ sử dụng một lượng dữ liệu rất nhỏ trong các ví dụ, mục đích là để hiểu rõ các khái niệm khác nhau.
Trong thế giới thực, tập dữ liệu lớn hơn nhiều, nhưng ít nhất trong giai đoạn đầu của dự án, việc thu thập dữ liệu từ thế giới thực rất khó.
Chúng ta làm thế nào để có được tập dữ liệu lớn?
Để tạo tập dữ liệu lớn cho mục đích kiểm tra, chúng ta sử dụng mô-đun Python NumPy, mô-đun này đi kèm với nhiều phương pháp tạo tập dữ liệu ngẫu nhiên của kích thước bất kỳ.
Mô Hình
Tạo một mảng chứa 250 số thực ngẫu nhiên nằm trong khoảng từ 0 đến 5:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
Biểu đồ histogram
Để thể hiện dữ liệu tập hợp, chúng ta có thể vẽ biểu đồ histogram cho dữ liệu đã thu thập.
Chúng ta sẽ sử dụng mô-đun Python Matplotlib để vẽ biểu đồ histogram:
Mô Hình
Vẽ biểu đồ histogram:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
Kết quả:

Giải thích Histogram
Chúng ta đã vẽ 5 biểu đồ cột từ mảng trong ví dụ trên.
Cột thứ nhất đại diện cho số lượng giá trị nằm trong khoảng từ 0 đến 1 trong mảng.
Cột thứ hai đại diện cho số lượng giá trị nằm trong khoảng từ 1 đến 2.
và thế
Kết quả chúng ta nhận được là:
52 giá trị nằm trong khoảng 0 và 1 48 giá trị nằm trong khoảng 1 và 2 49 giá trị nằm trong khoảng 2 và 3 51 giá trị nằm trong khoảng 3 và 4 50 giá trị nằm trong khoảng 4 và 5
Ghi Chú:Giá trị mảng là số ngẫu nhiên, kết quả sẽ không hoàn toàn giống nhau trên máy tính của bạn.
Phân Bố Dữ Liệu Lớn
Mảng chứa 250 giá trị được coi là không lớn, nhưng bây giờ bạn đã biết cách tạo một tập giá trị ngẫu nhiên và thông qua việc thay đổi các tham số, bạn có thể tạo dữ liệu tập hợp cần thiết.
Mô Hình
Tạo một mảng có 100000 số ngẫu nhiên và hiển thị chúng bằng histogram có 100 cột:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- Trang Trước Phần Trăm Cột
- Trang Tiếp Theo Phân Bố Đa Điểm Norm