Học máy - Đồ thị điểm

Đồ thị điểm rơi (Scatter Plot)

Đồ thị điểm rơi là biểu đồ mà mỗi giá trị trong tập dữ liệu đều được biểu diễn bởi một điểm.


Modul Matplotlib có một cách vẽ đồ thị điểm rơi, nó cần hai mảng có độ dài bằng nhau, một mảng cho giá trị trục x, một mảng cho giá trị trục y:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

Mảng x biểu diễn độ tuổi của mỗi chiếc xe.

Mảng y biểu diễn tốc độ của mỗi chiếc xe.

Ví dụ

Vui lòng sử dụng scatter() Cách vẽ đồ thị điểm rơi:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

Kết quả:


Chạy ví dụ

Giải thích biểu đồ điểm rải

Trục x biểu diễn độ tuổi của xe, trục y biểu diễn tốc độ.

Từ hình vẽ có thể thấy, hai chiếc xe nhanh nhất đều đã sử dụng được 2 năm, chiếc xe chậm nhất đã sử dụng được 12 năm.

Ghi chú:Xe cộ có vẻ mới hơn, tốc độ lái xe nhanh hơn, nhưng điều này có thể là một sự trùng hợp, vì chúng ta chỉ đã đăng ký 13 chiếc xe.

Phân phối dữ liệu ngẫu nhiên

Trong học máy, bộ dữ liệu có thể chứa hàng ngàn hoặc thậm chí hàng triệu giá trị.

Khi kiểm tra thuật toán, bạn có thể không có dữ liệu thực tế, bạn có thể phải sử dụng giá trị được tạo ngẫu nhiên.

Như chúng ta đã học trong chương trước, mô-đun NumPy có thể giúp chúng ta!

Hãy tạo hai mảng, chúng đều chứa 1000 số ngẫu nhiên từ phân phối dữ liệu chuẩn.

Giá trị trung bình của mảng số một được đặt là 5.0, độ lệch chuẩn là 1.0.

Giá trị trung bình của mảng số hai được đặt là 10.0, độ lệch chuẩn là 2.0:

Ví dụ

Biểu đồ điểm rải có 1000 điểm:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()

Kết quả:


Chạy ví dụ

Giải thích biểu đồ điểm rải

Chúng ta có thể thấy rằng các điểm tập trung xung quanh giá trị 5 ở trục x và 10 ở trục y.

Chúng ta có thể thấy rằng sự phân tán ở trục y lớn hơn ở trục x.