Học máy - Độ lệch chuẩn

Độ lệch chuẩn là gì?

Độ lệch chuẩn (Standard Deviation, thường gọi là độ lệch phương) là một con số, mô tả mức độ phân tán của các giá trị.

Độ lệch chuẩn thấp hơn biểu thị rằng hầu hết các số gần với giá trị trung bình (trung bình).

Độ lệch chuẩn cao hơn biểu thị rằng các giá trị phân tán trong khoảng rộng hơn.

Ví dụ: Lần này chúng ta đã ghi lại tốc độ của 7 chiếc xe:

speed = [86,87,88,86,87,85,86]

Độ lệch chuẩn là:

0.9

Điều này có nghĩa là hầu hết các giá trị đều trong khoảng 0.9 từ giá trị trung bình, tức là 86.4.

Hãy xử lý tập số liệu với khoảng lớn hơn:

speed = [32,111,138,28,59,77,97]

Độ lệch chuẩn là:

37.85

Điều này có nghĩa là hầu hết các giá trị đều trong khoảng 37.85 từ giá trị trung bình (trung bình là 77.4).

Như bạn đã thấy, độ lệch chuẩn cao hơn biểu thị rằng các giá trị phân tán trong khoảng rộng hơn.

Mô-đun NumPy có một phương pháp tính độ lệch chuẩn:

Ví dụ

Vui lòng sử dụng NumPy std() Cách tìm độ lệch chuẩn:

import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)

Chạy ví dụ

Ví dụ

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Chạy ví dụ

Độ lệch phương

Độ lệch phương là một con số khác, chỉ ra mức độ phân tán của các giá trị.

Thực tế, nếu lấy căn bậc hai của độ lệch phương, bạn sẽ nhận được độ lệch chuẩn!

Hoặc ngược lại, nếu nhân độ lệch chuẩn với chính nó, bạn sẽ nhận được độ lệch phương!

Nếu cần tính độ lệch phương, bạn phải thực hiện các bước sau:

1. Tính giá trị trung bình:

(32+111+138+28+59+77+97) / 7 = 77.4

2. Đối với mỗi giá trị: Tìm sự chênh lệch với giá trị trung bình:

 32 - 77.4 = -45.4
111 - 77.4 =  33.6
138 - 77.4 =  60.6
 28 - 77.4 = -49.4
 59 - 77.4 = -18.4
 77 - 77.4 = - 0.4
 97 - 77.4 =  19.6

3. Đối với mỗi khác biệt: Tìm giá trị bình phương:

(-45.4)2 = 2061.16 
 (33.6)2 = 1128.96 
 (60.6)2 = 3672.36 
(-49.4)2 = 2440.36 
(-18.4)2 =  338.56 
(- 0.4)2 =    0.16 
 (19.6)2 =  384.16

4. Độ phức tạp là trung bình của các độ lệch bình phương này:

(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2

May mắn thay, NumPy có một phương pháp để tính độ phức tạp:

Ví dụ

Sử dụng NumPy var() Phương pháp xác định độ phức tạp:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)

Chạy ví dụ

Độ lệch chuẩn

Như chúng ta đã biết, công thức tính độ lệch chuẩn là căn bậc hai của độ phức tạp:

√ 1432.25 = 37.85

Hoặc, như ví dụ trên, sử dụng NumPy để tính độ lệch chuẩn:

Ví dụ

Vui lòng sử dụng phương pháp std() của NumPy để tìm độ lệch chuẩn:

import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)

Chạy ví dụ

Ký Hiệu

Độ lệch chuẩn thường được biểu thị bằng ký hiệu Sigma:σ

Độ phức tạp thường được biểu thị bằng ký hiệu Sigma Square σ2 Biểu Đ示

Tóm Tắt Chương

Độ lệch chuẩn và độ phức tạp là các thuật ngữ thường được sử dụng trong học máy, vì vậy việc hiểu cách lấy chúng và các khái niệm đằng sau chúng rất quan trọng.