Học máy - Bắt đầu

Học máy cho phép máy tính học từ dữ liệu nghiên cứu và thông tin thống kê.

Học máy là một bước trong hướng đi của trí tuệ nhân tạo (AI).

Học máy là một chương trình có thể phân tích dữ liệu và học dự đoán kết quả.

Từ đâu bắt đầu?

Trong hướng dẫn này, chúng ta sẽ quay lại toán học và nghiên cứu thống kê, cũng như cách tính các giá trị quan trọng dựa trên tập dữ liệu.

Chúng ta cũng sẽ học cách sử dụng các mô-đun Python khác nhau để获得 câu trả lời cần thiết.

Và, chúng ta sẽ học cách viết các hàm dự đoán kết quả dựa trên kiến thức đã học.

Tập dữ liệu

Trong máy tính, tập dữ liệu có thể là bất kỳ tập hợp dữ liệu nào. Nó có thể là từ mảng đến cơ sở dữ liệu hoàn chỉnh.

Ví dụ về mảng:

[99,86,87,88,111,86,103,87,94,78,77,85,86]

Ví dụ về cơ sở dữ liệu:

Tên xe Màu sắc Tuổi Tốc độ AutoPass
BMW đỏ 5 99 Y
Volvo đen 7 86 Y
VW xám 8 87 N
VW trắng 7 88 Y
Ford trắng 2 111 Y
VW trắng 17 86 Y
Tesla đỏ 2 103 Y
BMW đen 9 87 Y
Volvo xám 4 94 N
Ford trắng 11 78 N
Toyota xám 12 77 N
VW trắng 9 85 N
Toyota xanh 6 86 Y

Bằng cách xem xét mảng, chúng ta có thể ước tính giá trị trung bình có thể khoảng 80 hoặc 90, và chúng ta còn có thể xác định giá trị lớn nhất và nhỏ nhất, nhưng chúng ta còn có thể làm gì thêm?

Bằng cách xem xét cơ sở dữ liệu, chúng ta có thể thấy màu sắc phổ biến nhất là màu trắng, độ tuổi xe cũ nhất là 17 năm, nhưng nếu chỉ xem xét các giá trị khác, làm thế nào để dự đoán xe có AutoPass không?

Đó là mục tiêu của học máy! Phân tích dữ liệu và dự đoán kết quả!

Trong học máy, thường sử dụng các bộ dữ liệu rất lớn. Trong hướng dẫn này, chúng ta sẽ cố gắng làm cho bạn dễ hiểu các khái niệm khác nhau của học máy một cách dễ dàng và sẽ sử dụng một số bộ dữ liệu nhỏ dễ hiểu.

Loại dữ liệu

Để phân tích dữ liệu, việc hiểu loại dữ liệu mà chúng ta phải xử lý là rất quan trọng.

Chúng ta có thể phân loại loại dữ liệu thành ba loại chính:

  • Số (Numerical)
  • Phân loại (Categorical)
  • Thứ tự (Ordinal)

Dữ liệu sốLà số, có thể chia thành hai loại giá trị:

Dữ liệu rời rạc (Discrete Data)
- Giới hạn là số nguyên. Ví dụ: số lượng xe qua.
Dữ liệu liên tục (Continuous Data)
- Số có vô số giá trị. Ví dụ: giá trị giá của một sản phẩm hoặc kích thước của một sản phẩm.

Dữ liệu phân loạiLà các giá trị không thể đo lường được. Ví dụ: giá trị màu sắc hoặc bất kỳ giá trị yes/no nào.

Dữ liệu thứ tựGiống như dữ liệu phân loại, nhưng có thể đo lường được. Ví dụ: điểm số trường học của A tốt hơn B, tương tự như vậy.

Bằng cách hiểu loại dữ liệu của nguồn dữ liệu, bạn có thể biết phải sử dụng kỹ thuật nào để phân tích dữ liệu.

Trong chương tiếp theo, bạn sẽ học thêm về thống kê và phân tích dữ liệu.