머신러닝 - 초보자 가이드
- 이전 페이지 NumPy ufuncs
- 다음 페이지 평균 중앙값 모드
머신러닝은 컴퓨터가 데이터와 통계 정보를 통해 학습할 수 있게 합니다.
머신러닝은 인공지능(AI) 방향으로 나아가는 중 하나입니다.
머신러닝은 데이터를 분석하고 예측 결과를 학습할 수 있는 프로그램입니다.
어디서 시작할까요?
이 튜토리얼에서는 수학으로 돌아가 통계학을 연구하고 데이터셋을 기반으로 중요한 수치를 계산하는 방법을 배울 것입니다.
우리는 다양한 Python 모듈을 사용하여 필요한 답을 얻는 방법도 배울 것입니다.
또한, 우리는 배운 지식을 바탕으로 결과를 예측할 수 있는 함수를 작성하는 방법을 배울 것입니다.
데이터셋
컴퓨터에서 데이터셋은 어떤 데이터 집합을 의미합니다. 이는 배열에서 완전한 데이터베이스에 이르는 모든 것을 포함할 수 있습니다.
배열의 예제:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
데이터베이스의 예제:
차이름 | 색상 | 연령 | 속도 | AutoPass |
---|---|---|---|---|
BMW | 빨간 | 5 | 99 | Y |
볼보 | 검정 | 7 | 86 | Y |
VW | 회색 | 8 | 87 | N |
VW | 하얀 | 7 | 88 | Y |
포드 | 하얀 | 2 | 111 | Y |
VW | 하얀 | 17 | 86 | Y |
테슬라 | 빨간 | 2 | 103 | Y |
BMW | 검정 | 9 | 87 | Y |
볼보 | 회색 | 4 | 94 | N |
포드 | 하얀 | 11 | 78 | N |
토요타 | 회색 | 12 | 77 | N |
VW | 하얀 | 9 | 85 | N |
토요타 | 파랑 | 6 | 86 | Y |
배열을 확인하면 평균이 80 또는 90으로 추정될 수 있고 최대값과 최소값을 결정할 수 있지만, 그 외에 무엇을 할 수 있을까요?
데이터베이스를 확인하면 가장 인기 있는 색상이 흰색이고, 가장 오래된 차령이 17년이지만, 다른 값만 확인해도 자동차가 AutoPass를 가지는지 예측할 수 있을까요?
이것이 기계 학습의 목적입니다! 데이터를 분석하고 결과를 예측하세요!
기계 학습에서는 일반적으로 매우 큰 데이터 세트를 사용합니다. 이 튜토리얼에서는 기계 학습의 다양한 개념을 최대한 쉽게 이해하도록 하고, 일부 이해하기 쉬운 작은 데이터 세트를 사용할 것입니다.
데이터 타입
데이터를 분석하려면, 처리할 데이터 타입을 이해하는 것이 매우 중요합니다.
데이터 타입을 세 가지 주요 범주로 나눌 수 있습니다:
- 数值(Numerical)
- 분류(Categorical)
- 순수(Ordinal)
数值 데이터数值로, 두 가지数值 범주로 나눌 수 있습니다:
- 단계 데이터(Discrete Data)
- - 정수로 제한된 숫자입니다. 예를 들어: 지나간 자동차의 수.
- 연속 데이터(Continuous Data)
- - 무한한 값을 가진 숫자입니다. 예를 들어: 상품의 가격이나 크기.
분류 데이터상호 측정할 수 없는 값입니다. 예를 들어: 색상 값이나 아무것도 아니거나 예/아니요 값.
순수 데이터분류 데이터와 유사하지만 상호 측정할 수 있습니다. 예를 들어: A가 B보다 좋은 학교 성적, 이를 비롯하여.
데이터 소스의 데이터 타입을 이해하면 데이터 분석 시 사용할 기술을 알 수 있습니다.
다음 장에서, 통계 및 데이터 분석에 대한 더 많은 지식을 배울 것입니다.
- 이전 페이지 NumPy ufuncs
- 다음 페이지 평균 중앙값 모드