기계 학습 - 데이터 분포
데이터 분포(Data Distribution)
이 튜토리얼의 초기 단계에서는, 다양한 개념을 이해하기 위해 매우 적은 데이터만 사용했습니다.
현실 세계에서 데이터 셋은 훨씬 더 큽니다. 하지만 프로젝트의 초기 단계에서는 현실 세계의 데이터를 수집하는 것이 어려울 수 있습니다.
大数据集은 어떻게 얻을 수 있습니까?
테스트를 위해 큰 데이터 셋을 생성하기 위해, NumPy 모듈을 사용합니다. 이 모듈은 다양한 크기의 랜덤 데이터 셋을 생성하는 많은 방법을 제공합니다.
예제
0에서 5 사이의 250개의 랜덤 플로팅 숫자를 포함한 배열을 생성하십시오:
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
직方도
데이터 셋을 시각화하기 위해, 수집된 데이터에 대한 직方도 그래프를 그릴 수 있습니다.
우리는 Matplotlib 모듈을 사용하여 직方도 그래프를 그립니다:
예제
직方도 그래프를 그리기:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
결과:

히스토그램 설명
우리는 예제에서의 배열을 사용하여 5 개의 바를 그립니다.
첫 번째 열은 배열에 0부터 1 사이의 값을 가진 값의 개수를 나타냅니다.
두 번째 열은 1부터 2 사이의 값을 가진 수의 개수를 나타냅니다.
etc.
우리가 얻은 결과는 다음과 같습니다:
52 개의 값은 0과 1 사이에 있습니다 48 개의 값은 1과 2 사이에 있습니다 49 개의 값은 2와 3 사이에 있습니다 51 개의 값은 3과 4 사이에 있습니다 50 개의 값은 4와 5 사이에 있습니다
주석:배열 값은 랜덤 수이며, 컴퓨터에서 완전히 동일한 결과를 표시하지 않습니다.
大数据 분포
250 개의 값을 가진 배열은 크지 않지만, 지금까지 랜덤 값을 가진 집합을 생성하는 방법을 알게 되었고, 매개변수를 변경하여 필요한 크기의 데이터 세트를 생성할 수 있습니다.
예제
100,000 개의 랜덤 수를 가진 배열을 생성하고 100 줄의 히스토그램으로 표시합니다:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()