机器学习 - 数据分布

డేటా పంపిణీ (Data Distribution)

ఈ ట్యూటోరియల్ ముందు, మేము వివిధ సంప్రదాయాలను అర్థం చేసుకునే ఉద్దేశ్యంతో చాలా తక్కువ డేటాను ఉపయోగించాము.

వాస్తవిక ప్రపంచంలో, డేటా సెట్ను చాలా పెద్దది అవుతుంది, కానీ ప్రాజెక్ట్ ప్రారంభ దశలో, వాస్తవిక ప్రపంచ డేటాను సేకరించడం చాలా కష్టం అవుతుంది.

మేము ఎలా బడిగిన డేటా సెట్ను పొందగలము?

పరీక్షా డేటా సెట్ను సృష్టించడానికి, మేము పైథాన్ మాడ్యూల్ నుండి నామమాత్రపు సంఖ్యలను సృష్టించడానికి వాడుతున్నాము, ఇది అనేక రకాల సంఖ్యల సెట్ను సృష్టించడానికి సహాయపడుతుంది.

ఉదాహరణ

0 మరియు 5 మధ్య 250 మంది సంఖ్యలతో పూర్తి అయిన సంఖ్యల పేరాణ్యం సృష్టించండి:

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

పరిశీలన ఉదాహరణ

హిస్టోగ్రామ్

డేటా సెట్ను విష్కరణం చేయడానికి, సేకరించిన డేటాను హిస్టోగ్రామ్ చేయవచ్చు.

డేటా సెట్ను విష్కరణం చేయడానికి మేము పైథాన్ మాడ్యూల్ మాట్లబుల్ ను వాడుతున్నాము:

ఉదాహరణ

గ్రాఫ్ చిత్రం చేయండి:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

结果:


పరిశీలన ఉదాహరణ

直方图解释

我们使用上例中的数组绘制 5 条柱状图。

第一栏代表数组中有多少 0 到 1 之间的值。

第二栏代表有多少 1 到 2 之间的数值。

等等。

మా ప్రాప్తి ఫలితం ఇంకా ఉంది:

52 విలువలు 0 మరియు 1 మధ్య ఉన్నాయి
48 విలువలు 1 మరియు 2 మధ్య ఉన్నాయి
49 విలువలు 2 మరియు 3 మధ్య ఉన్నాయి
51 విలువలు 3 మరియు 4 మధ్య ఉన్నాయి
50 విలువలు 4 మరియు 5 మధ్య ఉన్నాయి

ప్రకటనలు:విస్తరణ విలువలు సంఖ్యలు సరిగ్గా ఉన్నాయి, మరియు మీ కంప్యూటర్లో అదే ఫలితాలను చూపించదు.

పెద్ద వివరణ పట్టిక

250 విలువల విస్తరణ ఎక్కువగా కనిపించవు, కానీ ఇప్పుడు మీరు సంఖ్యల విస్తరణను సృష్టించడానికి మరియు పరామితులను మార్చడం ద్వారా అవసరమైన పరిమాణంలో విస్తరణను సృష్టించవచ్చు.

ఉదాహరణ

100000 సంఖ్యల విస్తరణను సృష్టించండి మరియు 100 వరుసల హిస్టోగ్రామ్ ద్వారా వాటిని చూపించండి:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

పరిశీలన ఉదాహరణ