အက်ယ်လ်ဂိုး - အချီ/အချီ

评估模型

在机器学习中,我们创建模型来预测某些事件的结果,就像在上一章中当我们了解重量和发动机排量时,预测了汽车的二氧化碳排放量一样。

ဝီကီအော်ဂျီ ကို အများဆုံး အကောင်းဆုံး ဖြစ်သည် ကို အစိုးရန် ကို အသုံးပြုနိုင်သည် အမှတ်အသား တစ်ခု ဖြစ်သည်。

ဝီကီအော်ဂျီ/စမ်းသပ် ဆိုလိုသည်မှာမည်သည်

ဝီကီအော်ဂျီ/စမ်းသပ် သည် ဝီကီအော်ဂျီ အချက်အလက် အချက်အလက် စမ်းသပ်ရန် တစ်ခု ဖြစ်သည်。

ဝီကီအော်ဂျီ/စမ်းသပ် ဆိုလိုသည် အခြေအနေ သည် သုတေသနစာတမ်း ကို နှစ်ဖက် အုပ်ချုပ်ရန် ကို လုပ်ပါသည်。

၈၀% ကို ဝီကီအော်ဂျီ ကို ပြန်လည်စမ်းသပ်ရန် အသုံးပြုပြီး ၂၀% ကို စမ်းသပ်ရန် အသုံးပြုပါ。

ဝီကီအော်ဂျီ ကို ဝီကီအော်ဂျီ ကို ပြန်လည်စမ်းသပ်ရန် အသုံးပြုနိုင်သည်。

ဝီကီအော်ဂျီ ကို စမ်းသပ်ရန် အသုံးပြုနိုင်သည်。

ဝီကီအော်ဂျီ ကို ဖန်တီးရန် ဆိုလိုသည်。

စမ်းသပ်ရန် ဆိုလိုသည် စမ်းသပ်ရန် ဆိုသော စမ်းသပ်ရန် အချက်အလက် ကို စမ်းသပ်ပါ。

သုတေသနစာတမ်း မှ စတင်ပြုလုပ်ပါ。

စမ်းသပ်ရန် သုတေသနစာတမ်း မှ စတင်ပြုလုပ်ပါ。

ကျွန်တော်တို့၏ သုတေသနစာတမ်း သည် ဘောလုံးကြီး တွင် ၁၀၀ ဦး သူ့၏ ပြီး ကိုယ်လက်ခံခြင်း အခြေအနေ ကို ပြပေပါသည်。

အကျယ်အဝန်

import numpy
import matplotlib.pyplot as plt
numpy.random.seed(2)
x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x
plt.scatter(x, y)
plt.show()

结果:

x 轴表示购买前的分钟数。

y 轴表示在购买上花费的金额。


အကျယ်အဝန် ပြုလုပ်

拆分训练/测试

训练集应该是原始数据的 80% 的随机选择。

测试集应该是剩余的 20%。

train_x = x[:80]
train_y = y[:80]
test_x = x[80:]
test_y = y[80:]

显示训练集

显示与训练集相同的散点图:

အကျယ်အဝန်

plt.scatter(train_x, train_y)
plt.show()

结果:

它看起来像原始数据集,因此似乎是一个合理的选择:


အကျယ်အဝန် ပြုလုပ်

显示测试集

为了确保测试集不是完全不同,我们还要看一下测试集。

အကျယ်အဝန်

plt.scatter(test_x, test_y)
plt.show()

结果:

测试集也看起来像原始数据集:


အကျယ်အဝန် ပြုလုပ်

拟合数据集

数据集是什么样的?我认为最合适拟合的是多项式回归,因此让我们画一条多项式回归线。

要通过数据点画一条线,我们使用 matplotlib 模块的 plott() 方法:

အကျယ်အဝန်

绘制穿过数据点的多项式回归线:

import numpy
import matplotlib.pyplot as plt
numpy.random.seed(2)
x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x
train_x = x[:80]
train_y = y[:80]
test_x = x[80:]
test_y = y[80:]
mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))
myline = numpy.linspace(0, 6, 100)
plt.scatter(train_x, train_y)
plt.plot(myline, mymodel(myline))
plt.show()

结果:


အကျယ်အဝန် ပြုလုပ်

此结果可以支持我们对数据集拟合多项式回归的建议,即使如果我们尝试预测数据集之外的值会给我们带来一些奇怪的结果。例如:该行表明某位顾客在商店购物 6 分钟,会完成一笔价值 200 的购物。这可能是过拟合的迹象。

သို့သော် R-squared အချက်အလက် ကား ကျွန်တော်တို့ အချက်အလက် ပေါ်တွင် ဓာတ်တပ် ကို အသုံးပြုသည် အရှိန် ကို အကူအညီပေးသည်။

R2

R2 သို့ ကျွန်တော် သူတို့ ဝင်ရောက်ကြသည်မှာ မရှိဘဲ အရှင်တော် အမှတ်တင်ပါ။

၎င်း သည် x အရာဝတ္တု နှင့် y အရာဝတ္တု အကြား အဖြစ်အပျက် ကို လေ့လာပြီး တိုးတက် သော ကာလ မှ ဝေးကွာသော ကာလ အထိ ပြောင်းလဲသည်။ အကျွမ်းကျွမ်း အကြား အထိ ကျရောက်သည် ဖြစ် သော ကာလ ကို လျှပ်စစ် လေးသက် ကျရောက် သည်။ အရာဝတ္တု ကို လျှပ်စစ် လေးသက် မရှိသည် ကို ၀ ဖြင့် ခေါ်ဆိုပြီး အရာဝတ္တု ကို လျှပ်စစ် လေးသက် ကျရောက် သည် ကို ၁ ဖြင့် ခေါ်ဆိုပါသည်။

sklearn အက္ခရာပိုင်းလုပ်ငန်း အဖွဲ့မှာ အမည်ပြုထားသော rs_score() ၎င်း၏ ဘက်တွင် အမှန်ကို ရယူရန် အကူအညီပေးရန် တုန်းပြီး သုံးနှုန်း ကို တီထွင်သည်။

ဒီနေရာ၌ ကျွန်တော်တို့ ကျသော ကျောင်းတော် ကွင်း ကျော်လှယ် အချိန် နှင့် သူတို့ သုံးနှုန်း မှ သက်ဆိုင်သည် မှု ကို လေ့လာပါသည်။

အကျယ်အဝန်

ကျွန်တော်တို့ ကျသော အချက်အလက် ကို ပုံစံ ပိုင်းပေါ် စုဆောင်းသည် ဘဲ အများဆုံး သိရှိသည်။

import numpy
from sklearn.metrics import r2_score
numpy.random.seed(2)
x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x
train_x = x[:80]
train_y = y[:80]
test_x = x[80:]
test_y = y[80:]
mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))
r2 = r2_score(train_y, mymodel(train_x))
print(r2)

အကျယ်အဝန် ပြုလုပ်

注释:ရလဒ် ၀.၇၉၉ က အဖြစ်အပျက် သိသာမည်။

စမ်းသပ် စည်းကမ်း များ ကို ပြည့်စုံပြီး ပြုလုပ်ပါ။

ဒီကာလ၌ အဓိက ကျသော အချက်အလက် ပေါ်၌ မှာ အကောင်းမွန်သော ဓာတ်တပ် တစ်ခု ကို မူတည်ပြီး ရှိပါသည်။

နောက်ပိုင်း၌ ၊ ကျွန်တော်တို့ စမ်းသပ် ရန် ကျသော စမ်းသပ် အချက်အလက် ကို အသုံးပြုပါ၊ သို့မဟုတ် အတူတူ အဖြေ ကို ပေးအပ်သည် လို့ အသိအမှတ်ပြုပါ။

အကျယ်အဝန်

让我们在使用测试数据时确定 R2 分数:

import numpy
from sklearn.metrics import r2_score
numpy.random.seed(2)
x = numpy.random.normal(3, 1, 100)
y = numpy.random.normal(150, 40, 100) / x
train_x = x[:80]
train_y = y[:80]
test_x = x[80:]
test_y = y[80:]
mymodel = numpy.poly1d(numpy.polyfit(train_x, train_y, 4))
r2 = r2_score(test_y, mymodel(test_x))
print(r2)

အကျယ်အဝန် ပြုလုပ်

注释:结果 0.809 表明该模型也适合测试集,我们确信可以使用该模型预测未来值。

အချက်အလက် ပြင်ဆင်

ကျန်ရှိသော အချက်အလက် သည် အကောင်းသော အချက်အလက် ဖြစ်သည် ဟု ကျွန်တော်တို့ အတည်ပြုပြီး အခြား အချက်အလက် ပြင်ဆင်ခြင်း စတင်နိုင်ပါသည်

အကျယ်အဝန်

ရိုးရှင် ကျောက်ကို ဘူးသူ လူ ၅ မိနစ် တွင် အချက်အလက် ပြင်းပြီး သိမ်းမည့် အချက်အလက်

print(mymodel(5))

အကျယ်အဝန် ပြုလုပ်

အမှတ် 22.88 ဒေါ်လာ သည် စာရင်း ကို ကိုယ်စားပြုရာ နှင့် တူညီသည် လို့ တော်မေးခွန်း ကြောင်း အစီရင်ခံချက် ပြောဆိုသည့် အချက်အလက်