การเรียนรู้ของเครื่อง - การแจกแจงข้อมูล

การกระจายของข้อมูล (Data Distribution)

ในช่วงต้นของบทวิชานี้ เราใช้ข้อมูลน้อยมากเพื่อเข้าใจข้อคิดแนวที่ต่างๆ

ในโลกที่แท้จริง ฐานข้อมูลมักจะใหญ่มากกว่านี้ แต่อย่างน้อยในช่วงต้นของโครงการ มันยากที่จะรวบรวมข้อมูลที่มาจากโลกที่แท้จริง

เราจะได้ฐานข้อมูลใหญ่ได้อย่างไร?

เพื่อสร้างฐานข้อมูลขนาดใหญ่สำหรับการทดสอบ เราใช้มอดูล NumPy ของ Python ซึ่งมีหลายวิธีสร้างฐานข้อมูลสมุดคะแนนเรียงกันขนาดอื่นๆ

ตัวอย่าง

สร้างแนวเลขมาตราเพื่อบวกค่าที่แปลงเป็นจำนวนจาก 0 ถึง 5 ด้วยตัวเลข 250 ตัว

import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)

ปฏิบัติการตัวอย่าง

กราฟเฮิสโตกราฟ

เพื่อที่จะทำให้เห็นตัวข้อมูลสมุดคะแนนเรียงกันเราสามารถวาดกราฟเฮิสโตกราฟของข้อมูลที่เก็บมาได้

เราจะใช้มอดูล Matplotlib ของ Python วาดกราฟเฮิสโตกราฟ:

ตัวอย่าง

วาดกราฟเฮิสโตกราฟ:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()

ผลลัพธ์:


ปฏิบัติการตัวอย่าง

การอธิบายของกราฟตางแบบฟรีมาตรฐาน

เราใช้แนวเลขในตัวอย่างที่ผ่านมาเพื่อวาดกราฟแบบกราฟตางแบบฟรีมาตรฐาน 5 แบบ

บล็อคที่หนึ่งนั้นแสดงถึงจำนวนของค่าที่อยู่ระหว่าง 0 ถึง 1

บล็อคที่สองนั้นแสดงถึงจำนวนของค่าที่อยู่ระหว่าง 1 ถึง 2

และอื่นๆ

ผลที่เราได้มาคือ:

52 ค่าอยู่ระหว่าง 0 และ 1
48 ค่าอยู่ระหว่าง 1 และ 2
49 ค่าอยู่ระหว่าง 2 และ 3
51 ค่าอยู่ระหว่าง 3 และ 4
50 ค่าอยู่ระหว่าง 4 และ 5

หมายเหตุ:ค่าของแนวเลขเป็นตัวเลขสุ่ม จึงจะไม่มีการแสดงผลที่เหมือนกันทั้งหมดบนคอมพิวเตอร์ของคุณ

การกระจายของข้อมูลใหญ่

แนวเลขที่มีค่า 250 ตัวถือว่าไม่ใหญ่นัก แต่ตอนนี้คุณรู้ว่าจะเขียนสมบัติเพื่อสร้างตัวเลขสุ่มในชุด และด้วยการเปลี่ยนค่าตัวแปร คุณสามารถสร้างชุดข้อมูลขนาดที่ต้องการได้

ตัวอย่าง

สร้างแนวเลขที่มีตัวเลขสุ่ม 100,000 ตัว และแสดงในแนวกราฟตางแบบฟรีมาตรฐาน 100 คอลัมน์:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()

ปฏิบัติการตัวอย่าง