การเรียนรู้ของเครื่อง - การแจกแจงข้อมูล
- หน้าก่อน ตัวเลขของร้อยละ
- หน้าต่อไป การกระจายของข้อมูลที่เป็นทรงกระบอก
การกระจายของข้อมูล (Data Distribution)
ในช่วงต้นของบทวิชานี้ เราใช้ข้อมูลน้อยมากเพื่อเข้าใจข้อคิดแนวที่ต่างๆ
ในโลกที่แท้จริง ฐานข้อมูลมักจะใหญ่มากกว่านี้ แต่อย่างน้อยในช่วงต้นของโครงการ มันยากที่จะรวบรวมข้อมูลที่มาจากโลกที่แท้จริง
เราจะได้ฐานข้อมูลใหญ่ได้อย่างไร?
เพื่อสร้างฐานข้อมูลขนาดใหญ่สำหรับการทดสอบ เราใช้มอดูล NumPy ของ Python ซึ่งมีหลายวิธีสร้างฐานข้อมูลสมุดคะแนนเรียงกันขนาดอื่นๆ
ตัวอย่าง
สร้างแนวเลขมาตราเพื่อบวกค่าที่แปลงเป็นจำนวนจาก 0 ถึง 5 ด้วยตัวเลข 250 ตัว
import numpy x = numpy.random.uniform(0.0, 5.0, 250) print(x)
กราฟเฮิสโตกราฟ
เพื่อที่จะทำให้เห็นตัวข้อมูลสมุดคะแนนเรียงกันเราสามารถวาดกราฟเฮิสโตกราฟของข้อมูลที่เก็บมาได้
เราจะใช้มอดูล Matplotlib ของ Python วาดกราฟเฮิสโตกราฟ:
ตัวอย่าง
วาดกราฟเฮิสโตกราฟ:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 250) plt.hist(x, 5) plt.show()
ผลลัพธ์:

การอธิบายของกราฟตางแบบฟรีมาตรฐาน
เราใช้แนวเลขในตัวอย่างที่ผ่านมาเพื่อวาดกราฟแบบกราฟตางแบบฟรีมาตรฐาน 5 แบบ
บล็อคที่หนึ่งนั้นแสดงถึงจำนวนของค่าที่อยู่ระหว่าง 0 ถึง 1
บล็อคที่สองนั้นแสดงถึงจำนวนของค่าที่อยู่ระหว่าง 1 ถึง 2
และอื่นๆ
ผลที่เราได้มาคือ:
52 ค่าอยู่ระหว่าง 0 และ 1 48 ค่าอยู่ระหว่าง 1 และ 2 49 ค่าอยู่ระหว่าง 2 และ 3 51 ค่าอยู่ระหว่าง 3 และ 4 50 ค่าอยู่ระหว่าง 4 และ 5
หมายเหตุ:ค่าของแนวเลขเป็นตัวเลขสุ่ม จึงจะไม่มีการแสดงผลที่เหมือนกันทั้งหมดบนคอมพิวเตอร์ของคุณ
การกระจายของข้อมูลใหญ่
แนวเลขที่มีค่า 250 ตัวถือว่าไม่ใหญ่นัก แต่ตอนนี้คุณรู้ว่าจะเขียนสมบัติเพื่อสร้างตัวเลขสุ่มในชุด และด้วยการเปลี่ยนค่าตัวแปร คุณสามารถสร้างชุดข้อมูลขนาดที่ต้องการได้
ตัวอย่าง
สร้างแนวเลขที่มีตัวเลขสุ่ม 100,000 ตัว และแสดงในแนวกราฟตางแบบฟรีมาตรฐาน 100 คอลัมน์:
import numpy import matplotlib.pyplot as plt x = numpy.random.uniform(0.0, 5.0, 100000) plt.hist(x, 100) plt.show()
- หน้าก่อน ตัวเลขของร้อยละ
- หน้าต่อไป การกระจายของข้อมูลที่เป็นทรงกระบอก