Γραφή Στατιστικής Μηχανικής Εκμάθησης

Διάγραμμα διασποράς (Scatter Plot)

Το διάγραμμα διασποράς είναι ένα διάγραμμα όπου κάθε τιμή του συνόλου δεδομένων εκπροσωπείται από έναν σημείο.


Το Matplotlib έχει μια μέθοδο σχεδίασης διαγράμματος διασποράς που χρειάζεται δύο τάξεις ίσης μήκους, μια για τις τιμές του άξονα X και μια για τις τιμές του άξονα Y:

x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]

Η τάξη x αντιπροσωπεύει την ηλικία κάθε αυτοκινήτου.

Η τάξη y αντιπροσωπεύει την ταχύτητα κάθε αυτοκινήτου.

Παράδειγμα

Παρακαλώ χρησιμοποιήστε scatter() Μέθοδος σχεδίασης διαγράμματος διασποράς:

import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()

Αποτελέσματα:


Εκτέλεση Παραδείγματος

Επεξήγηση Διαγράμματος Στατιστικής

Το άξονας X εκπροσωπεί την ηλικία του αυτοκινήτου, ο άξονας Y εκπροσωπεί την ταχύτητα.

Μπορούμε να δούμε από την εικόνα ότι και τα δύο τα ταχύτερα αυτοκίνητα χρησιμοποιούνται για 2 χρόνια, το πιο αργό αυτοκίνητο χρησιμοποιείται για 12 χρόνια.

Σχόλια:Φαίνεται ότι τα αυτοκίνητα είναι πιο γρήγορα όσο πιο νέα είναι, αλλά αυτό μπορεί να είναι μια τυχαία συνάρτηση, καθώς έχουμε εγγραφεί μόνο 13 αυτοκίνητα.

Τυχαία Διανομή Δεδομένων

Στο μηχανικό μάθημα, ο συνδυασμός δεδομένων μπορεί να περιέχει χιλιάδες ακόμα και εκατομμύρια τιμές.

Όταν δοκιμάζετε αλγόριθμους, μπορεί να δεν έχετε πραγματικά δεδομένα, μπορεί να πρέπει να χρησιμοποιήσετε τυχαία δημιουργημένα τιμές.

Καθώς μάθαμε στο προηγούμενο κεφάλαιο, το μονάδρα NumPy μπορεί να μας βοηθήσει!

Δημιουργήστε δύο ακολουθίες που είναι γεμάτες με 1000 τυχαία αριθμούς από κανονική διανομή δεδομένων.

Η μέση τιμή της πρώτης ακολουθίας οριστεί σε 5.0 και η τυπική απόκλιση σε 1.0.

Η μέση τιμή της δεύτερης ακολουθίας οριστεί σε 10.0 και η τυπική απόκλιση σε 2.0:

Παράδειγμα

Διαγράμματα με 1000 σημείων:

import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()

Αποτελέσματα:


Εκτέλεση Παραδείγματος

Επεξήγηση Διαγράμματος Στατιστικής

Μπορούμε να δούμε ότι οι σημεία συγκεντρώνονται γύρω από τις τιμές 5 στον άξονα x και 10 στον άξονα y.

Μπορούμε να δούμε ότι η διάδοση στον άξονα y είναι μεγαλύτερη από αυτήν στον άξονα x.