Διερεύνηση 1 – Υπόδειξη
Συχνά, όταν αναλύουμε δεδομένα, συναντάμε πληροφορίες που δεν είναι αριθμητικές, όπως το φύλο, το χρώμα, ή κάποια κατηγορία. Για να μπορέσουμε να επεξεργαστούμε αυτά τα δεδομένα με μαθηματικούς τρόπους και να βγάλουμε συμπεράσματα, χρειάζεται να τα μετατρέψουμε σε αριθμούς. Αυτή η διαδικασία ονομάζεται κωδικοποίηση ή μετασχηματισμός δεδομένων.
Στην παρακάτω δραστηριότητα, θα δούμε ένα απλό παράδειγμα κωδικοποίησης, όπου θα μετατρέψουμε πληροφορίες για το φύλο (ΘΗΛΥΚΟ, ΑΡΣΕΝΙΚΟ) σε αριθμούς. Θα παρατηρήσουμε πώς ένας πίνακας με αριθμητικά δεδομένα μπορεί να μετασχηματιστεί σε έναν πίνακα που δείχνει ποιοτικά χαρακτηριστικά, χρησιμοποιώντας έναν κανόνα κωδικοποίησης.
Κωδικοποίηση μετασχηματισμού
0,1,2,3,4 ΘΗΛΥΚΟ
5,6,7,8,9 AΡΣΕΝΙΚΟ
| 045 | 186 | 701 | 479 | 272 |
| 809 | 304 | 573 | 484 | 973 |
| 796 | 206 | 428 | 684 | 947 |
| 416 | 690 | 844 | 504 | 797 |
| 272 | 958 | 222 | 382 | 652 |
| 174 | 384 | 709 | 601 | 128 |
| 191 | 430 | 866 | 334 | 668 |
| 482 | 897 | 143 | 514 | 715 |
Μετασχηματισμένος πίνακας
| ΘΘΑ | ΘΑΑ | ΑΘΘ | ΘΑΑ | ΘΑΘ |
| ΑΘΑ | ΘΘΘ | ΑΘΘ | ΘΑΘ | ΑΑΑ |
| ΑΑΑ | ΘΘΑ | ΘΘΑ | ΑΑΘ | ΘΘΑ |
| ΘΘΑ | ΑΑΑ | ΑΑΘ | ΘΑΘ | ΑΘΘ |
| ΘΑΘ | ΑΑΑ | ΑΘΑ | ΘΘΘ | ΑΑΑ |
| ΑΑΘ | ΘΘΑ | ΑΑΘ | ΘΑΑ | ΘΑΘ |
| ΘΘΑ | ΑΑΑ | ΑΑΘ | ΘΘΑ | ΑΑΑ |
Ερωτήματα για περαιτέρω σκέψη και διερεύνηση
α) Η κωδικοποίηση δεδομένων, όπως αυτή που είδαμε με το φύλο (ΘΗΛΥΚΟ/ΑΡΣΕΝΙΚΟ), είναι μια συχνή διαδικασία στην ανάλυση δεδομένων. Πέρα από το φύλο, μπορείτε να σκεφτείτε άλλα παραδείγματα ποιοτικών δεδομένων (δηλαδή, χαρακτηριστικών που δεν είναι αριθμοί, όπως το χρώμα των μαλλιών, η αγαπημένη ομάδα, η ομάδα αίματος, η κατηγορία ενός προϊόντος) τα οποία θα μπορούσαν να κωδικοποιηθούν σε αριθμούς για να διευκολυνθεί η επεξεργασία τους; Γιατί πιστεύετε ότι αυτή η μετατροπή είναι σημαντική για τους επιστήμονες και τους ερευνητές;
β) Ο μετασχηματισμένος πίνακας μας δείχνει τα αποτελέσματα της κωδικοποίησης. Πώς πιστεύετε ότι η σωστή επιλογή των αριθμών για την κωδικοποίηση (π.χ., 0-4 για ΘΗΛΥΚΟ και 5-9 για ΑΡΣΕΝΙΚΟ) μπορεί να επηρεάσει την ανάλυση των δεδομένων; Θα μπορούσαμε να είχαμε χρησιμοποιήσει διαφορετικούς αριθμούς (π.χ., 0 για ΘΗΛΥΚΟ και 1 για ΑΡΣΕΝΙΚΟ); Ποιες είναι οι πιθανές προκλήσεις ή οι περιορισμοί όταν κωδικοποιούμε δεδομένα με αυτόν τον τρόπο;