Διερεύνηση 1 – Υπόδειξη

Συχνά, όταν αναλύουμε δεδομένα, συναντάμε πληροφορίες που δεν είναι αριθμητικές, όπως το φύλο, το χρώμα, ή κάποια κατηγορία. Για να μπορέσουμε να επεξεργαστούμε αυτά τα δεδομένα με μαθηματικούς τρόπους και να βγάλουμε συμπεράσματα, χρειάζεται να τα μετατρέψουμε σε αριθμούς. Αυτή η διαδικασία ονομάζεται κωδικοποίηση ή μετασχηματισμός δεδομένων.
Στην παρακάτω δραστηριότητα, θα δούμε ένα απλό παράδειγμα κωδικοποίησης, όπου θα μετατρέψουμε πληροφορίες για το φύλο (ΘΗΛΥΚΟ, ΑΡΣΕΝΙΚΟ) σε αριθμούς. Θα παρατηρήσουμε πώς ένας πίνακας με αριθμητικά δεδομένα μπορεί να μετασχηματιστεί σε έναν πίνακα που δείχνει ποιοτικά χαρακτηριστικά, χρησιμοποιώντας έναν κανόνα κωδικοποίησης.

Κωδικοποίηση μετασχηματισμού

0,1,2,3,4 ΘΗΛΥΚΟ

5,6,7,8,9 AΡΣΕΝΙΚΟ

045 186 701 479 272
809 304 573 484 973
796 206 428 684 947
416 690 844 504 797
272 958 222 382 652
174 384 709 601 128
191 430 866 334 668
482 897 143 514 715

Μετασχηματισμένος πίνακας

ΘΘΑ ΘΑΑ ΑΘΘ ΘΑΑ ΘΑΘ
ΑΘΑ ΘΘΘ ΑΘΘ ΘΑΘ ΑΑΑ
ΑΑΑ ΘΘΑ ΘΘΑ ΑΑΘ ΘΘΑ
ΘΘΑ ΑΑΑ ΑΑΘ ΘΑΘ ΑΘΘ
ΘΑΘ ΑΑΑ ΑΘΑ ΘΘΘ ΑΑΑ
ΑΑΘ ΘΘΑ ΑΑΘ ΘΑΑ ΘΑΘ
ΘΘΑ ΑΑΑ ΑΑΘ ΘΘΑ ΑΑΑ

Ερωτήματα για περαιτέρω σκέψη και διερεύνηση

α) Η κωδικοποίηση δεδομένων, όπως αυτή που είδαμε με το φύλο (ΘΗΛΥΚΟ/ΑΡΣΕΝΙΚΟ), είναι μια συχνή διαδικασία στην ανάλυση δεδομένων. Πέρα από το φύλο, μπορείτε να σκεφτείτε άλλα παραδείγματα ποιοτικών δεδομένων (δηλαδή, χαρακτηριστικών που δεν είναι αριθμοί, όπως το χρώμα των μαλλιών, η αγαπημένη ομάδα, η ομάδα αίματος, η κατηγορία ενός προϊόντος) τα οποία θα μπορούσαν να κωδικοποιηθούν σε αριθμούς για να διευκολυνθεί η επεξεργασία τους; Γιατί πιστεύετε ότι αυτή η μετατροπή είναι σημαντική για τους επιστήμονες και τους ερευνητές;

β) Ο μετασχηματισμένος πίνακας μας δείχνει τα αποτελέσματα της κωδικοποίησης. Πώς πιστεύετε ότι η σωστή επιλογή των αριθμών για την κωδικοποίηση (π.χ., 0-4 για ΘΗΛΥΚΟ και 5-9 για ΑΡΣΕΝΙΚΟ) μπορεί να επηρεάσει την ανάλυση των δεδομένων; Θα μπορούσαμε να είχαμε χρησιμοποιήσει διαφορετικούς αριθμούς (π.χ., 0 για ΘΗΛΥΚΟ και 1 για ΑΡΣΕΝΙΚΟ); Ποιες είναι οι πιθανές προκλήσεις ή οι περιορισμοί όταν κωδικοποιούμε δεδομένα με αυτόν τον τρόπο;