Λοιπόν, τι είναι ένας επιστήμονας δεδομένων τέλος πάντων;

Οι εξελίξεις στην τεχνολογία έχουν διαταράξει σχεδόν κάθε κλάδο και έχουν δημιουργήσει ευκαιρίες σταδιοδρομίας που κάποτε ήταν απίθανες. Επομένως, δεν πρέπει να προκαλεί έκπληξη το γεγονός ότι σχεδόν οι μισές από τις 50 καλύτερες θέσεις εργασίας στην Αμερική, σύμφωνα με το Glassdoor, σχετίζονται με την τεχνολογία. Αυτό που μπορεί να εκπλήσσει, ωστόσο, είναι ότι το 2016, ο επιστήμονας δεδομένων βρέθηκε στην κορυφή της λίστας.

Με απλά λόγια, οι επιστήμονες δεδομένων είναι πορωμένοι δεδομένων. Εξερευνούν και αναλύουν σύνολα δεδομένων για να κατανοήσουν και να οργανώσουν δεδομένα, να εντοπίσουν υποκείμενα μοτίβα και τάσεις και να αναπτύξουν μεθόδους που προσδιορίζουν τον καλύτερο τρόπο εξαγωγής και περίληψης πληροφοριών από τα δεδομένα που μπορούν να χρησιμοποιηθούν για καλύτερη λήψη αποφάσεων.

Μια μελέτη της McKinsey προβλέπει ότι μέχρι το 2018, ο αριθμός των θέσεων εργασίας στην επιστήμη δεδομένων μόνο στις Ηνωμένες Πολιτείες θα ξεπεράσει τις 490.000. Ωστόσο, παρά τη ζήτηση, θα υπάρχουν λιγότεροι από 200.000 διαθέσιμοι επιστήμονες δεδομένων για να καλύψουν αυτές τις θέσεις. Σε παγκόσμιο επίπεδο, η ζήτηση αυτή προβλέπεται να υπερβεί την προσφορά κατά περισσότερο από 50 τοις εκατό τα επόμενα δύο χρόνια. Ήμουν αρκετά τυχερός που βρήκα την κλίση μου στην αριθμητική ανάλυση και την επιστημονική πληροφορική, αλλά πώς μπορούμε να εμπνεύσουμε μια ολόκληρη γενιά να ακολουθήσει μονοπάτια σταδιοδρομίας που δίνουν έμφαση στον ποσοτικό συλλογισμό, καθώς οι βιομηχανίες δίνουν μεγαλύτερη σημασία στην τεχνολογία και τις γνώσεις δεδομένων;

Καριέρα

Όλα ξεκινούν από τα μαθηματικά

Μια σταδιοδρομία στην επιστήμη των δεδομένων ξεκινά όχι μόνο με την αγάπη για τα μαθηματικά, αλλά και με την ικανότητα στην εφαρμογή μαθηματικών εννοιών σε θέματα από άλλες πτυχές της ζωής τόσο ακαδημαϊκά όσο και γενικά. Παραδοσιακά, τα σχολικά προγράμματα δεν δίνουν έμφαση σε πολλά ποσοτικά σύνολα εργαλείων που απαιτούνται για την ανάλυση και το χειρισμό μεγάλων όγκων δεδομένων, όπως στατιστικά στοιχεία, άλγεβρα πινάκων και πρακτικές ασκήσεις που στοχεύουν στη μετάφραση αυτών των μεθόδων σε αριθμητικούς αλγόριθμους. Ενώ αυτό αρχίζει να αλλάζει καθώς δίνεται μεγαλύτερη έμφαση στην εκπαίδευση στις επιστήμες, την τεχνολογία, τη μηχανική και τα μαθηματικά (STEM), τα προγράμματα σπουδών μαθηματικών γυμνασίου και γυμνασίου τείνουν να εξακολουθούν να επικεντρώνονται κυρίως στην προετοιμασία των μαθητών για τον λογισμό. Ωστόσο, άλλα σύνολα αναλυτικών εργαλείων, όπως τα στατιστικά και τα διακριτά μαθηματικά, προσφέρουν κρίσιμους και διαφορετικούς τρόπους σκέψης που είναι το κλειδί για την επιστήμη των δεδομένων.

Προσωπικά είχα πάντα πάθος με τα μαθηματικά, αλλά δεν ήταν παρά στο κολέγιο που αποφάσισα να γίνω μαθηματικός. Όπως πολλοί άλλοι, αρχικά πίστευα ότι το μόνο πράγμα που θα μπορούσα να κάνω με ένα πτυχίο μαθηματικών ήταν να διδάξω μαθητές γυμνασίου, αλλά η τεχνολογία άνοιξε την πόρτα για μια σειρά από δυνατότητες καριέρας.

Μετά το κολέγιο, συνέχισα μεταπτυχιακό, σπουδάζοντας εφαρμοσμένα μαθηματικά και επιστημονική πληροφορική. Για το μεταδιδακτορικό μου, επικεντρώθηκα στα βιομαθηματικά και έκανα ένα κοινό ραντεβού στην ιατρική εντατικής θεραπείας σχεδιάζοντας μοντέλα που βασίζονται σε δεδομένα για την καλύτερη κατανόηση των πολύπλοκων ιατρικών διαδικασιών. Ήταν το ποικίλο εκπαιδευτικό μου υπόβαθρο, σε συνδυασμό με την εμπειρία του πραγματικού κόσμου στη μοντελοποίηση δεδομένων, που με οδήγησαν στον τρέχοντα ρόλο μου ως ο πρώτος επιστήμονας δεδομένων σε μια παγκόσμια εταιρεία λογισμικού.

Μια αναπτυσσόμενη βιομηχανία

Το IoT οδηγεί τη ζήτηση

Όταν προσλήφθηκα ως επιστήμονας δεδομένων το 2014, ήταν ακόμα ένας σχετικά νέος τομέας. Ωστόσο, η ανάπτυξη των συνδεδεμένων συσκευών, των αισθητήρων και της καλύτερης πρόσβασης στο Διαδίκτυο παγκοσμίως, έχει δημιουργήσει μια αφθονία ακατάστατων δεδομένων, οδηγώντας τη ζήτηση για επιστήμονες δεδομένων σε όλες τις βιομηχανίες.

Όταν λέω ότι τα δεδομένα είναι ακατάστατα, αναφέρομαι στην ποιότητα των δεδομένων. Σκεφτείτε το ως πεδία που λείπουν από τη μη αυτόματη καταχώριση. Για να το φέρουμε σε επίπεδο καταναλωτή, τα fitness trackers είναι ένα τέλειο παράδειγμα αποδιοργανωμένων δεδομένων. Όταν εισάγετε πληροφορίες σε ένα πρόγραμμα παρακολούθησης φυσικής κατάστασης, τείνετε να τις εισάγετε γρήγορα. Για παράδειγμα, αφού κάνετε ποδήλατο ή πάτε για τρέξιμο, μπορείτε να εισαγάγετε την απόσταση που διανύσατε. Ωστόσο, υπάρχουν τόσες πολλές πρόσθετες πληροφορίες που θα μπορούσαν επίσης να έχουν προστεθεί. Πόσα λεπτά ασκηθήκατε; Κάνατε ποδήλατο δρόμου, ποδήλατο βουνού ή ποδήλατο θαλάσσης; Τρέξατε σε διάδρομο ή σε μονοπάτι; Με τι αντίσταση ή ρυθμό οδηγήσατε; Τι γίνεται με την ηλικία, το βάρος και το επίπεδο δραστηριότητάς σας; Όλοι αυτοί οι παράγοντες συμβάλλουν στη βελτίωση της ποιότητας των δεδομένων και παρέχουν μια πιο ολοκληρωμένη ιστορία για τη φυσική σας κατάσταση και την υγεία σας.

Όταν πρόκειται για πρωτοβουλίες σε επίπεδο επιχείρησης, οι ομάδες επιστήμης δεδομένων αντιμετωπίζουν την πρόκληση του εντοπισμού και της ανάπτυξης τρόπων παραγωγής μετρήσιμων εκροών αξίας από δεδομένα μεταβλητής ποιότητας που προέρχονται από διαφορετικές πηγές. Οι υπεύθυνοι λήψης αποφάσεων θέλουν να δουν τους συνοπτικούς αριθμούς να παρουσιάζονται με κατατοπιστικό και αναλώσιμο τρόπο. Στην επιθυμία να δουν ακέραιους αριθμούς, οι χρήστες δεν κατανοούν πάντα τη σημασία της εξέτασης της στατιστικής βεβαιότητας γύρω από τις μετρήσεις δεδομένων. Είναι δουλειά της ομάδας μου να λαμβάνει υπόψη τη στατιστική εγκυρότητα κατά την αξιολόγηση μετρήσεων τόσο για την ποιότητα των δεδομένων όσο και για τη συγκριτική αξιολόγηση απόδοσης. Η ομάδα της επιστήμης δεδομένων θα ερευνήσει τα δεδομένα προκειμένου να δημιουργήσει και να μετρήσει σημεία αναφοράς για την παρακολούθηση των προσπαθειών βελτίωσης και για τον εντοπισμό τάσεων ή ευκαιριών για ανάπτυξη.

Τα δεδομένα κάθε οργανισμού μπορεί να αρχίζουν ακατάστατα, αλλά όλα περιέχουν πολύτιμες πληροφορίες που μπορούν να επηρεάσουν το τελικό αποτέλεσμα. Οι επιστήμονες δεδομένων μπορούν να βοηθήσουν τους οργανισμούς να μεταμορφώσουν τα δεδομένα που συλλέγονται με τρόπους που τελικά θα βοηθήσουν στην επίτευξη των επιχειρηματικών στόχων.

Pipeline δυνατοτήτων

Ανοίγοντας την πόρτα για τους επιστήμονες δεδομένων

Η δουλειά μου είναι να βοηθώ βιομηχανικές εταιρείες, όπως διυλιστήρια πετρελαίου και φυσικού αερίου ή παρόχους υπηρεσιών κοινής ωφέλειας, να οργανώνουν, να πληρούν τις προϋποθέσεις και να διαχειρίζονται δεδομένα από ψηφιακά στοιχεία και, στη συνέχεια, να χρησιμοποιώ αυτά τα δεδομένα για να αντλήσω στρατηγικές γνώσεις σχετικά με το πώς να βελτιώσουν την απόδοση των στοιχείων και να μειώσουν τους κινδύνους. Σε μια ταραγμένη αγορά ενέργειας, ο εντοπισμός της απόδοσης και η εξοικονόμηση κόστους από τα δεδομένα είναι κρίσιμος για πολλές από αυτές τις επιχειρήσεις για να παραμείνουν στη ζωή. Αλλά αυτό είναι μόνο σε έναν τομέα—πολλοί άλλοι οργανισμοί έχουν εντοπίσει την ανάγκη για μια ομάδα επιστήμης δεδομένων, αν και λίγοι μέχρι στιγμής έχουν καταφέρει να καλύψουν αυτούς τους τύπους ρόλων.

Προκειμένου να δημιουργηθεί αποτελεσματικά ένας αγωγός ταλέντων για τους επιστήμονες δεδομένων, πρέπει να δοθεί μεγαλύτερη έμφαση στη διδασκαλία ποσοτικών δεξιοτήτων πέρα ​​από την προετοιμασία του λογισμού σε μια εκπαίδευση στα μαθηματικά. Πρέπει να υπάρχει αυξημένη ευαισθητοποίηση στα επίπεδα του γυμνασίου και του λυκείου σχετικά με το ποια ομάδα δεξιοτήτων είναι σε ζήτηση, ώστε τα προγράμματα να μπορούν να προσαρμοστούν ανάλογα. Κάθε χρόνο ο αριθμός των ευκαιριών για αυτό το σύνολο δεξιοτήτων αυξάνεται και η ανάγκη για επιστήμονες δεδομένων σε μια σειρά από εταιρείες δεν ήταν ποτέ μεγαλύτερη.

Πέρα από τις μαθηματικές δεξιότητες, οι υποψήφιοι επιστήμονες δεδομένων πρέπει να γνωρίζουν πώς να σκέφτονται δημιουργικά και να αναπτύσσουν το πλαίσιο και μια ιστορία για τα δεδομένα που αναλύουν. Οι επιστήμονες δεδομένων πρέπει να είναι ταλαντούχοι με αριθμούς, αλλά πρέπει επίσης να υπερέχουν στην επίλυση προβλημάτων αξιοποιώντας διάφορους τύπους δεδομένων. Η τέχνη της λήψης του ποιοτικού φαινομένου και της ποσοτικοποίησής του με ουσιαστικό τρόπο είναι μια δύσκολη πρόκληση, κυρίως λόγω του γεγονότος ότι είναι μια εργασία ανοιχτού τύπου και όχι απλή όπως μια διαδικασία τσακίσματος αριθμών. Ωστόσο, τα πάντα μπορούν να διαμορφωθούν σε μια μαθηματική ιστορία και η ικανότητα να εξετάζει σύνολα δεδομένων και να αναπτύσσει στρατηγικές ιδέες από μια επιχειρηματική νοοτροπία είναι αυτό που κάνει τον επιστήμονα δεδομένων τόσο πολύτιμο.

Sarah Lukens, Data Scientist, Asset Performance Management, GE Digital

Μετάφραση:
Λάμπης Κουζούμπασης, Μηχανικός Συστημάτων Ελέγχου,
ΚΗΡΕΑΣ ΠΡΟΗΓΜΕΝΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΙΚΕ