Θεωρητική Προσέγγιση
Η «ανάλυση των δεδομένων», που στο χώρο των επιχειρήσεων έχει αντικαταστήσει τον κλασσικό όρο «στατιστική ανάλυση», αποτελεί πλέον το βασικότερο σύστημα υποστήριξης αποφάσεων και είναι συνδυασμός των βασικών στατιστικών μεθόδων και υπολογιστικών συστημάτων. Η ραγδαία εξέλιξη των υπολογιστών την τελευταία δεκαετία οδήγησε στην ανάπτυξη ολοκληρωμένων συστημάτων στατιστικής ανάλυσης δεδομένων. Στο χώρο των επιχειρήσεων, μεταξύ άλλων προγραμμάτων, έχουν επικρατήσει και τα προγράμματα ανάλυσης λογιστικών φύλλων (spreadsheets).
Πολλοί είναι οι λόγοι για τους οποίους τα στελέχη των επιχειρήσεων πρέπει να γνωρίζουν τις βασικές μεθόδους στατιστικής (ή ποσοτικής) ανάλυσης των δεδομένων. Κυριότεροι είναι οι εξής:
- Πρέπει να γνωρίζουν πώς παρουσιάζονται και περιγράφονται οι ποσοτικές (αριθμητικές) πληροφορίες.
- Πρέπει να γνωρίζουν πώς προκύπτουν συμπεράσματα για μεγάλους πληθυσμούς, όταν τα διαθέσιμα δεδομένα προκύπτουν από ένα μικρό αριθμό παρατηρήσεων, που ονομάζεται «δείγμα».
- Πρέπει να γνωρίζουν πώς προκύπτουν αξιόπιστες προβλέψεις για διάφορα οικονομικά μεγέθη
Περιγραφική στατιστική
Με αυτόν τον όρο περιγραφική στατιστική, περιγράφουμε τις μεθόδους που ασχολούνται με τη συλλογή, παρουσίαση και χαρακτηρισμό των δεδομένων ανάλογα με το είδος των χαρακτηριστικών που περιγράφουν.
Επαγωγική Στατιστική
Έτσι ορίζονται οι μέθοδοι που μας βοηθούν να εκτιμήσουμε τα χαρακτηριστικά ενός πληθυσμού με βάση τα αποτελέσματα που προκύπτουν από τις παρατηρήσεις ενός δείγματος. Η επαγωγική στατιστική μας επιτρέπει, χρησιμοποιώντας την εκτίμηση του δείγματος, να διεξάγουμε συμπεράσματα για τον πληθυσμό.
Είδη Δεδομένων
Δεδομένα είναι οι αριθμητικές πληροφορίες που συλλέγουμε και στη συνέχεια επεξεργαζόμαστε για να πάρουμε μια απόφαση. Τα δεδομένα ποικίλουν ανάλογα με το είδος του χαρακτηριστικού του οποίου αποτελούν την αριθμητική έκφραση. Ανάλογα με τη φύση των χαρακτηριστικών που επιθυμούμε να μετρήσουμε, χρησιμοποιούμε και διαφορετική κλίμακα μέτρησης. Αυτές οι κλίμακες μέτρησης, χαρακτηρίζουν και το είδος των δεδομένων. Με τον όρο είδος δεδομένων, εννοούμε το είδος της σύγκρισης που η κλίμακα επιτρέπει να γίνει μεταξύ δύο τιμών.
Κλίμακες
Κλίμακα λόγου
Περιλαμβάνει όλα τα ποσοτικά χαρακτηριστικά όπως αξία, όγκος, μήκος κλπ. Οι τιμές των μεταβλητών μπορούν να διαιρεθούν μεταξύ τους και αυτό γιατί οι κλίμακες μέτρησης αυτών των χαρακτηριστικών περιλαμβάνουν την πραγματική τιμή μηδέν.
Κλίμακα διαστήματος
Αναφέρεται στα δεδομένα που οι τιμές τους μπορούν να συγκριθούν μόνο ως προς τις μεταβολές τους αλλά όχι μεταξύ τους.
Κλίμακα ιεράρχησης
Αφορά τις τιμές των χαρακτηριστικών που αντικείμενό τους είναι να ιεραρχίσουν τις παρατηρήσεις από τη μικρότερη προς τη μεγαλύτερη και αντίστροφα.
Ονομαστική κλίμακα
Οι τιμές των χαρακτηριστικών απλά ταξινομούν τις παρατηρήσεις, δηλαδή οι τιμές είναι κωδικοποιημένες με σκοπό να κατατάξουν τις παρατηρήσεις σε κατηγορίες.
Συμπερασματικά μπορούμε να πούμε ότι έχουμε δυο μεγάλες κατηγορίες δεδομένων. Τα ποσοτικά και τα ποιοτικά. Τα ποσοτικά χαρακτηριστικά διακρίνονται σε εκείνα που εκφράζονται σε κλίμακα λόγου και σε εκείνα που χρησιμοποιούν την κλίμακα διαστήματος. Αντίστοιχα, τα ποιοτικά χαρακτηριστικά διακρίνονται σε ιεραρχημένα και στα ονομαστικά.
Κατηγορίες Μεταβλητών
Όταν μια μεταβλητή μπορεί να λάβει συγκεκριμένες τιμές περιορισμένου φάσματος ονομάζεται διακριτή (discrete). Όταν μπορεί να λάβει οποιαδήποτε τιμή σε κάποιο διάστημα ονομάζεται συνεχής (continuous).
Παρουσίαση Δεδομένων και περιγραφική στατιστική
Μια εικόνα ισούται με χίλιες λέξεις. Μια γραφική παρουσίαση των δεδομένων είναι σίγουρα πολύ καλύτερη από ένα φύλλο γεμάτο αριθμούς. Η γραφική παρουσίαση των δεδομένων δίνει τη δυνατότητα σε πολύπλοκες πληροφορίες να παρουσιαστούν με παραστατικό και χρήσιμο τρόπο.
Κατανομή συχνοτήτων
Η κατανομή συχνοτήτων συνίσταται στο να μετρήσει κανείς για κάθε τιμή μιας μεταβλητής πόσες φορές εμφανίζεται στο δείγμα.
Ομαδοποιήσεις
Αν μια μεταβλητή είναι συνεχής, οι τιμές πρέπει να χωριστούν σε διαστήματα και οι συχνότητες μετριούνται ανάλογα με το διάστημα που πέφτουν οι τιμές. Στις περιπτώσεις αυτές καταλληλότερο γράφημα είναι το ιστόγραμμα.
Περιγραφικά στατιστικά
Η κεντρική τάση
Βοηθά στον προσδιορισμό της μεσαίας τιμής του δείγματος και της συχνότερης τιμής του.
Η διασπορά
Προσδιορίζει πόσο αποκλίνουν οι τιμές από την κεντρική τάση.
Η μορφή
Προσδιορίζει αν τα δεδομένα είναι συμμετρικά ή όχι.
Μέτρα κεντρικής τάσης
Mode, Κεντρική τιμή
Είναι η συχνότερη τιμή που εμφανίζεται στο δείγμα. Μπορεί να είναι και bimodal, trimodal, κ.ο.κ αν υπάρχουν δυο τιμές που εμφανίζονται ίσο πλήθος τιμών.
Median, Διάμεσος
Είναι η τιμή που βρίσκεται στο μέσο και χωρίζει τις τιμές του δείγματος σε δυο ισα σύνολα, αν θεωρήσουμε ότι οι τιμές του δείγματος μπορούν να ταξινομηθούν. Αν το πλήθος είναι άρτιο, τότε είναι η μέση τιμή των δυο ενδιαμέσων.
Mean, Μέσος όρος
Η μέση τιμή είναι το κυριότερο μέτρο της κεντρικής τάσης γιατί παίρνει υπόψη όλες τις περιπτώσεις και μπορεί κανείς να τη διαχειριστεί αλγεβρικά, δίνοντας τη δυνατότητα χρήσης της σε πληθώρα υπολογισμών.
Βασικά μέτρα διασποράς
Range, Εύρος
Είναι μέτρο απόστασης (Max – Min).
Mean absolute deviation (MAD)
Είναι ο μέσο όρος των n τιμών που προκύπτουν από την απόλυτη διαφορά κάθε τιμής από το μέσο όρο του δείγματος.
Variance, μέση διακύμανση (s2)
Η μέτρηση της διακύμανσης μοιάζει πολύ με τη MAD, αλλά παίρνει υπόψη τις θετικές και αρνητικές αποκλίσεις που μπορεί να αλληλοαναιρούνται. Εκμεταλλεύεται το γεγονός ότι το τετράγωνο ενός αρνητικού αριθμού είναι θετικό και αθροίζει τα τετράγωνα των αποκλίσεων αντί των καθαρών αποκλίσεων.
Standard deviation, Τυπική απόκλιση
Είναι η τετραγωνική ρίζα της μέσης διακύμανσης και σαν τέτοια είναι πιο κοντά στο μέτρο της μέσης τιμής.
Coefficient of variation, Συντελεστής της διακύμανσης
Μια τυπική απόκλιση 20cm στο ύψος των ανθρώπων μπορεί να θεωρηθεί μεγάλη ενώ στο ύψος των δένδρων μπορεί να θεωρηθεί πολύ μικρή. Το ίδιο συμβαίνει αν τα δεδομένα της μέτρησης έχουν συλλεχθεί με διαφορετική κλίμακα. Οι δυο διασπορές δεν μπορούν να συγκριθούν. Ένα μέτρο της απόκλισης που μας επιτρέπει να κάνουμε συγκρίσεις αποκλίσεων είναι ο συντελεστής της μέσης διακύμανσης που μετράει βάσει ποσοστού τη διαφορά από τη μέση τιμή.
Όψη της κατανομής
Η όψη της κατανομής χαρακτηρίζεται από την ασυμμετρία (swewness) (αριστερή – δεξιά) και από την κύρτωση.
Ανάλυση διακύμανσης, Analysis of Variation (ANOVA)
Μας επιτρέπει να ασχοληθούμε συγχρόνως με δυο ή περισσότερες μεταβλητές και δίνει επιπλέον πληροφορίες όχι μόνο για κάθε μια μεταβλητή ξεχωριστά αλλά και για τη μεταξύ τους αλληλεπίδραση. Υπάρχουν τρεις προϋποθέσεις.
- Τα δεδομένα τραβιούνται ανεξάρτητα και τυχαία από τους αντίστοιχους πληθυσμούς τους.
- Οι παρατηρήσεις που συλλέγονται από κάθε πληθυσμό ακολουθούν περίπου κανονική κατανομή.
- Οι πληθυσμοί από όπου συλλέχτηκαν τα δεδομένα έχουν κοινή διασπορά.
Συσχέτιση, Correlation
Η συσχέτιση εμφανίζεται όταν ενδιαφερόμαστε για τη γραμμική σχέση που μπορεί να υπάρχει μεταξύ δυο μεταβλητών. Η δυναμική της συσχέτισης προσδιορίζεται από τον συντελεστή συσχέτισης.
Συντελεστής Pearson (r)
Είναι αρκετά δύσκολο μέσω μιας γραφικής απεικόνισης να μιλήσουμε για το βαθμό συσχέτισης ου υπάρχει μεταξύ δυο μεταβλητών. Έτσι χρειαζόμαστε μια στατιστική διαδικασία για τον έλεγχο του βαθμού συσχέτισης r.
Ιδιότητες του r
- Παίρνει τιμές μεταξύ -1,00 και +1,00
- Όσο μεγαλύτερη είναι η απόλυτη τιμή του r τόσο ισχυρότερη είναι η γραμμική σχέση μεταξύ των μεταβλητών.
- Θετικές τιμές του r δείχνουν θετική συσχέτιση και αρνητικές τιμές, αρνητική συσχέτιση, ενώ τιμές κοντά στο 0 δείχνουν ανυπαρξία συσχέτισης.
Απλή γραμμική παλινδρόμηση
Γνωρίζοντας τη σχέση που υπάρχει μεταξύ δυο μεταβλητών X και Y μπορούμε για περιστασιακές τιμές της X να προβλέψουμε τις αντίστοιχες τιμές της Y. Η βασική στατιστική τεχνική που εφαρμόζεται για απαντήσεις σε τέτοιου τύπου προβληματισμούς είναι η παλινδρόμηση.