Πολλαπλή παλινδρόμηση στο παράδειγμα excel με λύση. Γρήγορη γραμμική παλινδρόμηση στο Excel: Γραμμή τάσης

Η μέθοδος γραμμικής παλινδρόμησης μας επιτρέπει να περιγράψουμε μια ευθεία που ταιριάζει καλύτερα σε μια σειρά από διατεταγμένα ζεύγη (x, y). Η εξίσωση για μια ευθεία γραμμή, γνωστή ως γραμμική εξίσωση, δίνεται παρακάτω:

ŷ είναι η αναμενόμενη τιμή του y για μια δεδομένη τιμή του x,

Το x είναι μια ανεξάρτητη μεταβλητή,

a είναι ένα τμήμα στον άξονα y για μια ευθεία γραμμή,

b είναι η κλίση της ευθείας.

Το παρακάτω σχήμα απεικονίζει αυτή την έννοια γραφικά:

Το παραπάνω σχήμα δείχνει τη γραμμή που περιγράφεται από την εξίσωση ŷ =2+0,5x. Η τομή y είναι το σημείο στο οποίο η ευθεία τέμνει τον άξονα y. στην περίπτωσή μας, a = 2. Η κλίση της ευθείας, b, ο λόγος της ανόδου της γραμμής προς το μήκος της γραμμής, έχει τιμή 0,5. Μια θετική κλίση σημαίνει ότι η γραμμή ανεβαίνει από αριστερά προς τα δεξιά. Εάν b = 0, η γραμμή είναι οριζόντια, που σημαίνει ότι δεν υπάρχει σχέση μεταξύ της εξαρτημένης και της ανεξάρτητης μεταβλητής. Με άλλα λόγια, η αλλαγή της τιμής του x δεν επηρεάζει την τιμή του y.

Τα ŷ και y συχνά συγχέονται. Το γράφημα δείχνει 6 διατεταγμένα ζεύγη σημείων και μια ευθεία, σύμφωνα με τη δεδομένη εξίσωση

Αυτό το σχήμα δείχνει το σημείο που αντιστοιχεί στο διατεταγμένο ζεύγος x = 2 και y = 4. Σημειώστε ότι η αναμενόμενη τιμή του y σύμφωνα με τη γραμμή στο Χ= 2 είναι ŷ. Μπορούμε να το επιβεβαιώσουμε με την ακόλουθη εξίσωση:

ŷ = 2 + 0,5х =2 +0,5(2) =3.

Η τιμή y αντιπροσωπεύει το πραγματικό σημείο και η τιμή ŷ είναι η αναμενόμενη τιμή του y χρησιμοποιώντας μια γραμμική εξίσωση για μια δεδομένη τιμή του x.

Το επόμενο βήμα είναι να καθορίσουμε τη γραμμική εξίσωση που ταιριάζει καλύτερα με το σύνολο των διατεταγμένων ζευγών, μιλήσαμε για αυτό στο προηγούμενο άρθρο, όπου προσδιορίσαμε τον τύπο της εξίσωσης με .

Χρήση του Excel για τον ορισμό της γραμμικής παλινδρόμησης

Για να χρησιμοποιήσετε το εργαλείο ανάλυσης παλινδρόμησης που είναι ενσωματωμένο στο Excel, πρέπει να ενεργοποιήσετε το πρόσθετο Πακέτο ανάλυσης. Μπορείτε να το βρείτε κάνοντας κλικ στην καρτέλα Αρχείο -> Επιλογές(2007+), στο παράθυρο διαλόγου που εμφανίζεται ΕπιλογέςΠροέχωμεταβείτε στην καρτέλα Πρόσθετα.Στο χωράφι Ελεγχοςεπιλέγω ΠρόσθεταΠροέχωκαι κάντε κλικ Πηγαίνω.Στο παράθυρο που εμφανίζεται, επιλέξτε το πλαίσιο δίπλα Πακέτο ανάλυσης,Κάντε κλικ ΕΝΤΑΞΕΙ.

Στην καρτέλα Δεδομέναστην Ομάδα Ανάλυσηθα εμφανιστεί ένα νέο κουμπί Ανάλυση δεδομένων.

Για να δείξουμε τη δουλειά του πρόσθετου, θα χρησιμοποιήσουμε δεδομένα όπου ένας άντρας και ένα κορίτσι μοιράζονται ένα τραπέζι στο μπάνιο. Εισαγάγετε τα δεδομένα από το παράδειγμα του μπάνιου μας στις Στήλες Α και Β του κενού φύλλου.

Μεταβείτε στην καρτέλα Δεδομένα,στην Ομάδα ΑνάλυσηΚάντε κλικ Ανάλυση δεδομένων.Στο παράθυρο που εμφανίζεται Ανάλυση δεδομένωνεπιλέγω Οπισθοδρόμησηόπως φαίνεται στην εικόνα και κάντε κλικ στο OK.

Ορίστε τις απαραίτητες παραμέτρους παλινδρόμησης στο παράθυρο Οπισθοδρόμηση, όπως φαίνεται στην εικόνα:

Κάντε κλικ ΕΝΤΑΞΕΙ.Το παρακάτω σχήμα δείχνει τα αποτελέσματα που προέκυψαν:

Αυτά τα αποτελέσματα είναι συνεπή με αυτά που λάβαμε κάνοντας τους δικούς μας υπολογισμούς στο .

Είναι γνωστό ότι είναι χρήσιμο σε διάφορους τομείς δραστηριότητας, συμπεριλαμβανομένου ενός κλάδου όπως η οικονομετρία, όπου αυτό το βοηθητικό πρόγραμμα λογισμικού χρησιμοποιείται στην εργασία. Βασικά, όλες οι ενέργειες των πρακτικών και εργαστηριακών τάξεων εκτελούνται σε Excel, γεγονός που διευκολύνει πολύ την εργασία παρέχοντας λεπτομερείς επεξηγήσεις ορισμένων ενεργειών. Έτσι, ένα από τα εργαλεία ανάλυσης «Παλινδρόμηση» χρησιμοποιείται για την επιλογή ενός γραφήματος για ένα σύνολο παρατηρήσεων χρησιμοποιώντας τη μέθοδο των ελαχίστων τετραγώνων. Ας δούμε τι είναι αυτό το εργαλείο προγράμματος και ποια είναι τα οφέλη του για τους χρήστες. Παρακάτω θα βρείτε επίσης σύντομες αλλά σαφείς οδηγίες για την κατασκευή ενός μοντέλου παλινδρόμησης.

Κύρια καθήκοντα και τύποι παλινδρόμησης

Η παλινδρόμηση αντιπροσωπεύει τη σχέση μεταξύ δεδομένων μεταβλητών, καθιστώντας έτσι δυνατή την πρόβλεψη της μελλοντικής συμπεριφοράς αυτών των μεταβλητών. Οι μεταβλητές είναι διάφορα περιοδικά φαινόμενα, συμπεριλαμβανομένης της ανθρώπινης συμπεριφοράς. Αυτός ο τύπος ανάλυσης Excel χρησιμοποιείται για την ανάλυση του αντίκτυπου σε μια συγκεκριμένη εξαρτημένη μεταβλητή των τιμών μιας ή ορισμένων μεταβλητών. Για παράδειγμα, οι πωλήσεις σε ένα κατάστημα επηρεάζονται από διάφορους παράγοντες, όπως η ποικιλία, οι τιμές και η τοποθεσία του καταστήματος. Χάρη στην παλινδρόμηση στο Excel, μπορείτε να προσδιορίσετε τον βαθμό επιρροής καθενός από αυτούς τους παράγοντες με βάση τα αποτελέσματα των υπαρχουσών πωλήσεων και, στη συνέχεια, να εφαρμόσετε τα δεδομένα που ελήφθησαν στην πρόβλεψη πωλήσεων για έναν ακόμη μήνα ή για ένα άλλο κατάστημα που βρίσκεται κοντά.

Τυπικά, η παλινδρόμηση παρουσιάζεται ως μια απλή εξίσωση που αποκαλύπτει τις σχέσεις και τα δυνατά σημεία των σχέσεων μεταξύ δύο ομάδων μεταβλητών, όπου η μία ομάδα είναι εξαρτημένη ή ενδογενής και η άλλη είναι ανεξάρτητη ή εξωγενής. Εάν υπάρχει μια ομάδα αλληλένδετων δεικτών, η εξαρτημένη μεταβλητή Υ καθορίζεται με βάση τη λογική του συλλογισμού και οι υπόλοιπες λειτουργούν ως ανεξάρτητες μεταβλητές Χ.

Οι κύριες εργασίες για την κατασκευή ενός μοντέλου παλινδρόμησης είναι οι εξής:

  1. Επιλογή σημαντικών ανεξάρτητων μεταβλητών (Χ1, Χ2, ..., Χκ).
  2. Επιλογή του τύπου της λειτουργίας.
  3. Κατασκευή εκτιμήσεων για συντελεστές.
  4. Κατασκευή διαστημάτων εμπιστοσύνης και συναρτήσεων παλινδρόμησης.
  5. Έλεγχος της σημαντικότητας των υπολογισμένων εκτιμήσεων και της κατασκευασμένης εξίσωσης παλινδρόμησης.

Υπάρχουν διάφοροι τύποι ανάλυσης παλινδρόμησης:

  • ζευγαρωμένη (1 εξαρτημένη και 1 ανεξάρτητη μεταβλητή).
  • πολλαπλές (πολλές ανεξάρτητες μεταβλητές).

Υπάρχουν δύο τύποι εξισώσεων παλινδρόμησης:

  1. Γραμμική, που απεικονίζει μια αυστηρή γραμμική σχέση μεταξύ των μεταβλητών.
  2. Μη γραμμικές - Εξισώσεις που μπορούν να περιλαμβάνουν δυνάμεις, κλάσματα και τριγωνομετρικές συναρτήσεις.

Οδηγίες για την κατασκευή ενός μοντέλου

Για να εκτελέσετε μια δεδομένη κατασκευή στο Excel, πρέπει να ακολουθήσετε τις οδηγίες:


Για περαιτέρω υπολογισμούς, χρησιμοποιήστε τη συνάρτηση «Linear()», προσδιορίζοντας τις τιμές Y, τις τιμές X, τη συνθήκη και τη στατιστική. Μετά από αυτό, προσδιορίστε το σύνολο των σημείων στη γραμμή παλινδρόμησης χρησιμοποιώντας τη συνάρτηση "Τάση" - Τιμές Y, Τιμές X, Νέες τιμές, Const. Χρησιμοποιώντας τις δεδομένες παραμέτρους, υπολογίστε την άγνωστη τιμή των συντελεστών, με βάση τις δεδομένες συνθήκες του προβλήματος.

Το πακέτο MS Excel σάς επιτρέπει να κάνετε το μεγαλύτερο μέρος της εργασίας πολύ γρήγορα όταν κατασκευάζετε μια εξίσωση γραμμικής παλινδρόμησης. Είναι σημαντικό να κατανοήσουμε πώς να ερμηνεύσουμε τα αποτελέσματα που λαμβάνονται.

Απαιτεί ένα πρόσθετο για να λειτουργήσει Πακέτο ανάλυσης, το οποίο πρέπει να είναι ενεργοποιημένο στο στοιχείο μενού Υπηρεσία\Πρόσθετα

Στο Excel 2007, για να ενεργοποιήσετε το πακέτο ανάλυσης, πρέπει να κάνετε κλικ στο κουμπί μετάβαση σε αποκλεισμό Επιλογές Excelκάνοντας κλικ στο κουμπί στην επάνω αριστερή γωνία και στη συνέχεια στο " Επιλογές Excel"στο κάτω μέρος του παραθύρου:



Για να δημιουργήσετε ένα μοντέλο παλινδρόμησης, πρέπει να επιλέξετε το στοιχείο Service\Data Analysis\Regression. (Στο Excel 2007, αυτή η λειτουργία βρίσκεται στο μπλοκ Δεδομένα / Ανάλυση Δεδομένων / Παλινδρόμηση). Θα εμφανιστεί ένα παράθυρο διαλόγου που πρέπει να συμπληρώσετε:

1) Διάστημα εισαγωγής ΥΤο ¾ περιέχει έναν σύνδεσμο προς κελιά που περιέχουν τις τιμές του χαρακτηριστικού που προκύπτει y. Οι τιμές πρέπει να ταξινομηθούν σε μια στήλη.

2) Διάστημα εισαγωγής XΤο ¾ περιέχει έναν σύνδεσμο προς κελιά που περιέχουν τιμές παραγόντων. Οι τιμές πρέπει να ταξινομηθούν σε στήλες.

3) Υπογράψτε Ετικέτεςορίστε εάν τα πρώτα κελιά περιέχουν επεξηγηματικό κείμενο (ετικέτες δεδομένων).

4) Επίπεδο αξιοπιστίας¾ είναι το επίπεδο εμπιστοσύνης, το οποίο θεωρείται ότι είναι 95% από προεπιλογή. Εάν δεν είστε ικανοποιημένοι με αυτήν την τιμή, τότε πρέπει να ενεργοποιήσετε αυτήν τη σημαία και να εισαγάγετε την απαιτούμενη τιμή.

5) Σημάδι Σταθερά-μηδένπεριλαμβάνεται εάν είναι απαραίτητο να κατασκευαστεί μια εξίσωση στην οποία η ελεύθερη μεταβλητή είναι ;

6) Επιλογές εξόδουκαθορίζει πού πρέπει να τοποθετηθούν τα αποτελέσματα. Από προεπιλογή builds mode Νέο φύλλο εργασίας;

7) Μπλοκ Αποφάγιασας επιτρέπει να συμπεριλάβετε την έξοδο των υπολειμμάτων και την κατασκευή των γραφημάτων τους.

Ως αποτέλεσμα, εμφανίζονται πληροφορίες που περιέχουν όλες τις απαραίτητες πληροφορίες και ομαδοποιούνται σε τρία μπλοκ: Στατιστικά παλινδρόμησης, Ανάλυση της διακύμανσης, Απόσυρση υπολοίπου. Ας τους ρίξουμε μια πιο προσεκτική ματιά.

1. Στατιστικά παλινδρόμησης:

πολλαπλούς Rκαθορίζεται από τον τύπο ( Συντελεστής συσχέτισης Pearson);

R (συντελεστή προσδιορισμού);

Κανονικοποιήθηκε R-Το τετράγωνο υπολογίζεται με τον τύπο (χρησιμοποιείται για πολλαπλή παλινδρόμηση).

Τυπικό σφάλμα μικρόυπολογίζεται με τον τύπο ;

Παρατηρήσεις ¾ είναι ο όγκος των δεδομένων n.

2. Ανάλυση της διακύμανσης, γραμμή Οπισθοδρόμηση:

Παράμετρος dfισοδυναμεί Μ(αριθμός συνόλων παραγόντων Χ);

Παράμετρος SSκαθορίζεται από τον τύπο ;

Παράμετρος Κυρίακαθορίζεται από τον τύπο ;

Στατιστική φάκαθορίζεται από τον τύπο ;

Σημασία φά. Εάν ο αριθμός που προκύπτει υπερβαίνει το , τότε η υπόθεση γίνεται αποδεκτή (δεν υπάρχει γραμμική σχέση), διαφορετικά η υπόθεση γίνεται αποδεκτή (υπάρχει γραμμική σχέση).


3. Ανάλυση της διακύμανσης, γραμμή Υπόλοιπο:

Παράμετρος dfίσο με ;

Παράμετρος SSκαθορίζεται από τον τύπο ;

Παράμετρος Κυρίακαθορίζεται από τον τύπο.

4. Ανάλυση της διακύμανσης, γραμμή Σύνολοπεριέχει το άθροισμα των δύο πρώτων στηλών.

5. Ανάλυση της διακύμανσης, γραμμή Υ-τομήπεριέχει τον συντελεστή, τυπικό σφάλμα και t-στατιστική.

Π-τιμή ¾ είναι η τιμή των επιπέδων σημαντικότητας που αντιστοιχούν στα υπολογιζόμενα t- στατιστικολόγοι. Καθορίζεται από τη συνάρτηση STUDIST( t-στατιστική; ). Αν Π-η τιμή υπερβαίνει το , τότε η αντίστοιχη μεταβλητή είναι στατιστικά ασήμαντη και μπορεί να εξαιρεθεί από το μοντέλο.

Κάτω 95%Και Κορυφαίο 95%Τα ¾ είναι τα κατώτερα και τα ανώτερα όρια των διαστημάτων εμπιστοσύνης 95 τοις εκατό για τους συντελεστές της θεωρητικής γραμμικής εξίσωσης παλινδρόμησης. Εάν η τιμή πιθανότητας εμπιστοσύνης στο μπλοκ εισαγωγής δεδομένων έμεινε στην προεπιλεγμένη τιμή, τότε οι δύο τελευταίες στήλες θα αντιγράψουν τις προηγούμενες. Εάν ο χρήστης έχει εισαγάγει μια τιμή εμπιστοσύνης, οι δύο τελευταίες στήλες περιέχουν τις τιμές κάτω και άνω ορίου για το καθορισμένο επίπεδο εμπιστοσύνης.

6. Ανάλυση της διακύμανσης, οι γραμμές περιέχουν τις τιμές των συντελεστών, τυπικά σφάλματα, t-στατιστικολόγος, Π-τιμές και διαστήματα εμπιστοσύνης για τα αντίστοιχα.

7. Μπλοκ Απόσυρση υπολοίπουπεριέχει τις προβλεπόμενες τιμές y(στη σημείωση μας αυτό είναι ) και υπολείμματα .

Σε προηγούμενες δημοσιεύσεις, η ανάλυση επικεντρωνόταν συχνά σε μια μεμονωμένη αριθμητική μεταβλητή, όπως οι αποδόσεις αμοιβαίων κεφαλαίων, οι χρόνοι φόρτωσης της ιστοσελίδας ή η κατανάλωση αναψυκτικών. Σε αυτήν και στις επόμενες σημειώσεις, θα εξετάσουμε μεθόδους για την πρόβλεψη των τιμών μιας αριθμητικής μεταβλητής ανάλογα με τις τιμές μιας ή περισσότερων άλλων αριθμητικών μεταβλητών.

Το υλικό θα επεξηγηθεί με ένα εγκάρσιο παράδειγμα. Πρόβλεψη όγκου πωλήσεων σε κατάστημα ρούχων.Η αλυσίδα καταστημάτων εκπτωτικών ρούχων Sunflowers επεκτείνεται συνεχώς εδώ και 25 χρόνια. Ωστόσο, η εταιρεία δεν έχει επί του παρόντος συστηματική προσέγγιση για την επιλογή νέων καταστημάτων. Η τοποθεσία στην οποία μια εταιρεία σκοπεύει να ανοίξει ένα νέο κατάστημα καθορίζεται βάσει υποκειμενικών εκτιμήσεων. Τα κριτήρια επιλογής είναι οι ευνοϊκές συνθήκες ενοικίασης ή η ιδέα του διαχειριστή για την ιδανική τοποθεσία του καταστήματος. Φανταστείτε ότι είστε επικεφαλής του τμήματος ειδικών έργων και προγραμματισμού. Σας έχει ανατεθεί να αναπτύξετε ένα στρατηγικό σχέδιο για το άνοιγμα νέων καταστημάτων. Αυτό το σχέδιο θα πρέπει να περιλαμβάνει μια πρόβλεψη των ετήσιων πωλήσεων για τα νέα καταστήματα. Πιστεύετε ότι ο χώρος λιανικής σχετίζεται άμεσα με τα έσοδα και θέλετε να το συνυπολογίσετε στη διαδικασία λήψης αποφάσεων. Πώς αναπτύσσετε ένα στατιστικό μοντέλο για να προβλέψετε τις ετήσιες πωλήσεις με βάση το μέγεθος ενός νέου καταστήματος;

Συνήθως, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη των τιμών μιας μεταβλητής. Στόχος του είναι να αναπτύξει ένα στατιστικό μοντέλο που μπορεί να προβλέψει τις τιμές μιας εξαρτημένης μεταβλητής ή απόκρισης από τις τιμές μιας τουλάχιστον ανεξάρτητης ή επεξηγηματικής μεταβλητής. Σε αυτή τη σημείωση, θα εξετάσουμε την απλή γραμμική παλινδρόμηση - μια στατιστική μέθοδο που σας επιτρέπει να προβλέψετε τις τιμές μιας εξαρτημένης μεταβλητής Υμε ανεξάρτητες τιμές μεταβλητών Χ. Οι επόμενες σημειώσεις θα περιγράψουν ένα μοντέλο πολλαπλής παλινδρόμησης σχεδιασμένο να προβλέπει τις τιμές μιας ανεξάρτητης μεταβλητής Υμε βάση τις τιμές πολλών εξαρτημένων μεταβλητών ( X 1, X 2, …, X k).

Κατεβάστε τη σημείωση σε ή μορφή, παραδείγματα σε μορφή

Τύποι μοντέλων παλινδρόμησης

Οπου ρ 1 – συντελεστής αυτοσυσχέτισης. Αν ρ 1 = 0 (χωρίς αυτοσυσχέτιση), ρε≈ 2; Αν ρ 1 ≈ 1 (θετική αυτοσυσχέτιση), ρε≈ 0; Αν ρ 1 = -1 (αρνητική αυτοσυσχέτιση), ρε ≈ 4.

Στην πράξη, η εφαρμογή του κριτηρίου Durbin-Watson βασίζεται στη σύγκριση της τιμής ρεμε κρίσιμες θεωρητικές αξίες δ ΛΚαι δ Uγια δεδομένο αριθμό παρατηρήσεων n, αριθμός ανεξάρτητων μεταβλητών του μοντέλου κ(για απλή γραμμική παλινδρόμηση κ= 1) και επίπεδο σημαντικότητας α. Αν ρε< d L , η υπόθεση για την ανεξαρτησία των τυχαίων αποκλίσεων απορρίπτεται (επομένως, υπάρχει θετική αυτοσυσχέτιση). Αν D>dU, η υπόθεση δεν απορρίπτεται (δηλαδή δεν υπάρχει αυτοσυσχέτιση). Αν δ Λ< D < d U , δεν υπάρχουν επαρκείς λόγοι για τη λήψη απόφασης. Όταν η υπολογιζόμενη τιμή ρευπερβαίνει το 2, τότε με δ ΛΚαι δ UΔεν συγκρίνεται ο ίδιος ο συντελεστής ρεκαι η έκφραση (4 – ρε).

Για να υπολογίσουμε τα στατιστικά στοιχεία Durbin-Watson στο Excel, ας στραφούμε στον κάτω πίνακα στο Σχ. 14 Απόσυρση υπολοίπου. Ο αριθμητής στην παράσταση (10) υπολογίζεται χρησιμοποιώντας τη συνάρτηση =SUMMAR(array1;array2) και τον παρονομαστή =SUMMAR(array) (Εικ. 16).

Ρύζι. 16. Τύποι υπολογισμού στατιστικών Durbin-Watson

Στο παράδειγμά μας ρε= 0,883. Το κύριο ερώτημα είναι: ποια τιμή της στατιστικής Durbin-Watson θα πρέπει να θεωρηθεί αρκετά μικρή για να συμπεράνουμε ότι υπάρχει θετική αυτοσυσχέτιση; Είναι απαραίτητο να συσχετιστεί η τιμή του D με τις κρίσιμες τιμές ( δ ΛΚαι δ U), ανάλογα με τον αριθμό των παρατηρήσεων nκαι επίπεδο σημαντικότητας α (Εικ. 17).

Ρύζι. 17. Κρίσιμες τιμές στατιστικών Durbin-Watson (τεμάχιο πίνακα)

Έτσι, στο πρόβλημα του όγκου πωλήσεων σε ένα κατάστημα που παραδίδει αγαθά στο σπίτι, υπάρχει μία ανεξάρτητη μεταβλητή ( κ= 1), 15 παρατηρήσεις ( n= 15) και επίπεδο σημαντικότητας α = 0,05. Ως εκ τούτου, δ Λ= 1,08 και ρεU= 1,36. Επειδή η ρε = 0,883 < δ Λ= 1,08, υπάρχει θετική αυτοσυσχέτιση μεταξύ των υπολειμμάτων, η μέθοδος των ελαχίστων τετραγώνων δεν μπορεί να χρησιμοποιηθεί.

Έλεγχος υποθέσεων σχετικά με την κλίση και τον συντελεστή συσχέτισης

Παραπάνω, η παλινδρόμηση χρησιμοποιήθηκε αποκλειστικά για την πρόβλεψη. Για τον προσδιορισμό των συντελεστών παλινδρόμησης και την πρόβλεψη της τιμής μιας μεταβλητής Υγια μια δεδομένη τιμή μεταβλητής ΧΧρησιμοποιήθηκε η μέθοδος των ελαχίστων τετραγώνων. Επιπλέον, εξετάσαμε το ριζικό μέσο τετραγωνικό σφάλμα της εκτίμησης και τον μικτό συντελεστή συσχέτισης. Εάν η ανάλυση των υπολειμμάτων επιβεβαιώσει ότι δεν παραβιάζονται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και ότι το μοντέλο της απλής γραμμικής παλινδρόμησης είναι επαρκές, με βάση τα δεδομένα του δείγματος, μπορεί να υποστηριχθεί ότι υπάρχει γραμμική σχέση μεταξύ των μεταβλητών στο πληθυσμός.

Εφαρμογήt -κριτήρια για την κλίση.Δοκιμάζοντας εάν η κλίση του πληθυσμού β 1 είναι ίση με μηδέν, μπορείτε να προσδιορίσετε εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών ΧΚαι Υ. Εάν αυτή η υπόθεση απορριφθεί, μπορεί να υποστηριχθεί ότι μεταξύ των μεταβλητών ΧΚαι Υυπάρχει μια γραμμική σχέση. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: β 1 = 0 (δεν υπάρχει γραμμική εξάρτηση), H1: β 1 ≠ 0 (υπάρχει γραμμική εξάρτηση). Α-πριό t-το στατιστικό είναι ίσο με τη διαφορά μεταξύ της κλίσης του δείγματος και της υποθετικής τιμής της κλίσης του πληθυσμού, διαιρούμενη με το ριζικό μέσο τετραγωνικό σφάλμα της εκτίμησης της κλίσης:

(11) t = (σι 1 β 1 ) / Sb 1

Οπου σι 1 – κλίση άμεσης παλινδρόμησης σε δεδομένα δείγματος, β1 – υποθετική κλίση άμεσου πληθυσμού, και στατιστικά δοκιμών tΕχει t-διανομή με ν – 2βαθμοί ελευθερίας.

Ας ελέγξουμε αν υπάρχει στατιστικά σημαντική σχέση μεταξύ του μεγέθους του καταστήματος και των ετήσιων πωλήσεων στο α = 0,05. t-το κριτήριο εμφανίζεται μαζί με άλλες παραμέτρους όταν χρησιμοποιείται Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Τα πλήρη αποτελέσματα του πακέτου ανάλυσης φαίνονται στο Σχ. 4, θραύσμα που σχετίζεται με τη στατιστική t - στο Σχ. 18.

Ρύζι. 18. Αποτελέσματα αιτήσεων t

Από τον αριθμό των καταστημάτων n= 14 (βλ. Εικ. 3), κρίσιμη τιμή t- στατιστικές σε επίπεδο σημαντικότητας α = 0,05 μπορούν να βρεθούν χρησιμοποιώντας τον τύπο: t L=STUDENT.ARV(0,025,12) = –2,1788, όπου 0,025 είναι το μισό του επιπέδου σημαντικότητας και 12 = n – 2; tU=STUDENT.OBR(0,975,12) = +2,1788.

Επειδή η t-statistics = 10,64 > tU= 2,1788 (Εικ. 19), μηδενική υπόθεση H 0απορρίφθηκε. Στην άλλη πλευρά, R-τιμή για Χ= 10,6411, υπολογισμένο με τον τύπο =1-STUDENT.DIST(D3,12,TRUE), είναι περίπου ίσο με μηδέν, οπότε η υπόθεση H 0και πάλι απορρίφθηκε. Το γεγονός οτι R-Η τιμή σχεδόν μηδέν σημαίνει ότι εάν δεν υπήρχε πραγματική γραμμική σχέση μεταξύ των μεγεθών των καταστημάτων και των ετήσιων πωλήσεων, θα ήταν σχεδόν αδύνατο να εντοπιστεί χρησιμοποιώντας γραμμική παλινδρόμηση. Επομένως, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των μέσων ετήσιων πωλήσεων καταστήματος και του μεγέθους του καταστήματος.

Ρύζι. 19. Έλεγχος της υπόθεσης για την κλίση του πληθυσμού σε επίπεδο σημαντικότητας 0,05 και 12 βαθμών ελευθερίας

Εφαρμογήφά -κριτήρια για την κλίση.Μια εναλλακτική προσέγγιση για τον έλεγχο υποθέσεων σχετικά με την κλίση της απλής γραμμικής παλινδρόμησης είναι να χρησιμοποιηθεί φά-κριτήρια. Ας το θυμηθούμε φάΤο -test χρησιμοποιείται για τον έλεγχο της σχέσης μεταξύ δύο διακυμάνσεων (για περισσότερες λεπτομέρειες, βλ.). Κατά τον έλεγχο της υπόθεσης της κλίσης, το μέτρο των τυχαίων σφαλμάτων είναι η διακύμανση σφάλματος (το άθροισμα των τετραγωνικών σφαλμάτων διαιρούμενο με τον αριθμό των βαθμών ελευθερίας), άρα φά-το κριτήριο χρησιμοποιεί τον λόγο της διακύμανσης που εξηγείται από την παλινδρόμηση (δηλαδή την τιμή SSR, διαιρούμενο με τον αριθμό των ανεξάρτητων μεταβλητών κ), στη διακύμανση σφάλματος ( MSE = S YΧ 2 ).

Α-πριό φά-το στατιστικό είναι ίσο με το μέσο τετράγωνο παλινδρόμησης (MSR) διαιρούμενο με τη διακύμανση σφάλματος (MSE): φά = MSR/ MSE, Οπου MSR=SSR / κ, MSE =SSE/(n– κ – 1), κ– αριθμός ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης. Στατιστικά τεστ φάΕχει φά-διανομή με κΚαι n– k – 1βαθμοί ελευθερίας.

Για ένα δεδομένο επίπεδο σημαντικότητας α, ο κανόνας απόφασης διατυπώνεται ως εξής: αν F>FU, η μηδενική υπόθεση απορρίπτεται. διαφορετικά δεν απορρίπτεται. Τα αποτελέσματα, που παρουσιάζονται με τη μορφή ενός συνοπτικού πίνακα ανάλυσης διακύμανσης, φαίνονται στο Σχ. 20.

Ρύζι. 20. Πίνακας ανάλυσης διακύμανσης για τον έλεγχο της υπόθεσης σχετικά με τη στατιστική σημασία του συντελεστή παλινδρόμησης

Επίσης t-κριτήριο φά-το κριτήριο εμφανίζεται στον πίνακα όταν χρησιμοποιείται Πακέτο ανάλυσης(επιλογή Οπισθοδρόμηση). Πλήρη αποτελέσματα της εργασίας Πακέτο ανάλυσηςφαίνονται στο Σχ. 4, θραύσμα που σχετίζεται με φά- στατιστικά - στο Σχ. 21.

Ρύζι. 21. Αποτελέσματα αιτήσεων φά-κριτήρια που λαμβάνονται χρησιμοποιώντας το πακέτο ανάλυσης Excel

Η στατιστική F είναι 113,23 και R-τιμή κοντά στο μηδέν (κελί Σημασίαφά). Εάν το επίπεδο σημαντικότητας α είναι 0,05, προσδιορίστε την κρίσιμη τιμή φά-κατανομές με έναν και 12 βαθμούς ελευθερίας μπορούν να ληφθούν χρησιμοποιώντας τον τύπο F U=F.OBR(1-0,05;1;12) = 4,7472 (Εικ. 22). Επειδή η φά = 113,23 > F U= 4,7472, και R-τιμή κοντά στο 0< 0,05, нулевая гипотеза H 0απορρίπτεται, δηλ. Το μέγεθος ενός καταστήματος σχετίζεται στενά με τις ετήσιες πωλήσεις του.

Ρύζι. 22. Έλεγχος της υπόθεσης κλίσης πληθυσμού σε επίπεδο σημαντικότητας 0,05 με έναν και 12 βαθμούς ελευθερίας

Διάστημα εμπιστοσύνης που περιέχει κλίση β 1 .Για να ελέγξετε την υπόθεση ότι υπάρχει γραμμική σχέση μεταξύ των μεταβλητών, μπορείτε να κατασκευάσετε ένα διάστημα εμπιστοσύνης που περιέχει την κλίση β 1 και να επαληθεύσετε ότι η υποθετική τιμή β 1 = 0 ανήκει σε αυτό το διάστημα. Το κέντρο του διαστήματος εμπιστοσύνης που περιέχει την κλίση β 1 είναι η κλίση του δείγματος σι 1 , και τα όριά του είναι οι ποσότητες b 1 ±tn –2 Sb 1

Όπως φαίνεται στο Σχ. 18, σι 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.OBR(0,975,12) = 2,1788. Ως εκ τούτου, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ή + 1,328 ≤ β 1 ≤ +2,012. Έτσι, υπάρχει μια πιθανότητα 0,95 ότι η κλίση του πληθυσμού κυμαίνεται μεταξύ +1.328 και +2.012 (δηλαδή, $1.328.000 έως $2.012.000). Δεδομένου ότι αυτές οι τιμές είναι μεγαλύτερες από το μηδέν, υπάρχει μια στατιστικά σημαντική γραμμική σχέση μεταξύ των ετήσιων πωλήσεων και της περιοχής καταστήματος. Εάν το διάστημα εμπιστοσύνης περιείχε μηδέν, δεν θα υπήρχε σχέση μεταξύ των μεταβλητών. Επιπλέον, το διάστημα εμπιστοσύνης σημαίνει ότι κάθε αύξηση της επιφάνειας του καταστήματος κατά 1.000 τ. ft οδηγεί σε αύξηση του μέσου όγκου πωλήσεων μεταξύ 1.328.000 $ και 2.012.000 $.

Χρήσηt -κριτήρια για τον συντελεστή συσχέτισης.εισήχθη συντελεστής συσχέτισης r, το οποίο είναι ένα μέτρο της σχέσης μεταξύ δύο αριθμητικών μεταβλητών. Μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ δύο μεταβλητών. Ας υποδηλώσουμε τον συντελεστή συσχέτισης μεταξύ των πληθυσμών και των δύο μεταβλητών με το σύμβολο ρ. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: ρ = 0 (χωρίς συσχέτιση), H 1: ρ ≠ 0 (υπάρχει συσχέτιση). Έλεγχος ύπαρξης συσχέτισης:

Οπου r = + , Αν σι 1 > 0, r = – , Αν σι 1 < 0. Тестовая статистика tΕχει t-διανομή με ν – 2βαθμοί ελευθερίας.

Στο πρόβλημα για την αλυσίδα καταστημάτων Sunflowers r 2= 0,904, α β 1- +1.670 (βλ. Εικ. 4). Επειδή η β 1> 0, ο συντελεστής συσχέτισης μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος είναι r= +√0,904 = +0,951. Ας ελέγξουμε τη μηδενική υπόθεση ότι δεν υπάρχει συσχέτιση μεταξύ αυτών των μεταβλητών χρησιμοποιώντας t-στατιστική:

Σε επίπεδο σημαντικότητας α = 0,05, η μηδενική υπόθεση θα πρέπει να απορριφθεί γιατί t= 10,64 > 2,1788. Έτσι, μπορεί να υποστηριχθεί ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος.

Όταν συζητούνται συμπεράσματα σχετικά με την κλίση του πληθυσμού, τα διαστήματα εμπιστοσύνης και τα τεστ υποθέσεων χρησιμοποιούνται εναλλακτικά. Ωστόσο, ο υπολογισμός του διαστήματος εμπιστοσύνης που περιέχει τον συντελεστή συσχέτισης αποδεικνύεται πιο δύσκολος, δεδομένου ότι ο τύπος της δειγματοληπτικής κατανομής της στατιστικής rεξαρτάται από τον πραγματικό συντελεστή συσχέτισης.

Εκτίμηση μαθηματικής προσδοκίας και πρόβλεψη επιμέρους τιμών

Αυτή η ενότητα εξετάζει μεθόδους για την εκτίμηση της μαθηματικής προσδοκίας μιας απάντησης Υκαι προβλέψεις ατομικών αξιών Υγια δεδομένες τιμές της μεταβλητής Χ.

Δημιουργία διαστήματος εμπιστοσύνης.Στο παράδειγμα 2 (βλ. ενότητα παραπάνω Μέθοδος ελάχιστου τετραγώνου) η εξίσωση παλινδρόμησης κατέστησε δυνατή την πρόβλεψη της τιμής της μεταβλητής Υ Χ. Στο πρόβλημα της επιλογής τοποθεσίας για ένα κατάστημα λιανικής, ο μέσος ετήσιος όγκος πωλήσεων σε ένα κατάστημα με έκταση 4000 τ. πόδια ήταν ίσο με 7,644 εκατομμύρια δολάρια, ωστόσο, αυτή η εκτίμηση των μαθηματικών προσδοκιών του γενικού πληθυσμού είναι σημειακή. Για την εκτίμηση της μαθηματικής προσδοκίας του πληθυσμού, προτάθηκε η έννοια του διαστήματος εμπιστοσύνης. Παρομοίως, μπορούμε να εισαγάγουμε την έννοια διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απάντησηςγια μια δεδομένη τιμή μεταβλητής Χ:

Οπου , = σι 0 + σι 1 X i– η προβλεπόμενη τιμή είναι μεταβλητή Υστο Χ = X i, Σ ΥΧ– ρίζα μέσο τετραγωνικό σφάλμα, n- το μέγεθος του δείγματος, ΧΕγώ- καθορισμένη τιμή της μεταβλητής Χ, µ Υ|Χ = ΧΕγώ– μαθηματική προσδοκία της μεταβλητής Υστο Χ = Xi, SSX =

Η ανάλυση του τύπου (13) δείχνει ότι το πλάτος του διαστήματος εμπιστοσύνης εξαρτάται από διάφορους παράγοντες. Σε ένα δεδομένο επίπεδο σημασίας, μια αύξηση στο πλάτος των διακυμάνσεων γύρω από τη γραμμή παλινδρόμησης, που μετράται χρησιμοποιώντας το ριζικό μέσο τετραγωνικό σφάλμα, οδηγεί σε αύξηση του πλάτους του διαστήματος. Από την άλλη, όπως θα περίμενε κανείς, η αύξηση του μεγέθους του δείγματος συνοδεύεται από στένωση του διαστήματος. Επιπλέον, το πλάτος του διαστήματος αλλάζει ανάλογα με τις τιμές ΧΕγώ. Αν η μεταβλητή τιμή Υπροβλεπόμενη για τις ποσότητες Χ, κοντά στη μέση τιμή , το διάστημα εμπιστοσύνης αποδεικνύεται μικρότερο από ό,τι όταν προβλέπεται η απόκριση για τιμές που απέχουν πολύ από το μέσο όρο.

Ας πούμε ότι κατά την επιλογή μιας τοποθεσίας καταστήματος, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τις μέσες ετήσιες πωλήσεις όλων των καταστημάτων των οποίων η επιφάνεια είναι 4000 τετραγωνικά μέτρα. πόδια:

Επομένως, ο μέσος ετήσιος όγκος πωλήσεων σε όλα τα καταστήματα με έκταση 4.000 τ. πόδια, με 95% πιθανότητα να κυμαίνεται από 6,971 έως 8,317 εκατομμύρια δολάρια.

Υπολογίστε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή.Εκτός από το διάστημα εμπιστοσύνης για τη μαθηματική προσδοκία της απόκρισης για μια δεδομένη τιμή της μεταβλητής Χ, είναι συχνά απαραίτητο να γνωρίζουμε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή. Αν και ο τύπος για τον υπολογισμό ενός τέτοιου διαστήματος εμπιστοσύνης είναι πολύ παρόμοιος με τον τύπο (13), αυτό το διάστημα περιέχει την προβλεπόμενη τιμή και όχι την εκτίμηση της παραμέτρου. Διάστημα για την προβλεπόμενη απόκριση ΥΧ = Xiγια μια συγκεκριμένη τιμή μεταβλητής ΧΕγώκαθορίζεται από τον τύπο:

Ας υποθέσουμε ότι, όταν επιλέγουμε μια τοποθεσία για ένα κατάστημα λιανικής, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τον προβλεπόμενο ετήσιο όγκο πωλήσεων για ένα κατάστημα του οποίου η έκταση είναι 4000 τετραγωνικά μέτρα. πόδια:

Επομένως, ο προβλεπόμενος ετήσιος όγκος πωλήσεων για ένα κατάστημα με επιφάνεια 4000 τ. πόδια, με πιθανότητα 95% κυμαίνεται από 5,433 έως 9,854 εκατομμύρια δολάρια Όπως μπορούμε να δούμε, το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή απόκρισης είναι πολύ μεγαλύτερο από το διάστημα εμπιστοσύνης για τις μαθηματικές προσδοκίες. Αυτό συμβαίνει επειδή η μεταβλητότητα στην πρόβλεψη μεμονωμένων τιμών είναι πολύ μεγαλύτερη από την εκτίμηση της μαθηματικής προσδοκίας.

Παγίδες και ηθικά ζητήματα που σχετίζονται με τη χρήση παλινδρόμησης

Δυσκολίες που σχετίζονται με την ανάλυση παλινδρόμησης:

  • Αγνοώντας τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εσφαλμένη εκτίμηση των προϋποθέσεων εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Λανθασμένη επιλογή εναλλακτικών μεθόδων όταν παραβιάζονται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Εφαρμογή ανάλυσης παλινδρόμησης χωρίς βαθιά γνώση του αντικειμένου της έρευνας.
  • Παρέκταση μιας παλινδρόμησης πέρα ​​από το εύρος της επεξηγηματικής μεταβλητής.
  • Σύγχυση μεταξύ στατιστικών και αιτιακών σχέσεων.

Η ευρεία χρήση υπολογιστικών φύλλων και στατιστικού λογισμικού έχει εξαλείψει τα υπολογιστικά προβλήματα που είχαν παρεμποδίσει τη χρήση της ανάλυσης παλινδρόμησης. Ωστόσο, αυτό οδήγησε στο γεγονός ότι η ανάλυση παλινδρόμησης χρησιμοποιήθηκε από χρήστες που δεν είχαν επαρκή προσόντα και γνώσεις. Πώς μπορούν οι χρήστες να γνωρίζουν εναλλακτικές μεθόδους εάν πολλοί από αυτούς δεν έχουν ιδέα για τις προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και δεν γνωρίζουν πώς να ελέγξουν την εφαρμογή τους;

Ο ερευνητής δεν πρέπει να παρασυρθεί με τους τσακισμένους αριθμούς - υπολογίζοντας τη μετατόπιση, την κλίση και τον μικτό συντελεστή συσχέτισης. Χρειάζεται βαθύτερη γνώση. Ας το ερμηνεύσουμε αυτό με ένα κλασικό παράδειγμα από σχολικά βιβλία. Ο Anscombe έδειξε ότι και τα τέσσερα σύνολα δεδομένων που φαίνονται στο Σχ. 23, έχουν τις ίδιες παραμέτρους παλινδρόμησης (Εικ. 24).

Ρύζι. 23. Τέσσερα σύνολα τεχνητών δεδομένων

Ρύζι. 24. Ανάλυση παλινδρόμησης τεσσάρων συνόλων τεχνητών δεδομένων. τελείωσα με Πακέτο ανάλυσης(κάντε κλικ στην εικόνα για μεγέθυνση)

Έτσι, από την άποψη της ανάλυσης παλινδρόμησης, όλα αυτά τα σύνολα δεδομένων είναι εντελώς πανομοιότυπα. Αν η ανάλυση τελείωνε εκεί, θα χάναμε πολλές χρήσιμες πληροφορίες. Αυτό αποδεικνύεται από τα διαγράμματα διασποράς (Εικόνα 25) και τα υπολειμματικά διαγράμματα (Εικόνα 26) που κατασκευάστηκαν για αυτά τα σύνολα δεδομένων.

Ρύζι. 25. Γραφήματα διασποράς για τέσσερα σύνολα δεδομένων

Τα διαγράμματα διασποράς και τα υπολειμματικά γραφήματα υποδεικνύουν ότι αυτά τα δεδομένα διαφέρουν μεταξύ τους. Το μόνο σύνολο που κατανέμεται κατά μήκος μιας ευθείας γραμμής είναι το σύνολο Α. Η γραφική παράσταση των υπολειμμάτων που υπολογίζονται από το σύνολο Α δεν έχει κανένα σχέδιο. Αυτό δεν μπορεί να ειπωθεί για τα σύνολα Β, Γ και Δ. Η γραφική παράσταση διασποράς για το σύνολο Β δείχνει ένα έντονο τετραγωνικό σχέδιο. Αυτό το συμπέρασμα επιβεβαιώνεται από το υπολειπόμενο οικόπεδο, το οποίο έχει παραβολικό σχήμα. Το διάγραμμα διασποράς και το υπολειπόμενο διάγραμμα δείχνουν ότι το σύνολο δεδομένων Β περιέχει μια ακραία τιμή. Σε αυτήν την περίπτωση, είναι απαραίτητο να εξαιρεθεί η ακραία τιμή από το σύνολο δεδομένων και να επαναληφθεί η ανάλυση. Μια μέθοδος για τον εντοπισμό και την εξάλειψη των ακραίων τιμών στις παρατηρήσεις ονομάζεται ανάλυση επιρροής. Μετά την εξάλειψη της ακραίας τιμής, το αποτέλεσμα της επανεκτίμησης του μοντέλου μπορεί να είναι εντελώς διαφορετικό. Το διάγραμμα διασποράς που σχεδιάστηκε από δεδομένα από το σύνολο G απεικονίζει μια ασυνήθιστη κατάσταση στην οποία το εμπειρικό μοντέλο εξαρτάται σημαντικά από μια μεμονωμένη απόκριση ( Χ 8 = 19, Υ 8 = 12,5). Τέτοια μοντέλα παλινδρόμησης πρέπει να υπολογίζονται ιδιαίτερα προσεκτικά. Έτσι, τα διαγράμματα διασποράς και υπολειμματικών γραφημάτων είναι ένα ουσιαστικό εργαλείο για την ανάλυση παλινδρόμησης και θα πρέπει να αποτελούν αναπόσπαστο μέρος της. Χωρίς αυτές, η ανάλυση παλινδρόμησης δεν είναι αξιόπιστη.

Ρύζι. 26. Υπολειμματικά διαγράμματα για τέσσερα σύνολα δεδομένων

Πώς να αποφύγετε παγίδες στην ανάλυση παλινδρόμησης:

  • Ανάλυση πιθανών σχέσεων μεταξύ μεταβλητών ΧΚαι Υξεκινάτε πάντα σχεδιάζοντας ένα διάγραμμα διασποράς.
  • Πριν ερμηνεύσετε τα αποτελέσματα της ανάλυσης παλινδρόμησης, ελέγξτε τις προϋποθέσεις για την εφαρμογή της.
  • Σχεδιάστε τα υπολείμματα έναντι της ανεξάρτητης μεταβλητής. Αυτό θα καταστήσει δυνατό τον προσδιορισμό του πόσο καλά ταιριάζει το εμπειρικό μοντέλο με τα αποτελέσματα της παρατήρησης και θα ανιχνευθεί παραβίαση της σταθερότητας διασποράς.
  • Χρησιμοποιήστε ιστογράμματα, διαγράμματα στελέχους και φύλλων, διαγράμματα πλαισίου και γραφήματα κανονικής κατανομής για να ελέγξετε την υπόθεση της κανονικής κατανομής σφάλματος.
  • Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, χρησιμοποιήστε εναλλακτικές μεθόδους (για παράδειγμα, μοντέλα τετραγωνικής ή πολλαπλής παλινδρόμησης).
  • Εάν πληρούνται οι προϋποθέσεις για τη δυνατότητα εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, είναι απαραίτητο να ελεγχθεί η υπόθεση σχετικά με τη στατιστική σημασία των συντελεστών παλινδρόμησης και να κατασκευαστούν διαστήματα εμπιστοσύνης που περιέχουν τη μαθηματική προσδοκία και την προβλεπόμενη τιμή απόκρισης.
  • Αποφύγετε την πρόβλεψη τιμών της εξαρτημένης μεταβλητής εκτός του εύρους της ανεξάρτητης μεταβλητής.
  • Λάβετε υπόψη ότι οι στατιστικές σχέσεις δεν είναι πάντα αιτίου-αποτελέσματος. Να θυμάστε ότι η συσχέτιση μεταξύ των μεταβλητών δεν σημαίνει ότι υπάρχει σχέση αιτίου-αποτελέσματος μεταξύ τους.

Περίληψη.Όπως φαίνεται στο μπλοκ διάγραμμα (Εικόνα 27), η σημείωση περιγράφει το απλό μοντέλο γραμμικής παλινδρόμησης, τις προϋποθέσεις για την εφαρμογή του και τον τρόπο δοκιμής αυτών των συνθηκών. Θεωρούνται t-κριτήριο ελέγχου της στατιστικής σημασίας της κλίσης παλινδρόμησης. Χρησιμοποιήθηκε ένα μοντέλο παλινδρόμησης για την πρόβλεψη των τιμών της εξαρτημένης μεταβλητής. Θεωρείται ένα παράδειγμα που σχετίζεται με την επιλογή τοποθεσίας για ένα κατάστημα λιανικής, στο οποίο εξετάζεται η εξάρτηση του ετήσιου όγκου πωλήσεων από την περιοχή του καταστήματος. Οι πληροφορίες που λαμβάνονται σάς επιτρέπουν να επιλέξετε με μεγαλύτερη ακρίβεια μια τοποθεσία για ένα κατάστημα και να προβλέψετε τον ετήσιο όγκο πωλήσεών του. Οι ακόλουθες σημειώσεις θα συνεχίσουν τη συζήτηση της ανάλυσης παλινδρόμησης και θα εξετάσουν επίσης μοντέλα πολλαπλών παλινδρόμησης.

Ρύζι. 27. Σημειώστε διάγραμμα δομής

Χρησιμοποιούνται υλικά από το βιβλίο Levin et al. – Μ.: Williams, 2004. – Σελ. 792–872

Εάν η εξαρτημένη μεταβλητή είναι κατηγορική, πρέπει να χρησιμοποιηθεί λογιστική παλινδρόμηση.

Το πακέτο MS Excel σάς επιτρέπει να κάνετε το μεγαλύτερο μέρος της εργασίας πολύ γρήγορα όταν κατασκευάζετε μια εξίσωση γραμμικής παλινδρόμησης. Είναι σημαντικό να κατανοήσουμε πώς να ερμηνεύσουμε τα αποτελέσματα που λαμβάνονται. Για να δημιουργήσετε ένα μοντέλο παλινδρόμησης, πρέπει να επιλέξετε Tools\Data Analysis\Regression (στο Excel 2007 αυτή η λειτουργία βρίσκεται στο μπλοκ Data/Data Analysis/Regression). Στη συνέχεια, αντιγράψτε τα αποτελέσματα σε ένα μπλοκ για ανάλυση.

Αρχικά δεδομένα:

Αποτελέσματα ανάλυσης

Συμπεριλάβετε στην αναφορά
Υπολογισμός παραμέτρων εξίσωσης παλινδρόμησης
Θεωρητικό υλικό
Εξίσωση παλινδρόμησης σε τυπική κλίμακα
Συντελεστής πολλαπλής συσχέτισης (Δείκτης πολλαπλής συσχέτισης)
Μερικοί συντελεστές ελαστικότητας
Συγκριτική αξιολόγηση της επίδρασης των παραγόντων που αναλύθηκαν στο προκύπτον χαρακτηριστικό (d - συντελεστές χωριστού προσδιορισμού)

Έλεγχος της ποιότητας της κατασκευασμένης εξίσωσης παλινδρόμησης
Σημασία των συντελεστών παλινδρόμησης b i (t-statistics. Student's test)
Σημασία της εξίσωσης στο σύνολό της (F-statistics. Fisher's test). Συντελεστής προσδιορισμού
Μερικές δοκιμές F

Επίπεδο σημασίας 0.005 0.01 0.025 0.05 0.1 0.25 0.4