Marea enciclopedie a petrolului și gazelor. Semnificația statistică a parametrilor de regresie și corelație

Curs 2. Analiza corelației și regresiei. Regresie pereche

1. Esența analizei corelație-regresie și sarcinile acesteia.

2. Definirea regresiei și a tipurilor acesteia.

3. Caracteristici ale specificației modelului. Motive pentru existența unei variabile aleatoare.

4. Metode de selectare a regresiei perechi.

5. Metoda celor mai mici pătrate.

6. Indicatori pentru măsurarea etanșeității și rezistenței conexiunii.

7. Estimări de semnificație statistică.

8. Valoarea estimată a variabilei y și intervalele de încredere ale prognozei.

1. Esența analizei corelație-regresie și sarcinile acesteia. Fenomenele economice, fiind foarte diverse, se caracterizează prin numeroase trăsături care reflectă anumite proprietăți ale acestor procese și fenomene și sunt supuse unor schimbări interdependente. În unele cazuri, relația dintre caracteristici se dovedește a fi foarte strânsă (de exemplu, producția orară a unui angajat și salariul său), în timp ce în alte cazuri o astfel de relație nu este exprimată deloc sau este extrem de slabă (de exemplu, genul a studenților și performanța lor școlară). Cu cât legătura dintre aceste caracteristici este mai strânsă, cu atât deciziile luate sunt mai precise.

Există două tipuri de dependențe între fenomene și caracteristicile lor:

    dependență funcțională (deterministă, cauzală). . Se precizează sub forma unei formule care asociază fiecare valoare a unei variabile cu o valoare strict definită a altei variabile (se neglijează influența factorilor aleatori). Cu alte cuvinte, dependenta functionala este o relație în care fiecare valoare a variabilei independente x corespunde unei valori precis definite a variabilei dependente y. În economie, relațiile funcționale dintre variabile sunt excepții de la regula generală;

    dependență statistică (stochastică, nedeterministă). – aceasta este o conexiune de variabile, care este influențată de factori aleatori, adică Aceasta este o relație în care fiecare valoare a variabilei independente x corespunde unui set de valori ale variabilei dependente y și nu se știe dinainte ce valoare va lua y.

Un caz special de dependență statistică este dependența de corelație.

Dependența de corelație este o relație în care fiecare valoare a variabilei independente x corespunde unei anumite așteptări matematice (valoarea medie) a variabilei dependente y.

Dependența de corelare este o dependență „incompletă”, care nu apare în fiecare caz individual, ci doar în valori medii pentru un număr suficient de mare de cazuri. De exemplu, se știe că îmbunătățirea calificărilor unui angajat duce la o creștere a productivității muncii. Această afirmație este adesea confirmată în practică, dar nu înseamnă că doi sau mai mulți lucrători din aceeași categorie/nivel implicați într-un proces similar vor avea aceeași productivitate a muncii.

Dependența de corelație este studiată folosind metodele de analiză a corelației și regresiei.

Analiza corelației și regresiei vă permite să stabiliți apropierea, direcția conexiunii și forma acestei conexiuni între variabile, i.e. expresia sa analitică.

Sarcina principală a analizei corelației constă în determinarea cantitativă a strângerii legăturii dintre două caracteristici într-o conexiune perechi și între caracteristicile efective și mai multe factori într-o legătură multifactorială și aprecierea statistică a fiabilității conexiunii stabilite.

2. Definirea regresiei și a tipurilor acesteia. Analiza de regresie este principalul instrument matematic și statistic în econometrie. Regresia Se obișnuiește să se numească dependența valorii medii a unei cantități (y) de o altă mărime sau de mai multe cantități (x i).

În funcție de numărul de factori incluși în ecuația de regresie, se obișnuiește să se facă distincția între regresia simplă (pereche) și regresia multiplă.

Regresie simplă (în perechi). este un model în care valoarea medie a variabilei dependente (explicate) y este considerată în funcție de o variabilă independentă (explicativă) x. Implicit, regresia perechi este un model de forma:

Explicit:

,

unde a și b sunt estimări ale coeficienților de regresie.

Regresie multiplă este un model în care valoarea medie a variabilei dependente (explicate) y este considerată în funcție de mai multe variabile independente (explicative) x 1, x 2, ... x n. Implicit, regresia perechi este un model de forma:

.

Explicit:

unde a și b 1, b 2, b n sunt estimări ale coeficienților de regresie.

Un exemplu de astfel de model este dependența salariului unui angajat de vârsta, educația, calificările, vechimea în muncă, industria, etc.

În ceea ce privește forma dependenței, există:

      regresie liniara;

      regresie neliniară, care presupune existența unor relații neliniare între factori exprimați prin funcția neliniară corespunzătoare. Adesea, modelele care au aspect neliniar pot fi reduse la o formă liniară, ceea ce le permite să fie clasificate ca fiind liniare.

3. Caracteristici ale specificației modelului. Motive pentru existența unei variabile aleatoare. Orice studiu econometric începe cu specificatiile modelului , adică din formularea tipului de model, pe baza teoriei corespunzătoare a relațiilor dintre variabile.

În primul rând, din întreaga gamă de factori care influențează atributul efectiv, este necesar să se identifice factorii care influențează cel mai semnificativ. Regresia în perechi este suficientă dacă există un factor dominant, care este utilizat ca variabilă explicativă. O ecuație de regresie simplă caracterizează relația dintre două variabile, care apare ca un anumit model doar în medie pentru totalitatea observațiilor. În ecuația de regresie, relația de corelație este prezentată sub forma unei dependențe funcționale, exprimată prin funcția matematică corespunzătoare. În aproape fiecare caz individual, valoarea y constă din doi termeni:

,

unde y este valoarea reală a caracteristicii rezultate;

– valoarea teoretică a caracteristicii rezultante, găsită pe baza ecuaţiei de regresie;

– o variabilă aleatoare care caracterizează abaterea valorii reale a caracteristicii rezultate de la valoarea teoretică găsită cu ajutorul ecuației de regresie.

Valoare aleatoare numită și tulburare. Include influența factorilor care nu sunt luați în considerare în model, erori aleatorii și caracteristici de măsurare. Prezența unei variabile aleatoare în model este generată de trei surse:

    specificația modelului,

    natura selectivă a datelor sursă,

    caracteristici ale variabilelor de măsurare.

Erorile de specificare vor include nu numai alegerea incorectă a unei anumite funcții matematice, ci și subestimarea oricărui factor semnificativ din ecuația de regresie (folosind regresia pereche în loc de multiplu).

Odată cu erorile de specificație, pot apărea erori de eșantionare, deoarece cercetătorul se ocupă cel mai adesea cu datele eșantionului atunci când stabilește modele de relații între caracteristici. Erorile de eșantionare apar și din cauza eterogenității datelor din populația statistică inițială, ceea ce se întâmplă de obicei atunci când se studiază procesele economice. Dacă populația este eterogenă, atunci ecuația de regresie nu are sens practic. Pentru a obține un rezultat bun, unitățile cu valori anormale ale caracteristicilor studiate sunt de obicei excluse din populație. Din nou, rezultatele regresiei reprezintă caracteristicile eșantionului. Date sursă

Cu toate acestea, cel mai mare pericol în utilizarea practică a metodelor de regresie îl reprezintă erorile de măsurare. Dacă erorile de specificație pot fi reduse prin schimbarea formei modelului (un tip de formulă matematică), iar erorile de eșantionare pot fi reduse prin creșterea volumului datelor inițiale, atunci erorile de măsurare practic anulează toate eforturile de cuantificare a relației dintre caracteristici.

4. Metode de selectare a regresiei perechi. Presupunând că erorile de măsurare sunt minime, se concentrează cercetările econometrice pe erorile de specificare a modelului. În regresie perechi, alegerea tipului de funcție matematică
se poate face în trei moduri:

    grafic;

    analitică, adică bazată pe teoria relației studiată;

    experimental.

Când se studiază relația dintre două caracteristici metoda grafica alegerea tipului de ecuație de regresie este destul de clară. Se bazează pe câmpul de corelare. Tipuri de bază de curbe utilizate în cuantificarea relațiilor




Clasa de funcții matematice pentru a descrie relația dintre două variabile este destul de largă, se folosesc și alte tipuri de curbe.

Metoda analitica alegerea tipului de ecuație de regresie se bazează pe studiul naturii materiale a conexiunii caracteristicilor studiate, precum și pe o evaluare vizuală a naturii conexiunii. Acestea. dacă vorbim de curba Laffer, care arată relația dintre progresivitatea impozitelor și veniturile bugetare, atunci vorbim de o curbă parabolică, iar în microanaliza, izocuantele sunt hiperbole.

5. Metoda celor mai mici pătrate. Regresia liniară este utilizată pe scară largă în econometrie datorită interpretării economice clare a parametrilor săi și se reduce la găsirea unei ecuații de forma:

,

unde x este o variabilă explicativă (independentă) – o valoare non-aleatorie;

y – cantitate explicată (dependentă);

– termen aleatoriu (eroare de regresie);

 și β sunt parametrii ecuației.

Valori teoretice reprezintă linia de regresie. Construcția regresiei liniare se reduce la estimarea parametrilor a și b ai ecuației
.

Estimările parametrilor de regresie liniară pot fi găsite într-o varietate de moduri.

Metoda celor mai mici pătrate (LSM) – o abordare clasică a estimării parametrilor de regresie liniară.

Să trecem la câmpul de corelare.

Din grafic puteți determina valorile parametrilor. Parametrul a este punctul de intersecție al dreptei de regresie cu axa Oy, iar parametrul b este estimat pe baza pantei dreptei de regresie , unde dy este incrementul factorului y și dx este incrementul factorului x.

Metoda celor mai mici pătrate ne permite să obținem astfel de estimări ale parametrilor a și b, pentru care suma abaterilor pătrate ale valorilor reale ale caracteristicii rezultante y din valorile calculate (teoretice) minim:

Acestea. Linia de regresie este selectată în așa fel încât suma pătratelor distanțelor verticale dintre puncte și această dreaptă să fie minimă.

Unde
.

Să calculăm derivatele parțiale pentru fiecare dintre parametrii a și b.

Să împărțim ambele părți ale ecuațiilor la n și să obținem un sistem de ecuații din care se pot calcula ambii parametri.

Din metoda celor mai mici pătrate puteți obține alte două formule pentru găsirea parametrului b:

1.

2.
sau

Parametrul a este estimat în același mod în toate cazurile:

.

Parametrul b se numește coeficient de regresie și arată câte unități în medie se va schimba variabila y atunci când variabila x crește cu 1 unitate. Semnul coeficientului de regresie arată direcția relației: la b< 0 – связь обратная, при b >0 – conexiune directă.

Parametrul a reprezintă în mod formal valoarea lui y la x = 0. Dacă x nu are sau nu poate avea o valoare zero, atunci a nu are sens. S-ar putea să nu aibă sens economic. Când un<0 экономическая интерпретация может оказаться абсурдной.

Puteți interpreta semnul pentru parametrul a. Dacă a>0, atunci modificarea relativă a rezultatului are loc mai lent decât modificarea factorului. În cazul în care o<0, то изменение результата опережает изменение фактора.

6. Indicatori pentru măsurarea etanșeității și rezistenței conexiunii. Ecuația de regresie este întotdeauna completată cu un indicator al proximității conexiunii.

Calitatea regresiei pe perechi este determinată folosind coeficientul de corelație liniară pe perechi:

sau

,

Unde
,

– abateri standard, care arată răspândirea valorilor în mulțimea valorilor x și y. O valoare mare a abaterii standard arată o mare răspândire a valorilor în setul prezentat cu valoarea medie a setului; o valoare mică, în consecință, arată că valorile din set sunt grupate în jurul valorii de mijloc.

Coeficientul de corelație liniară este în:

1 < < 1.

Dacă coeficientul de corelație este pozitiv (Fig. a), atunci relația dintre caracteristici este directă, adică. cu o creștere (scădere) în x, caracteristica y crește (descrește). Dacă coeficientul de corelație este negativ (Fig. b), atunci relația dintre caracteristici este inversă, adică. cu o creștere (scădere) în x, caracteristica y scade (crește).

Cu cât coeficientul de corelație este mai apropiat de 1, cu atât relația este mai apropiată (Fig. b), cu atât este mai apropiată de 0, cu atât este mai slabă (Fig. a).

Daca 0< || <0,3, то связь между признаками практически отсутствует,

dacă 0,3< || <0,5, то связь слабая,

dacă 0,5< || <0,7, то связь умеренная,

dacă 0,7< || <1, то связь сильная.

Și în sfârșit, la r = 0 nu există o corelație liniară. În acest caz, linia de regresie este paralelă cu axa Ox.

Trebuie remarcat faptul că valoarea coeficientului de corelație liniară evaluează gradul de apropiere a relației dintre caracteristicile luate în considerare în forma sa liniară. Prin urmare, apropierea valorii absolute a coeficientului de corelație la zero nu înseamnă că nu există nicio legătură între caracteristici. Cu o specificație diferită a modelului, relația dintre caracteristici se poate dovedi a fi destul de strânsă.

Pentru a evalua calitatea potrivirii unei funcții liniare, se calculează pătratul coeficientului de corelație liniară R 2 , numit coeficient de determinare . Caracterizează ponderea varianței caracteristicii efective y, explicată prin regresie, în varianța totală a atributului efectiv.

În consecință, valoarea 1 - R 2 caracterizează proporția de varianță y cauzată de influența altor factori neluați în considerare în model.

În virtutea definiţiei sale R 2 ia valori între 0 și 1, adică

0 ≤ R 2 ≤ 1.

Dacă R 2 = 0, atunci aceasta înseamnă că regresia nu dă nimic, adică x nu îmbunătățește calitatea predicției y în comparație cu predicția trivială
.

O altă opțiune extremă R 2 = 1 înseamnă o potrivire exactă a modelului: toate punctele de observație se află pe linia de regresie (toate =0). Aproape R 2 la 1, cu atât calitatea de potrivire a modelului este mai bună și cu atât mai precisă .

Deși parametrul de regresie b arată câte unități în medie se va schimba variabila y atunci când variabila x crește cu 1 unitate, el nu poate fi utilizat pentru a evalua direct influența unei caracteristici a factorilor asupra celei rezultante din cauza diferenței de unități de măsurarea indicatorilor studiaţi. În aceste scopuri folosesc coeficient de elasticitate . Coeficientul de elasticitate arată cu ce procent se schimbă atributul efectiv y atunci când atributul factorului x se modifică cu 1% și este calculat prin formula:

,

Unde
– prima derivată, care caracterizează raportul dintre creșterile rezultatului și factorul pentru forma corespunzătoare de legătură.

Datorită faptului că coeficientul de elasticitate pentru o funcție liniară nu este o valoare constantă, ci depinde de valoarea x corespunzătoare, coeficientul de elasticitate mediu este de obicei calculat:

.

În ciuda utilizării pe scară largă a coeficienților de elasticitate în econometrie, pot exista cazuri când calculul lor nu are sens economic. Acest lucru se întâmplă atunci când pentru caracteristicile luate în considerare nu are sens să se determine modificarea valorilor ca procent (de exemplu, cu câte procente se va schimba randamentul grâului dacă calitatea solului se îmbunătățește cu 1%).

Coeficienți de elasticitate pentru o serie de funcții matematice

7. Estimări de semnificație statistică. După ce se găsește ecuația de regresie, se evaluează semnificația atât a ecuației în ansamblu, cât și a parametrilor ei individuali.

Evaluarea semnificației ecuației în ansamblu. Evaluarea semnificației ecuației de regresie în ansamblu este dată folosind testul F Fisher și servește la determinarea că valoarea rezultată a coeficientului de determinare
nu este o coincidență, adică. dacă modelul matematic care exprimă relația dintre variabile corespunde datelor experimentale și dacă variabilele explicative incluse în ecuație (una sau mai multe) sunt suficiente pentru a descrie variabila dependentă.

În regresia liniară perechi, testarea ipotezelor despre semnificația regresiei și a coeficienților de corelație este echivalentă cu testarea ipotezei despre semnificația ecuației de regresie liniară.

Pentru a testa semnificația ecuației de regresie în ansamblu, se folosește testul F Fisher. În cazul regresiei liniare pe perechi, semnificația modelului de regresie este testată folosind următoarea formulă:

,

unde m este numărul de caracteristici explicative ale factorilor, adică X.

Valorile observate sunt comparate cu cele tabulate.

,

unde α este nivelul de semnificație corespunzător intervalului de încredere;

Dacă, la un nivel de semnificație dat, F obs > F crit, atunci modelul este considerat semnificativ, ipoteza despre natura aleatorie a caracteristicilor estimate este infirmată și se recunoaște semnificația statistică și fiabilitatea acestora.

Dacă F a observat

Eroarea standard de estimare a ecuației de regresie. Deși MOL ne oferă o linie de regresie care oferă variația minimă, nu toate observațiile se potrivesc cu linia de regresie. Prin urmare, este necesară o măsură statistică a variației valorilor reale ale lui y față de valorile prezise . Se numește măsura variației față de linia de regresie eroare standard de estimare .

Eroarea standard a estimării este definită ca:

,

unde y sunt valorile reale ale variabilei dependente pentru valorile date ale variabilei independente;

– valori teoretice/previste ale variabilei dependente pentru valori date ale variabilei independente;

m – numărul de variabile explicative x.

Acest coeficient caracterizează măsura variației datelor reale în jurul liniei de regresie.

Verificarea semnificației parametrilor. În plus, se verifică semnificația parametrilor de regresie. Testarea semnificației parametrilor coeficienților individuali de regresie se realizează utilizând testul t al lui Student prin testarea ipotezei că fiecare coeficient de regresie este egal cu zero. În același timp, ei află dacă valorile parametrilor obținute sunt rezultatul acțiunii variabilelor aleatoare.

Semnificația coeficienților de regresie este verificată folosind următoarele formule. Pentru coeficientul b:

,

unde S b este eroarea standard a coeficientului b, care la rândul său este definit ca:

.

Pentru coeficientul a similar:

,

unde S a este eroarea standard a termenului liber a, găsită și prin formula:

.

Valorile calculate ale testului t sunt comparate cu valoarea tabelată a criteriului , unde k = n–m–1 grade de libertate și nivelul de semnificație corespunzător α.

Dacă valoarea calculată a testului t depășește valoarea sa de tabel, atunci parametrul este considerat semnificativ, adică nu se gaseste intamplator.

8. Valoarea estimată a variabilei y și intervalele de încredere ale prognozei. O prognoză punctuală constă în obținerea unei valori de prognoză Y*, care este determinată prin substituirea în ecuația de regresie
valoarea estimată corespunzătoare X*:

.

Probabilitatea ca o prognoză punctuală să fie realizată este practic zero, astfel încât intervalul de încredere al prognozei este calculat cu o fiabilitate mai mare.

Prognoza de interval constă în construirea unui interval de încredere pentru prognoză, adică inferior și superior – limitele minime și maxime posibile ale intervalului care conține valoarea exactă pentru valoarea prezisă Y* cu o probabilitate dată, adică:

У min

Intervalele de încredere ale prognozei sunt determinate folosind următoarele formule:

Unde
– eroarea standard a predicțiilor pentru regresia pe perechi.

Intervalul de încredere pentru coeficienții de regresie este definit ca:

Deoarece coeficientul de regresie din studiile econometrice are o interpretare economică clară, limitele de încredere ale intervalului pentru coeficientul de regresie nu trebuie să conțină rezultate contradictorii, de exemplu, -10b40 - acest tip de intrare indică faptul că valoarea adevărată a coeficientul de regresie conține simultan valori pozitive și negative și chiar zero, care nu poate fi. Apoi parametrul este luat egal cu zero.

Calculul parametrilor și construcția modelelor de regresie

Analiza corelației

Scopul ei este de a determina natura conexiunii(direct, invers) și puterea conexiunii(fără conexiune, conexiune slabă, moderată, vizibilă, puternică, foarte puternică, conexiune completă). Analiza corelației creează informații despre natura și severitatea relației (coeficientul de corelație), care este utilizată pentru a selecta factori semnificativi, precum și pentru a planifica o secvență eficientă pentru calcularea parametrilor ecuațiilor de regresie. Dacă există un factor, se calculează coeficientul de corelație, iar dacă există mai mulți factori, se construiește o matrice de corelație, din care se determină două tipuri de conexiuni: (1) conexiuni între variabila dependentă și cea independentă, (2). ) legături între cei independenţi înşişi.

Luarea în considerare a matricei permite, în primul rând, identifica factorii influențând cu adevărat variabila dependentă studiată și aranjați-le (clasați) în ordinea descrescătoare a conexiunii; În al doilea rând, minimizați numărul de factoriîn model, excluzând unii dintre factorii care sunt puternic sau funcțional legați de alți factori (vorbim despre conexiuni între variabile independente).

Se știe că cele mai fiabile în practică sunt modelele cu unul și doi factori.

Dacă se constată că doi factori au o relație puternică sau completă între ei, atunci va fi suficient să includeți unul dintre ei în ecuația de regresie.

Aici ei se străduiesc să găsească cel mai mult masura exacta conexiune identificată, pentru a putea prezice, prezice valorile variabilei dependente Y, dacă sunt cunoscute valorile variabilelor independente X 1, X 2,.... X n

Această măsură este exprimată în general prin modelul matematic de regresie multiplă liniară:

Y = a 0 + b 1 X 1 + b 2 X 2 + ... +b n X n

Calculatorul calculează parametrii modelului: termen liber un 0(constantă sau intersecție) și coeficienți b p(coeficienți de regresie). mărimea la se numește răspuns și X 1, X 2, ..., X p- factori sau predictori.

După obținerea fiecărei versiuni a ecuației, o procedură obligatorie este evaluarea semnificației sale statistice, deoarece scopul principal este obținerea ecuației cu cea mai mare semnificație. Cu toate acestea, datorită faptului că calculele sunt efectuate de un computer, iar decizia bazată pe o evaluare a semnificației ecuației este luată de către cercetător (acceptarea sau respingerea ecuației), a treia etapă a acestei tehnologii om-mașină. poate fi distins condiționat ca o etapă inteligentă non-mașină, pentru care Aproape tot datele pentru aprecierea semnificației ecuației sunt pregătite de un computer.

Semnificație statistică adică adecvarea modelului postulat pentru a fi utilizat în prezicerea valorilor răspunsului. Pentru a evalua calitatea modelului rezultat, programul a calculat și o serie de coeficienți pe care cercetătorul trebuie să ia în considerare, comparându-i cu criterii statistice cunoscute și evaluând modelul din punct de vedere al bunului simț.



În această etapă, coeficientul de determinare și testul F pentru semnificația regresiei joacă un rol extrem de important.

R pătrat(R 2) - coeficient de determinare - este pătratul coeficientului de corelație multiplă dintre valoarea observată Yși valoarea sa teoretică, calculată pe baza unui model cu un anumit set de factori. Coeficientul de determinare măsoară validitatea modelului. Poate varia de la 0 la 1. Această valoare este utilă în special pentru compararea unui număr de modele diferite și pentru selectarea celui mai bun model.

R2 este proporția de variație a valorii prezise (teoretice) a lui Y în raport cu valorile observate ale lui Y, explicată de factorii incluși în model. Este foarte bine dacă R2 >= 80%. Porțiunea rămasă din valorile teoretice ale lui Y depinde de alți factori care nu sunt implicați în model. Sarcina cercetătorului este să găsească factori care cresc R2, k oferiți o explicație pentru variațiile prognozei pentru a obține o ecuație ideală. Cu toate acestea, coeficientul R 2 cel mult poate ajunge la o valoare de 1 (sau 100%) atunci când toate valorile factorilor sunt diferite. Și dacă datele conțin experimente repetate, atunci valoarea R 2 nu poate ajunge la 1, oricât de bun ar fi modelul. Prin urmare, datele duplicat trebuie eliminate din tabelul sursă înainte de a începe calculul de regresie. Unele pachete software elimină automat duplicatul, lăsând doar datele unice. Repetarea acelorași date reduce fiabilitatea estimărilor modelului. R2 = 1 numai cu acord complet între datele experimentale (observate) și teoretice (calculate), adică atunci când valorile teoretice coincid exact cu cele observate. Cu toate acestea, acesta este considerat un eveniment foarte puțin probabil.

Utilizarea instrumentelor de analiză de regresie, incl. Excel, calculat Testul F pentru semnificația regresiei pentru ecuația în ansamblu. Aceasta este o valoare calculată din datele observate. Fp (F calculat, observat) trebuie comparat cu valoarea critică corespunzătoare Fк, (F critic, tabelar) (vezi Anexa A). Cercetătorul selectează Fk din tabelele statistice publicate la un anumit nivel de probabilitate (la nivelul la care au fost calculați parametrii modelului, de exemplu, 95%).

Dacă valoarea observată Fp va fi mai mică decât valoarea critică Fк, atunci ecuația nu poate fi considerată semnificativă. În altă terminologie, același lucru se poate spune: ipoteza nulă privind semnificația tuturor coeficienților de regresie din modelul postulat nu este respinsă, adică coeficienții sunt practic egali cu zero.

Tehnologia electronică a analizei de corelare și regresie devine absolut inutilă dacă datele calculate nu sunt interpretate în întregime corect.

Dacă modelul rezultat este semnificativ statistic, acesta este utilizat pentru prognoză, control sau explicație.

Dacă se găsește nesemnificație, atunci modelul este respins, presupunând că o altă formă de conexiune care trebuie căutată va fi adevărată.

Pagina 1


Semnificația modelului pentru rezolvarea problemelor specifice de cercetare constă în faptul că permite o evaluare cantitativă a parametrilor ascunși care reflectă dinamica sistemelor cu două produse. La rezolvarea unor astfel de probleme, conceptele de intern (produs de primul fel) și extern (produs de al doilea fel) se pot schimba. Astfel, în modelul de biosinteză a proteinelor construit de V.M Glushkov și colegii săi (1979), rolul produselor de primul și al doilea fel este jucat de proteinele reglatoare și structurale, în modelul răspunsului imun - celule stem și limfocite, respectiv, în modelul de reglare a contracțiilor cardiace - substanțe care sunt livrate miocardiocitelor, respectiv, prin vasele coronare și prin aortă.

Evaluarea semnificației modelului este dată prin criteriul / - și / J2 pentru fiecare ecuație separat.

Ipoteza despre semnificația modelului se bazează pe două prevederi.

Toate acestea nu scad de la semnificația modelului. Desigur, fără iotas existența muzicii este de neconceput.

În fine, limitarea maximă a semnificației modelului contractual ca atare a fost facilitată de faptul că aproape toate normele în vigoare în acest domeniu erau de natură absolut obligatorie (imperativă).

Utilizarea analizei varianței în plus față de regresie ne permite să evaluăm nu numai semnificația modelului în ansamblu, ci și semnificația dependențelor particulare.

Din datele prezentate mai rezultă că atunci când se forează roci mai dure, semnificația modelului este mai mare. Dovada semnificației modelului rezultat confirmă ipoteza despre dependența neliniară a parametrilor luați în considerare.

În ciuda succeselor înregistrate în dezvoltarea teoriei deciziei, aceasta va rămâne aparent mult timp într-un loc intermediar între artă - capacitatea de a lua decizii inerente unui decident dat - și știință ca sistem de principii, prevederi generale. , proceduri și metode. Cu toate acestea, acest lucru nu reduce relevanța cărții: numărul de sisteme om-calculator va crește, importanța luării deciziilor în situații complexe va crește și va deveni din ce în ce mai dificil pentru o persoană să rezolve problemele corespunzătoare folosind vechi ( metode precise și probabiliste). Prin urmare, importanța modelelor care folosesc incertitudini formalizate bazate pe alte idei decât matematica întâmplării nu poate decât să crească.

Prin abordarea inductivă, caracteristică procesului de modelare în cadrul analizei activității de afaceri, modelul este obținut prin generalizarea observațiilor asupra unor fapte particulare individuale, a căror luare în considerare este considerată importantă pentru luarea deciziilor. Modelele sunt dezvoltate inductiv pentru a rezolva probleme specifice de management economic. Modelele includ luarea în considerare a proprietăților specifice formate istoric ale procesului care este modelat. Problema principală a întocmirii modelelor inductive este selectarea dintr-un set de observații individuale a celor care determină esența deciziei care se ia, precum și prezentarea structurii și conexiunilor acestora într-o formă formalizată. Semnificația modelelor inductive este că prin simplificarea descrierii relațiilor, informațiile conținute într-un set mare de observații vor fi prezentate într-o formă vizuală și concisă. Calitatea modelelor inductive nu este determinată de acuratețea copierii realității complexe prin sisteme simbolice, ci depinde de cât de mult este posibil, pe de o parte, să se simplifice modelul în așa fel încât să se obțină o soluție a problemei la un cost acceptabil, dar, pe de altă parte, să reflecte proprietățile de bază ale realității.

Dacă aceste tipuri de contracte de muncă fixează nivelul salariilor, atunci când nivelul pieței se abate de la nivelul așteptat de lucrători și angajatori atunci când au semnat contractul, atunci ar fi optim atât pentru lucrători, cât și pentru angajatori să modifice salariul nominal fix. Prin urmare, având în vedere că condițiile de pe piața muncii sunt în continuă schimbare, ar fi logic să presupunem că, în timp, astfel de contracte de muncă vor înceta să mai existe. Lucrătorii și angajatorii se vor aștepta ca salariile nominale să fie ajustate în fiecare zi, rezultând salarii nominale care vor fluctua elastic ca răspuns la dinamica cererii și ofertei de pe piața muncii. De fapt, adevărul acestor critici este scăderea bruscă a activității sindicale în industriile din SUA la sfârșitul anilor 1970 și 1980. Desigur, lucrătorii nesindicaliți au adesea contracte de muncă formale sau informale cu angajatorii lor, dar unii economiști consideră că această scădere a ponderii lucrătorilor sindicalizați este o dovadă a importanței în scădere a modelului de negociere colectivă pentru economia SUA.

Pentru a evalua semnificația parametrilor ecuației de regresie multiplă se folosește testul Student. Să ne amintim asta semnificația parametrilor înseamnă că ei diferă de zero cu un grad mare de probabilitate. Ipoteza nulă în acest caz este afirmația

Valoarea reală a testului t este determinată de formulă

(2.27)

În formula (2.27), estimarea parametrului se referă atât la coeficientul de regresie, cât și la termenul liber (la ). Valoarea abaterii standard a parametrului estimat este determinată ca rădăcină a varianței calculată folosind formula (2.25). Se numește cantitatea eroare standard parametru.

Formula de estimare a coeficientului de regresie (adică pentru ) poate fi redusă la forma

(2.28)

unde este abaterea standard a variabilei rezultate; – abaterea standard a variabilei explicative, care este un factor al coeficientului; – coeficientul de determinare găsit pentru ecuația de dependență a unei variabile de variabile, inclusiv ; – coeficientul de determinare găsit pentru ecuația de dependență a unei variabile față de alte variabile incluse în modelul de regresie multiplă luat în considerare.

Valoarea teoretică a testului t se regăsește din tabelul de valori al testului Student pentru nivelul de semnificație a și numărul de grade de libertate. Nivelul de semnificație a reprezintă probabilitatea unei erori de tip I, adică. probabilitatea de a respinge o ipoteză atunci când aceasta este adevărată. De regulă, a este ales egal cu 0,1; 0,05 sau 0,01.

Ipoteza nulă a nesemnificației parametrului: respinsă dacă inegalitatea este valabilă

(2.29)

unde este valoarea teoretică a testului t al Studentului.

Pe baza expresiei (2.29), se poate construi și un interval de încredere pentru parametrul estimat:

Expresia (2.30) permite atât aprecierea semnificației parametrului, cât și interpretarea economică a acestuia (dacă se estimează coeficientul de regresie). Evident, parametrul va fi semnificativ dacă intervalul de încredere (2.30) nu include zero, adică. cu un grad mare de probabilitate parametrul estimat nu este egal cu zero.

Întrucât coeficientul de regresie este un indicator absolut al forței relației, limitele intervalului de încredere pentru acesta pot fi, de asemenea, interpretate într-un mod similar: cu probabilitatea pentru o singură modificare a variabilei independente, variabila dependentă la se va schimba nu mai puțin decât cu , și nu mai mult decât cu .

Să luăm în considerare rezultatele evaluării semnificației parametrilor de exemplu 2.1. Erorile standard ale parametrilor sunt

Amintiți-vă că sub semnul rădăcinii dintre paranteze pătrate există un element al matricei care este situat la intersecție

nii j-lea rând și j-a coloană, număr; egal cu numărul parametrului evaluat.

Valoarea reală a testului t Student este

Valoarea de tabel a testului t pentru și nivelul de semnificație este 2,0153, prin urmare, toți parametrii, cu excepția termenului de interceptare, sunt semnificativi.

Să găsim limitele intervalelor de încredere pentru coeficienții de regresie.

Rețineți că, ghidați de valorile limitelor intervalelor de încredere, putem trage aceleași concluzii despre semnificația coeficienților de regresie (deoarece zero nu se încadrează în intervalul de încredere). Concluziile în acest caz nu ar putea fi diferite decât atunci când se compară valorile reale și tabelate ale criteriului Student, deoarece formula (2.30) este o consecință a formulei (2.29). Să oferim o interpretare economică a limitelor intervalelor de încredere pentru coeficienții de regresie.

Coeficientul este o caracteristică a puterii relației dintre volumul încasărilor fiscale și numărul de angajați. Ținând cont de valorile limitelor intervalului de încredere pentru, putem spune că o modificare a numărului de angajați la 1 mie de persoane va duce la o modificare (cu o probabilitate de 0,95 ()) a bonurilor fiscale cu cel puțin 3,56 milioane de ruble. și nu mai mult de 21,34 milioane de ruble. cu volume constante de expediere în producție și producție de energie. Pentru ceilalți doi coeficienți de regresie, concluziile sunt următoarele.

Modificarea volumului transporturilor în industriile prelucrătoare cu 1 milion de ruble. va duce la o modificare (cu probabilitatea de 0,95 ()) a bonurilor fiscale cu cel puțin 0,028 milioane de ruble. și nu mai mult de 0,092 milioane de ruble. cu valori constante ale numărului de angajați și ale producției de energie.

Dacă producția de energie se modifică cu 1 milion de ruble. bonurile fiscale se vor modifica (cu probabilitatea de 0,95 ()) cu cel puțin 0,13 milioane de ruble. și nu mai mult de 0,18 milioane de ruble. cu valori constante ale numărului de angajați și ale volumului transporturilor în industriile prelucrătoare.

După cum s-a menționat în paragraful 2.2, atunci când se construiește un model de regresie folosind variabile centrate coeficienții de regresie nu diferă de coeficienții de regresie în formă naturală. Această afirmație se aplică și mărimii erorilor standard ale coeficienților de regresie și, prin urmare, valorilor reale ale testului Student.

Folosind variabile standardizate scara măsurării acestora se modifică, ceea ce duce la valori diferite ale parametrilor (coeficienți de regresie standardizați) și erori standard ale acestora decât în ​​regresia originală. Cu toate acestea, valorile reale ale testului t Student pentru parametrii ecuației pe o scară standardizată sunt aceleași cu cele obținute din ecuația pe o scară naturală.

Pentru a evalua semnificația întregii ecuații de regresie în ansamblu, folosim Testul Fisher (testul F), care în acest caz se mai numește test F general. Nesemnificația unei ecuații de regresie este înțeleasă ca egalitatea simultană la zero (cu un grad ridicat de probabilitate) a tuturor coeficienților de regresie din populație:

Valoarea reală a testului F este determinată ca raport dintre factor și sumele reziduale ale pătratelor calculate din ecuația de regresie și ajustate pentru numărul de grade de libertate:

(2.31)

unde este suma factorului de pătrate; – suma reziduală a pătratelor.

Valoarea teoretică a testului F se regăsește din tabelul cu valorile testului Fisher pentru nivelul de semnificație α, numărul de grade de libertate și . Ipoteza nulă este respinsă dacă

unde este valoarea teoretică a criteriului Fisher.

Rețineți că, dacă modelul este nesemnificativ, atunci indicatorii de corelație calculați din acesta sunt și ei nesemnificativi. Într-adevăr, dacă

iar linia de regresie este paralelă cu axa x. În plus, din sistemul de ecuaţii normale obţinut prin metoda celor mai mici pătrate (2.8), rezultă că .

Pentru valorile zero ale tuturor coeficienților de regresie avem expresia

acestea. dacă toți coeficienții de regresie sunt egali cu zero (nesemnificația lor statistică), și coeficientul de determinare va fi egal cu zero (nesemnificativ statistic).

Formula (2.31) pentru calcularea criteriului F poate fi transformată prin împărțirea factorului și a sumei reziduale a pătratelor la suma totală a pătratelor:

După transformări simple obținem expresia

Calculul criteriului F general poate fi prezentat sub forma unui tabel de analiză a varianței (Tabelul 2.2).

Tabelul 2.2. Analiza semnificației statistice a modelului de regresie multiplă

Surse de variație

Numărul de grade de libertate df

Suma patratelor SS

Dispersia pe grad de libertate MS = SS/df

Testul F al lui Fisher

valoarea reală

valoarea tabelului pentru a = 0,05

Un tabel similar de analiză a varianței poate fi văzut în rezultatele prelucrării datelor computerizate. Diferența sa

din tabelul de mai sus se află în conținutul ultimei coloane. În cazul nostru, aceasta este valoarea teoretică a criteriului Fisher. În versiunile pentru computer, ultima coloană oferă probabilitatea de a face o eroare de tip I (respingerea ipotezei nule corecte), care corespunde valorii reale a criteriului F. ÎN excela această mărime se numește „semnificație F”. Să notăm valoarea produsă de calculator în tabelul de analiză a varianței ca . Semnificația sa poate fi interpretată după cum urmează: dacă valoarea teoretică a testului F este egală cu valoarea sa reală, atunci probabilitatea unei erori de tip I (nivel de semnificație) este egală cu .

Alegând un anumit nivel de semnificație pentru a determina valoarea tabelară a criteriului, cădem de acord asupra unei valori de eroare egală cu. Prin urmare, dacă , atunci eroarea reală va fi mai mică decât cea planificată și putem vorbi despre semnificația ecuației de regresie la un nivel de semnificație dat.

Să verificăm semnificația statistică a ecuației de regresie obținută în Exemplul 2.1. Valoarea reală a testului F este

Valoarea tabelată a criteriului Fisher pentru a = 0,05, numărul de grade de libertate și este egală cu 2,82. Deoarece valoarea reală a criteriului F este mai mare decât cea din tabel, ecuația de regresie este semnificativă cu probabilitate. Prin urmare, coeficientul de determinare este de asemenea semnificativ, adică. cel mai probabil este diferit de zero.

Când utilizați opțiunea „Regresie” în PPP excela Pentru acest exemplu, a fost obținut următorul tabel ANOVA (Tabelul 2.3).

Tabelul 2.3. Tabel ANOVA obținut prin aplicarea opțiunii „Regresie” în PPP excela

Valoarea reală a testului F este conținută în penultima coloană a acestui tabel. Rețineți că valoarea sa diferă de cea de mai sus din cauza erorilor de rotunjire. În ultima coloană a tabelului. 2.3 arată probabilitatea de a face o eroare de tip I. Este egal cu 1,10224E -12, i.e. 0,00000000000110224. Am stabilit valoarea maximă a acestei probabilități egală cu 0,05. Deoarece valoarea reală a probabilității de a face o eroare de tip I este mai mică (semnificativ mai mică) decât maximul pe care l-am stabilit, ipoteza nulă despre nesemnificația ecuației de regresie ar trebui respinsă.

Exercițiu. Pentru teritoriile regiunii sunt furnizate date pentru 199X;
Numărul regiunii Salariul mediu pe cap de locuitor pe zi al unei persoane apte de muncă, rub., X Salariul mediu zilnic, frec., la
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173
Necesar:
1. Construiți o ecuație liniară pentru regresia perechilor lui y din x.
2. Calculați coeficientul de corelație liniară a perechii și eroarea medie de aproximare.
3. Evaluați semnificația statistică a parametrilor de regresie și corelație.
4. Efectuați o prognoză salarială y cu o valoare de prognoză a nivelului mediu de existență pe cap de locuitor x, în valoare de 107% din nivelul mediu.
5. Evaluați acuratețea prognozei calculând eroarea de prognoză și intervalul de încredere al acesteia.

Soluţie găsi folosind un calculator.
Folosind metoda grafică .
Această metodă este utilizată pentru a descrie vizual forma de legătură dintre indicatorii economici studiați. Pentru a face acest lucru, este trasat un grafic într-un sistem de coordonate dreptunghiular, valorile individuale ale caracteristicii rezultante Y sunt trasate de-a lungul axei ordonatelor, iar valorile individuale ale caracteristicii factorului X sunt reprezentate de-a lungul axei absciselor.
Se numește mulțimea de puncte a caracteristicilor rezultantei și factorilor câmp de corelație.
Pe baza câmpului de corelație, putem emite ipoteza (pentru populație) că relația dintre toate valorile posibile ale lui X și Y este liniară.
Ecuația de regresie liniară este y = bx + a + ε
Aici ε este o eroare aleatorie (abatere, perturbare).
Motive pentru existența unei erori aleatorii:
1. Neincluderea variabilelor explicative semnificative în modelul de regresie;
2. Agregarea variabilelor. De exemplu, funcția de consum total este o încercare de a exprima în general agregatul deciziilor individuale de cheltuieli. Aceasta este doar o aproximare a relațiilor individuale care au parametri diferiți.
3. Descrierea incorectă a structurii modelului;
4. Specificație funcțională incorectă;
5. Erori de măsurare.
Deoarece abaterile ε i pentru fiecare observație specifică i sunt aleatoare și valorile lor în eșantion sunt necunoscute, atunci:
1) din observațiile x i și y i se pot obține doar estimări ale parametrilor α și β
2) Estimările parametrilor α și β ai modelului de regresie sunt valorile a și, respectiv, b, care sunt de natură aleatorie, deoarece corespund unui eșantion aleatoriu;
Atunci ecuația de regresie estimativă (construită din datele eșantionului) va avea forma y = bx + a + ε, unde e i sunt valorile observate (estimări) ale erorilor ε i, a și b sunt, respectiv, estimări ale parametrii α și β ai modelului de regresie care ar trebui găsiți.
Pentru estimarea parametrilor α și β se folosește metoda celor mai mici pătrate (metoda celor mai mici pătrate).
Sistem de ecuații normale.
Pentru datele noastre, sistemul de ecuații are forma
Din prima ecuație exprimăm a și o substituim în a doua ecuație
Obținem b = 0,92, a = 76,98
Ecuația de regresie:
y = 0,92 x + 76,98

1. Parametrii ecuației de regresie.
Eșantion înseamnă.



Variante de eșantion:


Deviație standard


Coeficient de corelație
Calculăm indicatorul de apropiere a conexiunii. Acest indicator este coeficientul de corelație liniară al eșantionului, care este calculat prin formula:

Coeficientul de corelație liniară ia valori de la –1 la +1.
Conexiunile dintre caracteristici pot fi slabe și puternice (strânse). Criteriile lor sunt evaluate conform scalei Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
În exemplul nostru, legătura dintre salariul mediu zilnic și salariul mediu pe cap de locuitor este mare și directă.
1.2. Ecuația de regresie(estimarea ecuației de regresie).

Ecuația de regresie liniară este y = 0,92 x + 76,98
Coeficienților unei ecuații de regresie liniară li se poate da sens economic.
Coeficientul b = 0,92 arată modificarea medie a indicatorului efectiv (în unități de măsură y) cu o creștere sau scădere a valorii factorului x pe unitatea de măsură a acestuia. În acest exemplu, cu o creștere de 1 frecare. pe cap de locuitor pe zi, salariul mediu zilnic crește cu o medie de 0,92.
Coeficientul a = 76,98 arată în mod oficial nivelul prognozat al salariului mediu zilnic, dar numai dacă x=0 este aproape de valorile eșantionului.
Prin înlocuirea valorilor x corespunzătoare în ecuația de regresie, putem determina valorile aliniate (prevăzute) ale indicatorului de performanță y(x) pentru fiecare observație.
Relația dintre salariul mediu zilnic și minimul mediu de existență pe cap de locuitor pe zi este determinată de semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - invers). În exemplul nostru, conexiunea este directă.
Coeficientul de elasticitate.
Nu este recomandabil să se utilizeze coeficienți de regresie (în exemplul b) pentru a evalua direct influența factorilor asupra unei caracteristici rezultante dacă există o diferență între unitățile de măsură ale indicatorului rezultat y și caracteristica factorului x.
În aceste scopuri, se calculează coeficienții de elasticitate și coeficienții beta. Coeficientul de elasticitate se gaseste prin formula:


Arată cu ce procent în medie se modifică atributul efectiv y atunci când atributul factorului x se modifică cu 1%. Nu ține cont de gradul de fluctuație al factorilor.
Coeficientul de elasticitate este mai mic de 1. Prin urmare, dacă costul mediu al vieții pe cap de locuitor pe zi se modifică cu 1%, salariul mediu zilnic se va modifica cu mai puțin de 1%. Cu alte cuvinte, influența nivelului mediu de existență X pe cap de locuitor asupra salariului mediu zilnic Y nu este semnificativă.
Coeficientul beta arată cu ce parte din valoarea abaterii sale standard se va modifica valoarea medie a caracteristicii rezultate atunci când caracteristica factorului se modifică cu valoarea abaterii sale standard cu valoarea variabilelor independente rămase fixată la un nivel constant:

Acestea. o creștere a x cu abaterea standard a acestui indicator va duce la o creștere a salariului mediu zilnic Y cu 0,721 abaterea standard a acestui indicator.
1.4. Eroare de aproximare.
Să evaluăm calitatea ecuației de regresie folosind eroarea de aproximare absolută.


Deoarece eroarea este mai mică de 15%, această ecuație poate fi folosită ca regresie.
Coeficient de determinare.
Pătratul coeficientului de corelație (multiplu) se numește coeficient de determinare, care arată proporția de variație a atributului rezultat explicată de variația atributului factorului.
Cel mai adesea, atunci când se interpretează coeficientul de determinare, acesta este exprimat ca procent.
R2 = 0,722 = 0,5199
acestea. în 51,99% din cazuri, modificări ale nivelului mediu de existență pe cap de locuitor x conduc la o modificare a salariului mediu zilnic y. Cu alte cuvinte, acuratețea selectării ecuației de regresie este medie. Restul de 48,01% din modificarea salariului mediu zilnic Y se explică prin factori neluați în considerare în model.

X y x 2 y 2 x o y y(x) (y i -y cp) 2 (y-y(x)) 2 (x i -x cp) 2 |y - y x |:y
78 133 6084 17689 10374 148,77 517,56 248,7 57,51 0,1186
82 148 6724 21904 12136 152,45 60,06 19,82 12,84 0,0301
87 134 7569 17956 11658 157,05 473,06 531,48 2,01 0,172
79 154 6241 23716 12166 149,69 3,06 18,57 43,34 0,028
89 162 7921 26244 14418 158,89 39,06 9,64 11,67 0,0192
106 195 11236 38025 20670 174,54 1540,56 418,52 416,84 0,1049
67 139 4489 19321 9313 138,65 280,56 0,1258 345,34 0,0026
88 158 7744 24964 13904 157,97 5,06 0,0007 5,84 0,0002
73 152 5329 23104 11096 144,17 14,06 61,34 158,34 0,0515
87 162 7569 26244 14094 157,05 39,06 24,46 2,01 0,0305
76 159 5776 25281 12084 146,93 10,56 145,7 91,84 0,0759
115 173 13225 29929 19895 182,83 297,56 96,55 865,34 0,0568
1027 1869 89907 294377 161808 1869 3280,25 1574,92 2012,92 0,6902

2. Estimarea parametrilor ecuației de regresie.
2.1. Semnificația coeficientului de corelație.

Folosind tabelul Student cu nivel de semnificație α=0,05 și grade de libertate k=10, găsim t crit:
t crit = (10;0,05) = 1,812
unde m = 1 este numărul de variabile explicative.
Dacă t obs > t critic, atunci valoarea rezultată a coeficientului de corelație este considerată semnificativă (se respinge ipoteza nulă care afirmă că coeficientul de corelație este egal cu zero).
Deoarece t obs > t crit, respingem ipoteza că coeficientul de corelație este egal cu 0. Cu alte cuvinte, coeficientul de corelație este semnificativ statistic.
În regresia liniară pereche t 2 r = t 2 b și apoi testarea ipotezelor despre semnificația coeficienților de regresie și corelație este echivalentă cu testarea ipotezei despre semnificația ecuației de regresie liniară.

2.3. Analiza acurateței determinării estimărilor coeficienților de regresie.
O estimare imparțială a dispersiei perturbațiilor este valoarea:


S 2 y = 157,4922 - varianță inexplicabilă (o măsură a răspândirii variabilei dependente în jurul liniei de regresie).

12.5496 - eroare standard de estimare (eroare standard de regresie).
S a - abaterea standard a variabilei aleatoare a.


S b - abaterea standard a variabilei aleatoare b.


2.4. Intervale de încredere pentru variabila dependentă.
Prognoza economică bazată pe modelul construit presupune că relațiile preexistente între variabile sunt menținute pentru perioada de timp.
Pentru a prezice variabila dependentă a atributului rezultat, este necesar să se cunoască valorile prezise ale tuturor factorilor incluși în model.
Valorile prezise ale factorilor sunt substituite în model și se obțin estimări punctuale predictive ale indicatorului studiat.
(a + bx p ± ε)
Unde

Să calculăm limitele intervalului în care 95% din valorile posibile ale lui Y vor fi concentrate cu un număr nelimitat de observații și X p = 94

(76,98 + 0,92*94 ± 7,8288)
(155.67;171.33)
Cu o probabilitate de 95% este posibil să se garanteze că valoarea Y pentru un număr nelimitat de observații nu va fi în afara limitelor intervalelor găsite.
2.5. Testarea ipotezelor privind coeficienții unei ecuații de regresie liniară.
1) t-statistici. Testul t al elevului.
Să verificăm ipoteza H 0 despre egalitatea coeficienților individuali de regresie la zero (dacă alternativa nu este egală cu H 1) la nivelul de semnificație α=0,05.
t crit = (10;0,05) = 1,812


Deoarece 3,2906 > 1,812 se confirmă semnificația statistică a coeficientului de regresie b (respingem ipoteza că acest coeficient este egal cu zero).


Deoarece 3,1793 > 1,812 se confirmă semnificația statistică a coeficientului de regresie a (respingem ipoteza că acest coeficient este egal cu zero).
Interval de încredere pentru coeficienții ecuației de regresie.
Să determinăm intervalele de încredere ale coeficienților de regresie, care cu o fiabilitate de 95% vor fi după cum urmează:
(b - t crit S b ; b + t crit S b)
(0.9204 - 1.812 0.2797; 0.9204 + 1.812 0.2797)
(0.4136;1.4273)

(a - t lang=SV>a)
(76.9765 - 1.812 24.2116; 76.9765 + 1.812 24.2116)
(33.1051;120.8478)
Cu o probabilitate de 95% se poate afirma că valoarea acestui parametru se va afla în intervalul găsit.
2) F-statistici. Criteriul Fisher.
Testarea semnificației unui model de regresie se realizează folosind testul F Fisher, a cărui valoare calculată se găsește ca raport dintre varianța seriei originale de observații a indicatorului studiat și estimarea nepărtinitoare a varianței secvenței reziduale. pentru acest model.
Dacă valoarea calculată cu k1=(m) și k2=(n-m-1) grade de libertate este mai mare decât valoarea tabelată la un anumit nivel de semnificație, atunci modelul este considerat semnificativ.

unde m este numărul de factori din model.
Semnificația statistică a regresiei liniare perechi este evaluată folosind următorul algoritm:
1. Se propune o ipoteză nulă conform căreia ecuația în ansamblu este nesemnificativă statistic: H 0: R 2 =0 la nivelul de semnificație α.
2. Apoi, determinați valoarea reală a criteriului F:


unde m=1 pentru regresia pe perechi.
3. Valoarea tabelată este determinată din tabelele de distribuție Fisher pentru un anumit nivel de semnificație, ținând cont de faptul că numărul de grade de libertate pentru suma totală a pătratelor (varianță mai mare) este 1 și numărul de grade de libertate pentru rezidual suma pătratelor (varianță mai mică) în regresia liniară este n-2 .
4. Dacă valoarea reală a testului F este mai mică decât valoarea tabelului, atunci ei spun că nu există niciun motiv pentru a respinge ipoteza nulă.
În caz contrar, ipoteza nulă este respinsă și ipoteza alternativă despre semnificația statistică a ecuației în ansamblu este acceptată cu probabilitate (1-α).
Valoarea tabelului criteriului cu grade de libertate k1=1 și k2=10, Fkp = 4,96
Deoarece valoarea reală a lui F > Fkp, coeficientul de determinare este semnificativ statistic (estimarea găsită a ecuației de regresie este fiabilă statistic).