Fundamentele analizei datelor. Metode de statistică matematică. Analiza de regresie

Următorul exemplu utilizează fișierul de date Poverty. sta. Îl puteți deschide folosind meniul Fișier selectând comanda Deschidere; Cel mai probabil, acest fișier de date se află în directorul /Examples/Datasets. Datele se bazează pe o comparație a rezultatelor recensământului din 1960 și 1970 pentru un eșantion aleatoriu de 30 de județe. Numele județelor sunt introduse ca identificatori de observație.

Următoarele informații pentru fiecare variabilă sunt furnizate în foaia de calcul Variable Specification Editor (deschisă prin selectarea comenzii All Variable Specifications... din meniul Date).

Scopul studiului. Vom analiza corelațiile sărăciei (adică, predictorii care sunt „foarte” corelați cu procentul de familii care trăiesc sub pragul sărăciei). Astfel, vom considera variabila 3 (Pt_Poor) ca o variabilă dependentă sau de criteriu, iar toate celelalte variabile ca variabile independente sau predictori.

Analiza inițială. Când selectați comanda Multiple Regression din meniul Analiză, se deschide panoul de lansare al modulului Multiple Regression. Puteți seta o ecuație de regresie făcând clic pe butonul Variabile din fila Rapidă din panoul de pornire al modulului Regresie multiplă. În fereastra Selectare variabile care apare, selectați Pt_Poor ca variabilă dependentă și toate celelalte variabile din setul de date ca variabile independente. În fila Avansat, verificați, de asemenea, Afișare statistici descriptive, corr. matrici.



Acum faceți clic pe OK în această casetă de dialog, care va deschide caseta de dialog Vizualizare statistici descriptive. Aici puteți vizualiza medii, abateri standard, corelații și covarianțe între variabile. Rețineți că această casetă de dialog este accesibilă din aproape toate ferestrele ulterioare din modulul Regresie multiplă, astfel încât să puteți reveni oricând la statisticile descriptive pentru anumite variabile.

Distribuția variabilelor. Mai întâi, să examinăm distribuția variabilei dependente Pt_Poor în județe. Faceți clic pe Medii și abateri standard pentru a afișa un tabel cu rezultate.


Selectați Histograme din meniul Graphics pentru a construi o histogramă pentru variabila Pt_Poor (în fila Advanced din caseta de dialog 2M Histograms, setați opțiunea Număr de categorii din linia Categorii la 16). După cum puteți vedea mai jos, distribuția acestei variabile este oarecum diferită de distribuția normală. Coeficienții de corelație pot fi semnificativ supraestimați sau subestimați dacă există valori aberante semnificative în eșantion. Cu toate acestea, deși două județe (cele două coloane din dreapta) au un procent mai mare de familii care trăiesc sub pragul sărăciei decât s-ar fi așteptat într-o distribuție normală, ele par totuși să fie „în parcurs”.



Această decizie este oarecum subiectivă; Regula generală este că îngrijorarea ar trebui să fie ridicată numai atunci când observația (sau observațiile) se află în afara intervalului specificat de media ± 3 abateri standard. În acest caz, ar fi prudent să se repete partea critică (în ceea ce privește impactul valorilor aberante) a analizei cu și fără valori aberante pentru a se asigura că acestea nu influențează natura corelațiilor încrucișate. De asemenea, puteți vizualiza distribuția acestei variabile făcând clic pe butonul Range Plot din fila Avansat din caseta de dialog View Descriptive Statistics și selectând variabila Pt_Poor. Apoi, selectați opțiunea Median/Quartiles/Range din caseta de dialog Range Graphs și faceți clic pe OK.


(Rețineți că o metodă specifică pentru calcularea medianelor și a quartilelor poate fi selectată pentru întregul „sistem” în caseta de dialog Opțiuni din meniul Instrumente.)

Scatterplots. Dacă există ipoteze a priori despre relația dintre anumite variabile, poate fi utilă derivarea unui grafic de dispersie corespunzător în această etapă. De exemplu, să ne uităm la relația dintre schimbarea populației și procentul de familii care trăiesc sub pragul sărăciei. Ar fi firesc să ne așteptăm ca sărăcia să ducă la migrație; astfel, ar trebui să existe o corelație negativă între procentul de familii care trăiesc sub pragul sărăciei și schimbarea populației.

Reveniți la caseta de dialog Vizualizare statistici descriptive și faceți clic pe butonul Corelații din fila Rapidă pentru a afișa un tabel de rezultate cu o matrice de corelație.



Corelațiile dintre variabile pot fi, de asemenea, afișate într-un grafic de dispersie matrice. O diagramă de dispersie matriceală pentru variabilele selectate poate fi obținută făcând clic pe butonul Graficul matricei de corelare din fila Avansat din caseta de dialog Vizualizare statistici descriptive și apoi selectând variabilele de interes.

Sarcină de regresie multiplă. Pentru a efectua o analiză de regresie, tot ce trebuie să faceți este să faceți clic pe OK în caseta de dialog View Descriptive Statistics și să accesați fereastra Multiple Regression Results. Analiza de regresie standard (cu termen inactiv) va fi efectuată automat.

Vezi rezultate. Mai jos este caseta de dialog Rezultate regresie multiplă. Ecuația generală de regresie multiplă este foarte semnificativă (a se vedea capitolul Statistici de bază pentru o discuție despre testarea semnificației statistice). Astfel, cunoscând valorile variabilelor independente, se poate „preva” mai bine un predictor asociat sărăciei decât să-l ghicească pur întâmplător.



Coeficienți de regresie. Pentru a afla care variabile independente contribuie mai mult la predicția unui predictor legat de sărăcie, examinați coeficienții de regresie (sau B). Faceți clic pe butonul Regression Summary Table din fila Quick din caseta de dialog Multiple Regression Results pentru a afișa un tabel de rezultate cu acești coeficienți.



Acest tabel prezintă coeficienții de regresie standardizați (Beta) și coeficienții de regresie convenționali (B). Coeficienții beta sunt coeficienții care ar fi obținuți dacă toate variabilele ar fi mai întâi standardizate la o medie de 0 și o abatere standard de 1. Astfel, mărimea acestor coeficienți beta permite compararea contribuției relative a fiecărei variabile independente la predicția variabila dependentă. După cum se poate observa din tabelul de rezultate prezentat mai sus, variabilele Pop_Chng, Pt_Rural și N_Empld sunt cei mai importanți predictori ai sărăciei; Dintre acestea, doar primele două sunt semnificative statistic. Coeficientul de regresie pentru Pop_Chng este negativ; acestea. cu cât creșterea populației este mai mică, cu atât mai multe familii trăiesc sub nivelul sărăciei din județul corespunzător. Contribuția la regresie pentru Pt_Rural este pozitivă; acestea. Cu cât procentul populației este mai mare din mediul rural, cu atât rata sărăciei este mai mare.

Corelații parțiale. O altă modalitate de a examina contribuția fiecărei variabile independente la predicția variabilei dependente este de a calcula corelații parțiale și semi-parțiale (faceți clic pe butonul Corelații parțiale din fila Avansat din caseta de dialog Rezultate regresie multiplă). Corelațiile parțiale sunt corelații între variabila independentă corespunzătoare și variabila dependentă, ajustate pentru alte variabile. Astfel, este corelația dintre reziduurile după ajustarea pentru variabilele independente. Corelația parțială reprezintă contribuția independentă a variabilei independente corespunzătoare la predicția variabilei dependente.



Corelațiile semiparțiale sunt corelații între variabila independentă corespunzătoare, ajustată pentru alte variabile, și variabila dependentă inițială (neajustată). Astfel, o corelație semi-parțială este corelarea variabilei independente corespunzătoare după ajustarea pentru alte variabile și valorile originale neajustate ale variabilei dependente. Cu alte cuvinte, corelația semi-parțială la pătrat este o măsură a procentului de variație totală explicată independent de variabila independentă corespunzătoare, în timp ce corelația parțială la pătrat este o măsură a procentului de variație reziduală luată în considerare după ajustarea variabilei dependente pentru variabile independente.

În acest exemplu, corelațiile parțiale și semi-parțiale au valori similare. Cu toate acestea, uneori valorile lor pot diferi semnificativ (corelația semi-parțială este întotdeauna mai mică). Dacă corelația semi-parțială este foarte mică, în timp ce corelația parțială este relativ mare, atunci variabila corespunzătoare poate avea o „parte” independentă în explicarea variabilității variabilei dependente (adică, o „parte” care nu este explicată de cealaltă parte). variabile). Cu toate acestea, în ceea ce privește semnificația practică, această porțiune poate fi mică, reprezentând doar o mică parte din variabilitatea totală (pentru detalii, a se vedea, de exemplu, Lindeman, Merenda și Gold, 1980; Morrison, 1967; Neter, Wasserman și Kutner, 1985; Pedhazur, 1973 sau Stevens, 1986).

Analiza reziduurilor. După ajustarea unei ecuații de regresie, este întotdeauna util să se examineze valorile și reziduurile prezise rezultate. De exemplu, valorile aberante extreme pot influența semnificativ rezultatele și pot duce la concluzii eronate. În fila Reziduuri/Propoziții/Observații, faceți clic pe butonul Analiză reziduală pentru a deschide caseta de dialog corespunzătoare.

Graficul linie cu linie al reziduurilor. Această opțiune de casetă de dialog vă oferă posibilitatea de a selecta unul dintre tipurile reziduale posibile pentru trasarea graficului linie cu linie. De obicei, natura reziduurilor originale (nestandardizate) sau standardizate ar trebui examinată pentru a identifica observațiile extreme. În exemplul nostru, selectați fila Residuals și faceți clic pe butonul Line Residual Plots; implicit, va fi trasat un grafic al soldurilor inițiale; cu toate acestea, puteți modifica tipul de sold în câmpul corespunzător.



Scara utilizată în graficul cu linii din coloana din stânga este dată în termeni de sigma, adică abaterea standard a reziduurilor. Dacă una sau mai multe observații se încadrează în afara limitelor de ±3*sigma, atunci observațiile relevante ar trebui probabil excluse (acest lucru se realizează cu ușurință prin utilizarea condițiilor de selecție) și analiza se rulează din nou pentru a se asigura că nu există nicio părtinire în rezultatele cheie cauzate de aceste valori aberante din date.

Graficul linie cu linie al emisiilor. O modalitate rapidă de a identifica valorile aberante este să utilizați opțiunea Grafic valori aberante din fila Valori anormale. Puteți alege să vizualizați toate reziduurile standard care se încadrează în limitele ±2-5 sigma sau puteți alege să vizualizați primele 100 de observații aberante selectate în câmpul Tip de valori aberante din fila Valori aberante. Când utilizați opțiunea standard rezidual (>2*sigma), în exemplul nostru, nu sunt observate valori aberante.

distante Mahalanobis. Majoritatea manualelor de statistică dedică un spațiu pentru a discuta subiectul valorii aberante și reziduurilor pentru variabila dependentă. Cu toate acestea, rolul valorii aberante într-un set de variabile independente este adesea trecut cu vederea. Pe partea de variabile independente, există o listă de variabile implicate cu ponderi diferite (coeficienți de regresie) în predicția variabilei dependente. Variabilele independente pot fi gândite ca puncte dintr-un spațiu multidimensional în care poate fi localizată fiecare observație. De exemplu, dacă aveți două variabile independente cu coeficienți de regresie egali, puteți reprezenta un grafic de dispersie a celor două variabile și puteți reprezenta fiecare observație pe acel grafic. Apoi puteți reprezenta punctul mediu al ambelor variabile și puteți calcula distanțele de la fiecare observație la această medie (numită acum centroid) în acest spațiu bidimensional; aceasta este ideea conceptuală din spatele calculului distanțelor Mahalanobis. Acum să ne uităm la aceste distanțe, sortate după mărime, pentru a identifica observații extreme asupra variabilelor independente. În câmpul Outlier Type, bifați opțiunea Mahalanobis distances și faceți clic pe butonul Line by Line Outlier Plot. Graficul rezultat arată distanțele Mahalanobis sortate în ordine descrescătoare.



Rețineți că județul Shelby pare a fi oarecum aberan în comparație cu celelalte județe din grafic. Dacă te uiți la datele brute, vei descoperi că comitatul Shelby este de fapt un județ mult mai mare, cu un număr mai mare de oameni angajați în agricultură (N_Empld) și o populație afro-americană mult mai mare. Probabil că ar fi înțelept să exprimăm aceste numere ca procente și nu ca valori absolute, caz în care distanța Mahalanobis a județului Shelby față de celelalte județe din acest exemplu nu ar fi la fel de mare. Cu toate acestea, am aflat că comitatul Shelby pare a fi o situație anormală clară.

Reziduurile îndepărtate. O altă statistică foarte importantă pentru evaluarea amplorii problemei emisiilor o reprezintă reziduurile îndepărtate. Acestea sunt definite ca reziduuri standardizate pentru observațiile corespunzătoare care ar rezulta dacă observațiile corespunzătoare ar fi excluse din analiză. Amintiți-vă că procedura de regresie multiplă se potrivește unei linii drepte pentru a exprima relația dintre variabilele dependente și independente. Dacă una dintre observații este o valoare anormală evidentă (cum ar fi județul Shelby în aceste date), atunci linia de regresie va tinde să se „apropie” de acel valori anormale pentru a-l explica cât mai mult posibil. Ca rezultat, dacă se exclude observația corespunzătoare, va apărea o linie de regresie complet diferită (și coeficienții B). Prin urmare, dacă reziduul eliminat este foarte diferit de reziduul standardizat, aveți motive să credeți că rezultatele analizei de regresie sunt părtinite semnificativ de observația corespunzătoare. În acest exemplu, reziduul șters pentru județul Shelby este o valoare anormală care afectează în mod semnificativ analiza. Puteți reprezenta o diagramă de dispersie a reziduurilor față de reziduurile șterse folosind opțiunea Reziduuri și șterse. reziduuri în fila Scatterplots. Mai jos, în graficul de dispersie, există o valoare anormală clară.


STATISTICA oferă un instrument interactiv pentru eliminarea valorii aberante (Brushpe bara de instrumente grafică ;). Permițându-vă să experimentați cu eliminarea valorii aberante și permițându-vă să vedeți imediat impactul acestora asupra liniei de regresie. Când acest instrument este activat, cursorul se transformă într-o cruce și caseta de dialog Umbrire apare lângă grafic. Puteți exclude (temporar) interactiv puncte de date individuale din grafic bifând (1) opțiunea Actualizare automată și (2) caseta Excludere din blocul Operație; și apoi făcând clic pe punctul pe care doriți să îl ștergeți, aliniindu-l cu crucea cursorului.


Rețineți că punctele șterse pot fi „returnate” făcând clic pe butonul Anulare tot din caseta de dialog Umbrire.

Grafice de probabilitate normale. Din fereastra Analiză reziduală, utilizatorul primește un număr mare de grafice suplimentare. Majoritatea acestor grafice sunt mai mult sau mai puțin ușor de interpretat. Totuși, aici vom oferi o interpretare a graficului probabilității normale, deoarece este cel mai adesea folosit în analiza validității ipotezelor de regresie.

După cum sa menționat mai devreme, regresia liniară multiplă presupune o relație liniară între variabilele din ecuație, iar reziduurile sunt distribuite în mod normal. Dacă aceste ipoteze sunt încălcate, concluziile finale pot fi inexacte. Un grafic de probabilitate normală a reziduurilor arată clar prezența sau absența unor abateri mari de la ipotezele făcute. Faceți clic pe butonul Normal din fila Grafice de probabilitate pentru a construi acest grafic.


Acest grafic este construit după cum urmează. În primul rând, reziduurile de regresie sunt clasate. Pentru aceste reziduuri ordonate, se calculează scorurile z (adică valorile standard ale distribuției normale), presupunând că datele sunt distribuite în mod normal. Aceste scoruri z sunt reprezentate grafic pe axa y a graficului.

Dacă reziduurile observate (trasate de-a lungul axei x) sunt distribuite în mod normal, atunci toate valorile vor fi reprezentate în apropierea unei linii drepte; Pe acest grafic, toate punctele se află foarte aproape de o dreaptă. Dacă reziduurile nu sunt distribuite în mod normal, ele se vor abate de la linie. Valorile abere pot deveni, de asemenea, vizibile în acest grafic.

Dacă modelul disponibil nu se potrivește bine cu datele, iar datele din grafic par să formeze o structură (de exemplu, norul de observații ia o formă S) în jurul liniei de regresie, atunci poate fi util să se aplice o transformare. a variabilei dependente (de exemplu, logaritmul pentru a „tuck” coada distribuției etc.; vezi și scurta discuție a transformărilor Box-Cox și Box-Tidwell din secțiunea Note și informații tehnice). O discuție despre astfel de tehnici depășește scopul acestui manual (Neter, Wasserman și Kutner, 1985, p. 134, oferă o discuție excelentă despre transformări ca mijloc de a trata non-normalitatea și neliniaritatea). De prea multe ori, totuși, cercetătorii își acceptă pur și simplu datele fără să se uite îndeaproape la structura acestora sau să le testeze în raport cu ipotezele lor, ceea ce duce la concluzii eronate. Din acest motiv, una dintre sarcinile principale cu care se confruntă dezvoltatorii interfeței utilizator a modulului Regresie Multiplă a fost să simplifice cât mai mult posibil analiza (grafică) a reziduurilor.

y=f(X), când fiecare valoare a variabilei independente X corespunde unei valori specifice a cantității y, cu conexiune de regresie la aceeași valoare X poate corespunde în funcție de caz unor valori diferite ale cantității y. Dacă pentru fiecare valoare există n i (\displaystyle n_(i)) valorile y i 1 …y în 1 magnitudine y, apoi dependența mediilor aritmetice y ¯ i = (y i 1 + . . + y i n 1) / n i (\displaystyle (\bar (y))_(i)=(y_(i1)+...+y_(in_(1))) / n_(i)) din x = x i (\displaystyle x=x_(i))și este o regresie în sensul statistic al termenului.

YouTube enciclopedic

  • 1 / 5

    Acest termen în statistică a fost folosit pentru prima dată de Francis Galton (1886) în legătură cu studiul moștenirii caracteristicilor fizice umane. Înălțimea omului a fost luată ca una dintre caracteristici; s-a constatat că, în general, fiii taților înalți, deloc surprinzător, s-au dovedit a fi mai înalți decât fiii taților scunzi. Ceea ce era mai interesant a fost că variația înălțimii fiilor era mai mică decât variația înălțimii taților. Așa s-a manifestat tendința înălțimii fiilor de a reveni la medie ( regresie la mediocritate), adică „regresie”. Acest fapt a fost demonstrat prin calcularea înălțimii medii a fiilor de tați a căror înălțime este de 56 de inci, prin calcularea înălțimii medii a fiilor de tați care au 58 de inci, etc. Rezultatele au fost apoi reprezentate pe un plan, de-a lungul ordonatei. axa căreia a fost reprezentată înălțimea medie a fiilor, iar pe axa x - valorile înălțimii medii a taților. Punctele (aproximativ) se află pe o linie dreaptă cu un unghi pozitiv de înclinare mai mic de 45°; este important ca regresia să fie liniară.

    Descriere

    Să presupunem că avem un eșantion dintr-o distribuție bivariată a unei perechi de variabile aleatoare ( X Y). Linie dreaptă în plan ( X y) a fost un analog selectiv al funcției

    g (x) = E (Y ∣ X = x) . (\displaystyle g(x)=E(Y\mid X=x).) E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac ( \sigma _(2))(\sigma _(1)))(x-\mu _(1)),) v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . (\displaystyle \mathrm (var) (Y\mid X=x)=\sigma _(2)^(2)(1-\varrho ^(2)).)

    În acest exemplu de regresie Y pe X este o funcție liniară. Dacă regresia Y pe X este diferită de liniară, atunci ecuațiile date sunt o aproximare liniară a adevăratei ecuații de regresie.

    În general, regresia unei variabile aleatoare pe alta nu este neapărat liniară. De asemenea, nu este necesar să vă limitați la câteva variabile aleatorii. Problemele de regresie statistică implică determinarea formei generale a ecuației de regresie, construirea de estimări ale parametrilor necunoscuți incluși în ecuația de regresie și testarea ipotezelor statistice despre regresie. Aceste probleme sunt abordate în cadrul analizei de regresie.

    Un exemplu simplu de regresie Y De X este relaţia dintre YȘi X, care se exprimă prin relația: Y=u(X)+ε, unde u(X)=E(Y | X=X), și variabile aleatoare X iar ε sunt independente. Această reprezentare este utilă atunci când se proiectează un experiment pentru a studia conectivitatea funcțională y=u(X) între mărimi nealeatoare yȘi X. În practică, de obicei coeficienții de regresie din Ec. y=u(X) sunt necunoscute și sunt estimate pe baza datelor experimentale.

    Regresie liniara

    Să ne imaginăm dependența y din X sub forma unui model liniar de ordinul întâi:

    y = β 0 + β 1 x + ε . (\displaystyle y=\beta _(0)+\beta _(1)x+\varepsilon.)

    Vom presupune că valorile X sunt determinate fără eroare, β 0 și β 1 sunt parametrii modelului, iar ε este eroarea, a cărei distribuție respectă legea normală cu valoare medie zero și abatere constantă σ 2. Valorile parametrilor β nu sunt cunoscute în prealabil și trebuie determinate dintr-un set de valori experimentale ( x i, y i), i=1, …, n. Astfel putem scrie:

    y i ^ = b 0 + b 1 x i , i = 1 , … , n (\displaystyle (\widehat (y_(i)))=b_(0)+b_(1)x_(i),i=1,\ puncte, n)

    unde înseamnă valoarea prezisă de model y dat X, b 0 și b 1 - eșantion de estimări ale parametrilor modelului. Să definim și noi e i = y i - y i ^ (\displaystyle e_(i)=y_(i)-(\widehat (y_(i))))- valoarea erorii de aproximare pt i (\displaystyle i) a-a observație.

    Metoda celor mai mici pătrate oferă următoarele formule pentru calcularea parametrilor unui model dat și a abaterilor acestora:

    b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; (\displaystyle b_(1)=(\frac (\sum _(i=1))^(n)(x_(i)-(\bar (x)))(y_(i)-(\bar (y) )))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))=(\frac (\mathrm (cov) (x,y) ))(\sigma _(x)^(2)));) b 0 = y ¯ − b 1 x ¯ ; (\displaystyle b_(0)=(\bar (y))-b_(1)(\bar (x));) s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; (\displaystyle s_(e)^(2)=(\frac (\sum _(i=1)^(n)(y_(i))-(\widehat (y)))^(2))(n- 2));) s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(b_(0))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((\bar (x))^(2))(\sum _ (i=1)^(n)(x_(i)-(\bar (x)))^(2)))));) s b 1 = s e 1 ∑ i = 1 n (x i − x ¯) 2 , (\displaystyle s_(b_(1))=s_(e)(\sqrt (\frac (1)(\sum _(i=1) )^(n)(x_(i)-(\bar (x)))^(2)))),)

    aici valorile medii sunt determinate ca de obicei: x ¯ = ∑ i = 1 n x i n (\displaystyle (\bar (x))=(\frac (\sum _(i=1)^(n)x_(i))(n))), y ¯ = ∑ i = 1 n y i n (\displaystyle (\bar (y))=(\frac (\sum _(i=1)^(n)y_(i))(n)))Și s e 2 denotă reziduul de regresie, care este o estimare a varianței σ 2 dacă modelul este corect.

    Erorile standard ale coeficienților de regresie sunt utilizate în mod similar cu eroarea standard a mediei - pentru a găsi intervale de încredere și a testa ipotezele. Folosim, de exemplu, testul Student pentru a testa ipoteza că coeficientul de regresie este egal cu zero, adică este nesemnificativ pentru model. Statistica elevilor: t = b / s b (\displaystyle t=b/s_(b)). Dacă probabilitatea pentru valoarea obţinută şi n−2 grade de libertate este destul de mic, de exemplu,<0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 (\displaystyle b_(1))- există motive să ne gândim la existența regresiei dorite, cel puțin sub această formă, sau la colectarea de observații suplimentare. Dacă termenul liber este egal cu zero b 0 (\displaystyle b_(0)), apoi dreapta trece prin origine și estimarea pantei este egală cu

    b = ∑ i = 1 n x i y eu ∑ i = 1 n x i 2 (\displaystyle b=(\frac (\sum _(i=1)^(n)x_(i)y_(i)))(\sum _(i=) 1)^(n)x_(i)^(2)))),

    și eroarea sa standard

    s b = s e 1 ∑ i = 1 n x i 2 . (\displaystyle s_(b)=s_(e)(\sqrt (\frac (1)(\sum _(i=1)^(n)x_(i)^(2)))).)

    De obicei, valorile adevărate ale coeficienților de regresie β 0 și β 1 nu sunt cunoscute. Se cunosc doar estimările lor b 0 și b 1 . Cu alte cuvinte, adevărata linie de regresie poate funcționa diferit decât cea construită din datele eșantionului. Puteți calcula regiunea de încredere pentru linia de regresie. Pentru orice valoare X valorile corespunzătoare y distribuite normal. Media este valoarea ecuației de regresie y ^ (\displaystyle (\widehat (y))). Incertitudinea estimării sale este caracterizată de eroarea standard de regresie:

    s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(\widehat (y))=s_(e)(\sqrt ((\frac (1)(n))+(\frac ((x-(\bar (x)))^(2) )(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))));)

    Acum puteți calcula intervalul de încredere procentual pentru valoarea ecuației de regresie la un punct X:

    y ^ − t (1 − α / 2 , n − 2) s y ^< y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}} ,

    Unde t(1−α/2, n−2) - t-valoarea distribuţiei Student. Figura prezintă o linie de regresie construită folosind 10 puncte (puncte solide), precum și regiunea de încredere de 95% a liniei de regresie, care este limitată de linii punctate. Cu 95% probabilitate putem spune că adevărata linie este situată undeva în interiorul acestei zone. Sau altfel, dacă colectăm seturi de date similare (indicate prin cercuri) și construim linii de regresie pe ele (indicate cu albastru), atunci în 95 de cazuri din 100 aceste linii drepte nu vor părăsi regiunea de încredere. (Faceți clic pe imagine pentru a vizualiza) Vă rugăm să rețineți că unele puncte se aflau în afara regiunii de încredere. Acest lucru este complet natural, deoarece vorbim despre regiunea de încredere a liniei de regresie, și nu despre valorile în sine. Răspândirea valorilor constă în răspândirea valorilor în jurul liniei de regresie și incertitudinea poziției acestei linii în sine, și anume:

    s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; (\displaystyle s_(Y)=s_(e)(\sqrt ((\frac (1)(m))+(\frac (1)(n))+(\frac ((x-(\bar (x) )))^(2))(\sum _(i=1)^(n)(x_(i)-(\bar (x)))^(2)))));)

    Aici m- frecventa de masurare y dat X. ȘI 100 ⋅ (1 − α 2) (\displaystyle 100\cdot \left(1-(\frac (\alpha )(2))\right))-interval de încredere procentual (interval de prognoză) pentru media de m valorile y voi:

    y ^ − t (1 − α / 2 , n − 2) s Y< y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y} .

    În figură, această regiune de încredere de 95% la m=1 este limitat de linii continue. 95% din toate valorile posibile ale cantității se încadrează în această zonă yîn intervalul de valori studiat X.

    Mai multe statistici

    Se poate dovedi strict că dacă așteptarea condiționată E (Y ∣ X = x) (\displaystyle E(Y\mid X=x)) o variabilă aleatoare bidimensională ( X Y) este o funcție liniară a x (\displaystyle x), atunci această așteptare condiționată este neapărat reprezentabilă în formă E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) (\displaystyle E(Y\mid X=x)=\mu _(2)+\varrho (\frac (\ sigma _(2))(\sigma _(1)))(x-\mu _(1))), Unde E(X)=μ 1 , E(Y)=μ 2 , var( X)=σ 1 2 , var( Y)=σ 2 2 , cor( X Y)=ρ.

    Mai mult, pentru modelul liniar menționat anterior Y = β 0 + β 1 X + ε (\displaystyle Y=\beta _(0)+\beta _(1)X+\varepsilon), Unde X (\displaystyle X)și sunt variabile aleatoare independente și ε (\displaystyle \varepsilon) are așteptări zero (și distribuție arbitrară), se poate dovedi că E (Y ∣ X = x) = β 0 + β 1 x (\displaystyle E(Y\mid X=x)=\beta _(0)+\beta _(1)x). Apoi, folosind egalitatea menționată anterior, putem obține formule pentru și: β 1 = ϱ σ 2 σ 1 (\displaystyle \beta _(1)=\varrho (\frac (\sigma _(2))(\sigma _(1)))),

    β 0 = μ 2 - β 1 μ 1 (\displaystyle \beta _(0)=\mu _(2)-\beta _(1)\mu _(1)).

    Dacă de undeva se știe a priori că un set de puncte aleatoare din plan este generat de un model liniar, dar cu coeficienți necunoscuți β 0 (\displaystyle \beta _(0))Și β 1 (\displaystyle \beta _(1)), puteți obține estimări punctuale ale acestor coeficienți folosind formulele specificate. Pentru a face acest lucru, în loc de așteptări matematice, varianțe și corelații ale variabilelor aleatoare, aceste formule XȘi Y trebuie să înlocuim estimările lor imparțiale. Formulele de estimare rezultate vor coincide exact cu formulele derivate pe baza metodei celor mai mici pătrate.

    • Tutorial

    Statistica a primit recent sprijin puternic de PR din partea disciplinelor mai noi și mai zgomotoase - Învățare automatăȘi Date mare. Cei care vor să călătorească pe acest val trebuie să se împrietenească cu ecuații de regresie. Este indicat nu numai să înveți 2-3 trucuri și să promovezi examenul, ci și să poți rezolva problemele din viața de zi cu zi: să găsești relația dintre variabile și, în mod ideal, să poți distinge semnalul de zgomot.



    În acest scop vom folosi un limbaj de programare și un mediu de dezvoltare R, care se potrivește perfect unor astfel de sarcini. În același timp, să verificăm ce determină ratingul Habrapost pe baza statisticilor propriilor articole.

    Introducere în analiza de regresie

    Dacă există o corelație între variabilele y și x, este necesar să se determine relația funcțională dintre cele două mărimi. Se numește dependența valorii medii regresia lui y pe x.


    Baza analizei de regresie este metoda celor mai mici pătrate (LSM), conform căreia ecuația de regresie este considerată o funcție astfel încât suma pătratelor diferențelor este minimă.



    Carl Gauss a descoperit, sau mai bine zis a recreat, MNC la vârsta de 18 ani, dar rezultatele au fost publicate pentru prima dată de Legendre în 1805. Conform datelor neverificate, metoda era cunoscută în China antică, de unde a migrat în Japonia și abia apoi a ajuns la Europa. Europenii nu au făcut un secret din acest lucru și l-au pus în producție cu succes, folosindu-l pentru a descoperi traiectoria planetei pitice Ceres în 1801.


    Tipul de funcție este, de regulă, determinat în prealabil, iar valorile optime ale parametrilor necunoscuți sunt selectate folosind cele mai mici pătrate. Metrica pentru dispersia valorilor în jurul unei regresii este varianța.


    • k este numărul de coeficienți din sistemul de ecuații de regresie.

    Cel mai adesea, se folosește un model de regresie liniară, iar toate dependențele neliniare sunt reduse la o formă liniară cu ajutorul trucurilor algebrice și a diferitelor transformări ale variabilelor y și x.

    Regresie liniara

    Ecuațiile de regresie liniară pot fi scrise ca



    În formă de matrice, aceasta va arăta


    • y - variabilă dependentă;
    • x - variabilă independentă;
    • β - coeficienți care trebuie găsiți folosind cele mai mici pătrate;
    • ε - eroare, eroare inexplicabilă și abatere de la dependența liniară;


    O variabilă aleatoare poate fi interpretată ca o sumă a doi termeni:



    Un alt concept cheie este coeficientul de corelație R 2 .


    Limitările regresiei liniare

    Pentru a utiliza un model de regresie liniară sunt necesare unele ipoteze privind distribuția și proprietățile variabilelor.



    Cum să detectăm că nu sunt îndeplinite condițiile de mai sus? Ei bine, în primul rând, destul de des acest lucru este vizibil cu ochiul liber pe diagramă.


    Eterogenitatea dispersiei


    Pe măsură ce varianța crește odată cu variabila independentă, avem un grafic în formă de pâlnie.



    În unele cazuri, regresia neliniară poate fi văzută destul de clar pe grafic.


    Cu toate acestea, există modalități formale destul de stricte pentru a determina dacă condițiile regresiei liniare sunt îndeplinite sau încălcate.




    În această formulă - coeficientul de determinare reciprocă între și alți factori. Dacă cel puțin unul dintre VIF-uri este > 10, este destul de rezonabil să presupunem prezența multicoliniarității.


    De ce este atât de important pentru noi să respectăm toate condițiile de mai sus? Este vorba despre Teorema Gauss-Markov, conform căreia estimarea OLS este corectă și eficientă numai dacă aceste restricții sunt îndeplinite.

    Cum să depășești aceste limitări

    Încălcarea uneia sau mai multor restricții nu este o condamnare la moarte.

    1. Neliniaritatea regresiei poate fi depășită prin transformarea variabilelor, de exemplu prin funcția de logaritm natural ln.
    2. În același mod, este posibil să se rezolve problema varianței eterogene, folosind transformări ln sau sqrt ale variabilei dependente sau folosind MCO ponderate.
    3. Pentru a elimina problema multicolinearității, se utilizează metoda eliminării variabilelor. Esența sa este aceea variabilele explicative foarte corelate sunt eliminate din regresie, și este reevaluată. Criteriul de selectare a variabilelor de exclus este coeficientul de corelație. Există o altă modalitate de a rezolva această problemă, și anume să înlocuind variabilele care sunt în mod inerent multicoliniare cu combinația lor liniară. Această listă nu este exhaustivă, există și regresie în trepte si alte metode.

    Din păcate, nu toate încălcările condițiilor și defectele regresiei liniare pot fi eliminate folosind logaritmul natural. Daca exista autocorelarea tulburărilor de exemplu, este mai bine să faceți un pas înapoi și să construiți un model nou și mai bun.

    Regresia liniară a avantajelor pe Habré

    Deci, suficient bagaj teoretic și puteți construi modelul în sine.
    Sunt de multă vreme curios de ce depinde acel mic număr verde, care indică ratingul unei postări de pe Habré. După ce am adunat toate statisticile disponibile ale propriilor postări, am decis să o rulez printr-un model de regresie liniară.


    Încarcă date dintr-un fișier tsv.


    >hist<- read.table("~/habr_hist.txt", header=TRUE) >hist
    puncte citește comm faves fb octeți 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 22476 30 16867 25 16867 32 5 1 2 5 4 6 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
    • puncte- Evaluare articol
    • citeste- Numărul de vizualizări.
    • comm- Numărul de comentarii.
    • faves- Adăugat la marcaje.
    • fb- Partajat pe rețelele sociale (fb + vk).
    • octeți- Lungimea în octeți.

    Verificarea multicoliniarității.


    > cor(hist) puncte citește comm faves fb octeți puncte 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 citește 0,5641858 5041851 1,5641858 1 .00000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.000059894 1.000059894 0.0695.000 0.0695.002 0.0695.002 0.0695.023 .08829029 0.14583018 0.06782256 1.00000000

    Contrar așteptărilor mele cea mai mare rentabilitate nu pe numărul de vizualizări ale articolului, ci din comentarii și postări de pe rețelele sociale. De asemenea, m-am gândit că numărul de vizualizări și comentarii ar avea o corelație mai puternică, dar relația este destul de moderată - nu este nevoie să excludem vreuna dintre variabilele independente.


    Acum, modelul propriu-zis, folosim funcția lm.


    regmodel<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Interceptare) 1.029e+01 7.198e+00 1.430 0.1608 citiri 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-01 5.218e-05 20.5-0.020 2 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * octeți 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Eroare standard reziduală: 16,65 la 39 de grade de libertate R-pătrat multiplu: 0,5384, R-pătrat ajustat: 0,4792 F- statistică: 9.099 pe 5 și 39 DF, valoare p: 8.476e-06

    În prima linie setăm parametrii de regresie liniară. Linia puncte ~. definește punctele variabile dependente și toate celelalte variabile ca regresori. Puteți defini o singură variabilă independentă prin puncte ~ citiri, un set de variabile - puncte ~ citiri + com.


    Să trecem acum la descifrarea rezultatelor obținute.




    Puteți încerca să îmbunătățiți oarecum modelul netezind factorii neliniari: comentarii și postări pe rețelele sociale. Să înlocuim valorile variabilelor fb și comm cu puterile lor.


    > hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

    Să verificăm valorile parametrilor de regresie liniară.


    > regmodel<- lm(points ~., data = hist) >summary(regmodel) Call: lm(formula = points ~ ., data = hist) Reziduuri: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coeficienți: Estimare Std. Valoarea erorii t Pr(>|t|) (Interceptare) 2.823e+00 7.305e+00 0.387 0.70123 citește -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.010e+0.03 ** f aves 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** octeți 2.688e-04 4.108e-04 4.108e-04 7.- Semn. coduri: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Eroare standard reziduală: 16,21 la 39 de grade de libertate R-pătrat multiplu: 0,5624, R-pătrat ajustat: 0,5062 F- statistică: 10,02 pe 5 și 39 DF, valoare p: 3,186e-06

    După cum putem observa, în general, capacitatea de răspuns a modelului a crescut, parametrii s-au înăsprit și au devenit mai mătăsos, statisticile F au crescut, precum și coeficientul de determinare ajustat.


    Să verificăm dacă sunt îndeplinite condițiile de aplicabilitate a modelului de regresie liniară? Testul Durbin-Watson testează autocorelarea tulburărilor.


    > dwtest(hist$puncte ~., data = hist) Date test Durbin-Watson: hist$puncte ~ . DW = 1,585, valoarea p = 0,07078 ipoteză alternativă: autocorelația adevărată este mai mare decât 0

    Și în sfârșit, verificarea eterogenității varianței folosind testul Breusch-Pagan.


    > bptest(hist$points ~., data = hist) date test Breusch-Pagan studentizate: hist$points ~ . BP = 6,5315, df = 5, valoarea p = 0,2579

    In cele din urma

    Desigur, modelul nostru de regresie liniară pentru evaluările subiectelor Habr nu a fost cel mai de succes. Nu am putut explica mai mult de jumătate din variabilitatea datelor. Factorii trebuie corectați pentru a scăpa de dispersia eterogenă, de asemenea, autocorelația este neclară. În general, nu există suficiente date pentru o evaluare serioasă.


    Dar, pe de altă parte, asta este bine. În caz contrar, orice postare de troll scrisă în grabă pe Habré ar primi automat un rating mare, dar din fericire nu este cazul.

    Materiale folosite

    1. Kobzar A. I. Statistică matematică aplicată. - M.: Fizmatlit, 2006.
    2. William H. Green Analiza econometrică

    Etichete: Adăugați etichete

    Ce este regresia?

    Luați în considerare două variabile continue x=(x1, x2, .., xn), y=(y1, y2, ..., yn).

    Să plasăm punctele pe o diagramă de dispersie bidimensională și să spunem că avem relație liniară, dacă datele sunt aproximate printr-o linie dreaptă.

    Dacă credem asta y depinde de X, și modificări în y sunt cauzate tocmai de modificări în X, putem determina linia de regresie (regresia y pe X), care descrie cel mai bine relația liniară dintre aceste două variabile.

    Utilizarea statistică a cuvântului regresie provine de la fenomenul cunoscut sub numele de regresie la medie, atribuit lui Sir Francis Galton (1889).

    El a arătat că, deși tații înalți tind să aibă fii înalți, înălțimea medie a fiilor este mai mică decât cea a taților lor înalți. Înălțimea medie a fiilor „a regresat” și „s-a deplasat înapoi” spre înălțimea medie a tuturor taților din populație. Astfel, în medie, tații înalți au fii mai scunzi (dar încă destul de înalți), iar tații scunzi au fii mai înalți (dar încă destul de scunzi).

    Linia de regresie

    O ecuație matematică care estimează o dreaptă de regresie liniară simplă (în perechi):

    X numită variabilă independentă sau predictor.

    Y- variabilă dependentă sau variabilă de răspuns. Aceasta este valoarea la care ne așteptăm y(în medie) dacă știm valoarea X, adică aceasta este „valoarea estimată” y»

    • A- membru liber (intersectia) liniei de evaluare; acesta este sensul Y, Când x=0(Fig.1).
    • b- panta sau panta liniei estimate; reprezintă suma cu care Y crește în medie dacă creștem X pe o unitate.
    • AȘi b se numesc coeficienți de regresie ai liniei estimate, deși acest termen este adesea folosit doar pentru b.

    Regresia liniară în perechi poate fi extinsă pentru a include mai mult de o variabilă independentă; în acest caz este cunoscut ca regresie multiplă.

    Fig.1. Linie de regresie liniară care arată intercepta a și panta b (cantitatea Y crește pe măsură ce x crește cu o unitate)

    Metoda celor mai mici pătrate

    Efectuăm analiza de regresie folosind un eșantion de observații unde AȘi b- estimări eșantionare ale parametrilor adevărați (generali), α și β, care determină linia de regresie liniară în populație (populație generală).

    Cea mai simplă metodă de determinare a coeficienților AȘi b este metoda celor mai mici pătrate(MNC).

    Potrivirea este evaluată analizând reziduurile (distanța verticală a fiecărui punct de la linie, de exemplu, rezidual = observat y- prezis y, Orez. 2).

    Linia de cea mai bună potrivire este aleasă astfel încât suma pătratelor reziduurilor să fie minimă.

    Orez. 2. Linie de regresie liniară cu reziduuri reprezentate (linii punctate verticale) pentru fiecare punct.

    Ipoteze de regresie liniară

    Deci, pentru fiecare valoare observată, restul este egal cu diferența și valoarea prezisă corespunzătoare fiecărei resturi poate fi pozitivă sau negativă.

    Puteți utiliza reziduurile pentru a testa următoarele ipoteze din spatele regresiei liniare:

    • Reziduurile sunt distribuite în mod normal cu o medie de zero;

    Dacă ipotezele de liniaritate, normalitate și/sau variație constantă sunt discutabile, putem transforma sau și calcula o nouă linie de regresie pentru care aceste ipoteze sunt îndeplinite (de exemplu, folosiți o transformare logaritmică etc.).

    Valori anormale (outliers) și puncte de influență

    O observație „influentă”, dacă este omisă, modifică una sau mai multe estimări ale parametrilor modelului (adică, panta sau interceptarea).

    Un outlier (o observație care este în contradicție cu majoritatea valorilor dintr-un set de date) poate fi o observație „influentă” și poate fi detectată cu ușurință vizual prin inspectarea unui grafic de dispersie bivariat sau a unui grafic rezidual.

    Atât pentru valori aberante, cât și pentru observațiile (puncte) „influențiale”, sunt utilizate modele, atât cu, cât și fără includerea lor, și se acordă atenție modificărilor estimărilor (coeficienți de regresie).

    Când efectuați o analiză, nu trebuie să eliminați automat valorile aberante sau punctele de influență, deoarece pur și simplu ignorarea acestora poate afecta rezultatele obținute. Studiați întotdeauna motivele acestor valori aberante și analizați-le.

    Ipoteza regresiei liniare

    La construirea regresiei liniare, se testează ipoteza nulă că panta generală a dreptei de regresie β este egală cu zero.

    Dacă panta dreptei este zero, nu există o relație liniară între și: modificarea nu afectează

    Pentru a testa ipoteza nulă că panta adevărată este zero, puteți utiliza următorul algoritm:

    Calculați statistica de test egală cu raportul , care este supus unei distribuții cu grade de libertate, unde eroarea standard a coeficientului


    ,

    - estimarea dispersiei reziduurilor.

    De obicei, dacă nivelul de semnificație este atins, ipoteza nulă este respinsă.


    unde este punctul procentual al distribuției cu grade de libertate, care oferă probabilitatea unui test cu două fețe

    Acesta este intervalul care conține panta generală cu o probabilitate de 95%.

    Pentru eșantioane mari, să zicem, putem aproxima cu o valoare de 1,96 (adică statistica testului va tinde să fie distribuită normal)

    Evaluarea calității regresiei liniare: coeficientul de determinare R 2

    Din cauza relației liniare și ne așteptăm ca asta să se schimbe ca , și numiți-o variația care se datorează sau se explică prin regresie. Variația reziduală ar trebui să fie cât mai mică posibil.

    Dacă acest lucru este adevărat, atunci cea mai mare parte a variației va fi explicată prin regresie, iar punctele se vor afla aproape de dreapta de regresie, adică. linia se potrivește bine datelor.

    Proporția varianței totale care este explicată prin regresie se numește coeficient de determinare, de obicei exprimat ca procent și notat R 2(în regresia liniară pereche aceasta este cantitatea r 2, pătratul coeficientului de corelație), vă permite să evaluați subiectiv calitatea ecuației de regresie.

    Diferența reprezintă procentul de varianță care nu poate fi explicat prin regresie.

    Nu există un test formal de evaluat, trebuie să ne bazăm pe judecata subiectivă pentru a determina bunătatea de potrivire a dreptei de regresie.

    Aplicarea unei linii de regresie la prognoză

    Puteți utiliza o linie de regresie pentru a prezice o valoare dintr-o valoare aflată la capătul extrem al intervalului observat (nu extrapolați niciodată dincolo de aceste limite).

    Prezim media observabilelor care au o anumită valoare prin introducerea acelei valori în ecuația dreptei de regresie.

    Deci, dacă estimam ca Utilizați această valoare estimată și eroarea ei standard pentru a estima un interval de încredere pentru media reală a populației.

    Repetarea acestei proceduri pentru diferite valori vă permite să construiți limite de încredere pentru această linie. Aceasta este banda sau zona care conține linia adevărată, de exemplu la un nivel de încredere de 95%.

    Planuri simple de regresie

    Modelele de regresie simple conțin un predictor continuu. Dacă există 3 observații cu valori de predictor P, cum ar fi 7, 4 și 9, iar proiectul include un efect de ordinul întâi P, atunci matricea de proiectare X va fi

    iar ecuația de regresie folosind P pentru X1 este

    Y = b0 + b1 P

    Dacă un design de regresie simplă conține un efect de ordin mai mare asupra P, cum ar fi un efect pătratic, atunci valorile din coloana X1 din matricea de proiectare vor fi ridicate la a doua putere:

    iar ecuația va lua forma

    Y = b0 + b1 P2

    Metodele de codare constrânse de Sigma și supraparametrizate nu se aplică modelelor de regresie simple și altor modele care conțin doar predictori continui (deoarece pur și simplu nu există predictori categoriali). Indiferent de metoda de codare aleasă, valorile variabilelor continue sunt incrementate corespunzător și utilizate ca valori pentru variabilele X. În acest caz, nu se efectuează nicio recodificare. În plus, atunci când descrieți planurile de regresie, puteți omite luarea în considerare a matricei de proiectare X și puteți lucra numai cu ecuația de regresie.

    Exemplu: analiză de regresie simplă

    Acest exemplu utilizează datele prezentate în tabel:

    Orez. 3. Tabelul datelor inițiale.

    Date compilate dintr-o comparație a recensămintelor din 1960 și 1970 în 30 de județe selectate aleatoriu. Numele județelor sunt prezentate ca nume de observație. Informațiile referitoare la fiecare variabilă sunt prezentate mai jos:

    Orez. 4. Tabel cu specificații variabile.

    Problema de cercetare

    Pentru acest exemplu, se va analiza corelația dintre rata sărăciei și gradul care prezice procentul de familii care se află sub pragul sărăciei. Prin urmare, vom trata variabila 3 (Pt_Poor) ca variabilă dependentă.

    Putem înainta o ipoteză: schimbările în mărimea populației și procentul de familii care se află sub pragul sărăciei sunt legate. Pare rezonabil să ne așteptăm ca sărăcia să ducă la emigrare, deci ar exista o corelație negativă între procentul de oameni sub pragul sărăciei și schimbarea populației. Prin urmare, vom trata variabila 1 (Pop_Chng) ca o variabilă predictivă.

    Vezi rezultate

    Coeficienți de regresie

    Orez. 5. Coeficienții de regresie ai Pt_Poor pe Pop_Chng.

    La intersecția rândului Pop_Chng și a coloanei Param. coeficientul nestandardizat pentru regresia lui Pt_Poor pe Pop_Chng este -0,40374. Aceasta înseamnă că pentru fiecare unitate de scădere a populației, există o creștere a ratei sărăciei de .40374. Limitele de încredere superioară și inferioară (implicit) de 95% pentru acest coeficient nestandardizat nu includ zero, astfel încât coeficientul de regresie este semnificativ la nivelul p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

    Distribuție variabilă

    Coeficienții de corelație pot deveni semnificativ supraestimați sau subestimați dacă în date sunt prezente valori aberante mari. Să studiem distribuția variabilei dependente Pt_Poor pe district. Pentru a face acest lucru, să construim o histogramă a variabilei Pt_Poor.

    Orez. 6. Histograma variabilei Pt_Poor.

    După cum puteți vedea, distribuția acestei variabile diferă semnificativ de distribuția normală. Cu toate acestea, deși chiar și două județe (cele două coloane din dreapta) au un procent mai mare de familii care se află sub pragul sărăciei decât se aștepta într-o distribuție normală, acestea par a fi „în intervalul”.

    Orez. 7. Histograma variabilei Pt_Poor.

    Această judecată este oarecum subiectivă. Regula generală este că valorile aberante ar trebui luate în considerare dacă observația (sau observațiile) nu se încadrează în interval (media ± 3 ori abaterea standard). În acest caz, merită repetat analiza cu și fără valori aberante pentru a ne asigura că acestea nu au un efect major asupra corelației dintre membrii populației.

    Scatterplot

    Dacă una dintre ipoteze este a priori despre relația dintre variabile date, atunci este util să o testăm pe graficul graficului de dispersie corespunzător.

    Orez. 8. Diagrama de dispersie.

    Graficul de dispersie arată o corelație negativă clară (-.65) între cele două variabile. De asemenea, arată intervalul de încredere de 95% pentru linia de regresie, adică există o probabilitate de 95% ca linia de regresie să se afle între cele două curbe punctate.

    Criterii de semnificație

    Orez. 9. Tabel cuprinzând criteriile de semnificație.

    Testul pentru coeficientul de regresie Pop_Chng confirmă faptul că Pop_Chng este strâns legat de Pt_Poor , p<.001 .

    Concluzie

    Acest exemplu a arătat cum să analizați un design de regresie simplu. De asemenea, au fost prezentate interpretări ale coeficienților de regresie nestandardizați și standardizați. Se discută importanța studierii distribuției răspunsului unei variabile dependente și se demonstrează o tehnică de determinare a direcției și tăriei relației dintre un predictor și o variabilă dependentă.

    În postările anterioare, analiza s-a concentrat adesea pe o singură variabilă numerică, cum ar fi randamentele fondurilor mutuale, timpii de încărcare a paginilor web sau consumul de băuturi răcoritoare. În aceasta și în notele ulterioare, ne vom uita la metode de predicție a valorilor unei variabile numerice în funcție de valorile uneia sau mai multor alte variabile numerice.

    Materialul va fi ilustrat cu un exemplu transversal. Estimarea volumului vânzărilor într-un magazin de îmbrăcăminte. Lanțul de magazine de îmbrăcăminte cu discount Sunflowers se extinde constant de 25 de ani. Cu toate acestea, compania nu are în prezent o abordare sistematică pentru selectarea de noi puncte de vânzare. Locația în care o companie intenționează să deschidă un nou magazin este determinată pe baza unor considerente subiective. Criteriile de selecție sunt condițiile de închiriere favorabile sau ideea managerului despre locația ideală a magazinului. Imaginează-ți că ești șeful departamentului de proiecte speciale și planificare. Ai fost însărcinat cu elaborarea unui plan strategic pentru deschiderea de noi magazine. Acest plan ar trebui să includă o prognoză a vânzărilor anuale pentru magazinele nou deschise. Considerați că spațiul comercial este direct legat de venituri și doriți să luați în considerare acest lucru în procesul de luare a deciziilor. Cum dezvoltați un model statistic pentru a estima vânzările anuale în funcție de dimensiunea unui nou magazin?

    De obicei, analiza de regresie este utilizată pentru a prezice valorile unei variabile. Scopul său este de a dezvolta un model statistic care poate prezice valorile unei variabile dependente, sau răspuns, din valorile a cel puțin unei variabile independente sau explicative. În această notă, ne vom uita la regresia liniară simplă - o metodă statistică care vă permite să preziceți valorile unei variabile dependente Y prin valori ale variabilelor independente X. Notele ulterioare vor descrie un model de regresie multiplă conceput pentru a prezice valorile unei variabile independente Y pe baza valorilor mai multor variabile dependente ( X 1, X 2, …, X k).

    Descărcați nota în sau format, exemple în format

    Tipuri de modele de regresie

    Unde ρ 1 – coeficientul de autocorelare; Dacă ρ 1 = 0 (fără autocorelare), D≈ 2; Dacă ρ 1 ≈ 1 (autocorelație pozitivă), D≈ 0; Dacă ρ 1 = -1 (autocorelație negativă), D ≈ 4.

    În practică, aplicarea criteriului Durbin-Watson se bazează pe compararea valorii D cu valori teoretice critice d LȘi d U pentru un număr dat de observații n, numărul de variabile independente ale modelului k(pentru regresie liniară simplă k= 1) și nivelul de semnificație α. Dacă D< d L , ipoteza despre independența abaterilor aleatoare este respinsă (deci, există o autocorelație pozitivă); Dacă D>dU, ipoteza nu este respinsă (adică nu există autocorelație); Dacă d L< D < d U , nu există motive suficiente pentru a lua o decizie. Când valoarea calculată D depaseste 2, apoi cu d LȘi d U Nu coeficientul în sine este comparat D, iar expresia (4 – D).

    Pentru a calcula statisticile Durbin-Watson în Excel, să ne întoarcem la tabelul de jos din Fig. 14 Retragerea soldului. Numătorul din expresia (10) este calculat folosind funcția =SUMMAR(array1;array2) și numitorul =SUMMAR(array) (Fig. 16).

    Orez. 16. Formule pentru calcularea statisticilor Durbin-Watson

    În exemplul nostru D= 0,883. Întrebarea principală este: ce valoare a statisticii Durbin-Watson ar trebui considerată suficient de mică pentru a concluziona că există o autocorelație pozitivă? Este necesar să se coreleze valoarea lui D cu valorile critice ( d LȘi d U), în funcție de numărul de observații nși nivelul de semnificație α (Fig. 17).

    Orez. 17. Valorile critice ale statisticilor Durbin-Watson (fragment de tabel)

    Astfel, în problema volumului vânzărilor într-un magazin care livrează mărfuri la domiciliu, există o variabilă independentă ( k= 1), 15 observații ( n= 15) și nivelul de semnificație α = 0,05. Prin urmare, d L= 1,08 și dU= 1,36. Deoarece D = 0,883 < d L= 1,08, există o autocorelare pozitivă între reziduuri, metoda celor mai mici pătrate nu poate fi utilizată.

    Testarea ipotezelor despre panta și coeficientul de corelație

    Mai sus, regresia a fost folosită numai pentru prognoză. Pentru a determina coeficienții de regresie și pentru a prezice valoarea unei variabile Y pentru o anumită valoare variabilă X S-a folosit metoda celor mai mici pătrate. În plus, am examinat eroarea pătratică medie a estimării și coeficientul de corelație mixt. Dacă analiza reziduurilor confirmă că nu sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate, iar modelul de regresie liniară simplă este adecvat, pe baza datelor eșantionate, se poate argumenta că există o relație liniară între variabilele din populatia.

    Aplicațiet -criterii pentru panta. Testând dacă panta populației β 1 este egală cu zero, puteți determina dacă există o relație semnificativă statistic între variabile XȘi Y. Dacă această ipoteză este respinsă, se poate argumenta că între variabile XȘi Y există o relație liniară. Ipotezele nule și alternative sunt formulate astfel: H 0: β 1 = 0 (nu există dependență liniară), H1: β 1 ≠ 0 (există o dependență liniară). A-prioriu t-statistică este egală cu diferența dintre panta eșantionului și valoarea ipotetică a pantei populației, împărțită la rădăcina medie a erorii pătratice a estimării pantei:

    (11) t = (b 1 β 1 ) / Sb 1

    Unde b 1 – panta regresiei directe pe datele eșantionului, β1 – panta ipotetică a populației directe, , și statistici de testare t Are t-distributie cu n – 2 grade de libertate.

    Să verificăm dacă există o relație semnificativă statistic între dimensiunea magazinului și vânzările anuale la α = 0,05. t-criteriul este afișat împreună cu alți parametri atunci când este utilizat Pachet de analize(opțiune Regresia). Rezultatele complete ale pachetului de analiză sunt prezentate în Fig. 4, fragment legat de t-statistica - în Fig. 18.

    Orez. 18. Rezultatele aplicării t

    De la numărul de magazine n= 14 (vezi Fig. 3), valoare critică t-statisticile la un nivel de semnificație de α = 0,05 pot fi găsite folosind formula: t L=STUDENT.ARV(0,025,12) = –2,1788, unde 0,025 este jumătate din nivelul de semnificație și 12 = n – 2; tU=STUDENT.OBR(0,975,12) = +2,1788.

    Deoarece t-statistica = 10,64 > tU= 2,1788 (Fig. 19), ipoteză nulă H 0 respins. Pe de alta parte, R-valoare pentru X= 10,6411, calculat prin formula =1-STUDENT.DIST(D3,12,TRUE), este aproximativ egal cu zero, deci ipoteza H 0 din nou respins. Faptul că R-valoarea aproape zero înseamnă că, dacă nu ar exista o relație liniară adevărată între dimensiunile magazinului și vânzările anuale, ar fi practic imposibil să o detectăm folosind regresia liniară. Prin urmare, există o relație liniară semnificativă statistic între vânzările medii anuale ale magazinului și dimensiunea magazinului.

    Orez. 19. Testarea ipotezei despre panta populației la un nivel de semnificație de 0,05 și 12 grade de libertate

    AplicațieF -criterii pentru panta. O abordare alternativă pentru testarea ipotezelor despre panta regresiei liniare simple este de a utiliza F-criterii. Să ne amintim asta F-test este folosit pentru a testa relația dintre două varianțe (pentru mai multe detalii, vezi). Când se testează ipoteza pantei, măsura erorilor aleatoare este varianța erorii (suma erorilor pătrate împărțită la numărul de grade de libertate), deci F-criteriul folosește raportul varianței explicat prin regresie (adică valoarea SSR, împărțit la numărul de variabile independente k), la variația erorii ( MSE = S YX 2 ).

    A-prioriu F-statistica este egală cu pătratul mediu al regresiei (MSR) împărțit la varianța erorii (MSE): F = MSR/ MSE, Unde MSR=SSR / k, MSE =SSE/(n– k – 1), k– numărul de variabile independente în modelul de regresie. Test statistici F Are F-distributie cu kȘi n– k – 1 grade de libertate.

    Pentru un nivel de semnificaţie dat α, regula de decizie se formulează astfel: dacă F>FU, se respinge ipoteza nulă; altfel nu se respinge. Rezultatele, prezentate sub forma unui tabel rezumat al analizei varianței, sunt prezentate în Fig. 20.

    Orez. 20. Tabel de analiză a varianței pentru testarea ipotezei despre semnificația statistică a coeficientului de regresie

    De asemenea t-criteriu F-criteriul este afișat în tabel atunci când este utilizat Pachet de analize(opțiune Regresia). Rezultatele complete ale lucrării Pachet de analize sunt prezentate în Fig. 4, fragment legat de F-statistica – în Fig. 21.

    Orez. 21. Rezultatele aplicării F-criterii obtinute cu ajutorul pachetului de analiza Excel

    Statistica F este 113,23 și R-valoare apropiată de zero (celula SemnificaţieF). Dacă nivelul de semnificație α este 0,05, determinați valoarea critică F-distributii cu unu si 12 grade de libertate pot fi obtinute folosind formula F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Deoarece F = 113,23 > F U= 4,7472 și R-valoare apropiată de 0< 0,05, нулевая гипотеза H 0 este respinsă, adică Mărimea unui magazin este strâns legată de vânzările sale anuale.

    Orez. 22. Testarea ipotezei pantei populației la un nivel de semnificație de 0,05 cu unu și 12 grade de libertate

    Interval de încredere conţinând panta β 1 ​​. Pentru a testa ipoteza că există o relație liniară între variabile, puteți construi un interval de încredere care conține panta β 1 ​​și puteți verifica dacă valoarea ipotetică β 1 = 0 aparține acestui interval. Centrul intervalului de încredere care conține panta β 1 ​​este panta eșantionului b 1 , iar limitele sale sunt cantitățile b 1 ±tn –2 Sb 1

    După cum se arată în Fig. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975,12) = 2,1788. Prin urmare, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 sau + 1,328 ≤ β 1 ≤ +2,012. Astfel, există o probabilitate de 0,95 ca panta populației să se afle între +1,328 și +2,012 (adică, de la 1.328.000 USD la 2.012.000 USD). Deoarece aceste valori sunt mai mari decât zero, există o relație liniară semnificativă statistic între vânzările anuale și suprafața magazinului. Dacă intervalul de încredere ar conține zero, nu ar exista nicio relație între variabile. În plus, intervalul de încredere înseamnă că fiecare creștere a suprafeței magazinului cu 1.000 mp. ft. duce la o creștere a volumului mediu de vânzări între 1.328.000 USD și 2.012.000 USD.

    Utilizaret -criterii pentru coeficientul de corelare. a fost introdus coeficientul de corelare r, care este o măsură a relației dintre două variabile numerice. Poate fi folosit pentru a determina dacă există o relație semnificativă statistic între două variabile. Să notăm coeficientul de corelație dintre populațiile ambelor variabile prin simbolul ρ. Ipotezele nule și alternative sunt formulate după cum urmează: H 0: ρ = 0 (fără corelație), H 1: ρ ≠ 0 (există o corelație). Verificarea existenței unei corelații:

    Unde r = + , Dacă b 1 > 0, r = – , Dacă b 1 < 0. Тестовая статистика t Are t-distributie cu n – 2 grade de libertate.

    În problema despre lanțul de magazine Sunflowers r 2= 0,904, a b 1- +1,670 (vezi Fig. 4). Deoarece b 1> 0, coeficientul de corelație dintre vânzările anuale și dimensiunea magazinului este r= +√0,904 = +0,951. Să testăm ipoteza nulă că nu există nicio corelație între aceste variabile folosind t-statistici:

    La un nivel de semnificație de α = 0,05, ipoteza nulă ar trebui respinsă deoarece t= 10,64 > 2,1788. Astfel, se poate susține că există o relație semnificativă statistic între vânzările anuale și dimensiunea magazinului.

    Când se discută inferențe cu privire la panta populației, intervalele de încredere și testele de ipoteză sunt folosite în mod interschimbabil. Totuși, calcularea intervalului de încredere care conține coeficientul de corelație se dovedește a fi mai dificilă, deoarece tipul de distribuție prin eșantionare a statisticii r depinde de coeficientul de corelație adevărat.

    Estimarea așteptărilor matematice și predicția valorilor individuale

    Această secțiune discută metode de estimare a așteptărilor matematice ale unui răspuns Yși predicții ale valorilor individuale Y pentru valorile date ale variabilei X.

    Construirea unui interval de încredere.În exemplul 2 (vezi secțiunea de mai sus Metoda celor mai mici pătrate) ecuația de regresie a făcut posibilă prezicerea valorii variabilei Y X. În problema alegerii unei locații pentru un punct de vânzare cu amănuntul, volumul mediu anual de vânzări într-un magazin cu o suprafață de 4000 mp. picioare a fost egală cu 7,644 milioane de dolari. Cu toate acestea, această estimare a așteptărilor matematice a populației generale este punctual. Pentru estimarea așteptărilor matematice a populației a fost propus conceptul de interval de încredere. În mod similar, putem introduce conceptul interval de încredere pentru așteptarea matematică a răspunsului pentru o anumită valoare variabilă X:

    Unde , = b 0 + b 1 X i– valoarea prezisă este variabilă Y la X = X i, S YX– eroarea pătratică medie, n- marime de mostra, Xi- valoarea specificată a variabilei X, µ Y|X = Xi– așteptarea matematică a variabilei Y la X = Xi, SSX =

    Analiza formulei (13) arată că lățimea intervalului de încredere depinde de mai mulți factori. La un anumit nivel de semnificație, o creștere a amplitudinii fluctuațiilor în jurul dreptei de regresie, măsurată folosind eroarea pătratică medie, duce la o creștere a lățimii intervalului. Pe de altă parte, așa cum s-ar putea aștepta, o creștere a dimensiunii eșantionului este însoțită de o îngustare a intervalului. În plus, lățimea intervalului se modifică în funcție de valori Xi. Dacă valoarea variabilei Y prezis pentru cantităţi X, aproape de valoarea medie , intervalul de încredere se dovedește a fi mai îngust decât atunci când se prezică răspunsul pentru valori departe de medie.

    Să presupunem că atunci când alegem locația unui magazin, dorim să construim un interval de încredere de 95% pentru vânzările medii anuale ale tuturor magazinelor a căror suprafață este de 4000 de metri pătrați. picioare:

    Prin urmare, volumul mediu anual de vânzări în toate magazinele cu o suprafață de 4.000 mp. picioare, cu 95% probabilitate se află în intervalul de la 6,971 la 8,317 milioane de dolari.

    Calculați intervalul de încredere pentru valoarea prezisă. Pe lângă intervalul de încredere pentru așteptarea matematică a răspunsului pentru o valoare dată a variabilei X, este adesea necesar să se cunoască intervalul de încredere pentru valoarea prezisă. Deși formula pentru calcularea unui astfel de interval de încredere este foarte asemănătoare cu formula (13), acest interval conține mai degrabă valoarea prezisă decât estimarea parametrului. Interval pentru răspunsul prezis YX = Xi pentru o anumită valoare variabilă Xi determinat de formula:

    Să presupunem că, atunci când alegem o locație pentru un punct de vânzare cu amănuntul, dorim să construim un interval de încredere de 95% pentru volumul anual de vânzări estimat pentru un magazin a cărui suprafață este de 4000 de metri pătrați. picioare:

    Prin urmare, volumul anual de vânzări estimat pentru un magazin cu o suprafață de 4000 mp. picioare, cu o probabilitate de 95% se află în intervalul de la 5,433 la 9,854 milioane de dolari După cum putem vedea, intervalul de încredere pentru valoarea de răspuns prezisă este mult mai larg decât intervalul de încredere pentru așteptarea sa matematică. Acest lucru se datorează faptului că variabilitatea în prezicerea valorilor individuale este mult mai mare decât în ​​estimarea așteptărilor matematice.

    Capcane și probleme etice asociate cu utilizarea regresiei

    Dificultăți asociate cu analiza de regresie:

    • Ignorarea condițiilor de aplicabilitate a metodei celor mai mici pătrate.
    • Evaluarea eronată a condițiilor de aplicabilitate a metodei celor mai mici pătrate.
    • Alegerea incorectă a metodelor alternative atunci când sunt încălcate condițiile de aplicabilitate ale metodei celor mai mici pătrate.
    • Aplicarea analizei de regresie fără cunoaștere profundă a subiectului de cercetare.
    • Extrapolarea unei regresii dincolo de intervalul variabilei explicative.
    • Confuzie între relațiile statistice și cauzale.

    Utilizarea pe scară largă a foilor de calcul și a software-ului statistic a eliminat problemele de calcul care împiedicaseră utilizarea analizei de regresie. Cu toate acestea, acest lucru a condus la faptul că analiza de regresie a fost utilizată de utilizatori care nu aveau suficiente calificări și cunoștințe. Cum pot ști utilizatorii despre metodele alternative dacă mulți dintre ei nu au nicio idee despre condițiile de aplicabilitate a metodei celor mai mici pătrate și nu știu cum să le verifice implementarea?

    Cercetătorul nu ar trebui să se lase dus de numere strânse - calculând deplasarea, panta și coeficientul de corelație mixt. Are nevoie de cunoștințe mai profunde. Să ilustrăm acest lucru cu un exemplu clasic luat din manuale. Anscombe a arătat că toate cele patru seturi de date prezentate în Fig. 23, au aceiași parametri de regresie (Fig. 24).

    Orez. 23. Patru seturi de date artificiale

    Orez. 24. Analiza de regresie a patru seturi de date artificiale; am terminat-o cu Pachet de analize(click pe poza pentru a mari imaginea)

    Deci, din punctul de vedere al analizei de regresie, toate aceste seturi de date sunt complet identice. Dacă analiza s-ar termina acolo, am pierde o mulțime de informații utile. Acest lucru este evidențiat de diagramele de dispersie (Figura 25) și diagramele reziduale (Figura 26) construite pentru aceste seturi de date.

    Orez. 25. Diagrame de dispersie pentru patru seturi de date

    Diagramele de dispersie și diagramele reziduale indică faptul că aceste date diferă unele de altele. Singura multime distribuita de-a lungul unei linii drepte este multimea A. Graficul reziduurilor calculate din multimea A nu are nici un model. Acest lucru nu se poate spune despre mulțimile B, C și D. Graficul de dispersie reprezentat pentru setul B arată un model pătratic pronunțat. Această concluzie este confirmată de diagrama reziduală, care are o formă parabolică. Graficul de dispersie și graficul rezidual arată că setul de date B conține un valori abere. În această situație, este necesar să se excludă valorile aberante din setul de date și să se repete analiza. O metodă pentru detectarea și eliminarea valorii aberante din observații se numește analiză de influență. După eliminarea valorii aberante, rezultatul reestimării modelului poate fi complet diferit. Graficul de dispersie reprezentat din datele din setul G ilustrează o situație neobișnuită în care modelul empiric depinde în mod semnificativ de un răspuns individual ( X 8 = 19, Y 8 = 12,5). Astfel de modele de regresie trebuie calculate cu deosebită atenție. Deci, diagramele de dispersie și graficele reziduale sunt un instrument esențial pentru analiza regresiei și ar trebui să fie o parte integrantă a acesteia. Fără ele, analiza de regresie nu este credibilă.

    Orez. 26. Grafice reziduale pentru patru seturi de date

    Cum să evitați capcanele în analiza de regresie:

    • Analiza posibilelor relații între variabile XȘi Yîncepe întotdeauna prin desenarea unui grafic de dispersie.
    • Înainte de a interpreta rezultatele analizei de regresie, verificați condițiile de aplicabilitate a acesteia.
    • Reprezentați grafic reziduurile față de variabila independentă. Acest lucru va face posibil să se determine cât de bine modelul empiric se potrivește cu rezultatele observaționale și să se detecteze o încălcare a constantei varianței.
    • Utilizați histograme, diagrame cu tulpini și frunze, diagrame cu case și diagrame de distribuție normală pentru a testa ipoteza unei distribuții normale a erorilor.
    • Dacă nu sunt îndeplinite condițiile de aplicabilitate a metodei celor mai mici pătrate, utilizați metode alternative (de exemplu, modele de regresie pătratică sau multiplă).
    • Dacă sunt îndeplinite condițiile de aplicabilitate a metodei celor mai mici pătrate, este necesar să se testeze ipoteza despre semnificația statistică a coeficienților de regresie și să se construiască intervale de încredere care să conțină așteptarea matematică și valoarea răspunsului prezis.
    • Evitați prezicerea valorilor variabilei dependente în afara intervalului variabilei independente.
    • Rețineți că relațiile statistice nu sunt întotdeauna cauza-efect. Amintiți-vă că corelația dintre variabile nu înseamnă că există o relație cauză-efect între ele.

    Rezumat. După cum se arată în diagrama bloc (Figura 27), nota descrie modelul de regresie liniară simplă, condițiile de aplicabilitate a acestuia și modul de testare a acestor condiții. Considerat t-criteriul de testare a semnificaţiei statistice a pantei de regresie. A fost utilizat un model de regresie pentru a prezice valorile variabilei dependente. Un exemplu este considerat legat de alegerea locației pentru un punct de vânzare cu amănuntul, în care se examinează dependența volumului anual de vânzări de suprafața magazinului. Informațiile obținute vă permit să selectați mai precis o locație pentru un magazin și să preziceți volumul anual de vânzări al acestuia. Următoarele note vor continua discuția despre analiza regresiei și vor analiza, de asemenea, modelele de regresie multiple.

    Orez. 27. Observați diagrama structurii

    Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 792–872

    Dacă variabila dependentă este categorică, trebuie utilizată regresia logistică.