Vícenásobná lineární regrese

Ve statistikách je vícenásobná lineární regrese matematická regresní metoda rozšiřující jednoduchou lineární regresi k popisu variací endogenní proměnné spojené s variantami několika exogenních proměnných .

Například vícenásobná regresní analýza může odhalit pozitivní vztah mezi poptávkou po slunečních brýlích a různými demografickými údaji (věk, plat) kupujících daného produktu. Poptávka roste a klesá se změnami těchto charakteristik.

Teoretický model

Vzhledem k ukázce $( Y i , X i 1 , ..., X ip ) i \in {1, n }$ se snažíme s co největší přesností vysvětlit hodnoty převzaté $Y i$ , nazývané endogenní proměnná , z řady vysvětlujících proměnných $X i 1 , ..., X ip$ . Teoretický model, formulovaný pomocí náhodných proměnných, má podobu

{\ displaystyle Y_ {i} = a_ {0} + a_ {1} X_ {i1} + a_ {2} X_ {i2} + \ ldots + a_ {p} X_ {ip} + \ varepsilon _ {i}, \ qquad i = 1, \ ldots, n}

kde $ε i$ je chyba modelu, která vyjadřuje nebo shrnuje chybějící informace v lineárním vysvětlení hodnot $Y i$ z $X i 1 , ..., X ip$ (specifikační problém, proměnné nejsou brány v úvahu , atd.). Koeficienty $a 0 , a 1 , ..., a p$ jsou parametry, které se mají odhadnout.

Odhad

Když máme n pozorování $( y i , x i 1 , ..., x ip ), i \in {1, n }$ , což jsou realizace náhodných proměnných $( Y i , X i 1 , ..., X ip )$ , je napsána regresní rovnice

{\ displaystyle y_ {i} = a_ {0} + a_ {1} x_ {i1} + \ ldots + a_ {p} x_ {ip} + \ varepsilon _ {i} \ qquad i = 1, \ ldots, n \,}

Problém zůstává stejný jako u jednoduché regrese:

odhadnout parametry $a 0 , a 1 , ..., a p$ pomocí pozorování;
vyhodnotit přesnost těchto odhadů;
změřit vysvětlující sílu modelu;
vyhodnotit vliv proměnných v modelu:
- globálně ( proměnné p v bloku) a,
- jednotlivě (každá proměnná);
vyhodnotit kvalitu modelu během predikce (interval predikce);
detekovat pozorování, která mohou mít nadměrný vliv na výsledky (atypické body).

Maticová notace

Lze přijmout zkrácené psaní, které usnadňuje čtení a manipulaci s tímto celkem. Následující rovnice

{\ displaystyle {\ begin {cases} y_ {1} = a_ {0} + a_ {1} x_ {1,1} + \ ldots + a_ {p} x_ {1, p} + \ varepsilon _ {1} \\ y_ {2} = a_ {0} + a_ {1} x_ {2,1} + \ ldots + a_ {p} x_ {2, p} + \ varepsilon _ {2} \\\ cdots \\ y_ {n} = a_ {0} + a_ {1} x_ {n, 1} + \ ldots + a_ {p} x_ {n, p} + \ varepsilon _ {n} \ end {cases}}}

lze shrnout pomocí maticového zápisu

{\ displaystyle {\ begin {pmatrix} y_ {1} \\\ vdots \\ y_ {n} \ end {pmatrix}} = {\ begin {pmatrix} 1 & x_ {1,1} & \ cdots & x_ { 1, p} \\\ vdots & \ vdots & \ ddots & \ vdots \\ 1 & x_ {n, 1} & \ cdots & x_ {n, p} \ end {pmatrix}} {\ begin {pmatrix} a_ {0} \\ a_ {1} \\\ vdots \\ a_ {p} \\\ end {pmatrix}} + {\ begin {pmatrix} \ varepsilon _ {1} \\\ vdots \\\ varepsilon _ { n} \\\ end {pmatrix}}}

Kompaktně:

{\ displaystyle y = Xa + \ varepsilon \,}

y má rozměr ( n , 1)
X má rozměr ( n , p +1)
a má rozměr ( p +1, 1)
$ε$ má rozměr ( n , 1)

První sloupec matice $X se$ používá k označení, že regrese se provádí s konstantou (zde ). ${\ displaystyle a_ {0}}$

Hypotézy

Stejně jako v jednoduché regresi předpoklady umožňují určit: vlastnosti odhadů (zkreslení, konvergence); a jejich distribuční zákony (pro intervalové odhady a testování hypotéz).

Existují hlavně dvě kategorie předpokladů:

Stochastické předpoklady

H 1 : The X j jsou určeny bez chyb, j = 1, ..., p ;
H 2 : Model je v průměru dobře specifikován; ${\ displaystyle \ mathbb {E} (\ varepsilon _ {i}) = 0 \,}$
H 3 : Homoscedasticita chyb (konstantní rozptyl) ${\ displaystyle {\ text {Var}} (\ varepsilon _ {i}) = \ sigma ^ {2} \ \ forall {i} \,}$
H 4 : Žádná autokorelace chyb. ${\ displaystyle \ mathrm {cov} (\ varepsilon _ {i}, \ varepsilon _ {j}) = 0 \ \ forall {i \ neq j} \,}$
H 5 : Chyby jsou lineárně nezávislé na exogenních proměnných. ${\ displaystyle \ mathrm {cov} (X_ {i}, \ varepsilon _ {j}) = 0 \ \ forall {i \ neq j} \,}$
H 6 : Chyby se řídí vícerozměrným normálním zákonem (H 6 implikuje hypotézy H 2 , H 3 a H 4 , přičemž konverzace je nepravdivá, protože tři kombinované hypotézy neznamenají, že $ε$ je gaussovský vektor). ${\ displaystyle \ varepsilon \ sim {\ mathcal {N}} _ {n} (0, \ sigma ^ {2} I_ {n}) \,}$

Strukturální předpoklady

H 7 : absence kolinearity mezi vysvětlujícími proměnnými, tj. X T X je pravidelná, existuje det ( X T X ) ≠ 0 a ( X T X ) −1 (poznámka: odpovídá ekvivalentu rank ( X ) = rank ( X T X ) = p + 1);
H 8 : má sklon ke konečné nesonsulární matici Q, když n → + ∞; ${\ displaystyle {\ frac {1} {n}} X ^ {T} X}$
H 9 : Počet pozorování je větší než počet proměnných + 1 (konstanta). Pokud by existovala rovnost, počet rovnic by se rovnal počtu neznámých a j , regresní přímka by prošla všemi body, čelili bychom problému lineární interpolace (viz Numerická interpolace ). ${\ displaystyle n> p + 1 \,}$

Maticové psaní hypotézy H 6

${\ displaystyle \ mathrm {H_ {2}:} \ mathbb {E} (\ varepsilon) = \ mathbb {E} {\ begin {pmatrix} \ varepsilon _ {1} \\\ vdots \\\ varepsilon _ {n } \ end {pmatrix}} = {\ begin {pmatrix} 0 \\\ vdots \\ 0 \ end {pmatrix}}}$

Za předpokladu homoscedasticity a absence autokorelace lze napsat variance-kovarianční matici chybového vektoru:

${\ displaystyle \ mathrm {H_ {3} \ {\ mbox {et}} \ H_ {4}:} \ \ mathrm {cov} (\ varepsilon) = \ sigma ^ {2} I_ {n} = \ sigma ^ {2} {\ begin {pmatrix} 1 & 0 & \ cdots & 0 \\ 0 & 1 & \ cdots & 0 \\\ vdots && \ ddots & \ vdots \\ 0 & \ cdots & \ cdots & 1 \ end {pmatrix}} = {\ begin {pmatrix} \ sigma ^ {2} & 0 & \ cdots & 0 \\ 0 & \ sigma ^ {2} & \ cdots & 0 \\\ vdots && \ ddots & \ vdots \ \ 0 & \ cdots & \ cdots & \ sigma ^ {2} \ end {pmatrix}}}$

V některých případech je hypotéza (H 1 ) neudržitelná: předpokládá se, že X regresory jsou náhodné. Ale v tomto případě předpokládáme, že X je náhodné, ale je nezávislé na náhodném $ε$ . Poté nahradíme hypotézu (H 2 ) hypotézou o podmíněném očekávání :

{\ displaystyle \ mathrm {H_ {2}:} \ mathbb {E} (\ varepsilon _ {i} \ mid X) = 0 \,}

Podobně by měly být odpovídajícím způsobem změněny předpoklady (H 3 ), (H 4 ) a také (H 5 ).

Obyčejná metoda nejmenších čtverců

Obyčejný odhadce nejmenších čtverců

Z kompletního modelu:

{\ displaystyle y_ {i} = a_ {0} + a_ {1} x_ {i, 1} + \ cdots + a_ {p} x_ {i, p} + \ epsilon _ {i} \,}

Odhadneme parametry a získáme:

{\ displaystyle {\ hat {y_ {i}}} = {\ hat {a}} _ {0} + {\ hat {a}} _ {1} x_ {i, 1} + \ cdots + {\ hat {a}} _ {p} {x} _ {i, p} \,}

Odhadované rezidua jsou rozdíl mezi pozorovanou a odhadovanou hodnotou y . Je :

Definice - ${\ displaystyle {\ hat {\ epsilon}} _ {i} \ equiv y_ {i} - {\ hat {y}} _ {i} \,}$

Princip nejmenších čtverců spočívá v nalezení hodnot parametrů, které minimalizují součet čtverců zbytků.

{\ displaystyle \ min \ sum _ {i = 1} ^ {n} {\ hat {\ epsilon}} _ {i} ^ {2} = \ min _ {{\ hat {a}} _ {0}, ., {\ hat {a}} _ {p}} \ sum _ {i = 1} ^ {n} (y_ {i} - {\ hat {a}} _ {0} - {\ hat {a} } _ {1} x_ {i, 1} - \ cdots - {\ hat {a}} _ {p} x_ {i, p}) ^ {2}}

Což znamená hledat řešení . Máme k řešení rovnice j = p + 1, řekněme normální rovnice . ${\ displaystyle {\ frac {\ částečné (\ sum {\ hat {\ epsilon}} _ {i} ^ {2})} {\ částečné {\ hat {a}} _ {j}}} = 0 \, }$

Získané řešení je obyčejný odhadce nejmenších čtverců, píše se:

Věta - je odhad, který minimalizuje součet čtverců zbytků. ${\ displaystyle {\ hat {a}} = (X ^ {T} X) ^ {- 1} X ^ {T} Y \ qquad \,}$

X T

transponovat z X Demonstrace

${\ displaystyle {\ frac {\ částečné (\ sum {\ hat {\ epsilon}} _ {i} ^ {2})} {\ částečné {\ hat {a}} _ {j}}} = 0}$
Předáním derivačního operátoru v součtu máme : ${\ displaystyle \ forall {j = 0, \ cdots, p}}$

${\ displaystyle \ sum _ {i = 1} ^ {n} x_ {i, j} (y_ {i} - {\ hat {a}} _ {0} - {\ hat {a}} _ {1} x_ {i, 1} - \ cdots - {\ hat {a}} _ {p} x_ {i, p}) = 0}$

Pak stačí napsat tento poslední vztah ve vektorové podobě:

${\ displaystyle X ^ {T} (YX {\ hat {a}}) = 0 \ Longrightarrow {\ hat {a}} = (X ^ {T} X) ^ {- 1} X ^ {T} Y}$

Poznámky:

Proč minimalizovat součet čtverců spíše než prostý součet? To je z části proto, že průměr těchto zbytků bude 0, a proto budeme mít kladné a záporné zbytky. Jednoduchá suma by je zrušila, což není případ čtverců.
v případě, že x j jsou soustředěny, $1 / n ( X T X )$ odpovídá variance-kovarianční matice exogenních proměnných; pokud jsou centrovány a redukovány, $1 / n ( X T X )$ odpovídá korelační matici.

Geometrická, algebraická a statistická interpretace odhadu OLS (Obyčejné nejmenší čtverce)

Tyto MCO Estimátor odpovídá ortogonální projekce vektoru Y prostoru vytvořeného vektoru X .
MCO odhad odpovídá generalizované inverzní matice systému $Y = Xa$ nastavit na zvýraznění. Ve skutečnosti, pokud se vynásobíme nalevo generalizovanou inverzí, máme: ${\ displaystyle (X ^ {T} X) ^ {- 1} X ^ {T}}$

{\ displaystyle (X ^ {T} X) ^ {- 1} X ^ {T} Y = (X ^ {T} X) ^ {- 1} X ^ {T} Xa = a}

Odhad OLS je totožný s odhadcem získaným principem maximální pravděpodobnosti .

Vlastnosti odhadců

Při dodržení počátečních předpokladů má odhad OLS vynikající vlastnosti.

Vlastnosti v hotových vzorcích

Vlastnost - odhad OLS je nestranný , tj. , za předpokladů H 1 , H 2 , H 5 . ${\ displaystyle \ mathbb {E} ({\ hat {a}}) = a}$

Důkaz

${\ displaystyle {\ begin {aligned} \ mathbb {E} [{\ hat {a}}] & = \ operatorname {E} \ left [(X ^ {T} X) ^ {- 1} X ^ {T } Y \ right] \\ & = \ mathbb {E} \ left [a + (X ^ {T} X) ^ {- 1} X ^ {T} \ varepsilon \ right] \\ & = a + (X ^ {T} X) ^ {- 1} X ^ {T} \ mathbb {E} [\ varepsilon] \ qquad {\ text {under}} H_ {1} {\ text {a}} H_ {5} \ \ & = a + 0 \ qquad \ qquad \ qquad \ qquad {\ text {under}} H_ {2} \\ & = a \ end {zarovnáno}}}$

Tato vlastnost je založena pouze na předpokladech nulového očekávání zbytků. Přítomnost autokorelace nebo heteroskedasticity nemá na tento výsledek vliv.

Vlastnost - OLS odhadce je nejlepší nezaujatý lineární odhad, za předpokladu H 1 až H 5 .

To znamená, že neexistuje žádný objektivní lineární odhadce , který má menší rozptyl. Tato vlastnost v angličtině je označena MODRÝM, pro nejlepší lineární nezaujatý odhad . Důkaz je dán Gauss-Markovovou větou .

Vlastnost - Odhad OLS je distribuován podle normálního rozdělení za předpokladů H 1 , H 2 a H 6 . ${\ displaystyle {\ hat {a}} \ sim {\ mathcal {N}} (a, \ sigma ^ {2} (X ^ {T} X) ^ {- 1})}$

Asymptotické vlastnosti

Vlastnost - OLS odhad je konvergentní v pravděpodobnosti , tj. , podle hypotéz H 6 a H 8 . ${\ displaystyle {\ hat {a}} {\ xrightarrow {p}} a}$

Důkaz

Přepíšeme: ${\ displaystyle {\ hat {a}} = a + \ left ({\ frac {(X ^ {T} X)} {n}} \ right) ^ {- 1} {\ frac {X '\ varepsilon} {not}}}$

Zvažte limit pravděpodobnosti: ${\ displaystyle \ operatorname {plim} \, {\ hat {a}} = a + \ operatorname {plim} \ left (\ left ({\ frac {(X ^ {T} X)} {n}} \ right ) ^ {- 1} {\ frac {X ^ {T} \ varepsilon} {n}} \ vpravo)}$
Protože jsme vytvořili hypotézu H 8, která má sklon k pozitivní konečné matici $Q$ , limit se stává: ${\ displaystyle {\ frac {X ^ {T} X} {n}}}$

{\ displaystyle \ operatorname {plim} \, {\ hat {a}} = a + Q ^ {- 1} \ operatorname {plim} \ vlevo ({\ frac {X ^ {T} \ varepsilon} {n}} \ že jo)}

Poté zbývá studovat chování . Pod hypotézou H 6 (nebo spíše v restriktivnější formě ) můžeme ukázat, že její očekávání je nulové a že její rozptyl inklinuje asymptoticky k 0, což znamená, že konverguje v kvadratickém průměru k 0, a proto qu 'konverguje pravděpodobně 0. ${\ displaystyle {\ frac {X ^ {T} \ varepsilon} {n}}}$ ${\ displaystyle \ mathbb {E} [x_ {i} \ varepsilon _ {i}] = 0}$
Takže konečně máme:

{\ displaystyle \ operatorname {plim} \, {\ hat {a}} = a + Q ^ {- 1} \ cdot 0 = a}

Vlastnost - odhad OLS asymptoticky sleduje normální rozdělení za předpokladů H 1 až H 5 a H 8 . ${\ displaystyle {\ hat {a}} \ sim {\ mathcal {N}} (a, {\ frac {\ sigma ^ {2} Q ^ {- 1}} {n}})}$

Tento výsledek je získán bez předpokladu normality reziduí (H 6 ).

Hodnocení

Při provádění odhadů intervalů a testů hypotéz je přístup v parametrické statistice téměř vždy stejný:

definujte odhad ( v našem případě â );
vypočítat jeho matematické očekávání (zde E ( â ) = a );
vypočítat jeho rozptyl (nebo jeho rozptyl kovarianční matici) a vytvořit jeho odhad;
a nakonec určit jeho zákon rozdělení (obecně a za nulové hypotézy testů).

Variačně-kovarianční matice koeficientů

Rozptyl-kovarianční matice koeficientů je důležité, protože poskytuje informace o rozptylu každé odhaduje koeficientem, a umožňuje hypotéz testy, které mají být provedeny , zejména aby zjistil, zda každý koeficient je významně odlišné od nuly. Je definován:

{\ displaystyle \ operatorname {Var} ({\ hat {a}}) \ equiv \ Sigma = \ operatorname {E} [({\ hat {a}} - a) ({\ hat {a}} - a) ^ {T}]}

Za předpokladu nulového očekávání, absence autokorelace a homoscedasticity reziduí (H 1 až H 5 ) máme:

{\ displaystyle \ operatorname {Var} ({\ hat {a}}) = \ sigma ^ {2} (X'X) ^ {- 1}}

Důkaz

přepsáním : , dostaneme, že: ${\ displaystyle {\ hat {a}} = a + (X ^ {T} X) ^ {- 1} X ^ {T} \ varepsilon}$

${\ displaystyle {\ begin {aligned} \ operatorname {Var} [{\ hat {a}}] & = \ operatorname {Var} \ left [(X ^ {T} X) ^ {- 1} X ^ {T } \ varepsilon \ right] \\ & = (X ^ {T} X) ^ {- 1} X ^ {T} \ operatorname {Var} [\ varepsilon] X (X ^ {T} X) ^ {- 1 } \\ & = (X ^ {T} X) ^ {- 1} X ^ {T} \ sigma ^ {2} IX (X ^ {T} X) ^ {- 1} \ qquad {\ text {pod }} H_ {3} {\ text {et}} H_ {4} \\ & = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} X ^ {T} X (X ^ { T} X) ^ {- 1} \\ & = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} \ end {zarovnáno}}}$

Tento vzorec však platí pouze v případě, že rezidua jsou homoscedastická a bez autokorelace, což umožňuje zapsat matici chyb jako:

{\ displaystyle {\ textrm {Cov}} [\ varepsilon] = \ sigma ^ {2} I_ {n} \,}

Pokud existuje heteroskedasticita nebo autokorelace, a proto je možné opravit odhadovanou variance-kovarianční matici pomocí: ${\ displaystyle {\ textrm {Cov}} [\ varepsilon] \ neq \ sigma ^ {2} I_ {n}}$

Whiteova variančně-kovarianční matice (nebo Eicker-White (1967, 1980)), konzistentní v případě heteroskedasticity (v angličtině HC pro Heteroskedasticity Consistent ).
Newey-West (1987) variance-kovarianční matice, konzistentní v případě heteroskedasticity a autokorelace (HAC pro Heteroskedasticity a Autocorrelation Consistent ).

Odhad rozptylu zbytku

Pro rozptyl zbytku může použít odhad bez zkreslení vytvořeného ze zjištěné rozptylu zbytků: ${\ displaystyle \ sigma ^ {2} \ equiv \ operatorname {Var} [\ varepsilon]}$

{\ displaystyle s ^ {2} \ equiv {\ hat {\ sigma}} ^ {2} = {\ frac {1} {np-1}} \ sum _ {i = 1} ^ {N} {\ hat {\ varepsilon}} _ {i} ^ {2}}

Tyto zbytky zápas pozorováno: . ${\ displaystyle {\ hat {\ varepsilon}}}$ ${\ displaystyle {\ hat {\ varepsilon}} = Y - {\ hat {Y}}}$

U klasického odhadce odchylky si všimneme dvou věcí :

{\ displaystyle s_ {n-1} ^ {2} \ equiv {\ hat {\ sigma}} ^ {2} = {\ frac {1} {n-1}} \ sum _ {i = 1} ^ { n} \ left (y_ {i} - {\ overline {y}} \ right) ^ {2}}

nezahrnujeme očekávání zbytků, protože se předpokládá, že je nula (v závislosti na ). Důležité je, že zbytky modelu mají přesně nulovou střední hodnotu, když je do modelu zavedena konstanta. ${\ displaystyle H_ {2}}$
Součet čtverců se dělí n - p - 1 = n - ( p + 1), nikoli n-1 . Ve skutečnosti n - p -1 odpovídá stupňům volnosti modelu (počet pozorování minus počet odhadovaných koeficientů). To si vlastně všimneme . ${\ displaystyle \ operatorname {E} ({\ hat {\ varepsilon}} '{\ hat {\ varepsilon}}) = \ sigma ^ {2} (np-1)}$

Existuje také další odhad, získaný metodou maximální věrohodnosti , který je však zaujatý:

{\ displaystyle s ^ {2} \ equiv {\ hat {\ sigma}} ^ {2} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {N} {\ hat {\ varepsilon}} _ {i} ^ {2}}

Odhad variance-kovarianční matice koeficientů

Jen nahradit teoretické rozptyl reziduí, $å 2$ jeho odhadu bez použití nejmenších čtverců: ${\ displaystyle s ^ {2} \ equiv {\ hat {\ sigma}} ^ {2} = {\ frac {1} {np-1}} \ sum _ {i = 1} ^ {N} {\ hat {\ varepsilon}} _ {i} ^ {2}}$

Odhad variance-kovarianční matice reziduí se stává:

{\ displaystyle {\ widehat {\ operatorname {Var}}} [{\ hat {a}}] \ equiv {\ hat {\ Sigma}} _ {\ hat {a}} = {\ hat {\ sigma}} ^ {2} (X ^ {T} X) ^ {- 1}}

Odhadovaný rozptyl odhadu parametru j je přečíst na hlavní diagonále této matice. ${\ displaystyle {\ hat {\ sigma}} _ {{\ hat {a}} _ {j}} ^ {2}}$

Studium koeficientů

Poté, co jsme získali odhad, jeho očekávání a odhad jeho rozptylu, zbývá jen vypočítat jeho zákon rozdělení, vytvořit odhad podle intervalu a provést testy hypotéz.

Rozdělení

Počínaje hypotézou

{\ displaystyle \ epsilon _ {i} \ sim {\ mathcal {N}} (0, \ sigma ^ {2}) \,}

můžeme ukázat

${\ displaystyle {\ frac {{\ hat {a}} _ {j} -a_ {j}} {\ sigma _ {{\ hat {a}} _ {j}}}} \ sim {\ mathcal {N }} (0,1)}$
${\ displaystyle (np-1) {\ frac {{\ hat {\ sigma}} _ {{\ hat {a}} _ {j}} ^ {2}} {\ sigma _ {{\ hat {a} } _ {j}} ^ {2}}} \ sim \ chi _ {np-1} ^ {2}}$

Poměr normálního zákona a druhá odmocnina zákona χ² normalizovaného podle jeho stupňů volnosti vede k Studentovu zákonu . Statistiku tedy odvodíme:

{\ displaystyle t = {\ frac {{\ hat {a}} _ {j} -a_ {j}} {{\ hat {\ sigma}} _ {{\ hat {a}} _ {j}}} } \ sim \ mathrm {T} (np-1)}

řídí se studentským zákonem s ( n - p - 1) stupni volnosti.

Interval spolehlivosti a testování hypotéz

Z těchto informací je možné vypočítat intervaly spolehlivosti odhadů koeficientů.

Je také možné provádět testy hypotéz , zejména zkoušky hypotéz shody s normou. Mezi různými možnými testy hraje zvláštní roli test neplatnosti koeficientu (H 0 : a j = 0, proti H 1 : a j ≠ 0): umožňuje určit, zda proměnná x j hraje a významnou roli v modelu. S tímto testem však musíte být opatrní. Přijetí nulové hypotézy může skutečně naznačovat absenci korelace mezi inkriminovanou proměnnou a endogenní proměnnou; ale také může být výsledkem silné korelace x j s jiným exogenní proměnnou, jeho úloha je maskována v tomto případě, což naznačuje absenci vysvětlení na straně proměnné.

Celkové hodnocení regrese - analýza tabulky odchylek

Analýza rozptylové tabulky a koeficientu stanovení

Celkové vyhodnocení relevance predikčního modelu je založeno na analýze rozptylové rovnice SCT = SCE + SCR , kde

SCT , součet celkových čtverců, odráží celkovou variabilitu endogenního;
SCE , vysvětlený součet čtverců, odráží variabilitu vysvětlenou modelem;
SCR , součet zbytkových čtverců odpovídá variabilitě nevysvětlené modelem.

Všechny tyto informace jsou shrnuty v tabulce Analýza tabulky odchylek .

Zdroj obměny	Součet čtverců	Stupně svobody	Střední čtverce
Vysvětlil	${\ displaystyle SCE = \ sum _ {i} ({\ hat {y}} _ {i} - {\ bar {y}}) ^ {2}}$	$p$	${\ displaystyle CME = {\ frac {SCE} {p}}}$
Reziduální	${\ displaystyle SCR = \ součet _ {i} (y_ {i} - {\ hat {y}} _ {i}) ^ {2}}$	$n - p - 1$	${\ displaystyle CMR = {\ frac {SCR} {np-1}}}$
Celkový	${\ displaystyle SCT = \ suma _ {i} (y_ {i} - {\ bar {y}}) ^ {2}}$	$n - 1$

V nejlepším případě, SCR = 0, model dokáže předpovědět přesně všechny hodnoty y z hodnot x j . V nejhorším případě SCE = 0 je nejlepším prediktorem y jeho průměr y .

Specifický indikátor umožňuje převést rozptyl vysvětlený modelem, jedná se o koeficient determinace . Jeho vzorec je následující:

{\ displaystyle R ^ {2} = {\ frac {SCR} {SCT}} = 1 - {\ frac {SCE} {SCT}} \,}

${\ displaystyle R = {\ sqrt {R ^ {2}}} \,}$ je vícenásobný korelační koeficient .

V regresi s konstantou to nutně máme

{\ displaystyle 0 \ leqslant R ^ {2} \ leqslant 1}

A konečně, pokud je $R 2$ určitě relevantním indikátorem, představuje někdy nepříjemnou vadu, má tendenci se mechanicky zvyšovat, když se do modelu přidávají proměnné. Proto je nefunkční, pokud chceme porovnávat modely obsahující různý počet proměnných. V tomto případě je vhodné použít upravený koeficient determinace, který je korigován na stupně volnosti. Upravena $R 2$ je vždy nižší, než je $R 2$ .

Globální význam modelu

$R 2$ je jednoduchý ukazatel, je snadné pochopit, že čím více se blíží hodnotě 1, tím více zajímavý model. Na druhou stranu to neumožňuje zjistit, zda je model statisticky relevantní pro vysvětlení hodnot y .

Musíme se obrátit na testování hypotéz, abychom zkontrolovali, zda spojení zobrazené s regresí není jednoduchým artefaktem.

Formulace testu hypotézy, která umožňuje globálně vyhodnotit model, je následující:

H 0 : a 1 = a 2 =… = a p = 0;
H 1 : alespoň jeden z koeficientů je nenulový.

Statistiky určené k tomuto testu jsou založeny (mezi různými možnými prostředky) na $R 2$ , je psáno:

{\ displaystyle F_ {calc} = {\ frac {\ frac {R ^ {2}} {p}} {\ frac {1-R ^ {2}} {np-1}}}}

a řídí se Fisherovým zákonem s ( p , n - p - 1) stupni volnosti.

Kritická oblast testu je tedy: odmítnutí H 0 právě tehdy, když F calc > F 1 - α ( p , n - p - 1), kde α je riziko prvního druhu.

Dalším způsobem, jak přečíst test, je porovnat p -hodnotu (kritická pravděpodobnost testu) s α: pokud je nižší, je nulová hypotéza odmítnuta.

Regrese časových řad

Regrese časových řad , to znamená proměnných indexovaných podle času, může představovat problémy, zejména kvůli přítomnosti autokorelace v proměnných, a tedy i ve zbytcích. V extrémních případech (když proměnné nejsou stacionární ) skončíme s případem falešné regrese : proměnné, které mezi sebou nemají žádný vztah, se podle klasických testů přesto významně propojují.

Regrese časových řad proto v některých případech vyžaduje použití dalších regresních modelů, jako jsou autoregresní vektorové modely (VAR) nebo modely korekce chyb (VECM).

Podívejte se také

Reference

Régis Bourbonnais, Ekonometrie , Dunod, 1998 ( ISBN 2100038605 )
Yadolah Dodge a Valentin Rousson, Applied Regression Analysis , Dunod, 2004 ( ISBN 2100486594 )
R. Giraud, N. Chaix, Econometrics , Puf, 1994
C. Labrousse, Úvod do ekonometrie - Mistr ekonometrie , Dunod, 1983
J. Confais, M. Le Guen, První kroky v lineární regresi , La Revue Modulad, N ° 35, 2006, pp220–363,

Poznámky a odkazy

J. Confais, M. Le Guen, " Premiers pas en regrese Linéaire ", La Revue Modulad , n o 35 ° C,2006( číst online )

Související články

Software

Free Statistics , portál se seznamem několika bezplatných statistických programů pro open source, z nichž některé se zabývají vícenásobnou lineární regresí.
( fr ) Lineární algebra Spuštění regresí v Matlabu pomocí lineární algebry.
R , komplexní statistický a datový analytický software s licencí GNU General Public license.
Regress32 , software určený pro vícenásobnou lineární regresi.
RLM , bezplatný software pro provádění několika lineárních regresí.
Svobodný software SIMUL 3.2 pro vícerozměrné ekonometrické modelování (víceodvětvové, víceregionální) [1] .
Tanagra , statistický software a software pro analýzu dat, včetně regresního modulu.