Model strukturních rovnic

Modelování strukturálních rovnic nebo modelování strukturálními rovnicemi nebo modelování strukturálními rovnicemi (v angličtině strukturální rovnice modelování nebo SEM) označuje různorodou sadu matematických modelů, počítačových algoritmů a statistických metod, díky nimž odpovídá síť pojmů datům. Mluvíme pak o modelech využívajících strukturální rovnice nebo o modelech využívajících strukturální rovnice nebo dokonce modely strukturních rovnic.

SEM je často užitečný ve společenských vědách, protože umožňuje analýzu vztahů mezi pozorovanými proměnnými a nepozorovanými proměnnými ( latentní proměnné ). V oblasti vědy, obchodu, vzdělávání a dalších oborů byly použity různé metody modelování strukturálních rovnic.

Dějiny

Modelování pomocí strukturních rovnic nebo modelování pomocí strukturních rovnic nebo modelů strukturních rovnic nebo modelů strukturních rovnic, podmínky v současné době používají v sociologii, psychologii a dalších společenských věd se vyvinuly z metod genetického modelování dráhy podle Sewall Wright . Moderní formy byly možné díky významným implementacím počítačů implementovaných v 60. a 70. letech. SEM se vyvinul třemi různými cestami:

  1. metody regrese ( systémy rovnic regrese ) vyvinuté hlavně v Cowlesově komisi  ;
  2. iterační algoritmy založené na principech maximální věrohodnosti v oblasti analýzy strukturních vztahů ( analýza dráhy ) vyvinuté hlavně Karlem Gustavem Jöreskogem ze vzdělávací testovací služby a později na univerzitě v Uppsale  ;
  3. iterační algoritmy založené na metodě nejmenších čtverců také vyvinuté pro analýzu strukturálních vztahů ( analýza dráhy ) na univerzitě v Uppsale od Hermana Wolda .

Velká část tohoto rozvoje se konala v době, kdy byly tyto výpočty byly automatizované, nahrazovat používání kalkulátoru a analogové metody výpočtu, samotných produktů z inovací na konci XIX th  století.

Dva software LISREL a PLS-PA byly navrženy jako iterativní počítačové algoritmy, jejichž tvorba byla spojena s touhou nabídnout rozhraní pro zadávání dat, grafiku a rozšíření Wrigthovy metody (1921). V počátcích Cowlesova komise také pracovala na rovnicích založených na algoritmech Koopmana a Hooda (1953) zabývajících se ekonomikou dopravy a problémy s  optimálním směrováním a odhadem maximální pravděpodobnosti a algebraickými výpočty. Uzavřeno, protože výzkum iteračních řešení byl omezen před počítači.

Anderson a Rubin (1949, 1950) vyvinuli odhad maximální pravděpodobnosti pro omezené informace, který nepřímo zahrnoval dvě fáze metody nejmenších čtverců (Anderson, 2005; Farebrother, 1999). Dvoustupňovou metodu nejmenších čtverců, původně navrženou jako metodu pro odhad parametrů jedné strukturní rovnice v lineárním systému simultánních rovnic, zavádí Theil (1953a, 1953b, 1961) a více či méně nezávisle Basmann (1957 ) a Sargan (1958). Z těchto metod byla dvoustupňová metoda nejmenších čtverců zdaleka nejpoužívanější metodou v 60. a na začátku 70. let.

Systémy regresních rovnic byly vyvinuty v Cowlesově komisi v padesátých letech minulého století a za účelem jejich zlepšení byly použity dopravní modely Tjalling Koopmans . Sewall Wright a další statistici se pokusili propagovat metodu tzv. „  Analýzy cest  “ na Cowles (tehdy na University of Chicago ). Na University of Chicago statistici zjistili mnoho nedostatků v metodách použití těchto analýz. Tyto nedostatky nepředstavovaly zásadní problémy pro identifikaci přenosových genů v kontextu Wrighta, ale způsobily, že metody PLS-PA a LISREL byly v oblasti společenských věd problematické . Freedman (1987) shrnul tyto námitky: „Neschopnost rozlišovat mezi kauzálními předpoklady, statistickými implikacemi a politickými tvrzeními byla jednou z hlavních příčin podezření a zmatku kolem kvantitativních metod ve vědě. Sociální“ (viz také Woldova odpověď v roce 1987). Wrightova analýza nebyla nikdy široce následována americkými ekonometry, ale úspěšně ovlivnila Hermanna Wolda a jeho žáka Karla Jöresköga. Jöreskögova studentka Claes Fornell představila LISREL do Spojených států.

Pokroky v počítačích rozšířily použití metod strukturálních rovnic na velké, složité a nestrukturované datové sady. Nejoblíbenější technická řešení spadají do tří tříd algoritmů:

  1. obyčejné nejmenší čtverce aplikované samostatně pro každou iteraci (software PLS);
  2. kovarianční analýza inspirovaná prací Wolda a Jöreskoga (software LISREL, AMOS a EQS);
  3. simultánní regrese, kterou vyvinul Tjalling Koopmans v komisi Cowles.

Pearl obohacuje SEM tím, že na ně používá neparametrické modely a navrhuje kauzální a srovnávací interpretace rovnic. Například vyloučení proměnné z argumentů rovnice znamená, že závislá proměnná je nezávislá na změnách ve vyloučené proměnné, ostatní argumenty zůstávají konstantní. Neparametrické SEM umožňují odhadnout celkové, přímé a nepřímé účinky, aniž by se zavazovaly k formě rovnic nebo distribuci chybových výrazů. To obohacuje analýzu zprostředkování na systémy, které mají kategorické proměnné v přítomnosti nelineárních interakcí. Bollen a Pearl zkoumají historii kauzální interpretace SEM a proč se stala zdrojem zmatku a kontroverze.

Obecný přístup k SEM

Ačkoli je každá technika SEM odlišná, jsou zde uvedeny aspekty společné různým metodám SEM.

Složení modelu

V SEM se rozlišují dvě hlavní složky: strukturální model si klade za cíl zdůraznit možné kauzální závislosti mezi endogenními a exogenními proměnnými; a model měření ukazující vztahy mezi latentními proměnnými a jejich indikátory. Modely faktorové analýzy (ať už průzkumné nebo konfirmační) obsahují pouze měřicí část, zatímco diagramy strukturální cesty obsahují pouze konstrukční část.

Při určování modelu tras ( cest ) může modelář způsobit dva typy vztahů:

Modelář často specifikuje sadu teoreticky věrohodných modelů, aby mohl posoudit, zda je navrhovaný model nejlepší ze série možných modelů. Musí brát v úvahu nejen teoretické důvody konstrukce modelu, ale také musí brát v úvahu počet datových bodů a počet parametrů, které musí model odhadnout, aby identifikoval model. Identifikovaný vzor je takový, kde k určení vzoru postačuje hodnota konkrétního parametru a žádná jiná ekvivalentní formulace nemůže být dána žádnou jinou hodnotou parametru. Datový bod je proměnná, kde jsou sledována skóre, například proměnná obsahující skóre u otázky. Parametr je hodnota zájmu modeláře. Může to být regresní koeficient mezi exogenní proměnnou a endogenní proměnnou; může to být váha faktoru (regresní koeficient mezi indikátorem a jeho faktorem). Pokud existuje méně datových bodů než počet odhadovaných parametrů, je výsledný model „neidentifikovaný“, protože existuje příliš málo referenčních hodnot, aby bylo možné zohlednit všechny varianty modelu. Řešením je omezit jednu z cest na nulu, což znamená, že již není součástí modelu.

Zdarma odhad parametrů

Odhad parametrů se provádí porovnáním skutečných kovariančních matic zobrazujících vztahy mezi proměnnými a kovariančními maticemi odhadovanými nejlepším modelem. Toto srovnání je získáno kritériem úpravy vypočítaným na základě několika odhadů: odhad maximální pravděpodobnosti , odhad kvazimaximální pravděpodobnosti, odhad vážených nejmenších čtverců nebo metody pro asymptotické distribuce a volné distribuce. Výpočet provádějí specializované programy SEM.

Model a posouzení vhodnosti modelu

Po odhadu modelu chtějí analytici model interpretovat. Odhadované struktury (nebo cesty) lze tabulkovat a / nebo prezentovat graficky ve formě iteračního strukturálního modelu ( modelu cesty ). Dopad proměnných se hodnotí pomocí pravidel trasování cest .

Je důležité prozkoumat vhodnost odhadovaného modelu a určit, zda dobře modeluje data. Toto je základní úkol v modelování SEM: rozhodování o základu pro přijetí nebo odmítnutí modelů a obecněji přijetí jednoho konkurenčního modelu nad druhým. Výstup programů SEM zahrnuje matice odhadování vztahů mezi proměnnými v modelu. Vyhodnocování dobroty spočívá ve výpočtu toho, jak podobné jsou predikované údaje maticím obsahujícím vztahy mezi skutečnými daty.

Pro tento účel byly vyvinuty statistické testy a indexy shody. Jednotlivé parametry modelu lze také zkoumat v odhadovaném modelu a zjistit, jak navrhovaný model odpovídá teorii, která model řídí. Většina metod odhadu umožňuje provést takový odhad.

Stejně jako ve všech statistikách založených na testování hypotéz je modelové testování modelu SEM založeno na předpokladu, že jsou použita relevantní, správná a úplná data. V literatuře SEM diskuse o fit vedly k řadě doporučení týkajících se přesné aplikace různých indexových fitů a testů hypotéz.

K posouzení způsobilosti existují různé přístupy. Tradiční přístupy vycházejí z nulové hypotézy a upřednostňují šetrné modely (ty s méně volnými parametry). Protože různé míry přizpůsobení zachycují různé prvky přizpůsobení modelu, měl by být ve výsledcích uveden výběr různých opatření přizpůsobení. Osvědčené postupy (aplikace skóre rozhodnutí, mezní skóre ) pro interpretaci vhodných opatření, včetně těch, které jsou uvedeny níže, jsou předmětem mnoha debat mezi výzkumníky SEM.

Mezi nejpoužívanější přizpůsobovací opatření patří:

U každé míry přizpůsobení musí rozhodování o tom, co je dostatečně dobré přizpůsobení mezi modelem a údaji, brát v úvahu další kontextové faktory: velikost vzorku, poměr indikátorů k faktorům a obecná složitost modelu. Například díky velmi velkým vzorkům je chí kvadrát příliš citlivý a pravděpodobněji indikuje nedostatek přizpůsobení modelu datům.

Modifikace modelu

Možná bude nutné model upravit, aby se zlepšilo přizpůsobení a tím nejpravděpodobnější odhad vztahů mezi proměnnými. Mnoho programů nabízí rady ke změnám, které mohou vést drobné změny. Modifikační indexy označují změnu χ 2, která uvolní pevné parametry. Obvykle to vede k otevření iterace ( cesty ) v modelu, který ji nastaví na nulu. Změny, které zlepšují přizpůsobení modelu, lze označit jako potenciální změny, které lze v modelu provést. Změny provedené v modelu jsou teoretické změny. Proto musí být interpretovány ve vztahu k testované teorii, nebo musí být uznány jako limity teorie. Změny v modelu měření (faktorová analýza) znamenají, že položky / data jsou nečistými indikátory latentních proměnných specifikovaných teorií.

Modely by neměly být vedeny MI, jak prokázal Maccallum (1986): „I když jsou podmínky příznivé, na modely vyplývající ze specifikace výzkumu je třeba pohlížet opatrně. "

Velikost a výkon vzorku

Zatímco vědci souhlasí s tím, že k zajištění dostatečné statistické síly a přesnosti v modelech SEM jsou zapotřebí velké velikosti vzorku , neexistuje obecná shoda ohledně vhodné metody pro určení správné velikosti vzorku. Mezi faktory, které je třeba vzít v úvahu při určování velikosti vzorku, patří počet pozorování na parametr, počet pozorování potřebných k adekvátnímu provedení úpravy indexu a počet pozorování pro každý stupeň volnosti.

Vědci navrhli pokyny založené na simulačních studiích pracovních zkušeností a matematických vzorcích. Požadavky na velikost vzorku pro dosažení konkrétního stupně významnosti a síly při testování hypotéz v SEM jsou podobné pro stejný model bez ohledu na použitý algoritmus (PLS-PA, LISREL nebo systémy regrese rovnic).

Interpretace a komunikace výsledků

Sada modelů je poté interpretována tak, aby závěry mohly být získány na základě nejvhodnějšího modelu.

Pokud jde o zjištění příčinné souvislosti, je třeba vždy postupovat opatrně. Pojem kauzální model je třeba chápat jako „model kauzálních předpokladů“, nikoli jako model produkující definitivní závěry. Shromažďování údajů ve více časových bodech a experimentální nebo kvaz experimentální nastavení mohou pomoci eliminovat konkurenční hypotézy, ale nestačí k eliminaci nebezpečí kauzální inference. Dobré přizpůsobení modelem kompatibilním s jedním kauzálním předpokladem vždy znamená stejně dobré přizpůsobení modelu kompatibilnímu s opačným kauzálním předpokladem. Žádný experimentální design, ani ten nejinteligentnější, nemůže pomoci rozlišit takové soupeřící hypotézy, kromě intervenčních experimentů.

Stejně jako v každé vědě bude následná replikace a možná modifikace modelu následovat po počátečním objevu.

Pokročilé použití

Software

Ke zpracování dat se používá několik softwarových programů pro odhad vhodnosti modelů strukturálních rovnic. LISREL, publikovaný v 70. letech, byl prvním softwarem tohoto typu. Mezi další samostatný software patří: Mplus, Mx, EQS, Stata a open source Onyx. Amosovo rozšíření SPSS se také věnuje strukturnímu modelování.

Tam je také několik knihoven pro open source R statistickém prostředí . Knihovny sem, lávy a lávy lze použít pro modely strukturních rovnic. Knihovny sparseSEM a regsem poskytují regularizované postupy odhadu (jako Lasso a Ridge). RAMpath poskytuje další specifikace rutinního modelu a další funkce, ale odhad parametrů je poskytován jinými balíčky .

Knihovna OpenMx poskytuje otevřený zdroj a vylepšenou verzi softwaru Mx.

Vědci považují za dobrou vědeckou praxi vždy zmínit software používaný k provádění SEM analýzy, protože mohou používat mírně odlišné metody.

Aplikace

V psychometrii

Pojem lidské inteligence nelze měřit přímo, protože lze měřit výšku nebo váhu člověka. Psychologové rozvíjejí hypotézu měřicích přístrojů pro návrh inteligence s položkami (otázkami) určenými k měření inteligence podle jejich hypotéz. Poté pomocí SEM otestují své hypotézy: V SEM analýze je inteligence latentní proměnnou a výsledky testů jsou pozorované proměnné.

Obrázek na opačné straně nabízí zjednodušený model, ve kterém inteligence (měřená čtyřmi otázkami) může předpovídat akademický výkon (měřeno testy SAT, ACT a GPA). V diagramech SEM jsou latentní proměnné podle konvence reprezentovány jako ovály a měřené nebo manifestní hodnoty jako obdélníky. Diagram ukazuje, jak chyba ( e ) ovlivňuje každé skóre, ale nemá žádný vliv na latentní proměnné. Analýza SEM poskytuje numerické odhady síly vztahu mezi jednotlivými parametry (šipky). Analýza SEM tedy umožňuje nejen testování obecné teorie, ale také umožňuje výzkumníkovi diagnostikovat, zda jsou pozorované proměnné dobrými ukazateli latentních proměnných.

Debaty a diskuse

Omezení metody

Kritici metod SEM se nejčastěji zaměřují na matematickou formulaci, slabost vnější platnosti určitých přijatých modelů a filozofické zkreslení, které je vlastní standardním postupům.

Terminologický zmatek

Terminologický zmatek byl použit k zakrytí slabostí některých metod. Zejména PLS-PA (Lohmollerův algoritmus) byl zaměněn s PLSR částečnou regresí nejmenších čtverců, která je náhradou za regresi nejmenších čtverců a nemá nic společného se strukturální analýzou ( analýza dráhy ). PLS-PA byl falešně propagován jako metoda, která pracuje s malými datovými sadami. Westland (2010) zrušil tento přístup a vyvinul algoritmus pro určení velikosti vzorků potřebných v SEM. Od 70. let jsou tvrzení o možném použití malých vzorků považována za chybná (viz například Dhrymes, 1972, 1974; Dhrymes a Erlat, 1972; Dhrymes a kol., 1972; Gupta, 1969; Sobel, 1982). .

Poznámky a odkazy

  1. Kaplan 2007 , s.  79-88.
  2. Pearl, Judea. „Příčinnost: modely, uvažování a závěry.“ Ekonometrická teorie 19.675-685 (2003): 46.
  3. Bollen, KA a Pearl, J., Příručka kauzální analýzy pro sociální výzkum , Dordrecht, Springer,2013, 301–328  s. „Osm mýtů o kauzalitě a modelech strukturálních rovnic“
  4. ( MacCallum a Austin 2000 , s.  218-219)
  5. ( Kline 2011 , s.  205)
  6. Kline 2011 , s.  206.
  7. MW Browne a R. Cudeck , Testování modelů strukturních rovnic , Newbury Park, CA, Sage,1993„Alternativní způsoby posouzení vhodnosti modelu“
  8. ( Hu a Bentler 1999 , s.  27)
  9. ( Kline 2011 , s.  201)
  10. (in) JC Loehlin, Latent Variable Models: An Introduction to Factor, Path, and Structural Equation Analysis , Psychology Press,2004.
  11. (v) R. MacCallum, "  specifikace vyhledávání v modelování kovarianční struktura  " , Psychological Bulletin , n o  100,1986, str.  107-120 ( DOI  10.1037 / 0033-2909.100.1.107 )
  12. (in) Stephen M. Quintana a Scott E. Maxwell , „  Dopady nedávného vývoje v modelování strukturálních rovnic pro psychologii poradenství  “ , The Counseling Psychologist , sv.  27, n O  4,1 st 07. 1999, str.  485-527 ( ISSN  0011-0000 , DOI  10.1177 / 0011000099274002 , číst online , přistupováno 2. prosince 2017 )
  13. CP Chou a Peter Bentler , Modelování strukturálních rovnic: Koncepty, problémy a aplikace , Thousand Oaks, CA, Sage,1995, 37–55  s. „Odhady a zkoušky v modelování strukturálních rovnic“
  14. Peter Bentler a C.-P. Chou , „  Praktické problémy při modelování strukturálních rovnic  “, Sociologické metody a výzkum , sv.  16,1987, str.  78–117
  15. RC MacCallum , M. Browne a H. Sugawara , „  Analýza výkonu a stanovení velikosti vzorku pro kovarianční strukturní modelování  “, Psychologické metody , sv.  1, n O  21996, str.  130–149 ( DOI  10.1037 / 1082-989X.1.2.130 , číst online , přístup k 24. lednu 2015 )
  16. Judea Pearl , Příčinnost: Modely, uvažování a závěry , Cambridge University Press ,2000, 384  s. ( ISBN  0-521-77362-8 , číst online )
  17. (in) Thuy Nguyen , „  Muthén & Muthén Mplus home  “ na www.statmodel.com (přístup 2. prosince 2017 )
  18. „  About Mx  “ , na mx.vcu.edu (přístup 2. prosince 2017 )
  19. „  Multivariate Software, Inc.  “ na www.mvsoft.com (přístup 2. prosince 2017 )
  20. Stata: Modelování strukturálních rovnic (SEM)
  21. (en-US) „  Ωnyx - Onyx: Grafické rozhraní pro modelování strukturálních rovnic  “ , na Ωnyx (přístup 2. prosince 2017 )
  22. (en-US) „  IBM SPSS Amos - Overview - United States  “ , na www.ibm.com ,1 st 12. 2017(zpřístupněno 2. prosince 2017 )
  23. John Fox , Zhenghua Nie , Jarrett Byrnes a Michael Culbertson , Sem: Strukturální modely rovnic ,24. dubna 2017( číst online )
  24. Klaus K. Holst , Brice Ozenne a Thomas Gerds , Lava: Latentní proměnné modely ,27. září 2017( číst online )
  25. (in) Yves Rosseel , „  The lavaan Project  “ na lavaan.ugent.be (přístup 2. prosince 2017 )
  26. "  lavaan: Balíček R pro modelování strukturálních rovnic | Rosseel | Žurnál statistického softwaru  “, Žurnál statistického softwaru ,2012( DOI  10.18637 / jss.v048.i02 , číst online , přistupováno 2. prosince 2017 )
  27. Kamel Gana a Guillaume Broc, Úvod do modelování strukturními rovnicemi. Praktická příručka s lavaanem. , Londýn, edice ISTE,2018, 304  s. ( ISBN  978-1-78405-462-5 , číst online )
  28. „  CRAN - Package sparseSEM  “ , na cran.r-project.org (přístup 2. prosince 2017 )
  29. Ross Jacobucci , Kevin J. Grimm , Andreas M. Brandmaier a Sarfaraz Serang , Regsem: Regularizované modelování strukturálních rovnic ,8. září 2017( číst online )
  30. Zhiyong Zhang , Jack McArdle , Aki Hamagami a & Kevin Grimm , RAMpath: Modelování strukturálních rovnic pomocí notace modelu Reticular Action Model (RAM) ,5. října 2016( číst online )
  31. „  OpenMx  “ , na adrese openmx.ssri.psu.edu (přístup 2. prosince 2017 )
  32. Kline 2011 , s.  79-88

Bibliografie

Podívejte se také

Související články

Externí odkazy v anglickém jazyce

Manuál pro správu vah , sbírka vícebodových vah, která se dříve používala k měření konstrukcí SEM