Analýza více korespondence

Analýza více korespondence
Podtřída Analýza dat
Akronym ACM

Analýza více korespondence (MCA) je metoda faktorové analýzy vhodná pro kvalitativní data (nazývaná také kategorická). Na rozdíl od AFC, která studuje vazbu ve dvou kvalitativních proměnných, ji MCA zobecňuje tím, že umožňuje studovat vazbu mezi několika kvalitativními proměnnými. Typickým příkladem těchto údajů jsou průzkumy veřejného mínění.

MCA umožňuje studovat vztah mezi těmito proměnnými pomocí úplné disjunktivní tabulky (TDC) nebo Burtovy tabulky (TB). V takových datových tabulkách jsou jednotlivci (v řádcích) popsáni množinou kvalitativních proměnných (ve sloupcích).

Zásada

To znamená TDC týkající se jednotlivců popsaných kvalitativními proměnnými, které mohou nabývat jakýchkoli modalit. Předpokládejme, že první proměnná přebírá kategorie , druhá proměnná přebírá kategorie atd. Nechť a je možné způsoby. Označíme tento řádek a sloupec TDC, ve kterém na průsečíku řádku a sloupce (spojeného s modalitou ) najdeme:

Všimněte si, že do analýzy je možné zahrnout kvantitativní proměnnou za předpokladu, že její číselné hodnoty budou nahrazeny v rozsahu hodnot, aby bylo možné ji převést na kategorickou proměnnou.

Matematické zpracování TDC je následující: Nejprve spočítáme vektor , který obsahuje součet řádků matice ( v angličtině pro „řádek“) a který obsahuje součet sloupců matice . Také označení a na diagonální matice vznikající a resp. Klíčovým krokem je rozklad singulárních hodnot následující matice:

Rozklad umožňuje přístup do matric , a , jako s , dvou jednotkových matic a je zobecněný diagonální matice obsahující singulární hodnoty seřazeno od největších po nejmenší. má stejné rozměry jako . diagonální koeficienty jsou vlastní hodnoty a odpovídají setrvačnosti každého z faktorů . Těmito faktory jsou souřadnice jednotlivců (řádek) nebo proměnných (sloupec) na každé z os faktorů. Souřadnice jednotlivců v tomto novém vektorovém prostoru jsou dány následujícím vzorcem:

Tý řádek obsahuje souřadnice -té jedince ve faktoru prostoru, přičemž souřadnice proměnných ve stejném faktoru prostoru jsou dány:

Doména aplikace

ACM je velmi obecná metoda, která se vztahuje na jakoukoli tabulku, ve které je soubor jednotlivců popsán kvalitativními proměnnými. Nepatří tedy do určité disciplinární oblasti. Je však široce používán při zpracování průzkumů veřejného mínění, protože dotazníky se často skládají z otázek s výběrem odpovědí.

V případě průzkumu jednotlivci odpovídají na otázky s výběrem odpovědí (proměnné v analýze). Příklad otázky: „v následujícím seznamu (pracovník, zaměstnanec atd.) Zkontrolujte svou sociálně-profesionální kategorii“, nebo dokonce „co nejčastěji nakupujete, bílý chléb nebo černý chléb?“. Poté chceme prozkoumat souvislost mezi různými možnými způsoby. Jedno možné pozorování je: bílý chléb je spíše konzumován pracovníky.

Zvláštní zmínku je třeba věnovat sociologii. ACM je široce využíván sociology, kteří čerpají inspiraci od Pierra Bourdieu ke studiu konkrétního „oboru“. Například sociolog Frédéric Lebaron používá ACM k analýze oblasti francouzských ekonomů a Hjellbrekke a jeho spoluautoři používají stejnou metodu k analýze oblasti norských elit. Podobně Julien Duval používá ACM k analýze oblasti francouzské kinematografie, Christian Baudelot a Michel Gollac používají analýzu vícenásobné korespondence ke studiu vztahu Francouzů k jejich práci.

Mraky bodů v ACM

Jako každá faktoriální analýza lze MCA interpretovat geometricky z mraku, jehož body představují řádky analyzované tabulky, a z mraku, jehož body představují sloupce této tabulky.

Studium jednotlivců

Jednotlivec je reprezentován všemi svými odpověďmi, které se nazývají jeho profil odpovědí. Studujeme variabilitu těchto profilů odezvy. Stejně jako v jakékoli faktoriální analýze je tato variabilita rozložena podle řady syntetických proměnných (je uvedeno a jsou sloupci ). Tyto syntetické proměnné jsou nyní kvantitativní a umožňují grafické znázornění a použití analytické metody přizpůsobené kvantitativním proměnným. Obecně jsou zachovány pouze první sloupce , odpovídající rozměrům faktorového prostoru, které seskupují největší setrvačnost.

Studium proměnných

Vazba mezi dvěma kvalitativními proměnnými je studována prostřednictvím asociací mezi jejich modalitami. Například jedním z prvků popisu vztahu mezi proměnnými barva očí a barva vlasů je: lidé s blond vlasy mívají modré oči. Za přítomnosti souboru kvalitativních proměnných proto hledáme asociace mezi všemi modalitami. Očekáváme od MCA zastoupení modalit, ve kterých jsou si modality, které jsou navzájem spojeny, blízké. Poznámky týkající se zůstávají v platnosti pro .

Reprezentace dvou mraků

Intuitivně a stejně jako v jakékoli faktoriální analýze spočívá MCA v promítání každého ze dvou mraků na řadu ortogonálních os maximální setrvačnosti (což matematicky odpovídá fázi rozkladu na singulární hodnoty). V je maximalizovaná veličina průměrem čtverců korelačních poměrů. U osy jde o maximalizaci .

Rozměry MCA lze proto považovat za syntetické proměnné. Hodnoty jsou souřadnice jednotlivců na ose řádku (v ). Z toho vyplývá, že při zastoupení jednotlivců:

Spojením dvou z těchto os získáme rovinnou reprezentaci, nazývanou také „faktoriální rovina“. V praxi jsme často spokojeni s tím, že první faktoriální rovina má jednoduché grafické znázornění.

Pravidlo pro výklad

V ACM můžeme překrýt reprezentaci jednotlivců a reprezentaci modalit. To umožňují přechodové vztahy, které jsou přítomny v jakékoli faktoriální analýze, ale které jsou v ACM vyjádřeny obzvláště jednoduchým způsobem.

Kromě koeficientu pro danou osu:

Tyto vztahy jsou také známé jako barycentrické vlastnosti.

Příklad

Jeden zde používá příklad velmi malé velikosti, který umožňuje snadno zkontrolovat v datech interpretace provedené počínaje od faktoriálních plánů (srov. Tabulka 1).

Šest osob bylo požádáno, aby upřednostňovaly ovoce (pomeranč, hruška, jablko), zeleninu (špenát, fazole) a maso (kůň, skopové, vepřové).

Tabulka 1. Údaje o preferencích potravin. Příklad: jednotlivec 1 upřednostňuje jablko (jako ovoce), fazole (jako zelenina) a kůň (jako maso).
Ovoce Zeleninový Maso
Jablko Fazole Kůň
Hruška Fazole Kůň
oranžový Fazole Ovce
Jablko Špenát Ovce
Hruška Špenát Vepřové maso
oranžový Špenát Vepřové maso

Aplikováno na tabulku 1, MCA poskytuje znázornění na obrázku 1.

První osa je proti skupině jednotlivců (vpravo) proti skupině (vlevo).

Skupina jednotlivců se vyznačuje:

Skupina je charakterizována:

Ilustrace přechodových vztahů

Jednotlivec preferoval hrušku , fazole a koně . Je na straně těchto tří modalit. Ve srovnání s přesným těžištěm těchto modalit je to trochu dále od počátku: koeficient uvedený v přechodových vztazích je vždy větší než 1.

Režim koně zvolili a . Je tedy na straně těchto jednotlivců. Pokud jde o těžiště a , je mírně výstřední (ze stejného důvodu jako v předchozím případě).

Doplňkové znázornění: čtverec vazeb

Ve čtverci vztahů jsou proměnné reprezentovány pomocí jejich korelačního poměru s faktory. V tomto příkladu tedy tento čtverec ukazuje, že:

Tato reprezentace je o to užitečnější, že proměnných je mnoho.

ACM, AFC a ACP

Když implementujeme program AFC na kompletní disjunktivní desce nebo na Burtově desce , dostaneme osy MCA. To vede některé autory k tomu, aby považovali MCA za zvláštní případ (nebo rozšíření) AFC. Kromě toho lze osy MCA získat také aplikací programu PCA na TDC (mírně upravené).

ACM má však několik specifických vlastností, díky nimž je sama o sobě metodou.

Rozšíření

V anketách jsou dotazníky často strukturovány do témat. Je vždy zajímavé vzít v úvahu tuto skupinovou strukturu otázek. To dělá analýza více faktorů .

Poznámky a odkazy

  1. Université Paris 13, „  Statistická analýza dat, kurz 4, Master 2 EID  “ , na https://www.lpsm.paris ,2007(zpřístupněno 20. listopadu 2020 ) , s.  2
  2. Valérie Monbet, „  Analýza dat, Magistr ve statistice a ekonometrii, Poznámky k přednášce  “ , na https://perso.univ-rennes1.fr ,2013(zpřístupněno 23. listopadu 2020 ) ,s.  46-62
  3. (in) Herve Abdi a Dominique Valentin, „  Analýza více korespondence  “ [PDF] na https://personal.utdallas.edu ,2007(zpřístupněno 23. listopadu 2020 ) ,s.  3
  4. Frédéric Lebaron , La Croyance économique , Le Seuil , kol.  "Liber",5. června 2000, 1 st  ed. , 260  s. ( ISBN  978-2-02-041171-4 )
  5. (in) Johs Hjellbrekke Brigitte Le Roux Olav Korsnes Frédéric LeBaron , Henry Rouanet a Lennart Rosenlund , "  Norské oblasti energetiky Anno 2000  " , evropských společností , Vol.  9, n O  22007, str.  245-273 ( číst online , konzultováno 7. ledna 2012 )
  6. Julien Duval , "  Umění realismu  ", Proceedings výzkumu v sociálních vědách , n os  161-162, 2006, str.  96-195 ( číst online , konzultováno 21. ledna 2012 )
  7. Christian Baudelot a Michel Gollac : „  Musíme pracovat, abychom byli šťastní?  », Insee Premiere , n o  560,Prosince 1997( číst online , konzultováno 7. ledna 2012 )
  8. Vlastnosti těchto cloudů jsou podrobně popsány v Escofier & Pagès 2008 , s.  85 a následující.
  9. (en) Francois Husson (Francois Husson), Julie Josse, Sebastien Le a Jeremy Mazet, „  FactoMineR: Multivariate Exploratory Data Analysis and Data Mining  “ , na https://cran.r-project.org ,29. února 2020(zpřístupněno 23. listopadu 2020 )
  10. Kompletní prezentaci ACM z ACP najdete na stránkách 2013 , s.  37 a následující.
  11. Dvě práce dávají velké místo vícefaktorové analýze: Escofier & Pagès 2008 a Pagès 2013

Podívejte se také

Bibliografie

Interní odkazy

externí odkazy