Podtřída | Analýza dat |
---|---|
Akronym | ACM |
Analýza více korespondence (MCA) je metoda faktorové analýzy vhodná pro kvalitativní data (nazývaná také kategorická). Na rozdíl od AFC, která studuje vazbu ve dvou kvalitativních proměnných, ji MCA zobecňuje tím, že umožňuje studovat vazbu mezi několika kvalitativními proměnnými. Typickým příkladem těchto údajů jsou průzkumy veřejného mínění.
MCA umožňuje studovat vztah mezi těmito proměnnými pomocí úplné disjunktivní tabulky (TDC) nebo Burtovy tabulky (TB). V takových datových tabulkách jsou jednotlivci (v řádcích) popsáni množinou kvalitativních proměnných (ve sloupcích).
To znamená TDC týkající se jednotlivců popsaných kvalitativními proměnnými, které mohou nabývat jakýchkoli modalit. Předpokládejme, že první proměnná přebírá kategorie , druhá proměnná přebírá kategorie atd. Nechť a je možné způsoby. Označíme tento řádek a sloupec TDC, ve kterém na průsečíku řádku a sloupce (spojeného s modalitou ) najdeme:
Všimněte si, že do analýzy je možné zahrnout kvantitativní proměnnou za předpokladu, že její číselné hodnoty budou nahrazeny v rozsahu hodnot, aby bylo možné ji převést na kategorickou proměnnou.
Matematické zpracování TDC je následující: Nejprve spočítáme vektor , který obsahuje součet řádků matice ( v angličtině pro „řádek“) a který obsahuje součet sloupců matice . Také označení a na diagonální matice vznikající a resp. Klíčovým krokem je rozklad singulárních hodnot následující matice:
Rozklad umožňuje přístup do matric , a , jako s , dvou jednotkových matic a je zobecněný diagonální matice obsahující singulární hodnoty seřazeno od největších po nejmenší. má stejné rozměry jako . diagonální koeficienty jsou vlastní hodnoty a odpovídají setrvačnosti každého z faktorů . Těmito faktory jsou souřadnice jednotlivců (řádek) nebo proměnných (sloupec) na každé z os faktorů. Souřadnice jednotlivců v tomto novém vektorovém prostoru jsou dány následujícím vzorcem:
Tý řádek obsahuje souřadnice -té jedince ve faktoru prostoru, přičemž souřadnice proměnných ve stejném faktoru prostoru jsou dány:
ACM je velmi obecná metoda, která se vztahuje na jakoukoli tabulku, ve které je soubor jednotlivců popsán kvalitativními proměnnými. Nepatří tedy do určité disciplinární oblasti. Je však široce používán při zpracování průzkumů veřejného mínění, protože dotazníky se často skládají z otázek s výběrem odpovědí.
V případě průzkumu jednotlivci odpovídají na otázky s výběrem odpovědí (proměnné v analýze). Příklad otázky: „v následujícím seznamu (pracovník, zaměstnanec atd.) Zkontrolujte svou sociálně-profesionální kategorii“, nebo dokonce „co nejčastěji nakupujete, bílý chléb nebo černý chléb?“. Poté chceme prozkoumat souvislost mezi různými možnými způsoby. Jedno možné pozorování je: bílý chléb je spíše konzumován pracovníky.
Zvláštní zmínku je třeba věnovat sociologii. ACM je široce využíván sociology, kteří čerpají inspiraci od Pierra Bourdieu ke studiu konkrétního „oboru“. Například sociolog Frédéric Lebaron používá ACM k analýze oblasti francouzských ekonomů a Hjellbrekke a jeho spoluautoři používají stejnou metodu k analýze oblasti norských elit. Podobně Julien Duval používá ACM k analýze oblasti francouzské kinematografie, Christian Baudelot a Michel Gollac používají analýzu vícenásobné korespondence ke studiu vztahu Francouzů k jejich práci.
Jako každá faktoriální analýza lze MCA interpretovat geometricky z mraku, jehož body představují řádky analyzované tabulky, a z mraku, jehož body představují sloupce této tabulky.
Jednotlivec je reprezentován všemi svými odpověďmi, které se nazývají jeho profil odpovědí. Studujeme variabilitu těchto profilů odezvy. Stejně jako v jakékoli faktoriální analýze je tato variabilita rozložena podle řady syntetických proměnných (je uvedeno a jsou sloupci ). Tyto syntetické proměnné jsou nyní kvantitativní a umožňují grafické znázornění a použití analytické metody přizpůsobené kvantitativním proměnným. Obecně jsou zachovány pouze první sloupce , odpovídající rozměrům faktorového prostoru, které seskupují největší setrvačnost.
Vazba mezi dvěma kvalitativními proměnnými je studována prostřednictvím asociací mezi jejich modalitami. Například jedním z prvků popisu vztahu mezi proměnnými barva očí a barva vlasů je: lidé s blond vlasy mívají modré oči. Za přítomnosti souboru kvalitativních proměnných proto hledáme asociace mezi všemi modalitami. Očekáváme od MCA zastoupení modalit, ve kterých jsou si modality, které jsou navzájem spojeny, blízké. Poznámky týkající se zůstávají v platnosti pro .
Intuitivně a stejně jako v jakékoli faktoriální analýze spočívá MCA v promítání každého ze dvou mraků na řadu ortogonálních os maximální setrvačnosti (což matematicky odpovídá fázi rozkladu na singulární hodnoty). V je maximalizovaná veličina průměrem čtverců korelačních poměrů. U osy jde o maximalizaci .
Rozměry MCA lze proto považovat za syntetické proměnné. Hodnoty jsou souřadnice jednotlivců na ose řádku (v ). Z toho vyplývá, že při zastoupení jednotlivců:
Spojením dvou z těchto os získáme rovinnou reprezentaci, nazývanou také „faktoriální rovina“. V praxi jsme často spokojeni s tím, že první faktoriální rovina má jednoduché grafické znázornění.
V ACM můžeme překrýt reprezentaci jednotlivců a reprezentaci modalit. To umožňují přechodové vztahy, které jsou přítomny v jakékoli faktoriální analýze, ale které jsou v ACM vyjádřeny obzvláště jednoduchým způsobem.
Kromě koeficientu pro danou osu:
Tyto vztahy jsou také známé jako barycentrické vlastnosti.
Jeden zde používá příklad velmi malé velikosti, který umožňuje snadno zkontrolovat v datech interpretace provedené počínaje od faktoriálních plánů (srov. Tabulka 1).
Šest osob bylo požádáno, aby upřednostňovaly ovoce (pomeranč, hruška, jablko), zeleninu (špenát, fazole) a maso (kůň, skopové, vepřové).
Ovoce | Zeleninový | Maso | |
---|---|---|---|
Jablko | Fazole | Kůň | |
Hruška | Fazole | Kůň | |
oranžový | Fazole | Ovce | |
Jablko | Špenát | Ovce | |
Hruška | Špenát | Vepřové maso | |
oranžový | Špenát | Vepřové maso |
Aplikováno na tabulku 1, MCA poskytuje znázornění na obrázku 1.
První osa je proti skupině jednotlivců (vpravo) proti skupině (vlevo).
Skupina jednotlivců se vyznačuje:
Skupina je charakterizována:
Jednotlivec preferoval hrušku , fazole a koně . Je na straně těchto tří modalit. Ve srovnání s přesným těžištěm těchto modalit je to trochu dále od počátku: koeficient uvedený v přechodových vztazích je vždy větší než 1.
Režim koně zvolili a . Je tedy na straně těchto jednotlivců. Pokud jde o těžiště a , je mírně výstřední (ze stejného důvodu jako v předchozím případě).
Ve čtverci vztahů jsou proměnné reprezentovány pomocí jejich korelačního poměru s faktory. V tomto příkladu tedy tento čtverec ukazuje, že:
Tato reprezentace je o to užitečnější, že proměnných je mnoho.
Když implementujeme program AFC na kompletní disjunktivní desce nebo na Burtově desce , dostaneme osy MCA. To vede některé autory k tomu, aby považovali MCA za zvláštní případ (nebo rozšíření) AFC. Kromě toho lze osy MCA získat také aplikací programu PCA na TDC (mírně upravené).
ACM má však několik specifických vlastností, díky nimž je sama o sobě metodou.
V anketách jsou dotazníky často strukturovány do témat. Je vždy zajímavé vzít v úvahu tuto skupinovou strukturu otázek. To dělá analýza více faktorů .