Ikonografie korelací

V analýze dat , korelace ikonografie je způsob nahrazení korelační matice s schématu , kde jsou „významné“ korelace představované plnou čarou (pozitivní korelace) nebo tečkovanou čárou (negativní korelace).

Tato myšlenka se objevuje také v gaussovských grafických modelech používaných zejména při mapování genomu. Ale ikonografie korelací je obecnější v tom, že nevytváří předpoklad o Gaussově distribuci proměnných, či nikoli, a spoléhá pouze na geometrický aspekt korelačního koeficientu .

Historický

První myšlenka na ikonografii korelací se datuje do roku 1975. Nejprve byla aplikována na mořskou geochemii, byla předmětem státní práce v roce 1981 a článku v Cahiers de l'Analyse. Data v roce 1982. Poté , aplikace metody v mnoha odvětvích leteckého a kosmického průmyslu po dobu asi patnácti let, paradoxně vysvětluje relativní důvěrnost, ve které zůstala po dlouhou dobu, společnosti, které obecně nechtějí křičet svá řešení ze střech. Od vytvoření první společnosti distribuující software založený na ikonografii korelací v roce 1997 a její výuky na některých univerzitách se bibliografie značně rozšířila, zejména v lékařských a astrofyzikálních odvětvích (hmotnostní spektrometrie).

Co je „pozoruhodná“ korelace?

Silná korelace nemá smysl izolovaně. Naopak slabá korelace neznamená absenci odkazu.

Příklad 1

Proměnné A a C jsou silně korelované, protože jejich variace se vztahují k proměnné X. Ve skutečnosti neexistuje žádná spojka AC, ale spojka XA a spojka XC. Jinými slovy, korelace mezi A a C je nadbytečná a zmizí, když je X udržováno konstantní (mluvíme o „částečné korelaci“ slabé vzhledem k X). Proto je schéma jediných pozoruhodných korelací  :

LinkCorrelation1.png Příklad 2

Proměnná Y závisí na několika nezávislých proměnných C, D, E, F a G. Také korelace Y s každým z nich, brána samostatně, je slabá (není „významná“ v pravděpodobnostním smyslu pojmu). Ve skutečnosti existují přísné odkazy CY, DY, EY, FY a GY. Proto schéma pozoruhodných korelací  :

LinkCorrelation2.png

Výběr významných odkazů

Uveďme si to na malém příkladu: Během matematické kontroly úrovně třetího ročníku získalo osm studentů od šestého do posledního, jejichž váhu, věk a docházku známe, následující známky:

Původní data
Student Hmotnost Stáří Účast Poznámka
e1 52 12 12 5
e2 59 12.5 9 5
e3 55 13 15 9
e4 58 14.5 5 5
e5 66 15.5 11 13.5
e6 62 16 15 18
e7 63 17 12 18
e8 69 18 9 18
Korelační matice
Hmotnost Stáří Účast Poznámka
Hmotnost 1
Stáří 0,885 1
Účast -0,160 -0,059 1
Poznámka 0,774 0,893 0,383 1

Umístíme čtyři proměnné náhodně na papír a nakreslíme čáru mezi dvěma z nich, kdykoli je jejich korelace větší než prahová hodnota 0,3 v absolutní hodnotě.

LinkCorrelation3.png

Z pohledu tohoto diagramu korelace (váha, známka) = 0,774, relativně silná, naznačuje, že váha má na známku větší vliv než docházka! Ale na druhé straně máme korelace (váha, věk) = 0,885 a (věk, známka) = 0,893.

Z těchto 3 koeficientů „celkové korelace“ dává vzorec „částečné korelace“ : Korelace (váha, skóre) ve stálém věku  : = -0,08

Korelace mezi známkou a hmotností ve stálém věku prudce poklesla (je dokonce mírně záporná). Jinými slovy, váha nemá žádný vliv na skóre. To je stěží překvapivé. Vymažme souvislost mezi váhou a poznámkou:

LinkCorrelation4.png

Nakonec odkaz není nakreslen,

Zde není třeba mazat další odkazy, jak je patrné z hodnot ostatních částečných korelací:

Korelace (váha, skóre) při stálé účasti  : = 0,92 Korelace (věk, váha) s konstantním skóre  : = 0,68 Korelace (věk, váha) při stálé účasti  : = 0,89 Korelace (věk, skóre) při konstantní hmotnosti  : = 0,71 Korelace (docházka, váha) při konstantním skóre  : = -0,78 Korelace (docházka, váha) ve stálém věku  : = -0,23 Korelace (docházka, hodnocení) při konstantní hmotnosti  : = 0,81 Korelace (docházka, platová třída) ve stálém věku  : = 0,97 Korelace (docházka, věk) při konstantní hmotnosti  : = 0,18 Korelace (docházka, věk) s konstantním skóre  : = -0,97

Protože počet proměnných je m = 4, existuje m. (M-1) / 2 = 6 odlišných párů proměnných a pro každý pár (m-2) = 2 dílčí korelační koeficienty.

Pojďme zde zdůraznit důležitý rozdíl mezi ikonografií korelací a Gaussovým grafickým modelem  :

Právě jsme viděli, že ikonografie korelací je založena na (m-2) .m. (M-1) / 2 = 12 parciálních korelačních koeficientech, z nichž každý se počítá s ohledem na jednu proměnnou, tedy bez míchání účinků každého z nich. Naopak Gaussův grafický model je založen na jediném m. (M-1) / 2 = 6 parciálních korelačních koeficientech vzhledem k (m-2) dalším proměnným. Agreguje tedy mnohost trojúhelníkových vztahů a zachovává jakýsi průměr (parciální korelační matice každé dvojice proměnných ve srovnání se všemi ostatními proměnnými). Ztrácí zvýraznění určité proměnné vysvětlením nebo zneplatněním vztahu mezi dvěma proměnnými.

Ikonografie korelací tedy umožňuje zvýšit množství i kvalitu použitých informací.

Pozoruhodné momenty analýzy

Dostupné údaje umožňují další analýzu.

Můžeme ve skutečnosti považovat každý řádek za „okamžik“ analýzy, charakterizovaný indikátorovou proměnnou, rovnou 1 v okamžiku uvažovaného řádku, a 0 jinak:

Student Hmotnost Stáří Účast Poznámka e1 e2 e3 e4 e5 e6 e7 e8
e1 52 12 12 5 1 0 0 0 0 0 0 0
e2 59 12.5 9 5 0 1 0 0 0 0 0 0
e3 55 13 15 9 0 0 1 0 0 0 0 0
e4 58 14.5 5 5 0 0 0 1 0 0 0 0
e5 66 15.5 11 13.5 0 0 0 0 1 0 0 0
e6 62 16 15 18 0 0 0 0 0 1 0 0
e7 63 17 12 18 0 0 0 0 0 0 1 0
e8 69 18 9 18 0 0 0 0 0 0 0 1

Přestože „okamžiky“ mají stejná jména jako žáci, je třeba si uvědomit, že žáky jsou řádky (pozorování), zatímco okamžiky jsou sloupce, které jsou součástí „proměnných“, stejně jako 4 první sloupce.

Můžeme tedy přijmout stejné kritérium pro kreslení odkazů pro „časy“ a původní proměnné. Abychom však diagram nepřetížili, nakreslíme pouze „časy“ spojené s alespoň jednou proměnnou („pozoruhodné časy“):

LinkCorrelation5.png

„Okamžiky“ jsou reprezentovány trojúhelníkem , aby se lépe odlišily od původních proměnných, které jsou reprezentovány čtvercem .

O odkazu se říká, že je „pozoruhodný“, když ostatní odkazy přítomné na obrázku nestačí k jeho vysvětlení.

Vazby mezi čtverci (proměnné-proměnné) podtrhují obecné zákony ; Odkazy čtvercový trojúhelník (proměnné okamžité) zvýrazňují vzácné události .

Korelační algoritmus ikonografie

Pokud je datová tabulka malá, je princip korelační ikonografie natolik jednoduchý, že umožňuje ruční vykreslování. Jinak je nutné uchýlit se k programu, který jako vstup obsahuje korelační matici a zvolenou prahovou hodnotu (například 0,3). Zde je algoritmus:

Aby se zabránilo nadbytečnosti, je odkaz AB nakreslen právě tehdy, když je celková korelace r (A, B) větší než prahová hodnota v absolutní hodnotě, a pokud jsou částečné korelace r (A, B), vzhledem k proměnné Z, jsou větší než prahová hodnota v absolutní hodnotě a stejného znaménka jako celková korelace pro libovolné Z mezi dostupnými proměnnými, včetně „instancí“.

Toto přísné kritérium rozložení zaručuje výběr nejvíce „pevných“ odkazů.

Proměnné mohou být kvantitativní a / nebo kvalitativní (za předpokladu, že tyto používají úplné disjunktivní kódování ).

Pozice teček na papíře

Výše uvedený příklad ukázal dva druhy bodů: proměnné ( čtverce ) a „okamžiky“ ( trojúhelníky ). Jakmile budou nalezeny vazby mezi těmito prvky, pozitivní ( plné čáry ) nebo negativní ( tečkované čáry ), zbývá je nakreslit na papír.

Celá zeměpisná šířka polohy je ponechána analytikovi, protože interpretace závisí na odkazech a ne na pozicích.

Je třeba co nejvíce zabránit zbytečným křížením mezi odkazy, což znemožňuje čtení. Například následující diagram je méně čitelný než předchozí, i když jeho interpretace je stejná (identické odkazy):

LinkCorrelation6bis.png

K automatickému uspořádání bodů lze použít několik přístupů.

První přístup spočívá v projekci mračno bodů proměnných na prvních dvou osách analýzy hlavních komponent . Projekce však nejsou vždy přizpůsobeny dobré čitelnosti, když existuje mnoho statisticky významných hlavních složek, zejména v případě směsi kvalitativních a kvantitativních proměnných.

Druhý přístup je založen na silových algoritmů (Kamada-Kawai nebo Fruchterman a Reingold například), který simuluje systém pružin na okrajích grafu: definici odpudivé síly mezi okraji a atraktivní síly mezi okraji … spojené hrany umožňují dosáhnout rovnováhy. Návrh je obecně uspokojivý pro stromové struktury, ale po několika desítkách vrcholů je pochopení obtížné v případě struktur smyčkovaných přes několik dimenzí.

A konečně třetí přístup spočívá ve využití geometrické interpretace korelačního koeficientu (kosinus) a ve vykreslení diagramu na povrchu trojrozměrné koule:

Volba prahu

Prahová hodnota se může pohybovat mezi 0 a 1. Odkaz je nakreslen pouze v případě, že nejen celková korelace, ale také všechny odpovídající částečné korelace jsou větší než prahová hodnota v absolutní hodnotě a stejného znaménka. Tento stav je závažný a odkazy, které zůstávají, jsou obecně bohaté na informace.

Zvýšení hodnoty prahu sníží počet odkazů a vyjasní obrázek, ale také sníží informace, zejména když proměnná zájmu závisí na několika nezávislých proměnných.

Často je vhodnější použít poměrně nízkou prahovou hodnotu. Pokud je pak celá postava příliš huňatá, nakreslete pouze odkazy na sledovanou proměnnou.

Když například přistupujeme k novým údajům a nevíme, kterou prahovou hodnotu zvolit, můžeme začít s:

V našem příkladu se ani při nulové hranici prahová hodnota (váha, skóre) nekreslí, protože částečná korelace s ohledem na věk je opačným znamením než celková korelace. Ale objeví se odkaz (docházka, známka) a jsou tu ještě pozoruhodnější okamžiky.

Organizace odkazů

Ikonografie korelací si klade za cíl zdůraznit organizaci odkazů, které mohou být smyčkové i hierarchické nebo průběžně distribuovány.

LinkCorrelation7.png

Absence osy, bez ohledu na rozměr problému, umožňuje nahradit množství dvojrozměrných projekcí jediným obrazem , kde se na první pohled objeví to podstatné.

Posloupnost takových čísel (možná v karikatuře) umožňuje grafické znázornění vyvíjející se multidimenzionální organizace.

Zrušení zjevného vlivu

V analýze dat je běžné mít proměnnou Z, jejíž vliv, převládající a již dobře známý, maskuje jemnější jevy, které se člověk snaží objevit.

Řešením je nakreslit diagram, nikoli celkové korelační matice, ale částečné korelační matice vzhledem k Z, aby se odstranil jakýkoli lineární vliv Z na ostatní proměnné. Diagram pak odhaluje jinou organizaci, kromě variací Z.

Odstraňte například věkovou složku, jejíž převládající vliv je dobře znám. Diagram poté odhaluje přímý vliv docházky na známku. Věk z obrázku zmizel, stejně jako jeho složka ve všech proměnných. A váha je izolovaná.

V datové tabulce s více proměnnými může být zajímavé odstranit několik vlivů (výsledek nezávisí na pořadí, ve kterém jsou odstraněny).

Pozoruhodné logické interakce

Stejně jako se do počáteční tabulky přidávají „časy“, jako nové sloupce, můžeme přidávat další sloupce, například funkce počátečních proměnných, zejména „  logické interakce  “, které jsou spojením proměnných.

Na počtu dalších sloupců nezáleží, za předpokladu, že do diagramu budou přidány pouze ty, které budou propojeny s alespoň jednou z počátečních proměnných, aby zbytečně nezatěžovaly obrázek.

Například po přidání nových sloupců odpovídajících logickému „&“ mezi libovolné dvě proměnné se zobrazí přímo spojená s poznámkou pouze interakce „Věk a docházka“:

LinkCorrelation8.png

Logická interakce přináší do interpretace něco více (s přihlédnutím k malému počtu vysvětlujících proměnných, které jsou k dispozici v tomto příkladu): k získání dobré známky nestačí být starší, je také nutné být během kurzu vytrvalý.

Znalostní databáze spojená se schématem

Odkazy v diagramu lze popsat následovně: ke každému nakreslenému odkazu přiřaďte pravidlo typu IF… POTOM…, za kterým následuje hodnota celkového korelačního koeficientu, před kterou je předepsáno „*“, pokud je odkaz nakreslen, a z „? "Pokud odkaz není dohledatelný, protože" pochybný "(hodnota korelace je nad prahovou hodnotou pouze z důvodu jediného pozorování).

KDY Váha POTOM Věk * 0,885 POKUD VĚK POTOM Hmotnost * 0,885 IF Age THEN Note * .893 IF Hodnocení PAK Věk *. 893 IF Attendance THEN Age & Attendance ?. 493 IF skóre PAK Věk a účast *. 960 IF Age & Attendance THEN Score *. 960POKUD .e1 POTOM Hmotnost * -. 610 POKUD .e3 PAK Docházka * .484 POKUD .e4 POTOM účast * -. 726 POKUD .e5 POTOM Hmotnost * .395 POKUD .e6 PAK Věk a účast * .597

Vazby mezi proměnnými jsou zde zobrazeny v obou směrech, protože kauzalitu nelze přímo odvodit z korelace. Odkazy „pozoruhodné okamžiky“ - proměnné lze označit pouze jedním směrem, protože proměnná vyplývá z její realizace v uvažovaném okamžiku.

Znalostní databáze může sloužit jako vstup do expertního systému a uživatel jej může obohatit nebo vylepšit. Například je proti zdravému rozumu tvrdit, že dobrá známka může způsobit věk. Je možné obrácení. Stejně tak děti s přibývajícím věkem přibývají na váze, ale počet let nezvyšuje hmotnost. Uživatel proto může odstranit pravidla „IF Score THEN Age * .893“, „IF Score THEN Age & Attendance * .960“ a „IF Weight THEN Age * .885“.

Takto upravená znalostní báze poskytuje diagram, kde jsou nyní orientovány určité odkazy . Můžeme na ni aplikovat teorii grafů a odvodit z ní informační toky.

Multidisciplinární metoda

V rámci vícerozměrných metod je jednou z výhod ikonografie korelací kromě jednoduchosti jejího principu (eliminace pochybných vazeb) i to, že interpretace diagramu není komplikovaná, když se zvyšuje počet proměnných.

Naopak, čím více proměnných v souvislosti s kontextem existuje, tím více se zvyšuje možnost vyloučení sporných odkazů.

Není problém spojit proměnné různého původu (fyzikální, chemické, biologické, klinické, geografické, sociokulturní atd.) Kvantitativní nebo kvalitativní.

Je to přínos během multidisciplinárních studií.

Metoda je robustní: přidání irelevantní nebo chybné proměnné má obecně malý dopad na vazby mezi ostatními proměnnými. Bude to detekováno rychleji.


Oblasti použití korelační ikonografie

Korelační ikonografii lze použít téměř v jakémkoli odvětví průmyslu a výzkumu, a to v celé řadě datových typů, kvantitativních i kvalitativních, pro důkladný vhled do malých datových tabulek a sad. Velkých i složitých (procesní analýza, chemometrie, spektroskopie, marketing, průzkumy atd.). Jedná se o vzdělávací a uživatelsky přívětivou prezentaci často špičkových výsledků.

Nějaké příklady :

Způsob, jak nezapomenout na nic podstatného v datové tabulce

Na první pohled je těžké pochopit následující tabulku:

Rtuť Venuše Země březen Jupiter Saturn Uran Neptune
DistanceSun 0,387099 0,723332 1 1,523662 5,203363 9,53707 19.19126 30,06896
Paprsek 0,3825 0,9488 1 0,53226 11,209 9,449 4 007 3,883
Plocha 0,1471 0,901 1 0,2745 125,5 86,27 15,88 15.1
Objem 0,056 0,87 1 0,151 1321.3 763,59 63 086 57,74
Hmotnost 0,055 0,815 1 0,107 318 95 14 17
Hustota 5.43 5.24 5,515 3,94 1.33 0,697 1.29 1,76
Gravitace 3.7 8,87 9,81 3.71 23.12 8,96 8,69 11
ReleaseSpeed 4.25 10,36 11.18 5,02 59,54 35,49 21,29 23,71
Periodotočení 58,64622 -243,018 0,997269 1,025957 0,41354 0,44401 -0,7183 0,67125
Oběžné období 0,240847 0,615197 1,000017 1,880848 11,86261 29,4475 84,01685 164,7913
OrbitalSpeed 47,8725 35,0214 29,7859 24.1309 13.0697 9,6724 6,8352 5,4778
Excentricita 0.205631 0,006773 0,016710 0,093412 0,048392 0,054150 0,047167 0,008585
Sklon 7,00487 3,39471 0,00005 1,85061 1,3053 2,48446 0,76986 1,76917
TiltAxial 0 177,3 23,45 25,19 3.12 26,73 97,86 29,58
Teplota povrchu 166,85 456,85 17,35 -46 -121,15 -139,15 -197,15 -220,15
Ahoj 1 0 0 0 1 1 1 1
N / A 1 0 0 0 0 0 0 0
P 1 0 0 0 0 0 0 0
CO 2 0 1 0 1 0 0 0 0
Č. 2 0 1 1 1 0 0 0 0
O 2 0 0 1 0 0 0 0 0
Ar 0 0 0 1 0 0 0 0
H 2 0 0 0 0 1 1 1 1
CH 4 0 0 0 0 0 0 1 1
NumberKnownMons 0 0 1 2 63 60 27 13
Prsteny 0 0 0 0 1 1 1 1
Diskriminační planetární 9.1 135 170 18 62.5 19 2.9 2.4

Obrázek ukazuje víceméně zjevné vazby (jako gravitační s rychlostí uvolnění); a také odkazy specifické pro každou planetu.

Je to způsob, jak nezapomenout na nic důležitého.

Například odkazy na obrázku jsou interpretovány takto:

Mohli bychom zvýšit počet pozoruhodných odkazů snížením prahové hodnoty pozemku. Aby byl výkres čitelný, bylo by nutné nakreslit pouze jeho část: například odkazy na sledovanou proměnnou.

Analýza velkých řídicích panelů

Řídicí panel správy je prostředkem analýzy a diagnostiky. Skládá se z několika ukazatelů výkonu, umožňuje znát pracovní zátěž, vidět hypertrofii nebo atrofii provádění různých úkolů, lokalizovat provozní anomálie a napravit určité situace. Vzhledem k omezením naší paměti by však měl mít řídicí panel několik čísel, aby bylo snadné jej používat.

Ikonografie korelací je způsob, jak analyzovat palubní desku, která má spoustu čísel a skutečně využívat veškeré informace o firmě. Dokáže se osvobodit od vnějších vlivů (jako jsou ekonomické trendy nebo marketingová rozhodnutí), umožňuje lépe zdůraznit vzájemný vliv úkolů, analyzovat příčiny rozdílu mezi prognózou a realizací a díky diagramu syntetizovat , aby rychle poskytly zpětné informace ve formě provozních doporučení.

Alternativa k vrstvení

Stratifikace spočívá v rozdělení databáze do homogenních skupin (strat). V příkladu zkoumaném výše by stratifikace spočívala ve vytváření skupin studentů stejného věku a podskupin studentů stejné docházky. To by umožnilo osvobodit se od vlivu věku v každé skupině a v každé podskupině od vlivu docházky. Bohužel všichni naši studenti jsou jiného věku!

Ve skutečnosti je stratifikace zajímavá, pouze pokud je stratifikační proměnná korelována s parametrem zájmu. Kromě toho nesmí být vrstvy prázdné. Proto není možné stratifikovat na mnoha proměnných nebo na malé populaci.

Ikonografie korelací naopak umožňuje překonat vliv věku, i když je stratifikace nemožná, pokud je věk znám.

To je důvod, proč v ikonografii korelací velké množství proměnných souvisejících s problémem nekomplikuje analýzu. Naopak, může pouze zpřesnit zobrazení. Proto se doporučuje zahájit analýzu ihned u všech dostupných proměnných: toto je způsob, jak se co nejdříve zbavit „falešných dobrých korelací“, které nás mohou vést k falešným vodítkům (zkreslení, zmatky).

Podívejte se také

externí odkazy

Reference

  1. M. Lesty „Nový přístup ve volbě regresory pro vícenásobné regrese v přítomnosti interakcí a collinearities“ v Revue de Modulad , n o  22, ledna 1999 , s.  41-77 .
  2. Geometrické Syntéza vícerozměrných korelací. „M. Lesty a P. Buat-Ménard. Les Cahiers de l'Analyse des dat, Vol.VII, n o  3, 1982, str.  355-370 .
  3. M. Lesty a M. Coindoz. (1988) Metoda FMS znaleckých základen odborných systémů. Aplikace od CORICO. 6. ročník mezinárodní sympozium pro bezporuchovost a udržovatelnost. Konferenční texty, str.  252-257 - Pořádá Centre National d'Études Spatiales (CNES), 3. – 7. Října 1988, Štrasburk.
  4. Analýza korelací a výroba kompozitů. C. Vallée a X. Le Méteil. Řízení rizik v letecké výstavbě. Phoebus n o  19 (díl 2), - 4 -tého čtvrtletí 2001.
  5. Geometrická metoda a generalizované lineární modely: Dva protichůdné multiparametrické přístupy ilustrované na vzorku hypofyzárních adenomů. Lesty C., Pleau-Varet J. & Kujas M. Journal of Applied Statistics Vol 31 (2): str.  191-213 . Února 2004.
  6. Více korelační analýzy spekter TOF-SIMS pro mineralogické studie. "C. Engrand, J. Lespagnol, P. Martin, L. Thirkell, R. Thomas. Applied Surface Science 231-232 (2004) 883-887
  7. Chemometrické vyhodnocení časových údajů hmotnostní spektrometrie sekundárních iontů minerálů v rámci budoucích in situ analýz kometárního materiálu metodou COSIMA na palubě ROSETTA. “Engrand C;, Kissel J., Krueger FR, Martin P., Silén J ., Thirkel Ll, Thomas R., Varmuza K. (2006). (Rapid Communications in Mass Spectrometry Volume 20, Issue 8 str.  1361-1368 ) Publikováno online: 23. března 2006 (www.interscience.wiley.com).