Hierarchické seskupení

V IT oblasti , přesněji v oblasti analýzy a automatické třídění všech údajů , ponětí o hierarchické seskupení krytů různých clustering metody a je rozdělit do dvou hlavních skupin: metody ‚bottom-up‘ a ‚potomci‘.

Hierarchická sestupná klasifikace

Takzvané metody „shora dolů“ začínají od obecného řešení po konkrétnější. Metody v této kategorii začínají jediným klastrem obsahujícím všechny z nich a poté jsou v každé fázi rozděleny podle kritérií, dokud není získána sada různých klastrů.

Vzestupná hierarchická klasifikace (CAH)

Na rozdíl od takzvaných metod „shora dolů“ se vzestupná hierarchická klasifikace nazývá „zdola nahoru“, protože vychází ze situace, kdy jsou všichni jednotlivci ve třídě sami, poté jsou shromažďováni ve stále větších třídách. Hierarchický kvalifikátor pochází ze skutečnosti, že vytváří hierarchii H , sadu tříd ve všech fázích algoritmu, která ověřuje následující vlastnosti:

Jedná se o metodu automatické klasifikace používanou při analýze dat  ; z množiny z n jednotlivců, jeho cílem je distribuovat tyto jedince do určitého počtu tříd.

Metoda předpokládá, že máme míru odlišnosti mezi jednotlivci; v případě bodů umístěných v euklidovském prostoru můžeme použít vzdálenost jako měřítko odlišnosti. Rozdílnost mezi jednotlivci x a y bude zaznamenána .

Algoritmus

Zásada

Zpočátku každý jednotlivec tvoří třídu, tj. N tříd. Snažíme se snížit počet tříd na , to se děje iterativně. V každém kroku jsou sloučeny dvě třídy, čímž se snižuje počet tříd. Dvě třídy vybrané ke sloučení jsou ty, které jsou nejblíže, jinými slovy ty, jejichž odlišnost mezi nimi je minimální, tato hodnota odlišnosti se nazývá agregační index . Protože nejbližší jednotlivci jsou shromážděni jako první, první iterace má nízký agregační index, ale bude růst z iterace na iteraci.

Měření odlišnosti mezi třídami

Odlišnost dvou tříd, z nichž každá obsahuje jednotlivce, je definována jednoduše odlišností mezi jejími jednotlivci.

Pokud mají třídy několik jednotlivců, existuje několik kritérií, která umožňují vypočítat odlišnost. Nejjednodušší jsou následující:

  • Minimální skok zachová minimální vzdálenost mezi jednotlivci a  :  ;
  • Maximální skok je odlišnost mezi jednotlivci a nejdál:  ;
  • Průměrná vazba je pro výpočet průměrné vzdálenosti mezi jednotlivci a  :  ;
  • The Ward vzdálenost klade za cíl maximalizovat inter-class setrvačnost: S a čísla dvou tříd, a jejich příslušné těžišť.
Implementace pseudokódu

Příspěvky:

  • jednotlivci: seznam jednotlivců
  • nbClasses: počet tříd, které nakonec chceme získat

Konec:

  • třídy: seznam tříd zpočátku prázdný, třída je považována za seznam jednotlivců
Pour i=1 à individus.longueur Faire classes.ajouter(nouvelle classe(individu[i])); Fin Pour Tant Que classes.longueur > nbClasses Faire // Calcul des dissimilarités entre classes dans une matrice triangulaire supérieure matDissim = nouvelle matrice(classes.longueur,classes.longueur); Pour i=1 à classes.longueur Faire Pour j=i+1 à classes.longueur Faire matDissim[i][j] = dissim(classes[i],classes[j]); Fin Pour Fin Pour // Recherche du minimum des dissimilarités Soit (i,j) tel que matDissim[i][j] = min(matDissim[k][l]) avec 1<=k<=classes.longueur et k+1<=l<=classes.longueur; // Fusion de classes[i] et classes[j] Pour tout element dans classes[j] Faire classes[i].ajouter(element); Fin pour supprimer(classes[j]); Fin Tant Que

Dendrogram

Dendrogram je grafické znázornění vzestupnou hierarchické klasifikace; Často se prezentuje jako binární strom, jehož listy jsou jednotlivci zarovnané na ose x. Když se dvě třídy nebo dva jednotlivci setkají s agregačním indexem , nakreslí se svislé čáry od úsečky dvou tříd na souřadnici , pak jsou spojeny vodorovným segmentem. Z agregačního indexu můžeme nakreslit souřadnice, která ukazuje klasifikaci na dendrogramu. Složitější verze klasifikačního stromu mohou potenciálně pomoci vytvořit rozhodovací strom .

Podívejte se také

Související články

externí odkazy

Bibliografie

Poznámky a odkazy

  1. (in) Gabor Székely J. a Maria L. Rizzo, „  Hierarchické shlukování prostřednictvím spojení mezi mezerami: Metoda minimální odchylky Warda.  ” , Journal of Classification , sv.  22, n o  2Září 2005, str.  151-183 ( DOI  10.1007 / s00357-005-0012-9 )
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">