Jaccardův index a vzdálenost
Index a vzdálenost Jaccard jsou dvě metriky používané ve statistikách k porovnání podobnosti a rozmanitosti (en) mezi vzorky . Jsou pojmenovány po švýcarském botanikovi Paulu Jaccardovi .
Formální popis
Index Jaccard (nebo Jaccard koeficient , nazvaný „ koeficient komunita “ v původní publikaci) je poměr mezi kardinálem (velikost) na průsečíku těchto množin uvažovaných a kardinál unie ze sad.. Umožňuje vyhodnotit podobnost mezi sadami. Nechť dvě sady a index jsou:
NA{\ displaystyle A}
B{\ displaystyle B}![B](https://wikimedia.org/api/rest_v1/media/math/render/svg/47136aad860d145f75f3eed3022df827cee94d7a)
J(NA,B)=|NA∩B||NA∪B|{\ displaystyle J (A, B) = {\ frac {| A \ cap B |} {| A \ cup B |}}}![J (A, B) = \ frac {| A \ čepice B |} {| A \ pohár B |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b80075655821258068b67f3121a490dd65577083)
.
Rozšíření sad je triviální:
ne{\ displaystyle n}![ne](https://wikimedia.org/api/rest_v1/media/math/render/svg/a601995d55609f2d9f5e233e36fbe9ea26011b3b)
J(S1,S2,...,Sne)=|S1∩S2∩⋯∩Sne||S1∪S2∪⋯∪Sne|{\ displaystyle J (S_ {1}, S_ {2}, \ dotsc, S_ {n}) = {\ frac {| S_ {1} \ cap S_ {2} \ cap \ dotsb \ cap S_ {n} | } {| S_ {1} \ pohár S_ {2} \ pohár \ dotsb \ pohár S_ {n} |}}}![J (S_1, S_2, \ dotsc, S_n) = \ frac {| S_1 \ cap S_2 \ cap \ dotsb \ cap S_n |} {| S_1 \ cup S_2 \ cup \ dotsb \ cup S_n |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2e56a22148ba2373a347b90555db8a2a61f7e20e)
.
Vzdálenost Jaccard měří odlišnost mezi sadami. Jednoduše spočívá v odečtení indexu Jaccard od 1.
Jδ(NA,B)=1-J(NA,B)=|NA∪B|-|NA∩B||NA∪B|=|NAΔB||NA∪B|{\ displaystyle J _ {\ delta} (A, B) = 1-J (A, B) = {{| A \ pohár B | - | A \ čepice B |} \ nad | A \ pohár B |} = {{| A \, \ Delta \, B |} \ nad | A \ pohár B |}}![{\ displaystyle J _ {\ delta} (A, B) = 1-J (A, B) = {{| A \ pohár B | - | A \ čepice B |} \ nad | A \ pohár B |} = {{| A \, \ Delta \, B |} \ nad | A \ pohár B |}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b97fd92f5c7210b71db190a0dcd459b4b720fbc9)
kde je
symetrický rozdíl .
Δ{\ displaystyle \ Delta}![\Delta](https://wikimedia.org/api/rest_v1/media/math/render/svg/32769037c408874e1890f77554c65f39c523ebe2)
Stejně jako u indexu se zobecnění stane:
Jδ(S1,S2,...,Sne)=1-J(S1,S2,...,Sne)=|S1∪S2∪⋯∪Sne|-|S1∩S2∩⋯∩Sne||S1∪S2∪⋯∪Sne|{\ displaystyle J _ {\ delta} (S_ {1}, S_ {2}, \ dotsc, S_ {n}) = 1-J (S_ {1}, S_ {2}, \ dotsc, S_ {n} ) = {\ frac {| S_ {1} \ cup S_ {2} \ cup \ dotsb \ cup S_ {n} | - | S_ {1} \ cap S_ {2} \ cap \ dotsb \ cap S_ {n} |} {| S_ {1} \ cup S_ {2} \ cup \ dotsb \ cup S_ {n} |}}}![J _ {\ delta} (S_1, S_2, \ dotsc, S_n) = 1 - J (S_1, S_2, \ dotsc, S_n) = \ frac {| S_1 \ cup S_2 \ cup \ dotsb \ cup S_n | - | S_1 \ cap S_2 \ cap \ dotsb \ cap S_n |} {| S_1 \ cup S_2 \ cup \ dotsb \ cup S_n |}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0b250ab17f593d7ae961eea0e0e0fc458c1ff658)
.
Podobnost mezi binárními množinami
Jaccardův index je užitečný pro studium podobnosti mezi objekty složenými z binárních atributů.
To znamená dvě sekvence a každá s binárními atributy. Každý atribut může být 0 nebo 1. Máme tedy:
NA{\ displaystyle A}
B{\ displaystyle B}
ne{\ displaystyle n}![ne](https://wikimedia.org/api/rest_v1/media/math/render/svg/a601995d55609f2d9f5e233e36fbe9ea26011b3b)
NA=(na1,na2,...,nane) {\ displaystyle A = (a_ {1}, a_ {2}, ..., a_ {n}) ~}![A = (a_1, a_2, ..., a_n) ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/a4b34b884273d543cddd917011c236d5b1bf37d8)
;
B=(b1,b2,...,bne) {\ displaystyle B = (b_ {1}, b_ {2}, ..., b_ {n}) ~}![B = (b_1, b_2, ..., b_n) ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/86c8088320343f083c84e646b0d492ff1e01aada)
.
Definujeme několik veličin, které charakterizují dvě množiny:
|
NA
|
---|
0 |
1
|
---|
B |
0
|
M00{\ displaystyle M_ {00}}
|
M10{\ displaystyle M_ {10}}
|
---|
1
|
M01{\ displaystyle M_ {01}}
|
M11{\ displaystyle M_ {11}}
|
---|
M11 {\ displaystyle M_ {11} ~}![M_ {11} ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/acf54cfbdd25f999b1e93221746d97d0a788abd3)
představuje počet atributů, které mají hodnotu 1 v A a 1 v B ;
M01 {\ displaystyle M_ {01} ~}![M_ {01} ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/1c7cc9b18811af27ab9b6e4c6f52daa2d363a923)
představuje počet atributů, které mají hodnotu 0 v A a 1 v B ;
M10 {\ displaystyle M_ {10} ~}![M_ {10} ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/1a4c2f819071111fee541c52aaa721379cdfda9f)
představuje počet atributů, který se rovná 1 v A a 0 v B ;
M00 {\ displaystyle M_ {00} ~}![M_ {00} ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/7e38cfb952874ac141d38ca5df23c8f20766ca41)
představuje počet atributů, které jsou 0 v A a 0 B .
Každá dvojice atributů musí nutně patřit do jedné ze čtyř kategorií, aby:
M11+M01+M10+M00=ne {\ displaystyle M_ {11} + M_ {01} + M_ {10} + M_ {00} = n ~}![M_ {11} + M_ {01} + M_ {10} + M_ {00} = n ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/e674ab8a10bc34b2b7dee9e59e4c7ffc23617480)
.
Jaccardův index se stává:
J=M11M01+M10+M11 {\ displaystyle J = {M_ {11} \ přes M_ {01} + M_ {10} + M_ {11}} ~}![J = {M_ {11} \ přes M_ {01} + M_ {10} + M_ {11}} ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/81a83e6572c6a9488d0f1f2ce3aae5f73ac8c3c6)
.
Pomocí těchto posledních dvou výrazů získáme:
J=M11ne-M00 {\ displaystyle J = {M_ {11} \ nad n-M_ {00}} ~}![J = {M_ {11} \ nad n - M_ {00}} ~](https://wikimedia.org/api/rest_v1/media/math/render/svg/a11f9a84005414290ca28ab24089d80404863fd9)
.
Stačí tedy vypočítat pouze počet atributů:
- rovno 1 ve všech sadách;
- rovna 0 ve všech sadách.
Poslední psaní tohoto vzorce, zahrnující , lze zobecnit pro studium podobnosti několika binárních množin (výpočtem a tolika 0 a 1, kolik existuje množin).
ne{\ displaystyle n}
M00 ... 00{\ displaystyle M_ {00 ... 00}}
M11..11{\ displaystyle M_ {11..11}}![M_ {11..11}](https://wikimedia.org/api/rest_v1/media/math/render/svg/27eaef85e35f061c0282e9b7ba68995ffec2bdf5)
Vzdálenost Jaccard se stává:
Jδ=M01+M10M01+M10+M11{\ displaystyle J _ {\ delta} = {M_ {01} + M_ {10} \ přes M_ {01} + M_ {10} + M_ {11}}}![J _ {\ delta} = {M_ {01} + M_ {10} \ přes M_ {01} + M_ {10} + M_ {11}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f7ef4104cef15b9871c5281890e48a0e5c240bff)
.
Příklad
NA=(1,0,1,0,0,0,0) {\ displaystyle A = (1,0,1,0,0,0,0) ~}
B=(1,0,0,1,0,1,1) {\ displaystyle B = (1,0,0,1,0,1,1) ~}
M11=1 {\ displaystyle M_ {11} = 1 ~}
M00=2 {\ displaystyle M_ {00} = 2 ~}
M01=3 {\ displaystyle M_ {01} = 3 ~}
M10=1 {\ displaystyle M_ {10} = 1 ~}
J=13+1+1=0,2{\ displaystyle J = {\ frac {1} {3 + 1 + 1}} = 0,2}
Jδ=3+13+1+1=0,8=1-J{\ displaystyle J _ {\ delta} = {\ frac {3 + 1} {3 + 1 + 1}} = 0,8 = 1-J}
Použití psaní vzorce zahrnující (rychlejší):
ne{\ displaystyle n}![ne](https://wikimedia.org/api/rest_v1/media/math/render/svg/a601995d55609f2d9f5e233e36fbe9ea26011b3b)
ne=7 {\ displaystyle n = 7 ~}
M11=1 {\ displaystyle M_ {11} = 1 ~}
M00=2 {\ displaystyle M_ {00} = 2 ~}
J=17-2=0,2{\ displaystyle J = {\ frac {1} {7-2}} = 0,2}
Jδ=1-J=1-17-2=0,8{\ displaystyle J _ {\ delta} = 1-J = 1 - {\ frac {1} {7-2}} = 0,8}
Podívejte se také
Reference
-
Paul Jaccard , „ Rozšíření alpské flóry v povodí Dranses a v některých sousedních regionech “, Bulletin de la Société vaudoise des sciences naturelles , sv. 37,1901, str. 241-272 ( číst online ).
- Pang-Ning Tan, Michael Steinbach a Vipin Kumar, Úvod do dolování dat , 2005 ( ISBN 0-321-32136-7 )
- Tanimoto, TT (1957) Interní zpráva IBM 17. listopadu 1957.
externí odkazy
<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">