Anonymizace dat ( a tím spíše osobní ) spočívá v úpravě obsahu nebo strukturu těchto údajů tak, aby velmi obtížné nebo nemožné je „re-označení“ na osoby (fyzické nebo právnické) nebo dotčených subjektů (což znamená, jasně definovat, co v této souvislosti znamená pojem identifikovatelnost ). Angličtí mluvčí také někdy mluví o identifikaci (DE-ID) .
Volba anonymizace údajů často vyplývá z etického , právního a etického kompromisu mezi touhou nebo povinností chránit jednotlivce a jejich osobní údaje. Anonymizace se používá zejména pro šíření a sdílení údajů považovaných za veřejný zájem , jako jsou otevřená data ( Open Data ).
Používání anonymních údajů stále vyvolává právní a etické problémy, protože to může být také „překážkou“ nebo překážkou lékařského výzkumu , „pozorovací“ . Stejně tak je do práva demokratických zemí začleněno mnoho výjimek z tohoto pravidla (například pro určité lékařské údaje týkající se obrany nebo vnitřní bezpečnosti). Toto použití je někdy doprovázeno omezením doby použitelnosti.
Zatímco pojem důvěrnosti osobních údajů - zejména lékařských údajů - pochází z doby Hippokrata , rozsáhlé počítačové ukládání a zpracování osobních údajů v poslední době obrátilo tuto otázku naruby.
Spojené státy a členské státy Evropské unie postupně přijaly vnitrostátní nebo nadnárodní právní předpisy o ochraně důvěrnosti údajů, včetně počítačových údajů (v Evropě od směrnice 95/46 / ES o ochraně osobních údajů ), které požadují, aby členské státy dříve harmonizovat své právní předpisy v této oblasti24. října 1998, včetně týkající se například přenosu údajů do zemí mimo Evropskou unii (důležitá otázka, protože z nákladových důvodů může být zpracování nebo použití určitých údajů zadáno externě a delokalizováno mimo Evropu).
Evropská směrnice se týká pouze neanonymizovaných údajů a stanoví, že používání „anonymních údajů“ nespadá do její pravomoci: podle 26. bodu odůvodnění směrnice „se zásady ochrany údajů nevztahují na anonymizované údaje že subjekt údajů již není identifikovatelný “ . toto bylo potvrzeno a objasněno judikaturou v Anglii a Walesu (rozsudek odvolacího soudu). První texty (národní nebo evropské) nebyly příliš přesné, jak anonymizovat jmenované nebo osobní údaje.
U určitých údajů anonymizace stále vyžaduje souhlas dotčených osob a obecně by měla být zachována také možnost vyhrazení možnosti de-anonymizace údajů před určitou dobou (obecně pomocí jednoho nebo více dešifrovacích klíčů) vyžadovat předchozí souhlas dotčených osob.
Nyní se snažíme zlepšit zabezpečení datových přenosů, aniž bychom zpomalili přenosové toky nebo omezili legitimní potřeby jemnozrnného oběhu dat (což může být například klíčové pro vzdálenou medicínu ).
Problematika je zároveň etická , právní , informační a řádná správa věcí veřejných . Kromě toho vyvstaly nové problémy z podoby internetu, který zlepšil přístup k informacím a umožnil lidem nabídnout ostatním - někdy bezohledně nebo špatně informovaní o rizicích - prvky jeho soukromého života (prostřednictvím blogů a fór nebo například osobní stránky), což ztěžuje „ právo být zapomenut “. Od 90. let se vyvíjí úsilí přinejmenším s cílem informovat pacienty o možném využití jejich lékařských údajů nebo určitých více či méně osobních údajů a jejich právu na soukromí . Toto úsilí musí být posíleno jednotným evropským nařízením odhadovaným Evropským parlamentem v letech 2013–2014 a podle místopředsedkyně Viviane Redingové (komisařky pro spravedlnost EU) „Ochrana údajů probíhá v Evropě. Silná pravidla pro ochranu údajů musí být charakteristickým znakem Evropy. Po skandálech globální špionáže dat Američany je ochrana dat více než kdy jindy faktorem konkurenceschopnosti ... “ .
V určitých kontextech nebo z osobních důvodů může osoba chtít zůstat v anonymitě (nebo může používat pseudonym nebo odmítnout uvedení svého jména, zobrazení tváře atd.). Anonymita je povinná, pokud zákon ukládá chránit určité osobní údaje nebo citlivé údaje jejich anonymizací, což umožňuje určité opětovné použití údajů veřejného a obecného zájmu ( společné dobro ) bez ohrožení osoby.
Prozatímní pseudoanonymizace (ve skutečnosti maskování identity jejího autora) kopie zkoušky umožňuje zkoušejícímu být méně ovlivněna jménem, třídou nebo národností žáka.
V závislosti na kontextu, anonymizace osoby v debatě, zprávě atd. umožňuje jim uniknout možným odvetným opatřením, stigmatu nebo jednoduše nežádoucímu přístupu k jejich soukromí , ale někdy to může poškodit důvěryhodnost této osoby nebo kvalitu (pokud jde o přesnost) informací. Anonymizace údajů obsahujících osobní prvky někdy snižuje hodnotu těchto údajů ze statistického hlediska, jejich význam nebo užitečnost pro výzkum.
Anonymizace souborů dotazovaných vytvořených během průzkumů veřejného mínění je operace, která může mít sociologický význam. Sociologka Emmanuelle Zolesio navrhuje sociologům, kteří analyzují anonymizovaná data, aby neuvažovali o anonymizaci způsobem, který je oddělen od zbytku analýzy rozhovoru. V případech, kdy tazatel „nabízí zpětnou vazbu svým respondentům tím, že je nechá přečíst výsledky svého výzkumu“ , existují metody k anonymizaci údajů v případech, kdy se respondenti navzájem znají a mohou se navzájem rozpoznat i přes změny názvu provedené vyšetřovatelem.
Zvláštní výzvy se týkají boje proti cílenému spamu , ochraně zdraví a obecněji biomedicínských údajů (včetně genetického kódu ), například vytvoření registrů rakoviny, registrů nemocí, epidemiologického mapování atd. V této oblasti lékařský nebo ekoepidemiologický výzkum nebo zdravotnické organizace někdy nutně potřebují údaje k identifikaci pacienta (a systematická povinnost projít souhlasem s použitím osobních údajů každým pacientem by vyvolala zaujatost. Důležitá interpretace údaje a mohou být překážkou výzkumu). Na uživatele těchto údajů se poté vztahují zvláštní požadavky. V některých zemích je u některých nemocí (např. Pohlavně přenosných nemocí ) povinnost důvěrnosti dále posílena .
V souvislosti se šířením určitých veřejných údajů obsahujících soukromé informace, zejména v souvislosti s otevřenými údaji ( otevřenými údaji ), musí být určité údaje podle platných zákonů „anonymizovány“ pro jejich opětovné použití třetími stranami.
Trvalým úkolem je aktualizovat předpisy a osvědčené postupy a vyjasnit jejich možné interpretace, zatímco počítačové možnosti přenosu dat z internetu se rychle vyvíjejí. Správci údajů jsou také zvláště ovlivněni.
Prohlášení o určitých chorobách (označovaných jako „ ohlašovatelné nemoci “ nebo MDO ) jsou nezvratně anonymizována (například AIDS / HIV ve Francii), aby byla lépe chráněna pacientka a aby bylo možné zlepšit monitorování a prevenci zdraví a epidemiologické údaje. studie .
S pokrokem a snížením nákladů na genetickou analýzu se objevují nové problémy bioetiky : do jaké míry jsou anonymní data anonymní? uvažoval v roce 2012 Harald Schmidt Shawneequa Callier a další. Kromě toho genom člověka obsahuje také apriorní osobní informace o jeho předcích. Již v roce 2008 hráli hráči v odvětví genomiky, jako je Greenbaum et al. v roce 2008 uvažovali, zda genetická anonymita ještě není ztracena.
Sdílení a dokonce i zveřejnění anonymizovaných genomických dat v otevřených datech se ukázalo jako velmi zajímavé pro pokrok zejména v medicíně a vědě obecně, ale zároveň je zdrojem nerovností a nových rizik v případě zneužití určitých data.
V roce 2008 NIH zpřísnila svá bezpečnostní pravidla poté, co článek ukázal, že je možné spolehlivě detekovat DNA člověka, i když tato DNA představuje méně než 1% celkového objemu analyzované DNA. Krátce poté jeden z nejvyšších představitelů NIH prostřednictvím dopisu časopisu Science Science vyzval vědeckou komunitu, aby „pečlivě zvážila, jak jsou tyto údaje sdíleny, a aby přijala příslušná preventivní opatření“ k ochraně důvěrnosti lékařských údajů a soukromí. účastníci programů genetických studií.
George Church, jeden z tvůrců Projektu osobního genomu (PGP), se již obával, že DNA je „konečným číselným identifikátorem jednotlivce a že mnoho z jeho vlastností lze identifikovat tímto způsobem“ , a proto tvrdí, že slíbit vzorek DNA úplné soukromí a důvěrnost dárců by bylo nemožné a nepoctivé. Kromě toho by identifikace těchto vzorků ochuzila jak genotypová, tak fenotypová data, a proto se tento program stal podle Mishy Angrista (jednoho ze zakladatelů projektu) nejlépe známým pro jeho obzvláště důkladný (bezprecedentní) přístup k informovanému Souhlas: Každý účastník musí projít testem svých znalostí genomové vědy a otázek důvěrnosti a souhlasit s tím, že se vzdá soukromí a důvěrnosti svých genomových údajů a osobních zdravotních záznamů. Pouze tímto programem by mělo být ovlivněno 100 000 účastníků. To může být zdrojem zkreslení interpretace, protože program vybral pouze ty jedince, kteří mohou tolerovat nejistotu (souhlas s informovaným souhlasem). Velikost tohoto zkreslení ještě nelze změřit, ale konečné výsledky jej budou muset zohlednit.
Po celém světě se testují nové metody hodnocení problémů a anonymizace genetických analýz .
Po odstranění obvyklých identifikátorů z textu mohou zůstat názvy měst, míst, konkrétní výrazy, které by identifikovaly jeho autora nebo osobu, o které mluvíme. Specializovaný software dokáže tyto prvky identifikovat porovnáním textu s jazykovými prostředky, jako jsou seznamy míst nebo měst, názvy nemocnic nebo zdravotnických zařízení, regulární výrazy atd. Velká část tohoto softwaru však byla navržena pro angličtinu a musí být „francouzská“ nebo přizpůsobená jiným jazykům.
Anonymizaci lze provést „u zdroje“ subjektem produkujícím data, nebo „při výstupu“ po zpracování a analýze.
V rostoucím počtu zemí, anonymizace se provádí licencovaných společností, „napsal jmenovaný zaměstnanci, jehož pracovní smlouva může být zrušena v případě porušení důvěrnosti pacienta . “ V Evropě konvence ( Evropská úmluva o ochraně lidských práv a základních svobod ) stanoví, že soukromý život zahrnuje soukromý život osoby, jeho rodiny, domova a také jeho korespondence.
První minimální krok spočívá v odebrání identifikátorů z příslušných záznamů nebo databází; tyto identifikátory jsou obecně:
Dalším krokem bude použití „filtrů“ a „ kryptografických transformací “ na soubory nebo databáze (např. Šifrování a / nebo hašování dat vyhrazeným algoritmem, např. SHA pro Secure Hash Algorithm ), ale před touto prací správce dat nese provedl nebo provedl studii objasňující její potřebu anonymizace, její cíle a požadavky (např. musí existovat možná reverzibilita anonymizace), v případě potřeby upřednostňuje údaje, které mají být chráněny, podle stupně jejich „citlivosti“ a v závislosti na účelu zpracování, kterému musí informace poté projít. Může tak vytvořit a porovnat několik anonymizačních scénářů, aby mohl lépe zvolit řešení, které se mu zdá nejrelevantnější (podle jeho požadavků a požadavků zákona). Ve všech případech musí anonymizace odolat slovníkovým útokům .
Několik fází a úrovní anonymizace na sebe někdy navazují: například nemocnice provede počáteční anonymizaci, centrum zpracování dat pak může tuto práci dokončit a sekundární uživatelé (výzkumníci obecně) mohou data stále anonymizovat. Přepracováno (před publikace v časopise nebo distribuce dalším uživatelům). Existuje mnoho metod (mazání určitých údajů a / nebo manuální překódování, matematický překlad, automatická transformace pomocí softwaru ad hoc ); používání pseudonymů, například pro dvojici lékař / pacient; šifrování (obvykle pomocí veřejného klíče - případně fragmentovaného - ve vlastnictví příslušného orgánu); mono-anonymizace, bi-anonymizace nebo multi-anonymizace.
V lékařské oblasti se pojem anonymizované identity a opětovné identifikace pacienta týká přímých a nepřímých prostředků k opětovné identifikaci (např. Jméno, adresa atd.), Ale také šifrovaných údajů, pokud jsou k dispozici prostředky k dešifrování .
Aby se omezilo riziko úniku informací, objeví se osoba (např. Pacient) v anonymní databázi pouze v případě, že je to povinné nebo skutečně užitečné, a projekt lze spojit pouze s jednou anonymizovanou databází. Zvýšené právní jistoty se dosáhne, pokud všechny osoby, které se tam objeví, poskytly souhlas (písemně nebo poskytnutím svého identifikátoru, například pro lékařsko-komerční studii), ale tento typ základu vyvolává výkladovou zkreslení.
Samozřejmě na každé úrovni výroby nebo ukládání dat:
Taková data se stále více používají v mnoha oblastech (výzkum, statistika, administrativní správa, studie trhu ...). Tato data patří například do následujících kategorií:
Někdy je nutné zakázat jakoukoli možnost opětovné identifikace, která má za následek nevratný proces anonymizace, metodou, která prokázala svou robustnost vůči závěrům (zde vyvozením zde rozumíme nelegální rekonstituci důvěrných údajů, které nejsou přímo přístupné, znamená hledání a párování několika legitimně přístupných údajů a odhalení určitých informací o osobě. Typ dotyčné inference může být induktivní, deduktivní, únosný nebo pravděpodobnostní;
Sofistikované prostředky se přesto v některých případech zdají být schopné alespoň neumožnit identifikace jistá, ale ke stanovení pravděpodobností, že taková osoba odpovídá určité sadě dat. Software prostupující určité hodnoty datových tabulek (aby se osobní údaje staly nepravdivými, aniž by došlo ke zfalšování celkových statistik) a / nebo náhodnému zavádění šumu může provést překrytí má příspěvek riori mnohem obtížnější.
Anonymizace textů (např. Korpus e-mailů nebo korpus odpovědí na dotazník pohovoru ...), které mají značné náklady, jsou opakovaně použitelné anonymizované korpusy poměrně vzácné.
Někteří autoři, jako je Pete Warden, se domnívají, že je nemožné skutečně zcela anonymizovat určitá data a že se budeme muset naučit pracovat s tímto limitem. Vědci ve skutečnosti prokázali, že jednotlivce lze najít v lékařské databázi s vědomím jeho pohlaví, poštovního směrovacího čísla a data narození, v telefonní databázi založené na čtyřech geolokačních bodech nebo dokonce v databázi kreditních karet s vědomím čtyř obchodů a dnů když použil svou kartu.
Tvrdit, že data jsou zcela anonymizována, může podle něj také poskytnout „falešný pocit bezpečí“ .
Doporučuje neopustit anonymizaci (protože zpomaluje a zdražuje proces rekonstrukce), ale je také nutné šířit data inteligentněji, pokud možno omezením jejich přesnosti a učením se od odborníků (sociologové, lékaři, ekonomové a další pracují na těchto otázkách několik desítek let).
Výzkumní pracovníci Luc Rocher, Julien M. Hendrickx a Yves-Alexandre de Montjoye se domnívají, že standardy anonymizace platné v roce 2019 jsou nedostatečné, zejména z hlediska obecného nařízení o ochraně údajů Evropské unie., protože umožňují opětovnou identifikaci křížovou kontrolou s jinými databázemi. Podle jejich modelu bylo možné 99,98% obyvatel USA znovu identifikovat v libovolném souboru dat z patnácti demografických proměnných.
Anonymizace může být organizační, kryptografická nebo nevratná (jednosměrná funkce). Anonymizace je ze své podstaty nevratná, pokud je možné vrátit se k původní osobě, nazývá se to pseudonymizace . Jedním ze způsobů zabezpečení dat při zachování možnosti následné identifikace je použití čipové karty, která může náhodně generovat a ukládat několik sekundárních anonymních identifikátorů.
Měření změn ve vnímání veřejnosti současných postupů a budoucích scénářů sekundárního a sdíleného používání osobních údajů, zejména ve zdravotnictví (a jejich podmínkách používání), je důležité za účelem vytvoření nebo změny etických a právních struktur pro monitorování využívání těchto údajů (dříve CNIL ve Francii).
Na počátku dvacátých let většina evropských občanů obecně důvěřuje poskytovatelům zdravotní péče, aby se svými údaji zacházeli s respektováním důvěrnosti: podle průzkumu Eurobarometru 84% občanů EU uvedlo, že tomu důvěřuje ve zdravotnické profese, ale pouze 42% respondentů to vědělo potřeba poskytnout někomu souhlas s použitím jeho osobních údajů, jakož i jeho právo vznést námitku proti určitému použití těchto údajů.
Různé průzkumy veřejného mínění nebo vědecké studie ukazují, že od počátku počítačového zpracování dat je veřejnost na počátku dvacátých let připravena akceptovat automatizaci lékařských záznamů, ale zůstává obecně as malým rozlišením podle geografického, etnického nebo genderového původu , velmi znepokojen ochranou soukromí a osobních údajů. V roce 2014 tedy „Devět z deseti Evropanů (92%) uvedlo, že mají obavy z mobilních aplikací (App), které by pravděpodobně shromažďovaly jejich údaje bez jejich souhlasu.“ A „Sedm z deseti Evropanů se obává možného využití, které mohou společnosti využít. zveřejněné informace “ .
Podle severoamerické studie zveřejněné v roce 2013 více než uživatel nebo více či méně citlivá povaha sdílených informací chtěla veřejnost zpochybňovaná především vědět, co bude konkrétně provedeno s těmito osobními údaji.
Další studie z roku 2013 ukazuje, že „zrnko“ anonymizace (svým způsobem stupeň rozmazání) je také obavou veřejnosti.
Pokud jde o zdraví, zatímco se informatizace medicíny rychle rozvíjí, veřejnost připouští význam přístupu k neanonymizovaným údajům pro zdravotnický personál odpovědný za primární péči a pro samotného pacienta, jedná se však o dobrou anonymizaci těchto údajů, pokud které mají být použity pro sekundární účely. Vlastnictví lékařských informací není vždy jasné.
Průzkum z roku 2004 založený na fokusních skupinách zahrnujících zdravotnický personál a několik nezdravotnických pracovníků z anglických komunitních zdravotních rad ukázal, že nelze a priori předpokládat přijatelnost použití obsahu lékařské dokumentace anglickou veřejností bez předchozího pacienta souhlas. Veškerý podporovaný výzkum založený na těchto datech, ale zároveň ukazuje znepokojení nad riziky nepřiměřeného šíření ze shromažďování údajů ze zdravotnických záznamů bez souhlasu pacienta (shromažďování bylo vnímáno jako nedostatek respektu vyvolaný ztrátou kontroly nad těmito údaji ze strany pacienta). Ve skupinách dotazovaných pro tuto studii byl běžným problémem přístup k osobním údajům neoprávněnými externími orgány. A klíčoví informátoři se ukázali být kritičtější k scénářům a méně dobře přijímali rizika driftů.
Je proto třeba vzít v úvahu anonymizaci, a to již při plánování politik péče a lékařských postupů a postupů klinických hodnocení, zejména drog, a při vytváření databází určených pro lékařský výzkum.