Data mining , známé také pod výraz dolování dat , data mining , získávání dat , data mining , nebo extrakce znalostí z dat , se vztahuje k extrakci know nebo ‚‘ poznatků z velkého množství dat prostřednictvím automatické či polo- automatické metody.
Navrhuje použít sadu algoritmů z různých vědeckých oborů, jako je statistika , umělá inteligence nebo počítačová věda , k sestavení modelů z dat , to znamená k nalezení zajímavých struktur nebo vzorů podle předem stanovených kritérií, a k extrakci jako co nejvíce znalostí .
Průmyslové nebo provozní využití těchto znalostí v profesionálním světě umožňuje řešit širokou škálu problémů, od správy vztahů se zákazníky po preventivní údržbu, včetně detekce podvodů a optimalizace webových stránek . Je to také způsob, jakým funguje datová žurnalistika .
Následuje dolování dat při eskalaci dolování obchodních dat, business intelligence . To umožňuje sledovat skutečnost, jako je obrat , a vysvětlit ji jako pokles obratu o produkt, zatímco dolování dat umožňuje klasifikaci faktů a jejich předvídání do určité míry nebo jejich osvícení například odhalením proměnných nebo parametrů, které by mohly umožnit pochopit, proč je obrat jednoho prodejního místa vyšší než obrat jiného.
Generování modelů z velkého množství dat není nedávným fenoménem. Aby bylo možné vytvořit model, musí existovat sběr dat. V Číně přisuzujeme mýtickému císaři Yaovi touhu identifikovat plodiny v roce 2238 př. N. L. INZERÁT; V Egyptě faraon Amasis organizaci sčítání lidu v V th století před naším letopočtem. AD Teprve XVII -tého století, které začneme analyzovat data hledat společných charakteristik. V roce 1662 , John Graunt publikoval jeho knihu „ přírodní a politické pozorování učiněných na základě směnky úmrtnosti “, ve kterém on analyzovaných úmrtnost v Londýně a snažili předpovědět vzhled dýmějový mor. V roce 1763 , Thomas Bayes ukazuje, že můžeme určit nejen pravděpodobnosti z vyjádření vyplývající z experimentu, ale i parametry, týkající se těchto pravděpodobností. Prezentován v konkrétním případě binomické distribuce , je tento výsledek nezávisle rozšířen Laplaceem , což vede k obecné formulaci Bayesovy věty . Legendre publikoval v roce 1805 esej o metodě nejmenších čtverců, která umožňuje porovnat soubor dat s matematickým modelem. Drahé ruční výpočty však neumožňují použití těchto metod mimo malý počet jednoduchých a poučných případů.
V letech 1919 až 1925 vyvinul Ronald Fisher analýzu rozptylu jako nástroj pro svůj projekt lékařské statistické inference . V padesátých letech se na těchto strojích objevily stále drahé počítače a techniky dávkového výpočtu. Současně se objevují metody a techniky, jako je segmentace , klasifikace (mimo jiné metodou dynamických mraků ), první verze budoucích neuronových sítí, která se nazývá Perceptron , a některé samo se vyvíjející algoritmy, které se později budou nazývat genetické . V 60. letech 20. století přišly rozhodovací stromy a metoda mobilního centra ; tyto techniky umožňují vědcům využívat a objevovat stále přesnější modely. Ve Francii , Jean-Paul Benzécri vyvinutý korespondenční analýza v roce 1962 . Zůstáváme však v perspektivě dávkového zpracování .
V roce 1969 se objevila práce Myron Tribus Rational popisů, rozhodnutí a návrhů, které zobecňují Bayesovské metody v automatickém výpočtu (profesor v Dartmouthu , používá zcela logicky jazyk BASIC , který byl vytvořen před několika lety, a jeho interaktivitu ). Francouzský překlad byl k dispozici v roce 1973 pod názvem Racionální rozhodnutí v nejistotě . Důležitou myšlenkou práce je zmínka o Cox-Jaynesově větě , která ukazuje, že jakékoli pořízení modelu se provádí podle Bayesových pravidel (kromě homomorfismu ), nebo vede k nesrovnalostem. Další je, že ze všech rozdělení pravděpodobnosti splňujících pozorování (jejich počet je nekonečný) je nutné zvolit takové, které obsahuje nejméně libovolnost (tedy nejméně přidaných informací a následně i maximální entropie . Pravděpodobnost je zde považována za jednoduchý digitální překlad stavu poznání bez podkladové frekventované konotace. Tato práce nakonec popularizuje notaci pravděpodobností v decibelech, což činí Bayesovo pravidlo aditivní a umožňuje jedinečným způsobem kvantifikovat poskytování pozorování v nyní nezávislé vykreslování různých odhadů předchozí precedens (viz Bayesian inference ).
Postupný příchod mikropočítačů usnadňuje zobecnění těchto bayesovských metod bez zatížení nákladů. To stimuluje výzkum a Bayesovské analýzy se zobecňují, zejména když Tribus prokázal svou konvergenci, jak postupují pozorování, směrem k výsledkům klasické statistiky a zároveň umožňuje zdokonalit znalosti v čase bez nutnosti stejných časů akvizice (viz také Plán experimentu ) .
Potom začíná osvobození od klasického statistického protokolu: již není nutné stanovovat hypotézu a ověřovat ji, či nikoli a posteriori . Naopak, Bayesovské odhady si tyto hypotézy vytvoří, jakmile se pozorování hromadí.
Výraz „ dolování dat “ měl na počátku 60. let pejorativní konotaci, vyjadřující opovržení statistiků přístupy korelačního výzkumu bez zahájení hypotéz . Je zapomenuto, pak jej Rakesh Agrawal znovu používá v 80. letech, kdy zahájil svůj výzkum databází o objemu 1 MB . Koncept dolování dat se poprvé objevil podle Pal a Jaina na konferencích IJCAI v roce 1989 . Gregory Piatetsky-Shapiro hledal jméno pro tento nový koncept na konci 80. let v GTE Laboratories . „ Data mining “, na který se vztahuje ochrana autorských práv, použil výraz „ Knowledge knowledge in data basees “ (KDD).
V 90. letech pak přišly techniky strojového učení, jako jsou SVM v roce 1998 , které doplňovaly nástroje analytika.
Na začátku XXI th století Společnosti, jako je Amazon.com používá všechny tyto nástroje nabízet svým zákazníkům produkty, které jim mohly zajímat.
V dnešní době lze techniky dolování dat použít ve zcela odlišných oblastech s velmi specifickými účely. Zásilkové společnosti používají tuto techniku k analýze chování spotřebitelů k identifikaci podobností v chování, udělování věrnostních karet nebo vytváření seznamů produktů, které mají být nabízeny pro další prodej (křížový prodej).
Direct mail ( mailing ) používá k vyhledávání nových zákazníků má poměr odpovědí 10% v průměru. Marketingové společnosti používají dolování dat ke snížení nákladů na získání nového zákazníka seřazením potenciálních zákazníků podle kritérií, která jim umožňují zvýšit míru odezvy na rozeslané dotazníky.
Tytéž společnosti, ale i další, jako jsou banky, mobilní telefonní operátoři nebo pojišťovny, usilují prostřednictvím dolování dat o minimalizaci úbytku (nebo churn ) svých zákazníků, protože náklady na údržbu zákazníka jsou méně důležité než náklady na získání nového.
Policejní služby ve všech zemích se snaží charakterizovat trestné činy (odpovězte na otázku: „Co je to„ normální “zločin?“) A chování zločinců (odpovězte na otázku: „co je„ normální “zločin?“) A chování zločinců (odpovězte na otázku: „„ normální “kriminální chování?)) s cílem předcházet trestné činnosti a omezit rizika a nebezpečí pro obyvatelstvo.
Scoring zákazníků v bankách je nyní známo, že umožňuje identifikovat „dobré“ zákazníky, aniž by rizikových faktorech ( vyhodnocení rizika zákazníkem ), jemuž Finanční instituce, banky, pojišťovny, atd., Může nabídnout cenu. Upraveny a atraktivní produkty, přičemž v případě pojištění omezuje riziko nevyplacení nebo nezaplacení či dokonce ztráty.
Tyto call centra použít tuto techniku s cílem zlepšit kvalitu služeb a umožnit přiměřenou reakci na provozovatele pro spokojenost zákazníka.
Při hledání lidského genomu byly k objevování genů a jejich funkcí použity techniky dolování dat .
Byly nalezeny další příklady v jiných oblastech, ale nyní si můžeme všimnout, že všechna tato použití umožňují charakterizovat složitý jev (lidské chování, exprese genu), abychom jej lépe pochopili, aby se omezil výzkum nebo provozní náklady spojené s tímto jevem nebo ke zlepšení kvality procesů souvisejících s tímto jevem.
Odvětví si uvědomilo význam dědictví, které tvoří jeho data, a snaží se ho využít pomocí business inteligence a dolování dat. Nejpokročilejší společnosti v této oblasti jsou v terciárním sektoru . Podle webu kdnuggets.com se distribuce využití dolování dat podle odvětví činnosti ve Spojených státech v roce 2010 provádí jako procento z celkových odpovědí na průzkum :
CRM / analýza spotřeby | banka | Zdraví, lidské zdroje |
---|---|---|
Detekce podvodů | Finance | Direct marketing , fundraising |
Telekomunikace | Pojištění | Věda |
Vzdělání | Publicita | Web |
Lékařský | Výroba | Maloobchod |
Úvěrový rating | ||
Elektronický obchod | ||
Vyhledávač | ||
Sociální sítě | ||
Vláda, armáda | ||
Jak ukazuje výše uvedený histogram, průmysl má velký zájem o toto téma, zejména pokud jde o standardy a interoperabilitu, které usnadňují používání nástrojů IT od různých vydavatelů. Společnosti, vzdělávání a výzkum navíc významně přispěly k vývoji a zdokonalování (například z hlediska přísnosti) metod a modelů; článek publikoval v roce 2008 podle International Journal of informačních technologií a rozhodování shrnuje studii, která stopuje a analyzuje tento vývoj. Někteří hráči přešli od výzkumu k průmyslu.
Univerzity jako Konstanz v Německu , Dortmund v Severní Karolíně ve Spojených státech , Waikato na Novém Zélandu a Université Lumière Lyon 2 ve Francii provedly výzkum za účelem nalezení nových algoritmů a zlepšení starších . Také vyvinuli software umožňující jejich studentům, učitelům a výzkumným pracovníkům pokrok v této oblasti, což umožňuje průmyslovému odvětví těžit z jejich pokroku.
Na druhou stranu bylo vytvořeno mnoho meziprofesních skupin a asociací, které odrážejí a podporují rozvoj dolování dat. První z těchto profesních skupin v oboru je zájmová skupina Asociace pro výpočetní techniku pro správu znalostí a těžbu dat, SIGKDD . Od roku 1989 pořádá každoroční mezinárodní konferenci a zveřejňuje nové výsledky, úvahy a vývoj svých členů. Od roku 1999 tedy tato organizace vydává pololetní revizi nazvanou „ SIGKDD Explorations “ .
Jsou organizovány další konference o dolování a výpočtu dat, například:
Tyto finančně přesvědčivé výzkumy a výsledky zavazují týmy specializující se na dolování dat k provádění metodické práce ve strukturovaných projektech.
Postupem času se objevily osvědčené postupy ke zlepšení kvality projektů. Mezi nimi metodiky pomáhají týmům organizovat projekty do procesů. Mezi nejvíce používané metody jsou Semma metodologie v SAS Institute a CRISP-DM , která je nejvíce používaná metoda v 2010s.
Metoda CRISP-DM rozděluje proces dolování dat do šesti fází, což umožňuje strukturovat a ukotvit techniku v průmyslovém procesu. Více než standardizovaná teorie je to proces získávání obchodních znalostí.
Nejprve musíte porozumět úloze, která analytikovi položí otázku, formalizovat problém, který se organizace snaží vyřešit s ohledem na data, porozumět problémům, znát kritéria pro úspěch projektu a nastavit počáteční plán k dosažení tohoto cíle .
Pak analytik potřebuje správná data. Jakmile projektový tým ví, co má dělat, musí hledat data, texty a veškerý materiál, který jim umožní reagovat na problém. Poté musí posoudit kvalitu, objevit první zjevné vzory, aby vytvořil hypotézy o skrytých modelech.
Data, která projektový tým shromáždil, jsou různorodá . Musí být připraveny podle použitých algoritmů, odstraněním odlehlých hodnot nebo extrémních hodnot, vyplněním nevyplněných údajů, průměrem nebo metodou K nejbližších sousedů , odstraněním duplikátů, invariantních proměnných a těch mít příliš mnoho chybějících hodnot, nebo například diskretizací proměnných, pokud to vyžaduje použitý algoritmus, jako je tomu například v případě analýzy více korespondencí ACM, diskriminační analýzy DISQUAL nebo metody od Condorcet .
Jakmile jsou data připravena, musíte je prozkoumat. Modelování skupin dohromady tříd úkolů, které lze použít samostatně nebo navíc k jiným pro popisné nebo prediktivní účely.
Úkolem segmentace je objevit v datech skupiny a struktury, které jsou si nějak podobné, bez použití struktur známých a priori v datech. Klasifikace je úkolem známá konstrukce generalizace a aplikovat je na nová data.
Regrese se snaží najít funkci modelování spojitých dat, to znamená, ne diskrétní, s nejnižší mírou chybovosti s cílem předvídat budoucí hodnoty. Sdružení hledá vztahy mezi položkami. Například supermarket může shromažďovat údaje o nákupních návycích svých zákazníků. Pomocí pravidel přidružení může supermarket určit, které produkty se často nakupují společně, a tak tyto znalosti využít pro marketingové účely . V literatuře se tato technika často označuje jako „analýza koše pro domácnost“.
Jde pak o vyhodnocení získaných výsledků podle kritérií úspěšnosti obchodu a o vyhodnocení samotného procesu, aby se odhalily mezery a opomíjené kroky. V důsledku toho musí být rozhodnuto o nasazení nebo iteraci procesu zlepšením toho, co se pokazilo nebo neudělalo.
Poté přichází fáze dodávky a konec hodnocení projektu. Jsou navrženy plány kontroly a údržby a je vypracován konec projektové zprávy. Aby bylo možné nasadit prediktivní model, používá se jazyk PMML založený na XML . Používá se k popisu všech charakteristik modelu a k přenosu do dalších aplikací kompatibilních s PMML.
Metodika SEMMA ( Sample then Explore, Modify, Model, Assess for “Sampling, then Explore, Modify, Model, Evaluate”), kterou vymyslel SAS Institute , se zaměřuje na technické činnosti těžby dat. Přestože je SEMMA prezentován SAS pouze jako logická organizace těžebních nástrojů SAS Enterprise , lze jej použít k uspořádání procesu dolování dat bez ohledu na použitý software.
Six Sigma (DMAIC)Six Sigma ( DMAIC je zkratka charakterizující metodu následovně: Definovat, měřit, analyzovat, vylepšovat, kontrolovat „Definovat, měřit, analyzovat, zlepšovat, kontrolovat“) je strukturovaná metodika zaměřená na data, jejímž cílem je odstraňování vad, nadbytečnosti a problémů kontroly kvality všeho druhu v oblastech výroby, poskytování služeb, řízení a dalších obchodních aktivit. Dolování dat je oblast, ve které lze tuto metodickou příručku použít.
Nejběžnější úskalí, s nimiž se setkávají zkušení a nezkušení horníci dat, popsali Robert Nisbet, John Elder a Gary Miner ve své příručce Statistická analýza a aplikace pro dolování dat .
První se ptá na špatnou otázku. Což vede k pohledu na špatné místo. Počáteční otázka musí být správně položena, aby byla odpověď užitečná.
Poté se vyrovná s malým množstvím dat pro složitý problém. Musíme je mít k dispozici, abychom je mohli prozkoumat, a zajímavé případy pro bagr lze pozorovat jen zřídka, proto musíme mít k dispozici spoustu dat, abychom mohli vytvářet vzorky, které mají hodnotu pro učení a které umožní předpovědět situace, tj. odpověď na položenou otázku, ohledně údajů mimo vzorek. Kromě toho, pokud data nejsou přizpůsobena zadané otázce, bude výkop omezen: například pokud data neobsahují proměnné, které je třeba předpovědět, výtěžek bude omezen na popis a analytik bude moci rozdělit pouze data. do koherentních podmnožin ( shlukování ) nebo najít nejlepší dimenze, které zachycují variabilitu dat.
Vzorek, který umožňuje učení, musí být konstruován s opatrností a nesmí být vzorkován lehce. Učení umožňuje sestavení modelu z jednoho nebo více vzorků. Nastavení nástroje pro dolování dat, dokud model nevrátí 100% hledaných případů, se zaměřuje na zvláštnosti a odvrací se od zevšeobecňování, což je nezbytné, což umožňuje použít model na data mimo vzorek. Existují techniky, jak se vyhnout nadměrnému vybavení nebo nadměrnému vybavení . Jedná se o metody převzorkování, jako je bootstrap , jackknife nebo cross validation .
Někdy jediná technika (rozhodovací strom, neuronové sítě ...) nestačí k získání modelu, který poskytuje dobré výsledky pro všechna data. Jedno z řešení, v tomto případě, by sestávalo ze sady nástrojů, které lze použít jeden po druhém a porovnávat výsledky na stejných datech nebo jinak sjednotit silné stránky každé metody buď učením, nebo kombinací výsledků.
Data a výsledky hloubení musí být uvedeny v perspektivě v jejich kontextu a nesmí se zaměřovat na data, jinak může dojít k chybám při interpretaci a také ke ztrátě času a peněz.
Eliminace a priori výsledků, které se zdají absurdní, ve srovnání s tím, co se očekává, může být zdrojem chyb, protože právě tyto výsledky dávají řešení položené otázky.
Je nemožné použít a interpretovat výsledky modelu mimo rámec, ve kterém byl postaven. Interpretace výsledků na základě jiných podobných, ale odlišných případů je také zdrojem chyb, ale není to jedinečné pro uvažování o dolování dat. A konečně, extrapolace výsledků získaných v nízkodimenzionálních prostorech a ve vysokodimenzionálních prostorech může také vést k chybám.
Dva citáty George Boxa : „Všechny modely se mýlí, ale některé jsou užitečné“ a „Statistici jsou jako umělci, zamilují se do svých modelů“, vtipně ilustrují, že někdy někteří analytici pro dolování dat musí věřit ve svůj model a věřit že model, na kterém pracují, je nejlepší. Použití sady modelů a interpretace distribuce výsledků je mnohem bezpečnější.
V projektu dolování dat je zásadní vědět, co je důležité a co ne, co vyžaduje čas a co ne; což se ne vždy shoduje.
Úkoly | Nabít |
Důležitost v projektu |
---|---|---|
Inventarizace, příprava a průzkum dat | 38% | 3 |
Vývoj - Validace modelů | 25% | 2 |
Restituce výsledků | 12% | 4 |
Analýza prvních testů | 10% | 3 |
Definice cílů | 8% | 1 |
Dokumentace - prezentace | 7% | 5 |
Srdcem dolování dat je modelování: veškerá příprava se provádí podle modelu, který analytik zamýšlí vyrobit, provedené úkoly poté vybraný model ověří, dokončí a nasadí. Nejzávažnějším úkolem v modelování je určit algoritmus (algoritmy), které vytvoří očekávaný model. Důležitou otázkou tedy je otázka kritérií, která umožňují zvolit tento nebo tyto algoritmy.
Řešení problému pomocí procesu dolování dat obecně vyžaduje použití velkého množství různých metod a algoritmů, které jsou víceméně snadno srozumitelné a použitelné. Existují dvě hlavní rodiny algoritmů: popisné metody a prediktivní metody.
Popisné metody organizují, zjednodušují a pomáhají porozumět informacím, které tvoří základ velké sady dat.
Umožňují pracovat na souboru dat organizovaných v případech proměnných, ve kterých žádná z vysvětlujících proměnných jednotlivců nemá ve vztahu k ostatním zvláštní význam. Používají se například k identifikaci, od souboru jednotlivců, homogenních skupin v typologii, k vytvoření standardů chování a tedy odchylek od těchto standardů, jako je detekce nových nebo neznámých podvodů s bankovními kartami nebo pojištění , k provedení komprese informací nebo komprese obrazu atd.
PříkladyMezi dostupnými technikami lze použít metody odvozené ze statistik. Jsou seskupeny pod pojmem faktoriální analýzy , statistické metody, které umožňují identifikovat skryté proměnné v souboru opatření; tyto skryté proměnné se nazývají „faktory“. Ve faktorových analýzách předpokládáme, že pokud jsou data na sobě navzájem závislá, je to proto, že jsou spojena s faktory, které jsou jim společné. Výhoda faktorů spočívá ve skutečnosti, že malý počet faktorů vysvětluje téměř stejně dobře data jako soubor proměnných, což je užitečné, pokud existuje velký počet proměnných. Technický faktor rozkládají především analýza hlavních komponent , analýza nezávislé složky , korespondenční analýza , vícenásobné analýzy korespondence a multidimenzionální měřítka .
Chcete-li opravit myšlenky, analýza hlavních složek odpovídá kvantitativním proměnným popisujícím jednotlivce, faktory a hlavní složky takovým způsobem, že ztráta informací je minimální. Ve skutečnosti jsou komponenty uspořádány ve vzestupném pořadí podle ztráty informací, přičemž první ztrácí nejméně. Komponenty nejsou navzájem lineárně korelované a jednotlivci se promítají na osy definované faktory při respektování vzdálenosti, která mezi nimi existuje. Podobnosti a rozdíly jsou vysvětleny faktory.
Analýza korelačních faktorů a MCA odpovídají kvalitativním proměnným popisujícím charakteristiky jednotlivců, faktorům využívajícím kontingenční tabulku nebo Burtově tabulce v případě MCA takovým způsobem, že faktory jsou tvořeny numerickými proměnnými, které nejlépe oddělují hodnoty počáteční kvalitativní proměnné, že dva jednotlivci jsou si blízcí, pokud mají přibližně stejné hodnoty kvalitativních proměnných, a že hodnoty dvou kvalitativních proměnných jsou si blízcí, pokud je mají prakticky stejní jedinci.
Můžeme také použít metody zrozené v záhybu umělé inteligence a konkrétněji v oblasti strojového učení . Klasifikace bez dozoru je skupina metod, které umožňují seskupení jednotlivců do tříd, jejichž charakteristikou je, že jednotlivci stejné třídy se navzájem podobají, zatímco ti ze dvou různých tříd jsou rozdílní. Třídy klasifikace nejsou předem známy, jsou objeveny procesem. Obecně klasifikační metody slouží k tomu, aby byla homogenní data, která nejsou homogenní a priori, a umožňují tak zpracovat každou třídu pomocí algoritmů citlivých na odlehlé hodnoty. Z tohoto pohledu tvoří klasifikační metody první krok v procesu analýzy.
Tyto techniky vypůjčené z umělé inteligence využívají rozdělení všech informací, ale také zotavení . Rozdělení je cílem algoritmů využívajících například metody jako metody k-means (ve francouzštině „dynamické mraky“), k-medoidy ( k-medoidy ), k-režimy a k-prototypy, které můžeme použít k najít odlehlé hodnoty , sítě Kohonen , které lze také použít pro klasifikaci, EM algoritmus nebo AdaBoost . Hierarchická klasifikace je zvláštní případ, pro který Partitioning grafické produkty jsou snadno pochopitelné. Vzestupné metody začínají od jednotlivců, kteří jsou agregováni do tříd, zatímco sestupné metody začínají od celku a postupné dělení přicházejí k jednotlivcům, kteří tvoří třídy. Naproti grafu vzestupné klasifikace byl nakreslen, aby ukázal, jak jsou nejbližší třídy spojeny dohromady a tvoří třídy vyšší úrovně.
Překrytí fuzzy logiky je forma překrytí množiny jednotlivců představovaných řádky matice, kde u některých z nich je nenulová pravděpodobnost, že patří do dvou různých tříd. Nejznámějším algoritmem tohoto typu je FCM ( Fuzzy c-means ).
Musíme také zmínit ikonografii korelací spojených s použitím logických interakcí , geometrické metody, která se dobře hodí pro analýzu složitých sítí vícenásobných vztahů.
V bioinformatice se techniky dvojí klasifikace používají k současnému seskupení jednotlivců a proměnných, které je charakterizují, do různých tříd.
Abychom vysvětlili užitečnost těchto metod obnovy, je třeba si uvědomit, že klasifikace je problém, jehož velkou složitost definoval Eric Bell . Počet oddílů z množiny objektů je rovna: . Je proto lepší mít efektivní a rychlé metody k nalezení oddílu, který odpovídá na daný problém, než procházet všemi možnými řešeními.
A konečně, když se analýza nezaměřuje na jednotlivce, položky nebo objekty, ale na vztahy, které mezi nimi existují, je vhodným nástrojem hledání pravidel přidružení . Tato technika byla původně použita pro analýzu nákupního košíku nebo sekvenční analýzu. V tomto případě umožňuje zjistit, které produkty nakupuje současně, například v supermarketu, velmi velké množství zákazníků; také se používá k řešení problémů s analýzou navigačních cest na webových stránkách. Hledání pravidel přidružení lze použít pod dohledem; apriori , GRI , Carma, ARD metoda nebo dokonce PageRank algoritmy použít tuto techniku.
Účelem prediktivních metod je vysvětlit nebo předpovědět jeden nebo více pozorovatelných a efektivně měřených jevů. Konkrétně se budou zajímat o jednu nebo více proměnných definovaných jako cíle analýzy. Například posouzení pravděpodobnosti, že jednotlivec koupí jeden produkt nad druhým, pravděpodobnosti reakce na operaci přímého marketingu , pravděpodobnosti nákazy konkrétní nemoci, jejího vyléčení, šance, že se jednotlivec, který navštívil stránku webu, vrátí jsou to obvykle cíle, kterých lze dosáhnout prediktivními metodami.
V prediktivní těžbě dat existují dva typy operací: diskriminace nebo hodnocení a regrese nebo predikce, vše závisí na typu proměnné, která má být vysvětlena. Diskriminace se týká kvalitativních proměnných, zatímco regrese se týká kontinuálních proměnných.
Metody klasifikace a predikce umožňují rozdělit jednotlivce do několika tříd. Pokud je třída předem známa a operace klasifikace spočívá v analýze charakteristik jednotlivců, kteří je mají zařadit do třídy, říká se, že metoda je „pod dohledem“. Jinak mluvíme o „nekontrolovaných“ metodách, tato slovní zásoba je odvozena ze strojového učení . Rozdíl mezi deskriptivními metodami klasifikace, které jsme viděli dříve, a prediktivními metodami klasifikace vychází ze skutečnosti, že jejich cíl je odlišný: první „redukce, shrnutí, syntéza dat“ poskytuje jasnější představu o datech. „datové klastry, zatímco druhá vysvětluje jednu nebo více cílových proměnných, aby mohla předpovědět hodnoty těchto cílů pro nováčky.
PříkladyMůžeme odkázat na několik příkladů prediktivních metod a uvést je podle oblasti, z níž pocházejí.
Z metod odvozených z umělé inteligence bude analytik schopen použít rozhodovací stromy , někdy pro predikci, někdy pro diskriminaci kvantitativních dat, uvažování podle případů , neuronové sítě , radiální neurony pro klasifikaci a aproximaci funkcí, nebo možná genetické algoritmy , některé na podporu Bayesovských sítí, jiné jako Timeweaver při hledání vzácných událostí .
Pokud má analytik větší sklon používat metody odvozené ze statistik a pravděpodobnosti, obrátí se na lineární nebo nelineární regresní techniky v širokém smyslu k nalezení aproximační funkce, Fisherovy diskriminační analýzy , logistické regrese a logistické regrese PLS k předpovědi kategorické proměnné nebo zobecněný lineární model (GLM), zobecněný aditivní model (GAM) nebo log-lineární model a postulované a nepostulované modely vícenásobné regrese k předpovědi vícerozměrné proměnné.
Pokud jde o Bayesiánskou inferenci a konkrétněji Bayesiánské sítě , mohou být užitečné pro analytika, pokud hledá příčiny jevu nebo hledá pravděpodobnost výskytu události.
Pokud si přeje doplnit chybějící data, zůstává mu k dispozici metoda k nejbližším sousedům (K-nn) .
Seznam algoritmů se vyvíjí každý den, protože ne všechny mají stejný účel, nevztahují se na stejná vstupní data a žádný není ve všech případech optimální. Kromě toho se v praxi navzájem doplňují a jejich inteligentní kombinací vytvářením modelových modelů nebo metamodelů je možné dosáhnout velmi významného zvýšení výkonu a kvality. ICDM-IEEE vytvořilo v roce 2006 hodnocení 10 algoritmů s největším vlivem ve světě dolování dat: toto hodnocení je účinnou pomůckou při výběru a porozumění těmto algoritmům.
Stanford University má konkurenci v jeho podzimu v roce 2007 oba týmy na následujícím projektu: V návaznosti na podkladové vrstvy prohlíželi každého zákazníka distribuční sítě, jejíž předplatné hradí magnetickou kartu, zjistit nejpravděpodobnější publikum pro film, který má ještě být vidět. Jeden tým se zaměřil na vyhledávání extrémně jemných algoritmů z informací v databázi, jiný naopak vzal extrémně jednoduché algoritmy, ale databázi obohacenou distributorem spojil s obsahem internetové filmové databáze (IMDB), aby obohatil jeho informace. Druhý tým získal mnohem přesnější výsledky. Jeden článek naznačuje, že efektivita Google je dána méně algoritmem PageRank než velkým množstvím informací, které Google může korelovat křížovým odkazem na historii dotazů a analýzou chování jeho uživatelů na různých webech.
S moderními výpočetními prostředky lze v každém projektu uvažovat o jednom nebo druhém z těchto dvou řešení, ale objevily se další techniky, které prokázaly svou účinnost při zlepšování kvality modelů a jejich výkonu.
Kvalita a výkonKvalitní model je rychlý model, jehož chybovost by měla být co nejnižší. Neměl by být citlivý na fluktuace ve vzorku pro metody pod dohledem, měl by být robustní a vydržet pomalé změny v datech. Navíc, být jednoduchý, srozumitelný a produkovat snadno interpretovatelné výsledky zvyšuje jeho hodnotu. Nakonec může být nakonfigurován tak, aby byl opakovaně použitelný.
K hodnocení kvality modelu se používá několik indikátorů, mezi nimiž jsou ROC a výtahové křivky , Giniho index a chyba střední kvadratické křivky ukazující, kde leží predikce ve vztahu k realitě, a poskytují tak dobrou představu o hodnotě této komponenty kvality modelu.
Robustnost a přesnost jsou další dva aspekty kvality modelu. K získání efektivního modelu spočívá technika v omezení heterogenity dat, optimalizaci vzorkování nebo kombinování modelů.
Předsegmentace navrhuje klasifikovat populaci, poté vytvořit model na každé z tříd, ve kterých jsou data homogennější, a nakonec agregovat výsledky.
S agregací modelů analytik použije stejný model na mírně odlišné vzorky od původního vzorku a poté přidruží výsledky. Pytlování a posílení byly nejúčinnější a nejpopulárnější v roce 1999. V oblasti marketingu, například pozvednutí algoritmus používá pytlovací techniku k výrobě skupiny identifikačního lidé model, který může reagovat na obchodní nabídky po obtěžování.
Nakonec kombinace modelů vede analytika k použití několika modelů na stejnou populaci a ke kombinaci výsledků. Snadno se kombinují techniky, jako je diskriminační analýza a neuronové sítě.
Dolování dat by bez nástrojů neexistovalo. Nabídka IT je k dispozici ve formě softwaru a také na některých specializovaných platformách. Spousta softwaru je přítomna v oblasti komerčního softwaru , ale je zde i nějaký software svobodného . Neexistuje žádný software lepší než ostatní, vše záleží na tom, co s ním chcete dělat. Komerční software je určen spíše pro společnosti nebo organizace s velkým objemem dat k prozkoumání, zatímco bezplatný software je určen zejména studentům, těm, kteří chtějí experimentovat s novými technikami, a malým a středním podnikům. V roce 2009 byly nejpoužívanějšími nástroji v pořadí SPSS , RapidMiner (en) , SAS , Excel , R , KXEN (en) , Weka , Matlab , KNIME , Microsoft SQL Server , Oracle DM (en) , STATISTICA a CORICO ( Ikonografie korelací ). V roce 2010 byl R nejpoužívanějším nástrojem mezi uživateli, kteří odpověděli na průzkum Rexer Analytics, a STATISTICA se jeví jako preferovaný nástroj většiny prospektorů dat (18%). STATISTICA , IBM SPSS Modeler a R obdržely v tomto průzkumu Rexer Analytics nejvyšší hodnocení spokojenosti v letech 2010 i 2009 .
Cloud computing ( cloud computing ) není dolování dat nástroj, ale sada webových služeb, vydané poskytovatelů přes internet, aby uspokojila a / nebo využití dat a software. Přesto existují služby, které lze v oblasti dolování dat využít. Oracle Data mining je vystaven na IaaS Amazonu tím, že nabízí zákazníkům strojový obraz Amazon obsahující databázi Oracle včetně HMI pro těžbu dat; obrázek pro R a Python je také k dispozici na webových službách Amazon . Herci přítomní výhradně v cloudu a specializující se na oblast dolování dat nabízejí mimo jiné své služby jako Braincube , In2Cloud , Predixion a Cloud9Analytics .
Data mining je technika, která má svá omezení a představuje určité problémy.
Software není soběstačný. Nástroje pro dolování dat nenabízejí interpretaci výsledků, pro analýzu výstupů softwaru je nezbytný analytik specializující se na dolování dat a osoba, která zná povolání, ze kterého jsou data extrahována.
Software pro dolování dat navíc vždy dává výsledek, ale nic nenaznačuje, že je relevantní, ani neuvádí jeho kvalitu. Stále více a více se však asistenční techniky vyhodnocování implementují do bezplatného nebo komerčního softwaru.
Vztahy mezi proměnnými nejsou jasně definovány. Nástroje pro průzkum dat naznačují, že takové a takové proměnné mají vliv na proměnnou, která má být vysvětlena, ale neříkají nic o typu vztahu, zejména není řečeno, zda jsou vztahy příčinou a následkem .
Kromě toho může být velmi obtížné reprodukovat výsledky analýzy jasně, ať už pomocí grafů, křivek nebo histogramů. Netechnik bude někdy mít potíže s porozuměním odpovědí, které mu byly dány.
Pro frankofonního nováčka je navíc slovní zásoba obtížností nebo dokonce problémem. Abychom si to uvědomili, je zajímavé specifikovat slovník, se kterým se setkáváme ve francouzské a anglosaské literatuře. Tím, že vezmeme anglosaský slovník jako referenci, je shlukování chápáno v dolování dat jako segmentace, ve statistikách a v analýze dat jako klasifikace. Zařazení v angličtině odpovídá zařazení do dolování dat, diskriminační analýzy a zařazení do analýzy dat ve francouzském stylu a rozhodovací problém v oblasti statistiky. Konečně rozhodovací stromy jsou rozhodovací stromy v dolování dat a o segmentaci v tomto případě můžeme slyšet v oblasti analýzy dat. Terminologie je nejasný.
Kvalita dat , to znamená, že důležitost a úplnost dat je nutností pro dolování dat, ale ne dost. Na kvalitu údajů mají vliv také chyby při zadávání údajů, duplicitní záznamy, nevyplněné nebo nevyplněné údaje bez časového údaje. Společnosti zavádějí struktury a postupy pro zajištění kvality dat, aby mohly účinně reagovat na nové externí předpisy a interní audity a zvyšovaly ziskovost svých údajů, které považují za součást svého dědictví.
Interoperability systému je jeho schopnost pracovat s jinými systémy vytvořené různých dodavatelů. Systémy pro dolování dat musí být schopné pracovat s daty z více systémů pro správu databází , typů souborů , datových typů a různých senzorů. Kromě toho interoperabilita vyžaduje kvalitu dat. Navzdory snahám odvětví o interoperabilitu se zdá, že v některých oblastech to není pravidlem.
Údaje jsou shromažďovány za účelem zodpovězení otázky kladené profesí. Rizikem dolování dat je použití těchto dat pro jiný účel, než pro který byl původně určen. Únos dat je ekvivalentem citování mimo kontext. Kromě toho to může vést k etickým problémům.
Soukromí jednotlivců může být ohrožena dolování dat projekty, jsou-li přijata žádná opatření, a to zejména v hledání na webu a použití osobních údajů shromážděných na zdraví internetu nebo nákupní zvyklosti, preference a dokonce i lidí mohou být vystaveni. Další příklad poskytuje Informační informační úřad, zejména program Total Information Awareness (TIA), který plně využil technologii dolování dat a který byl jedním z projektů „ po 11. září “, které Kongres států - Spojené státy zahájilo financování , ale poté jej opustil kvůli zvláště významným hrozbám, které tento program představoval pro soukromí amerických občanů. Ale i bez zveřejněny osobní údaje shromážděné společnostmi, přes řízení vztahů se zákazníky (CRM) nástroje , registrační pokladny , bankomaty , zdravotní karty , atd , může vést pomocí technik dolování dat k zařazení lidí do hierarchie skupin, od dobrých po špatné, vyhlídky , zákazníky, pacienty nebo jakoukoli roli, kterou hraje v daném okamžiku ve společenském životě , podle kritérií neznámých lidem oni sami. Z tohoto pohledu a za účelem napravení tohoto negativního aspektu Rakesh Agrawal a Ramakrishnan Sikrant zpochybňují proveditelnost těžby dat, která by zachovala soukromí lidí. Dalším problémem je ukládání dat nezbytných pro hloubení, protože digitální data mohou být hacknuta . A v tomto případě je prasknutí dat v distribuovaných databázích a kryptografii součástí technických odpovědí, které existují a které mohou společnosti zavést.
Určité společnosti nebo skupiny se specializovaly, například Acxiom , Experian Information Solutions , D & B a Harte-Hanks pro údaje o spotřebě nebo Nielsen NV pro údaje o publiku.
Kromě dolování dat (popsaného výše) je lze nazvat klasickými, technickými specializacemi dolování dat, jako jsou vyhledávací obrázky ( dolování obrázků ), webová těžba ( těžba webových dat ), těžba datového proudu ( těžba datového proudu ) a těžba textu ( těžba textu ) se rozvíjejí v roce 2010 a zaměřují pozornost mnoha výzkumných pracovníků a průmyslu, včetně rizik přenosu osobních údajů , které nutí lidi provozovat.
Tyto společnosti používají software pro kategorizaci jednotlivců podle jejich sociálního zázemí a charakterizace spotřebitele (např. Claritas Prizm (vytvořený společností Claritas Inc. a získaný společností Nielsen Company) .
Audio těžba , novější technika, někdy spojené s dolování dat, dokáže detekovat zvuky v audio streamu. Používá se hlavně v oblasti rozpoznávání hlasu a / nebo je na něm založen.
Vyhledávání obrázků je technika, která má zájem na obsahu obrazu. Extrahuje charakteristiky ze sady obrázků, například z webu, aby je klasifikoval, seskupil podle typu nebo rozpoznal tvary v obrázku, aby mohl hledat kopie tohoto obrázku nebo například detekovat konkrétní objekt .
Textů je zkoumání textů za účelem získání vysoce kvalitní znalosti. Tato technika se často označuje jako anglicismus těžby textu . Jedná se o soubor počítačového zpracování spočívající v získávání znalostí podle kritéria novosti nebo podobnosti v textech vytvořených člověkem pro člověka. V praxi to znamená zavedení do algoritmů zjednodušeného modelu lingvistických teorií v počítačových systémech pro učení a statistiku. Jedná se tedy o výpočetní lingvistiku , jazykové inženýrství , strojové učení , statistiku a informatiku .
Jde o využití, s vytěžením webu , obrovského zdroje dat, který tvoří web, a hledání modelů a vzorců v používání, obsahu a struktuře webu. Využití využití webu ( těžba využití webu nebo těžba protokolů webu ) je užitečný proces extrakce informací uložený v protokolech serveru. Tato těžba využívá těžbu textu k analýze textových dokumentů. Zkoumání struktury webu je proces analýzy vztahů, a priori neznámých, mezi dokumenty nebo stránkami uloženými na webu.
Dolování datový tok ( data mining proud ) je technika zkoumání data přicházející v stálým proudem, neomezený, s velkou rychlostí, a některé základy se mění v průběhu času: například analýza datových toků vyzařované automobilových senzorů. Ale příklady aplikací lze najít v oblastech telekomunikací, správy sítí, správy finančních trhů, dohledu a v oblastech každodenních činností, bližších lidem, jako je analýza toků bankomatů , transakce kreditními kartami atd.
Dolování prostorových dat ( Spatial data mining ) je technický průzkum geografických dat na našem měřítku na Zemi, ale také astronomické nebo mikroskopická , jejichž cílem je najít zajímavé vzory v datech, které obsahují textové časové údaje nebo geometrických dat, například vektorů , rámečky nebo grafy. Prostorová data poskytují informace v různých měřítcích, poskytované různými technikami, v různých formátech, po často dlouhou dobu pro pozorování změn. Objemy jsou proto velmi velké, data mohou být nedokonalá a hlučná. Kromě toho, jsou vztahy mezi prostorových dat jsou často implicitní: nastavení , topologické , směrové a metrické vztahy se často vyskytují v tomto oboru. Těžba prostorových dat je proto obzvláště obtížná.
Prostorová data mining se používá k prozkoumání vědy o Zemi data, mapování kriminality údaje, údaje ze sčítání lidu , provozu na pozemních komunikacích , s rakovinou ohnisek , atd
Budoucnost dolování dat závisí na budoucnosti digitálních dat. S příchodem Web 2.0 , blogů , wiki a cloudových služeb dochází k explozi v objemu digitálních dat, a proto jsou značné zásoby surovin pro těžbu dat.
Mnoho polí stále málo využívá dolování dat pro své vlastní potřeby. Analýza dat z blogosféry je stále v raných fázích. Pochopení „informační ekologie“ pro analýzu, jak fungují například internetová média, teprve začíná.
Dokud budou vyřešeny problémy související s ochranou soukromí jednotlivců, může těžba dat pomoci při řešení otázek v lékařské oblasti, zejména při prevenci nemocničních rizik.
Aniž bychom zašli až k vědecké fantastice Minority Report , získávání dat umožňuje techniky profilování a priori , což může představovat nové etické problémy. Dokument BBC Horizon shrnuje některé z těchto otázek.
A konečně, s výskytem nových dat a nových polí se techniky stále vyvíjejí.