Příroda | Teorém |
---|---|
Pojmenováno odkazem na | Richard Threlkeld Cox |
Tyto COX-Jaynes teorém ( 1946 ) kodifikuje a kvantifikuje učební proces založený na pěti jednoduchých postulátů ( Desiderata ). Tato kodifikace se shoduje s kódováním pravděpodobnosti , historicky zcela odlišného původu. Věta vděčí za své jméno fyzikovi Richardu Threlkeldovi Coxovi, který formuloval původní verzi.
Cox formalizuje intuitivní pojem věrohodnosti v numerické formě. Ukazuje, že pokud věrohodnosti uspokojí řadu hypotéz, jediným konzistentním způsobem, jak s nimi manipulovat, je použití systému izomorfního k teorii pravděpodobnosti.
Tento systém indukuje „logickou“ interpretaci pravděpodobností nezávisle na frekvenci . Poskytuje racionální základ pro mechanismus logické indukce , a tedy pro strojové učení . Věta navíc za podmínek stanovených postuláty naznačuje, že jakákoli jiná forma zohlednění informací v rámci této konkrétní reprezentace znalostí by byla ve skutečnosti předpojatá. Jedná se tedy o mimořádně silný výsledek.
Coxovy výsledky dosáhly jen malého publika, než Edwin Thompson Jaynes znovu objevil tuto větu a odhalil řadu implikací pro Bayesovské metody . Irving John Good zkoumal důsledky v oblasti umělé inteligence .
Stanislas Dehaene používá teorém, jeho konstrukci a její aplikace při studiu lidských kognitivních procesů podle myšlenky, kterou již v roce 1988 uvedl Jaynes.
Ve své eseji „Je věda pověrčivá?“ “, Bertrand Russell evokuje „ skandál indukce “ :
Cílem tohoto paradoxu bylo ukázat chybu v indukčním mechanismu, který vyžadoval přesnější specifikaci oblasti její platnosti: vždy je třeba zmínit kontext toho, o čem mluvíme. Počítání nebílých i nekrkavých ptáků v místnosti vám tedy neřekne pravděpodobnost, že všechny vrány jsou bílé, ale že všechny vrány jsou bílé v této místnosti - naprosto správné tvrzení, když není, nemá žádnou vránu v místnosti, na základě vztahu (který definuje logické implikace , čistě deduktivní logikou ):
Cox představuje pět desiderat pro robota, který by podle indukční logiky uvažoval .
Pro metodu platí tři z nich:
konzistence pokud existuje několik způsobů, jak najít výsledek, musí vést ke stejnému výsledku; kontinuita metody změna hodnoty parametru by neměla vyžadovat změnu metody výpočtu; univerzálnost chceme obecnou situační kalkulačku, která není určena pro konkrétní použití.Od uživatele jsou vyžadovány dva:
jednoznačné specifikace návrh musí být možné chápat jedním způsobem a pouze jedním; žádné zadržování informací robot zná všechna relevantní data.Je nutné kdykoli říci o dvou věrohodnostech, které jsou větší než druhé . Tento řádový vztah naznačuje kvantitativní reprezentaci a numerická forma se zdá být pohodlná.
Reprezentace ve formě celých čísel by představovala problém, žádná věrohodnost by nemohla proklouznout mezi dvěma reprezentovanými postupnými celými čísly. Takže potřebujeme spojitou sadu .
Racionální souhlasit, natož reálná čísla souhlasí.
Konvence svévolně přijatá je, že větší věrohodnosti budou představovány větším počtem .
To, co se nám jeví jako zřejmé, by nemělo být v rozporu s modelem. Toto zdánlivě jednoduché pravidlo není vždy snadné uplatnit v případě kolektivních preferencí, jak ukazují paradox Condorcet a Arrowova věta o nemožnosti .
Příklad pravidla:Pokud lze závěru dosáhnout více způsoby, musí všechny tyto prostředky poskytnout stejný výsledek.
Toto pravidlo vylučuje zkoumání louce „více heuristika“, protože by mohly obsahovat tyto rozpory (jak se někdy, aby taková kritéria Savage a Wald , prohlašovat, jak minimax z teorie her ).
Robot musí vždy brát v úvahu všechny informace, které mu byly poskytnuty. Část by neměl záměrně ignorovat a své závěry zakládat na ostatních. Jinými slovy, robot musí být zcela neideologický , z hlediska neutrální .
Robot představuje ekvivalentní stavy znalostí podle ekvivalentních věrohodností. Pokud jsou dva problémy identické, kromě jednoduchého označení návrhů, musí robot přiřadit oběma věcem stejnou věrohodnost.
Dva návrhy proto musí být považovány a priori za rovnocennou věrohodnost, pokud se odlišují pouze svým jménem, což se stěží děje, s výjimkou velmi zvláštních případů, pokud jde o vyložené mince nebo kostky.
Aniž bychom šli do rovnic, myšlenka je, že když jsou složeny dvě věrohodnosti stejného stavu, je složená věrohodnost nutně stejná nebo větší než větší z těchto dvou.
Toto je opačný případ: když musí existovat obě věrohodnosti, aby existoval stav, nemůže mít tento stav větší věrohodnost než menší ze dvou předchozích.
Good navrhl notaci, která usnadňuje manipulaci s věrohodnostmi. Alan Turing ve své době poukázal na to, že vyjádření pravděpodobností bylo mnohem snazší zvládnout nahrazením pravděpodobnosti p v rozmezí od 0 do 1 výrazem ln (p / (1-p)), což umožňuje lepší rozlišení velmi malých hodnot (Velmi blízko k 0) a také velmi velké hodnoty (velmi blízko k 1). Zejména v této formě má příspěvek informací podle Bayesova pravidla za následek přidání jedinečné algebraické veličiny k tomuto výrazu (který Turing nazval log-odd ), že bez ohledu na apriorní pravděpodobnost odletu před pozorováním . Goodova notace používá v souladu s touto myšlenkou logaritmickou stupnici .
Decibanova stupniceIrving John Good použil variaci této myšlenky, aby usnadnil práci s těmito novými veličinami. Na rozdíl od Turinga:
Pojmenoval odpovídající míru, W = 10 log 10 (p / (1-p)), váha důkazů, protože umožňovala „zvážit“ svědectví skutečností podle očekávání - projevující se předchozími „subjektivními“ pravděpodobnostmi … k pozorování - nezávisle na těchto očekáváních .
Aby se zabránilo parazitickým konotacím , dává Dehaene přednost mluvit o decibelech, jako je Turing, spíše než o decibelech jako Good.
V bitechDůkazy jsou někdy také vyjádřeny v bitech , zejména v testech platnosti zákonů měřítka .
Ve skutečnosti, když zákon jako Zipfův či Mandelbrot zákona odpovídá datům lépe než jiné právní předpisy, které vyžadují předchozí třídění, je třeba vzít v úvahu, že třídění sekvenci n , pokud jde libovolně vybere si permutace mezi n ! možný. Třídění představuje vstup informací (nebo pořadí ) řádu n log 2 n . Tento vstup informací by mohl být dostatečný pro nejlepší přizpůsobení. Lze očekávat, že uvidíme klesající distribuci, která lépe odráží to, co se právě setřídilo v sestupném pořadí.
Pokud zisk důkazů přinesených tříděním představuje méně bitů, než jsou náklady na třídění, jsou informace poskytnuté zvážením scalantského zákona nulové. Zadaná objednávka je jednoduše ta, kterou jsme právě zadali: model proto nesmí být v tomto případě zachován. U jiných je jeho platnost evidentní: viz zákon Zipf-Mandelbrot .
Všimli jsme si, že booleovská algebra je izomorfní s teorií pravděpodobností redukovanou pouze na hodnoty 0 a 1.
Tato úvaha vedla k vynálezu v 1970 z náhodných počítačů podporovaných společností Alsthom (která byla napsána s h v té době) a který zamýšlel spojit nízké náklady na spínací obvody s výpočetní výkon počítačů. Analogu. V té době jich bylo vyrobeno několik.
Společnost Myron Tribus navrhuje považovat pravděpodobnost za jednoduchý digitální překlad stavu poznání, a nikoli za přechod na hranici pojmu frekvence . Na podporu se má klasickou image kostek s výstupem pravděpodobnosti každé tváře je považována za období od 1. / 6 th iv případě, že matrice je vyrobena z ledu, takže je možné spustit přes několikrát, která zakazuje jakoukoliv cestu do limitu.
Poté si představí námitku partnera: „Pokud si v duchu představím tisíc kostek, mohu si skutečně představit průchod až k hranici,“ na kterou odpovídá: „Absolutně. A pokud je tedy zastupujete pouze mentálně , je to proto, že je to opravdu jen otázka stavu poznání “
Rozdíly mezi častým a bayesovským přístupem vzbudily velkou vášeň v 70. letech, kdy téměř vzaly aspekt „náboženské války“. „Jejich„ mírové “soužití je nyní přijímáno, přičemž každý z nich má svoji doménu maximální účinnosti a oba přístupy se stejně sbližují, když půjdeme k velkému počtu pozorování. U malého počtu, častých ( statistických ) metod, které nejsou relevantní pro tuto oblast použití, nedochází ke konfliktu .
Edwin Thompson Jaynes ve svém obnovení a prohloubení Coxovy věty používá k tomu, aby ukázal, že jakékoli učení , včetně automatického učení , musí nutně používat buď Bayesiánskou inference (s výjimkou homomorfismu, je-li to žádoucí, například průchod transformací logaritmu zjednodušující praktické výpočty), nebo dát někde nekonzistentní výsledky a být následně nevhodný. Tento extrémně silný výsledek vyžaduje přijetí pěti jednoduchých desiderat , včetně kontinuity metody (neměňte algoritmus najednou jednoduše proto, že je datum upraven nekonečně) .
Viz také článek Logit .
Přístupy jsou různé: tzv. Fuzzy logika má pragmatický původ (příkladem „fuzzy logiky“ je klasifikace žáků v obecné zkoušce pomocí libovolných koeficientů pro každý předmět) a bez reálných vět: jde o otázku jednoduché techniky . Bayesovské učení je solidní teorie založená na matematické struktuře a kvantitativních pojmech, jako je například maximalizace entropie (MAXENT). Je pravda, že se oba přístupy nakonec sblížily (automatická detekce scény pro digitální fotoaparáty, rozpoznávání hlasu a znaků), ale jen proto, že Bayesianské přístupy zbytek do značné míry pohltily.
Věta předpokládá, že před ní je rozklad na výroky a že zbývá pouze odhadnout jejich hodnotu. Watanabe následně poznamenal, že jakýkoli rozklad na kritéria je ze své podstaty libovolný ( Ugly-Duckling Theorem ), a proto nemůže požadovat žádnou neosobnost . Murphy a Medin to sarkasticky ilustrovali v roce 1985:
"Předpokládejme, že uvádíme seznam atributů, které mají společné švestky a sekačky na trávu, abychom mohli posoudit jejich podobnost. Je snadné vidět, že seznam může být nekonečný." Oba váží méně než 10 tun (a méně než 11), neexistovaly před 10 miliony let (ani 11), oba nemají sluchové orgány, oba mohou být opuštěni, oba berou prostor atd. podobně by mohl být seznam rozdílů nekonečný ... Tyto dvě entity lze považovat za libovolně podobné nebo odlišné díky prostému výběru atributů, které se člověk rozhodne považovat za relevantní. “
Každá disciplína má svá oblíbená měření: pokud se termika týká hlavně teplot , bude termodynamika více spojená s měřením množství tepla nebo dokonce entropie . Elektrostatika se více zajímá o napětí než o intenzitu, zatímco u slabých proudů platí obráceně a v elektrotechnice je to spíše z hlediska výkonu, který máme tendenci uvažovat. Podle své disciplíny původu bude mít tedy každý experimentátor tendenci provádět své odhady na jednotkách, na které je zvyklý .
V případě elektrické sestavy odborník v elektrotechnice možná provede odhad rozptýleného výkonu (Ri²), zatímco specialista na slabé proudy bude raději odhadnout samotnou intenzitu (i). Pokud je v obou případech zajištěna dlouhodobá konvergence odhadů, nebude to provedeno stejným způsobem, a to ani při identickém apriorním rozdělení , protože matematické očekávání čtverce není matematicky spojeno s čtvercem d 'a naděje . Toto je hlavní kámen úrazu pro Bayesovské metody .
Bez ohledu na apriorní pravděpodobnosti, které událostem připisujeme, jsou naše odhady také částečně „formátovány“ podle jazyka a „profesionálního zkreslení“, které je s nimi spojeno. Konkrétně nám to připomíná, že v bayesovských metodách není jen jeden, ale dva zdroje libovolnosti: zdroj měření, který ovlivňuje zvolené apriorní pravděpodobnosti, a zdroj metody, který odpovídá našemu zastoupení problému. Na druhou stranu je libovolnost omezena na tyto dva prvky a Bayesovské metody jsou pak zcela neosobní.