Digitalizace

Skenování je přeměna informací nosiče (text, obrázek, zvuk, video) nebo elektrický signál v datech digital jako zařízení počítače nebo digitální elektronika mohou být léčeny. Číselná data jsou definována jako řada znaků a čísel, které představují informace. Někdy používáme francouzský termín digitalizace ( číslice v angličtině znamená číslo ).

Skenování v rámci správy archivů, je hmotnost konverze počítačových souborů dokumentů.

Zásada

Digitalizace vytváří diskrétní reprezentaci objektu ve formě kolekce konečného počtu znaků převzatých z počitatelné sady platných znaků.

digitalizace textů:

Digitalizace textu je jeho transformace do posloupnosti znaků převzatých ze seznamu postav existujících v psaném jazyce, protože diktát transformuje zvuky řeči do posloupnosti slov existujících ve slovníku psaného jazyka.

skenování obrázků:

Digitalizace obrázku jej transformuje do řady pokynů, které umožňují jeho rekonstrukci. Tyto pokyny se mohou skládat z řady vizuálních vjemů pro každý prvek ( pixel ) nebo mohou mít složitější organizaci ( komprimovaný obrázek , vektorová grafika ).

Pokud digitální data neprodukují přímo lidé (toto se nazývá zadávání dat ), digitalizace obvykle zahrnuje alespoň tři fáze:

  1. fáze vzorkování, kde jsou rozměry objektu (například čas, prostor atd.) zkoumány v často pravidelných intervalech;
  2. fáze kvantování , kde je hodnota signálu představujícího objekt v bodech vzorkování zaokrouhlena na hodnotu převzatou z konečné sady;
  3. fáze kódování , která porovnává každou z těchto hodnot s číselným kódem (například binární soubor Little-Endian , Grayův kód atd.).

Tyto tři fáze často následují složitější operace, které umožňují efektivnější kódování. To platí zejména pro digitalizaci obrázků v digitálních fotoaparátech a pro digitalizaci textů (formát Djvu , optické rozpoznávání znaků ).

Proces digitalizace může mít někdy jiné formy.

skenování teploty záznamníkem ( záznamníkem ):

Teplota se mění pomalu v průběhu času . Digitalizace vytváří deník její evoluce:

Pokaždé, když se změní zaokrouhlení teploty, zaznamená se nová teplota a datum a čas.

Datalogger tyto operace provádí automaticky tak, že nejprve převede dvě dimenze, teplotu a čas, na elektrické signály . Zaznamenává výsledek do kódu, který mohou zneužít jiná výpočetní zařízení.

Ve většině případů se však používají pravidelné kroky a jedna z veličin popisujících objekt se měří zvyšováním ostatních. Získáváme tak konečný počet dat.

Operace získávání hodnoty pro každý přírůstek veličiny se nazývá vzorkování . V prostorovém vzorkování se jedná o diskretizaci podél délky , například tím, že se každou desetinu milimetru na každé prostorové ose odečítá hodnota svítivosti . V časovém vzorkování budeme rozlišovat průběh času, například tím, že vezmeme hodnotu v každé mikrosekundě.

Operace zaokrouhlování jedné hodnoty na druhou, převzatá z konečného seznamu, se nazývá kvantování .

Výsledkem této digitalizace je řada hodnot představujících množství měřené podél vybraných os v konvenčním pořadí, které umožňuje rekonstituovat všechny rozměry každého prvku objektu.

Volba parametrů

Aby digitalizovaná data věrně reprezentovala počáteční veličiny, je třeba vždy předpokládat, jaký signál má být reprezentován.

Když je známa pouze jeho šířka pásma a poměr signálu k šumu , určuje digitální teorie propustnost informace . Vzorkovací teorém navrhuje minimální vzorkovací frekvence s kvantování tak, že kvantování hluk je na srovnatelné úrovni šumu v pozadí. Šum lze vytvořit nezávisle na signálu dekorelací ( rozkladem ) . Několik kombinací frekvenční a kvantizační stupnice může adekvátně popsat stejný signál.

S přesnější znalostí o množstvích, která mají být reprezentována, lze díky metodám komprimovaného získávání použít méně vzorků .

Datové formáty

Samotný princip digitalizace znamená, že uživatel (obecně stroj) zná konvence, které umožňují rekonstituci představovaného objektu. Tyto konvence se nazývají datový formát . Digitalizace informací neoddělitelně zahrnuje

  1. formát, který je algoritmem pro rekonstrukci objektu (například obraz na obrazovce), neměnný pro celou třídu objektů;
  2. data, což představuje to, co dělá objekt jedinečným.

Objekt lze rekonstruovat, pouze pokud má počítačový počítač v paměti obě komponenty. Když na stroji chybí algoritmus odpovídající souboru nebo datovému proudu, nemůžeme data použít a mluvíme o problému s kompatibilitou .

Formáty mohou být velmi jednoduché, jako v případě surového proudu digitalizace jednorozměrného signálu, kde vzorky na sebe bez přerušení navazují a kde stačí znát jejich velikost, jejich numerické kódování a rychlost. rekonstruovat signál nebo složitější, jako v případě vektorových formátů popisu dokumentů.

Techniky komprese dat umožňují zmenšit velikost souborů nebo rychlost streamů. V tomto případě neměnná část informace (formát) roste a stává se složitější. Když je dokument představovaný těmito soubory nebo proudy určen k distribuci, hledá se formát, aby dekódování, které se provádí na každé stanici, bylo méně složité než kódování, které se provádí pouze jednou.

Digitalizační procesy

Procesy digitalizace se liší v závislosti na fyzické povaze informací, které mají být digitalizovány:

Chcete-li digitalizovat množství, které se časem mění, například zvuk  :

  1. Analogově-digitální převodník kvantifikuje signálu v každém taktu;
  2. Kodér vytvoří seznam číselných hodnot, které představují signál.

Při digitalizaci obrázku se rozlišuje výška a šířka a úrovně světla se převádějí pro každý bod, globálně nebo pro každou primární barvu. Vzorkování prostoru se provádí třemi různými způsoby:

Tyto postupy platí pro černobílou reprodukci. Pro reprodukci barev jsou vyžadovány hodnoty pro každou ze tří základních barev. Buď rozdělíme světelný paprsek obrazu na tři části odpovídající třem primárním barvám, nebo vložíme filtry před každý senzor střídáním barev a po digitální konverzi pokračujeme interpolací k vyhodnocení barvy u každé pixel. Jiné procesy pak obecně kompenzují nedostatky surového obrazu.

Digitalizace obrazu, který se časem mění, spojuje dvě rodiny procesů. Chcete-li skenovat pohyblivý obraz ( video ), digitální fotoaparát , digitální videokameru , webovou kameru , pokaždé ochutnat čas a digitalizovat obrázek (například s obrázkem každých 40 milisekund). Datový proud poté prochází procesem snižování rychlosti.

Je také možné digitalizovat analogový videosignál, a to buď vytvořením hrubé konverze tohoto elektrického signálu, nebo rekonstitucí všech nebo části časových diskretizačních informací ze svislých synchronizačních signálů (rámců) a prostoru z horizontálních synchronizačních signálů ( řádky).

Pro digitalizaci textu buď text zadá lidský operátor , nebo je dokument digitalizován jako obrázek, a to tak, že se na tuto první sadu dat použije program optického rozpoznávání znaků případně doplněný automatickými nebo manuálními kontrolami.

Cíle digitalizace

Počítačové systémy umožňují:

Přenos digitálních dat zpracovávaných za účelem získání maximální obsazenosti dostupného spektra vyžaduje menší šířku pásma na přenosových kanálech než jejich analogický protějšek.

Na oplátku se informace zanedbané nebo ztracené v době digitalizace nebo během výpočtů nebo překódování ztratí pro další uživatele.

Digitalizace elektrického signálu

Specializované komponenty zajišťují převod analogového signálu původně vytvořeného měniči ( fotocitlivý článek , teploměr , mikrofon , rádiový přijímač atd.) Na digitální systém .

Řetěz A / D převodu ( analogový na digitální ) lze rozdělit na funkce a obvody na prvky:

  1. zdroj hodinového signálu, který provádí časovou diskretizaci,
  2. jeden nebo více analogových zdrojů,
  3. filtr, aby se zabránilo aliasingu spektra ,
  4. v některých případech vzorek a zadržení ( Sample and Hold nebo S / H)
  5. analogově-digitální převodník ( Analog / Digital konvertor nebo ADC), který provádí kvantování ,
  6. kodér (nebo modulátor).

Přesnost digitalizace závisí na kvalitě kvantování signálu a stabilitě hodin.

Multiplexer (MUX) může transformovat do sledu diskrétních signálů, analogový nebo digitální, nezávislé signály, které se dostali do paralelně (více vstupů, ale pouze jeden výstup).

Digitalizace a archivace

Jako důsledek mnoha digitalizačních projektů je archivace elektronického obsahu založena na souboru akcí, nástrojů a metod implementovaných ke shromažďování, identifikaci, výběru, klasifikaci a ukládání elektronického obsahu na bezpečném médiu za účelem jejich použití a zpřístupnit je v průběhu času. Archivaci je třeba odlišit od úložiště a zálohování .

Cíle

Cíle projektů kombinujících digitalizaci a archivaci jsou četné. V oblasti elektronické správy dokumentů a informačních a knihovnických věd plní několik funkcí:

Digitalizace je jedním z aspektů toho, co se někdy nesprávně nazývá dematerializace . Je to nepopiratelně jeden ze základních kroků v jakémkoli projektu zaměřeném na optimalizaci správy příchozích dokumentů a pošty, které společnosti a správy stále široce přijímají v papírové podobě.

Zvýšené potřeby pro archivaci digitálního obsahu

Exploze objemu elektronických dat nevyhnutelně přiměla organizace, aby zvážily elektronický obsah po celou dobu jeho životního cyklu, dokud nebude archivován nebo dokonce zničen.

Francouzské společnosti a správní orgány rovněž musí do svých archivačních projektů začlenit pojem zkušebního povolání , aby poskytly důkazy o časové integritě určitého elektronického obsahu a autentičnosti jeho původu (v souladu s uloženými požadavky). Právním rámcem nebo například předpisy týkajícími se určitých obchodů nebo odvětví činnosti). Elektronické dokumenty, které se přednostně archivují pro účely probace, jsou tedy faktury, zákazníci nebo dodavatelé, výplatní pásky nebo elektronická korespondence.

Digitalizace a archivace kulturního dědictví

Po roce 2000 byla po celém světě zahájena řada operací na digitalizaci různých prvků kulturního dědictví . Mezi nimi je několik velmi rozsáhlých projektů.

„Open Content Alliance“ (OCA)

Konsorcium OCA je americká asociace, která sdružuje soukromé společnosti, jako je Yahoo! Adobe , HP , internetový archiv , knihovny (BU Kalifornie, BU Toronto), archivy a vydavatelé. The25. října 2005, Microsoft se připojil k této skupině.

Cílem OCA je digitalizovat a zpřístupnit online databázi přístupnou všem, trvalou i vícejazyčnou (databáze složená z multimediálních dokumentů). Na rozdíl od Google Book Search však bere v úvahu pouze fondy dědictví bez autorských práv . Bez povolení držitelů práv nebude provedena žádná digitalizace . Ten může přispět k projektu definováním rozsahu šíření s možnými omezeními.

Vyhledávání knih Google

Oznámeno dne 14. prosince 2004spoluzakladatelem společnosti Google je program „  Google Print  “ zodpovědný za digitalizaci 15 milionů knih, což představuje 4,5 miliardy stránek za 6 let, podle Jean-Noël Jeanneney , tehdejšího prezidenta Francouzské národní knihovny . Pět knihoven se dohodlo na digitalizaci svých fondů: knihovny Harvard University , University of Michigan a Stanford University , New York Public Library a Bodleian Library of Oxford University . Google Print byl oficiálně spuštěn v listopadu 2005 se sbírkou digitalizovaných knih ve veřejné doméně a od partnerů projektu. V polovině listopadu byl přejmenován na „Google Books Search“ (francouzsky „Google Book Search“). Mezi společností Google a dalšími univerzitami byly uzavřeny nové dohody o obohacení této digitální knihovny.

Evropská digitální knihovna

The 22. ledna 2005, Prezident Národní knihovny Francie , Jean-Noël Jeanneney , starty v deníku Le Monde odvolání reagovat na podnět Googlu. Na konci dubna 2005 vyzvaly národní knihovny 19 zemí a poté šest evropských hlav států a předsedů vlád k evropské spolupráci při vytváření evropské digitální knihovny ( Europeana ). O rok později se otevře Evropská knihovna , vícejazyčný portál BNE.

V roce 2016 poskytla Europeana přístup k 53 milionům digitalizovaných dokumentů od 3 300 evropských institucí. Následující rok studie zadaná Evropskou komisí ukazuje, že Europeana je konzultována 700 000krát měsíčně.

Dodatky

Bibliografie

Obecné práce Oficiální zprávy Odborná literatura Evropské perspektivy Digitalizační řetězec Studie týkající se celého řetězce
  • Web BNF
  • Ministerstvo kultury a komunikace, Psaní specifikací pro digitalizaci a převod do textového režimu sbírek tisku , 2010, 28 s., Dodatky, 29 s. ( online )
  • Ministerstvo kultury a komunikace, Psaní specifikací pro digitalizaci (vázané dokumenty, rukopisy, plány, kresby, fotografie, mikroformy) , 2008, 62 s.
  • Le Borgne (Christelle), Úvahy o strategii konstituce a distribuce zvukového korpusu získaného z archivů BPI , disertační práce v rámci diplomu kurátora knihoven, ENSSIB,ledna 2006( číst online )
Difúze
  • Balley (Noëlle), „Putting Heritage Fundes Online“, BBF, 2008, č. 3, s. 103.
  • Brisac (Anne-Laure), „Digitalizace knihovního dědictví a vyhledávačů“, BBF, 2010, č. 3, s. 78-79.
  • Gagnon (Jacinthe), Digitalizace knihoven a její důsledky pro autorská práva , Québec, národní škola veřejné správy,ledna 2010( číst online )
Digitalizace a uchování
  • Ministerstvo kultury a komunikace, Dlouhodobé uchovávání digitalizovaných dokumentů, 2008, 18 s.
  • Banat-Berger (Françoise), Duplouy (Laurent), Huc (Claude), Dlouhodobá digitální archivace: počátky dospělosti? , Paříž, La Documentation française, 2009.

Související články

externí odkazy

Poznámky a odkazy

  1. Definice digitalizace specifická pro archivní a knihovní dokumenty.
  2. Definice „digitální“ z terminologické adresáře 2000 na generální komise pro terminologii a neologie  ; Francouzská vláda: FranceTerme .
  3. Mezinárodní elektrotechnická komise  : Electropedia 10-12-06 .
  4. Dematerializace - tvůrci rozhodnutí si uvědomují nedostatek svých příchozích dokumentárních procesů , blog MARKESS International
  5. 289bis obecného daňového zákoníku a zákona zjednodušující a vyjasňující zákon a zjednodušující postupy vyhlášené 13. května 2009
  6. Intenzifikace archivačních potřeb s důkazní hodnotou , blog MARKESS International
  7. Služba, která archivuje web od roku 1996.
  8. „  Europeana - online dědictví Evropy  “ , na bnf.fr
  9. Analýza od 17. října 2017 do 14. ledna 2018, (en) „  Europeana - platforma evropského kulturního dědictví pro všechny  “ , https://ec.europa.eu ,12. října 2018(zpřístupněno 13. října 2018 )