IEEE 754

V počítačové vědě je IEEE 754 standardem pro aritmetiku s plovoucí desetinnou čárkou vyvinutý institutem elektrotechnických a elektronických inženýrů . V současné době je nejpoužívanějším standardem pro výpočet čísel s plovoucí desetinnou čárkou u CPU a FPU . Standard definuje formáty pro reprezentaci čísel s plovoucí desetinnou čárkou ( znaménko , mantisa , exponent , denormalizovaná čísla ) a speciální hodnoty ( nekonečné a NaN ) spolu se sadou operací s plovoucí desetinnou čárkou. Popisuje také pět režimů zaokrouhlování a pět výjimek (včetně podmínek, za kterých dojde k výjimce, a co se v takovém případě stane).

Dějiny

Původní verze IEEE 754 z roku 1985 definovala čtyři formáty pro reprezentaci čísel plovoucí desetinné čárky základny 2:

jednoduchá přesnost (32 bitů: 1 znakový bit, 8 exponentových bitů (-126 až 127), 24 bitů mantisy, včetně implicitního 1 bitu);
prodloužená jednoduchá přesnost (≥ 43 bitů, zastaralá, implementovaná v praxi s dvojitou přesností);
dvojitá přesnost (64 bitů: 1 znakový bit, 11 exponentových bitů (-1022 až 1023), 53 bitů mantisy, včetně implicitního 1 bitu);
rozšířená dvojitá přesnost (≥ 79 bitů, často implementována s 80 bity: 1 znakový bit, 15 exponentových bitů (-16382 až 16383), 64 bitů mantisy, žádný implicitní 1 bit).

Například v jazyce C používá kompilátor gcc pro 32bitové architektury kompatibilní s Intelem formát jedné přesnosti pro proměnné typu float , dvojité přesnosti pro proměnné typu double a dvojité přesnosti nebo rozšířené dvojité přesnosti (podle operačního systému) pro dlouhé dvojité proměnné . Pokud se však rozšíření SSE2 nepoužívá, všechny výpočty se zaokrouhlí na stejnou přesnost v závislosti na nastavení dynamické přesnosti procesoru (obvykle dvojnásobná přesnost nebo rozšířená dvojitá přesnost, v závislosti na operačním systému, možnostech kompilace a změnách provedených programy).

Plný název standardu byl IEEE Standard for Binary Floating-Point Arithmetic (ANSI / IEEE Std 754-1985 ). Je známá také pod názvem IEC 60559: 1989, Binární aritmetika s plovoucí desetinnou čárkou pro mikroprocesorové systémy , což z ní také dělá (americký) standard, protože je schválen jako normativní odkaz v několika mezinárodních normách ISO. Tento standard byl však rozšířen významnou revizí v roce 2008 o další základní formáty (binární na 128 bitech a desetinná místa na 64 a 128 bitech), jakož i na výměnné formáty (přidáním méně přesných nebo přesnějších formátů) a rozšířené formáty ( zobecnění standardu z roku 1985 s větší volností v přesnosti a kódování než v případě výměnných formátů); tato revize také zahrnuje další režimy zaokrouhlování a přísnější požadavky na shodu týkající se očekávané přesnosti základních výpočtů a operací základních transcendentálních funkcí. Tato norma byla revidována také v roce 2019.

Formát čísla s plovoucí desetinnou čárkou

Konvence použité v článku

Ve slově délky W jsou bity indexovány od 0 do W - 1 včetně. Bit 0 je umístěn vpravo a představuje nejméně významný bit (tj. Bit jednotek, který při změně způsobí nejmenší variantu).

Obecný formát

Číslo s plovoucí desetinnou čárkou se skládá ze tří prvků: mantisy , exponentu a znaménka. Nejvýznamnějším bitem je bit znaménka : pokud je tento bit na 1, je číslo záporné a pokud je na 0, je číslo kladné. Další e bity představují předpjatý exponent (kromě speciální hodnoty) a další m bity ( m nejméně významné bity) představují mantisu.

Podepsat	Bias exponent	Mantissa
(1 bit)	( e bitů)	( m bitů)

Předpojatost vystavovatele

Exponent může být kladný nebo záporný. Obvyklá reprezentace podepsaných čísel ( doplněk 2 ) by však srovnání čísel s plovoucí desetinnou čárkou trochu ztížila. Abychom tento problém vyřešili, exponent je „zkosený“, aby jej mohl uložit jako nepodepsané číslo.

Toto zkreslení je 2 e −1 - 1 ( e představuje počet bitů v exponentu); jde tedy o konstantní hodnotu, jakmile je počet bitů e pevný.

Interpretace čísla (jiného než nekonečna) je tedy: hodnota = znaménko × mantisa × 2 ( exponent - zkreslení ) s

znaménko = ± 1
zkreslení = 2 e −1 −1

Výjimky

Nejvýznamnější bit mantisy je určen hodnotou předpjatého exponenta. Pokud je předpjatý exponent odlišný od 0 a od , nejvýznamnější bit mantisy je 1 a číslo je označeno jako „normalizované“. Pokud je předpjatý exponent nula, nejvýznamnější bit mantisy je nula a číslo je denormalizováno . $2 ^ {e} - 1$

Existují tři speciální případy:

jsou-li předpjatý exponent i mantisa nula, počet je ± 0 (v závislosti na znaménkovém bitu)
pokud je předpjatý exponent roven a je-li mantisa nula, je číslo ± nekonečno (v závislosti na znaménkovém bitu) $2 ^ {e} - 1$
je-li předpjatý exponent roven , ale mantisa není nula, je číslo NaN (ne číslo: ne číslo) . $2 ^ {e} - 1$

Můžeme to shrnout takto:

Typ	Bias exponent	Mantissa
Nuly	0	0
Denormalizovaná čísla	0	odlišné od 0
Normalizovaná čísla	$1$ na $2 ^ e-2$	žádný
Nekonečný	$2 ^ e-1$	0
NaNs	$2 ^ e-1$	odlišné od 0

Single-precision format (32-bit)

Číslo s plovoucí desetinnou čárkou s přesnou přesností je uloženo ve 32bitovém slově : 1 znakový bit, 8 bitů pro exponenta a 23 pro mantisu.

Exponent je tedy v tomto případě předpjatý . Exponent normalizovaného čísla proto jde od -126 do +127. Exponent -127 (který je předpjatý směrem k hodnotě 0) je rezervován pro nula a denormalizovaná čísla, zatímco exponent 128 (předpjatý směrem k 255) je vyhrazen pro kódování nekonečen a NaN (viz předchozí tabulka). $2 ^ {8-1} - 1 = 127$

Normalizované číslo s plovoucí desetinnou čárkou má hodnotu v danou následujícím vzorcem:

v = s × 2 e × m .

s = ± 1 představuje znaménko (v závislosti na bitu znaménka);
e je exponent před zkreslením 127;
m = 1+ mantisa představuje významnou část (v binární podobě), tedy 1 ≤ m <2 ( mantisa je desetinná část významné části, mezi 0 a 1)

Například pro 0b 0 01111100 01000000000000000000000: znaménko je kladné, exponent je 124 - 127 = −3 a významná část je 0b 1,01, tj. 1,25 v desítkové soustavě (1 × 2 0 + 0 × 2 −1 + 1 × 2 - 2 ); zastoupené číslo je tedy +1,25 × 2 −3 nebo +0,15625.

Denormalizovaná čísla se řídí stejným principem, až na to, že e = −126 a m = 0+ mantisa (poznámka: pro výpočet se postaráme o e = −126 a ne −127, abychom zaručili kontinuitu tohoto reprezentace s normalizovanou reprezentací, protože m = 0+ mantisa a již m = 1+ mantisa ).

Poznámky:

Existují dvě nuly: +0 a −0 (kladná nula a záporná nula), v závislosti na hodnotě znaménkového bitu;
Existují dvě nekonečna: + ∞ a −∞, v závislosti na hodnotě znaménkového bitu;
Nuly a denormalizovaná čísla mají předpjatý exponent -127 + 127 = 0; všechny bity pole „exponentu“ jsou proto na 0;
NaN a nekonečny mají předpjatý exponent 128 + 127 = 255; všechny bity pole „exponentu“ jsou proto na 1;
NaN mohou mít znaménko a významnou část, ale nemají smysl jako skutečná hodnota (kromě signalizace, která může aktivovat výjimku a opravy chyb);
Nenulové denormalizované číslo nejblíže k nule je ± 2 −149 ≈ ± 1,401 298 5 × 10 −45 ;
Nenulové normalizované číslo nejblíže k nule je ± 2 −126 ≈ ± 1,175 494 351 × 10 −38 ;
Normalizované číslo s největší absolutní hodnotou je ± (2−2 −23 ) × 2 127 ≈ ± 3,402 823 5 × 10 38 .

Zde je tabulka shrnující předchozí část s příklady přesných 32bitových čísel.

Typ	Vystavovatel	Mantissa	Přibližná hodnota	Odchylka / předchozí
Nula	0000 0000	000 0000 0000 0000 0000 0000	0,0
Nejmenší denormalizované číslo	0000 0000	000 0000 0000 0000 0000 0001	1,4 × 10 −45	1,4 × 10 −45
Další denormalizované číslo	0000 0000	000 0000 0000 0000 0000 0010	2,8 × 10 −45	1,4 × 10 −45
Další denormalizované číslo	0000 0000	000 0000 0000 0000 0000 0011	4,2 × 10 −45	1,4 × 10 −45
Jiné denormalizované číslo	0000 0000	100 0000 0000 0000 0000 0000	5,9 × 10 −39
Největší denormalizované číslo	0000 0000	111 1111 1111 1111 1111 1111	1,175 494 21 × 10 −38
Nejmenší standardizované číslo	0000 0001	000 0000 0000 0000 0000 0000	1,175 494 35 × 10 −38	1,4 × 10 −45
Další standardizované číslo	0000 0001	000 0000 0000 0000 0000 0001	1,175 494 49 × 10 −38	1,4 × 10 −45
Téměř dvojnásobné	0000 0001	111 1111 1111 1111 1111 1111	2,350 988 56 × 10 −38	1,4 × 10 −45
Další standardizované číslo	0000 0010	000 0000 0000 0000 0000 0000	2,350 988 70 × 10 −38	1,4 × 10 −45
Další standardizované číslo	0000 0010	000 0000 0000 0000 0000 0001	2,350 988 98 × 10 −38	2,8 × 10 −45
Téměř 1	0111 1110	111 1111 1111 1111 1111 1111	0,999 999 94	0,6 × 10 −7
1	0111 1111	000 0000 0000 0000 0000 0000	1 000 000 00
Další číslo 1	0111 1111	000 0000 0000 0000 0000 0001	1 000 000 12	1,2 × 10 −7
Téměř největší počet	1111 1110	111 1111 1111 1111 1111 1110	3 402 823 26 × 10 38
Největší standardizované číslo	1111 1110	111 1111 1111 1111 1111 1111	3 402 823 46 × 10 38	2 × 10 31
Nekonečný	1111 1111	000 0000 0000 0000 0000 0000	Nekonečný
První (denormalizovaná) hodnota varování NaN	1111 1111	000 0000 0000 0000 0000 0001	ani náhodou
Normalizovaný NaN (alarm)	1111 1111	010 0000 0000 0000 0000 0000	ani náhodou
Poslední (denormalizovaná) hodnota varování NaN	1111 1111	011 1111 1111 1111 1111 1111	ani náhodou
První (denormalizovaná) hodnota tichého NaN	1111 1111	100 0000 0000 0000 0000 0000	ani náhodou
Poslední (denormalizovaná) hodnota tichého NaN	1111 1111	111 1111 1111 1111 1111 1111	ani náhodou

Poznámky:

Hodnota pole mantisy NaN uvedená výše je příkladem NaN, ale není jedinou možnou hodnotou pro kódování hodnoty NaN. Hodnoty tohoto pole kódujícího NaN jsou všechny možné hodnoty, kromě nuly (která kóduje nekonečno);
Všimněte si také rozdílu na většině strojů mezi polem mantisy začínajícím bitem 1, používaným pro tiché NaN, a polem mantisy začínajícím bitem 0, označujícím NaN s varováním. Na některých strojích, například na těch, které jsou založeny na PA-RISC , však došlo k opačné (méně praktické) volbě.

Složitý příklad

Pojďme kódovat desetinné číslo −118 625 pomocí mechanismu IEEE 754.

Nejprve potřebujeme znaménko, exponent a zlomkovou část. Je to záporné číslo, takže znaménko je „1“.
Potom napíšeme číslo (bez znaménka) do binární podoby . Získáváme 1110110.101 (s postupným násobením dvěma pro desetinnou část).
Dále posuneme čárku doleva, takže ponecháme pouze 1 nalevo: 1110110.101 (bin) = 1,110110101 (bin) × 2 6 . Jedná se o normalizované číslo s plovoucí desetinnou čárkou: mantisa je část napravo od desetinné čárky, vyplněná 0 napravo k získání 23 bitů. To dává 110 1101 0100 0000 0000 0000 (vynecháme 1 před desetinnou čárkou, což je implicitní).
Exponent je roven 6 a musíme jej převést na binární a vzít v úvahu zkreslení. Pro 32bitový formát IEEE 754 je předpětí 2 8−1 −1 = 127. Takže 6 + 127 = 133 (dec) = 1000 0101 (bin).

Proto máme −118 625 (dec) = 1100 0010 1110 1101 0100 0000 0000 0000 (bin) = C2ED4000 (hexa).

Formát s dvojitou přesností (64bitový)

Formát dvojité přesnosti je stejný jako jednoduchá přesnost, kromě toho, že pole jsou větší. Ve skutečnosti má 52 mantisových bitů místo pouhých 23 a 11 exponentových bitů místo pouhých 8.

Mantisa je velmi široká, zatímco exponent není příliš široký. Je to proto, že podle tvůrců standardu je přesnost důležitější než amplituda.

NaN a nekonečny jsou reprezentovány nastavením všech bitů exponentu na 1 (2047), ale odlišují se nastavením všech 52 bitů mantisy na 0 pro nekonečna a alespoň jednu z těchto 52 bitů na 1 pro Nope .

U normalizovaných čísel je zkreslení exponentů +1023. U denormalizovaných čísel je exponent −1022 (minimální exponent pro normalizované číslo). Není to −1023, protože normalizovaná čísla mají 1 před desetinnou čárkou a denormalizovaná čísla nikoli. Stejně jako dříve jsou podepsány nula a nekonečno.

Poznámky:

Nejmenší kladné číslo jiné než nula a největší záporné číslo jiné než nula (představované denormalizovanou hodnotou se všemi bity v poli Exponent na 0 a binární hodnotou 1 v poli Fraction) jsou: ± 2 −1074 ≈ ± 4 940 656 458 412 465 4 × 10 −324
Nejmenší normalizované kladné číslo jiné než nula a největší normalizované záporné číslo jiné než nula (představované binární hodnotou 1 v poli Exp a 0 v poli Fraction jsou: ± 2 −1022 ≈ ± 2,225 073 858 507 201 4 × 10 −308
Největší konečné kladné číslo a nejmenší konečné záporné číslo (představované hodnotou 2046 v poli Exp a všemi 1 bity v poli Fraction) jsou: ± (2 1024 - 2 971 ) ≈ ± 1,797 693 134 862 315 7 × 10 308

Porovnejte čísla s plovoucí desetinnou čárkou

Obecně je nejlepší porovnávat čísla s pohyblivou řádovou čárkou pomocí pokynů pro výpočet s pohyblivou řádovou čárkou. Tato reprezentace však umožňuje srovnání určitých podmnožin po bajtech, pokud mají stejné pořadí bajtů a stejné znaménko a NaN jsou vyloučeny.

Například pro dvě kladná čísla s plovoucí desetinnou čárkou a a b dává srovnání mezi a a b (>, <nebo ==) stejné výsledky jako srovnání dvou podepsaných (nebo nepodepsaných) čísel se stejnými bity jako a a b. Jinými slovy, dvě kladná čísla s plovoucí desetinnou čárkou (která nejsou NaN) lze porovnat s podepsaným (nebo nepodepsaným) binárním porovnáním. Kvůli problému s objednávkou bytů nelze toto srovnání použít v přenosném kódu.

Zaokrouhlete čísla s plovoucí desetinnou čárkou

Standard IEEE specifikuje 5 režimů zaokrouhlování:

Směrem k mínus nekonečnu;
Směrem k většímu nekonečnu;
Směrem k nule;
Zblízka (2 varianty):
- když je na půli cesty k nejbližší hodnotě, která má nejméně významnou číslici (výchozí režim zaokrouhlování pro binární formáty);
- v polovině, směrem nejdále od nuly (nahoru v absolutní hodnotě);

Standardní revize

v červen 2008, IEEE schválila zásadní revizi standardů IEEE 754 a IEEE 854. Viz: IEEE 754-2008 (en) .

Tato revize přináší nové formáty základny 2 a základny 10 a specifikuje zastoupení formátů základny 10 (kromě základny 2).

Normalizuje také relaci celkové objednávky pro každý z normalizovaných číselných datových typů a doplňuje obvyklé relace objednávky, které jsou pouze částečné; vztah normálního řádu je skutečně celkový pouze za podmínky, že z množiny hodnot bude odstraněna záporná nulová hodnota (obvykle srovnávaná jako rovná kladné nulové hodnotě) a všechny hodnoty NaN (které nejsou ani stejné, ani nadřazené, ani horší než ostatní, dokonce ani oni sami).

Na druhou stranu tato revize ponechává flexibilitu reprezentace a možné rozlišení hodnot NaN (pozice a hodnota varovných bitů v poli mantisy nejsou standardizovány a použití dalších bitů pole mantisy nebo znaménko hodnoty NaN ke kódování chyby zůstává závislé na architektuře nebo aplikacích).

Nová revize byla schválena v července 2019.

Bibliografie

IEEE, standardní IEEE-754
David Goldberg, co by měl každý počítačový vědec vědět o aritmetice s plovoucí desetinnou čárkou , ACM Computing Surveys, sv. 23, n o 1,Březen 1991.

Poznámky a odkazy

(in) „ Open Group Base Specification Issue 6 “ .
(in) IEEE Standard for Floating-Point Arithmetic (ANSI / IEEE Std 754-2008) , ( ISBN 978-0-7381-5753-5 ) .
(in) „ Re: (long) sNaNs not what they could be ... “ 15. října 2010.
(en) Revize ANSI / IEEE Std 754-1985; Koncept 754R schválen jako standard IEEE , na www.validlab.com
(en) Revize ANSI / IEEE Std 754-1985; 754R Draft Schváleno jako IEEE Standard , na 754r.ucbtest.org

externí odkazy

Deterministická multiplatformová aritmetika s plovoucí desetinnou čárkou : Spousta informací o různých implementacích IEEE 754 na různých platformách
(en) Binární převodník : Interaktivní binární převodník s jednoduchou a dvojitou přesností podle normy IEEE 754
Seznam článků na stránce Standardní skupina revizí .

Související články

Intel 8087 , první matematické koprocesory Intel 1980 a první implementace (pak přísně standardní pouze pro typ s jednou přesností).
Plovoucí desetinná čárka , nejčastěji používaná reprezentace čísel v počítači.
NaN , „Not a Number“, ve francouzštině „not a number“; zejména výsledek neplatné aritmetické operace.
IEEE 754-1985 (en) , standard pro reprezentaci čísel s plovoucí desetinnou čárkou v binárním formátu.
IEEE 754-2008 (en) , hlavní revize standardu IEEE 754-1985 a pracovní skupiny IEEE 754r.
Nula přihlášena ( přihlášena ) .
Věděcký zápis