Per rappresentare numeri reali, si utilizza la rappresentazione floating point.
Fissata una base , ogni numero reale si può rappresentare in modo univoco nella forma , dove
- mantissa di
- esponente
con possibilmente infinito, r qualsiasi numero intero.
Insieme dei numeri floating point
L’insieme dei numeri floating point si ottiene ponendo una limitazione al numero di cifre della mantissa e limiti inferiore (L) e superiore (U) per la scelta dell’esponente.
È un insieme finito di numeri reali. È simmetrico rispetto all’origine e la cardinalità è data da che è la somma di tutte le possibili combinazioni di mantissa e esponente.
Il numero più grande dell’insieme è . Il numero più piccolo dell’insieme è .
Standard IEEE 754
| precisione singola | precisione doppia | |
|---|---|---|
| bit totali | 32 | 62 |
| segno | 1 bit | 1 bit |
| t-1 | 23 bit | 52 bit |
| l | 8 bit | 11 bit |
| bias | 127 | 1023 |
| U | 127 | 1023 |
| L | -126 | -1022 |
L’esponente è composto da .
Rappresentazione numeri reali fuori dall’intervallo
Un numero non appartenente all’intervallo può essere rappresentato per ==troncamento o per arrotondamento==.
- troncamento:
- arrotondamento: