42
1 Appunti di TEORIA DELL’INFORMAZIONE La formulazione si deve a Shannon e prende le mosse dall’osservazione che “La natura dell’informazione è di- screta”. Inizialmente si riteneva che il problema, nei sistemi di telecomunicazione, fosse quello di riprodurre fedelmente una funzione continua nel tempo. Invece, con Shannon, ci si accorse che, essendo l’informazione più limitata, era suffi- ciente trasmettere un insieme finito di dati per avere lo stesso contenuto informativo. Inoltre, e questo è il Secondo teo- rema fondamentale di Shannon, “ ogni volta che elaboriamo dei dati, diminuiamo la quantità di informazione”. Il pro- blema che restava, comunque, aperto, era relativo all’interpretazione dell’informazione. Secondo Shannon, il modello del sistema di comunicazione, è costituito da una Sorgente , da un Canale tra- smissivo e da un Utente; in realtà, in precedenza, si faceva riferimento ad una modellizzazione più complessa del canale, si aveva, infatti, un modulatore, seguito da un mezzo trasmissivo (il canale) e da un ricevitore, costituito da un demodula- tore. Inoltre, nella descrizione dei sistemi, si utilizzavano unità come l’energia , la banda W del canale, il tempo t (da no- tare che banda e tempo sono, in qualche modo, inversamente proporzionali, infatti, se è vero che con più tempo riesco a trasmettere più cose, è anche vero che per trasmettere la stessa informazione, o trasmetto più a lungo o allargo la banda). Con Shannon compare anche un quarto parametro: la complessità. Resta, ora, da valutare la bontà del sistema, quindi bisogna trovare un parametro che fornisca una sua quantifi- cazione oggettiva. Questa quantificazione è relativamente semplice nel caso di un Canale Binario Simmetrico [BSC], infatti può essere assunta a misura della bontà del sistema la probabilità di errore α di ricevere un simbolo avendo trasmesso il suo negato. Ma se ci troviamo nel caso di un alfabeto più complesso, per ipotesi, l’alfabeto americano di ventisei simboli, può essere più difficile definire una misura della quantità di informazione. Proviamo, infatti, a considerare la lettera “u” che giunge dopo la “q”. Nella lingua italiana, con la sola eccezione del termine “soqquadro”, il fatto di avere una “u” do- po la “q” è un evento certo, quindi trasmettere un qualcosa che mi dica che dopo la “q” debba esserci una “u”, vuol dire non trasmettere informazione. Da questo semplice ragionamento possiamo dedurre, quindi, che in un evento certo la quantità di informazione è nulla. Consideriamo, ora, un alfabeto discreto di n simboli, e tentiamo di associarvi una quantità di informazione. Sia, così, A = {a 1 , a 2 , ... a M } l’alfabeto di simboli a i , e sia I( a i ) la quantità di informazione. Ciascun simbolo è emesso con pro- babilità p{a i } = p i . Caratterizziamo la probabilità mediante la variabile casuale ξ M , per cui p = p{ = a } i M i x , inoltre supponiamo che i simboli siano statisticamente indipendenti, cioè che: p{ = a , ' = a } = p{ = a } p{ ' = a } M i M j M i M j x x x x e che la sorgente sia stazionaria, cioè che: p{ = x , .. . , = x } = p{ = x , . .. , = x } i1 1 ik k i1 + h 1 ik + h k x x x x . La quantità di informazione portata da un particolare simbolo dell’alfabeto, è strettamente correlata alla sua incertezza. Un aumento dell’incertezza, quindi, dovrebbe corrispondere a più informazione. É chiaro che il contenuto d’informazione dell’i-esimo simbolo, I(a i ) sarà una funzione decrescente della sua probabilità, cioè I(a ) > I(a ) j i se p < p j i . Inoltre la mi- sura dell’informazione associata ad a i , per essere realmente una misura dovrà essere sempre positiva, ovvero, I(a i ) 0. Da queste considerazioni, e dal fatto che il contenuto di informazione associato all’emissione di due simboli indipendenti sa- rà la somma delle due informazioni individuali, discende che se è verificato che p(a , a ) = p(a ) p(a ) i j i j , per l’indipendenza statistica, allora I(a i ,a j ) = I(a i ) + I(a j ). Vogliamo, inoltre, che la misura dell’informazione sia una funzione continua di p i , quindi I(a i ) = ϕ (p i ), in cui p i è una distribuzione di probabilità, quindi sottostante al fatto che p i 0 e che pi = 1 i1 M = . Con questi vincoli, ϕ (p i ,p j ) = ϕ (p i ) + ϕ (p j ). Questa è un’equazione funzionale, che caratterizza la ϕ , di cui cerchiamo una soluzione. Si vede abbastanza chiaramente che la relazione che questa relazione è la proprietà del logaritmo: se ϕ (x,y) = ϕ (x) + ϕ (y), allora ϕ (x) = K log (x). Questa è una soluzione ed è dimostrabile essere anche l’unica. Accettando questi assiomi, l’unica misura dell’informazione che si può dare è, quindi, quella logaritmica. Da queste considerazioni discende che I(a i ) = ϕ (p i ) = K log(p i ).

Appunti di TEORIA DELL’INFORMAZIONE - elettronica.fauser.eduelettronica.fauser.edu/shannon/shannon.pdf.prn.pdf · Appunti di TEORIA DELL’INFORMAZIONE La formulazione si deve a

Embed Size (px)

Citation preview

1

Appunti di TEORIA DELL’INFORMAZIONE

La formulazione si deve a Shannon e prende le mosse dall’osservazione che “La natura dell’informazione è di-screta”. Inizialmente si riteneva che il problema, nei sistemi di telecomunicazione, fosse quello di riprodurre fedelmente una funzione continua nel tempo. Invece, con Shannon, ci si accorse che, essendo l’informazione più limitata, era suffi-ciente trasmettere un insieme finito di dati per avere lo stesso contenuto informativo. Inoltre, e questo è il Secondo teo-rema fondamentale di Shannon, “ogni volta che elaboriamo dei dati, diminuiamo la quantità di informazione”. Il pro-blema che restava, comunque, aperto, era relativo all’interpretazione dell’informazione. Secondo Shannon, il modello del sistema di comunicazione, è costituito da una Sorgente , da un Canale tra-smissivo e da un Utente; in realtà, in precedenza, si faceva riferimento ad una modellizzazione più complessa del canale, si aveva, infatti, un modulatore, seguito da un mezzo trasmissivo (il canale) e da un ricevitore, costituito da un demodula-tore. Inoltre, nella descrizione dei sistemi, si utilizzavano unità come l’energia , la banda W del canale, il tempo t (da no-tare che banda e tempo sono, in qualche modo, inversamente proporzionali, infatti, se è vero che con più tempo riesco a trasmettere più cose, è anche vero che per trasmettere la stessa informazione, o trasmetto più a lungo o allargo la banda). Con Shannon compare anche un quarto parametro: la complessità. Resta, ora, da valutare la bontà del sistema, quindi bisogna trovare un parametro che fornisca una sua quantifi-cazione oggettiva.

Questa quantificazione è relativamente semplice nel caso di un Canale Binario Simmetrico [BSC], infatti

può essere assunta a misura della bontà del sistema la probabilità di errore α di ricevere un simbolo avendo trasmesso il suo negato. Ma se ci troviamo nel caso di un alfabeto più complesso, per ipotesi, l’alfabeto americano di ventisei simboli, può essere più difficile definire una misura della quantità di informazione. Proviamo, infatti, a considerare la lettera “u” che giunge dopo la “q”. Nella lingua italiana, con la sola eccezione del termine “soqquadro”, il fatto di avere una “u” do-po la “q” è un evento certo, quindi trasmettere un qualcosa che mi dica che dopo la “q” debba esserci una “u”, vuol dire non trasmettere informazione. Da questo semplice ragionamento possiamo dedurre, quindi, che in un evento certo la quantità di informazione è nulla. Consideriamo, ora, un alfabeto discreto di n simboli, e tentiamo di associarvi una quantità di informazione. Sia, così, A = a1, a2, ... aM l’alfabeto di simboli ai , e sia I( ai ) la quantità di informazione. Ciascun simbolo è emesso con pro-babilità pai = pi. Caratterizziamo la probabilità mediante la variabile casuale ξM, per cui p = p = a i M iξ , inoltre supponiamo che i simboli siano statisticamente indipendenti, cioè che:

p = a , ' = a = p = a p ' = a M i M j M i M jξ ξ ξ ξ⋅ e che la sorgente sia stazionaria, cioè che: p = x ,..., = x = p = x ,..., = x i1 1 ik k i1 + h 1 ik + h kξ ξ ξ ξ . La quantità di informazione portata da un particolare simbolo dell’alfabeto, è strettamente correlata alla sua incertezza. Un aumento dell’incertezza, quindi, dovrebbe corrispondere a più informazione. É chiaro che il contenuto d’informazione dell’i-esimo simbolo, I(a i) sarà una funzione decrescente della sua probabilità, cioè I(a ) > I(a )j i se p < pj i . Inoltre la mi-sura dell’informazione associata ad ai, per essere realmente una misura dovrà essere sempre positiva, ovvero, I(a i) ≥ 0. Da queste considerazioni, e dal fatto che il contenuto di informazione associato all’emissione di due simboli indipendenti sa-rà la somma delle due informazioni individuali, discende che se è verificato che p(a , a ) = p(a ) p(a)i j i j⋅ , per l’indipendenza statistica, allora I(a i,aj) = I(ai) + I(aj). Vogliamo, inoltre, che la misura dell’informazione sia una funzione continua di pi, quindi I(a i) = ϕ(pi), in cui p i è

una distribuzione di probabilità, quindi sottostante al fatto che p i ≥ 0 e che pi = 1i 1

M

=∑ .

Con questi vincoli, ϕ(pi ,pj) = ϕ(pi) + ϕ(pj). Questa è un’equazione funzionale, che caratterizza la ϕ, di cui cerchiamo una soluzione. Si vede abbastanza chiaramente che la relazione che questa relazione è la proprietà del logaritmo: se ϕ(x,y) = ϕ(x) + ϕ(y), allora ϕ(x) = K log (x). Questa è una soluzione ed è dimostrabile essere anche l’unica. Accettando questi assiomi, l’unica misura dell’informazione che si può dare è, quindi, quella logaritmica. Da queste considerazioni discende che I(a i) = ϕ(pi) = K log(p i).

2

Ricordiamo, per inciso, che la funzione logaritmica è una funzione convessa giù, il che, nel nostro caso, vuol dire che, avendo emesso dalla sorgente ξM, all’uscita del canale avremo ηM ≠ ξM , con diminuzione della quantità di informa-zione. É evidente che, tanto più il canale non perde informazione, tanto più è buono. Per esempio, l’errore tollerato nelle comunicazioni vocali è di 1 10-6. Inoltre, essendo pi una quantità compresa fra 0 e 1, K dovrà essere negativo, dovendo I(ai) essere maggiore di 0. Per rendere il tutto positivo, però, possiamo invertire l’argomento del logaritmo e stabilire una misura di informa-zione che soddisfi quanto asserito in precedenza. L’autoinformazione del messaggio a i sarà quindi:

I(a ) log1p

i ai

La base a del logaritmo non è specificata. La sua scelta determina l’unità di misura assegnata al contenuto di in-formazione: se la base è “e” l’unità di misura sarà il NAT, se la base è “10” avremo l’HARTLEY, mentre se la base è “2” parleremo di BIT (acronimo di Binary Digit). L’uso del BIT si basa sul fatto che la corretta identificazione di uno fra due simboli egualmente simili comporta una quantità di informazione pari a :

I(a ) I(a ) = log 2 = 1 Bit1 2 2= Nella scienza dell’informazione si usa generalmente il NAT, in quanto, per via della derivata del logaritmo natura-le, è più semplice da un punto di vista analitico; mentre, nell’ingegneria, prevale l’uso del Bit. Appare evidente, dalla definizione, che se la probabilità di un simbolo è “1”, allora la quantità dell’informazione è pari a 0 (risultato, comunque, atteso), mentre se la probabilità del simbolo è nulla, la quantità di informazione è infinita. La definizione di quantità di informazione ci permette di associare ad ogni simbolo dell’alfabeto della sorgente il suo contenuto informativo. Una caratterizzazione dell’intero alfabeto può essere ottenuta definendo il contenuto medio di informazione di A:

H(A) p I(a ) = p log1p

i i i 2i1=1

M

i=1

M

≡ ⋅ ⋅∑∑

La quantità H(p , p ,..., p )1 2 M è definita entropia dell’alfabeto della sorgente e viene misurata in Bit/Simbolo. Il termine entropia deriva dal fatto che questa quantità è massima quando le probabilità di emissione dei messaggi sono tutte uguali, ovvero quando i messaggi sono equiprobabili, in altri termini, l’entropia aumenta all’aumentare dell’incertezza sui messaggi che vengono emessi dalla sorgente stessa. Essendo l’entropia una media di positivi, allora H(A) ≥ 0.

Inoltre, essendo H(A) = p log1p

ii i

⋅∑ , ed essendo 0 ≤ pi ≤ 1, allora H(A) ≤ M, cioè, se i simboli sono equi-

probabili, allora l’entropia della sorgente diventa pari a log(M). Qualsiasi altra distribuzione di probabilità non uniforme di simboli è minore di log(M), ciò significa che, se devo usare l’alfabeto in modo efficiente, devo fare in modo che i simboli siano equiprobabili.

Ora, dire che p1p

Mi 2ii

M

⋅ ≤=∑ log log

12 significa che p

1p

i 2ii

M

⋅ − ≤=∑ log log

12 0M . Moltiplicando per 1 il

log2M e ricordando che pii

M

=∑ =

11 posso dire che: p log

1p

p log Mii

M

2i

i 2i=1

M

=∑ ∑⋅ − ⋅ ≤

10, quindi, per la proprietà distribu-

tiva, p log1p

p log Mii

M

2i

i 2=∑ ⋅ − ⋅ ≤

10 da cui p log

1p

log M) = log1

Mpi

i

M

2i

2 2ii=1

M

=∑ ∑⋅ − ≤

10( .

Soffermiamoci, per un inciso, sulla funzione logaritmo. Questa è una funzione monotona crescente per ogni x fra 0 ed ∞, inoltre, è convessa giù. Ciò vuol dire che, considerando due punti qualunque ed unendoli con un segmento, questo sta sempre al di sotto della curva.

3

In generale, se consideriamo x1 < x < x2 ed α compreso fra 0 ed 1, possiamo scrivere una combinazione lineare convessa x = αx1 + (1-α)x2 ⇒ x = x2 - α(x2 - x1). La combinazione prende il nome di “convessa” in quanto, combinando i due numeri, trovo un numero compreso fra i due; inoltre, per il Teorema di Talete, conoscendo f(x1) ed f(x2) = αf(x1) + (1-α)f(x2), il punto che sta sul segmento è combinazione convessa degli estremi. L’ordinata che sta sulla curva è f(x), quindi

α f(x1) + (1 - α) f(x2) ≤ f(x). Per le funzioni convesse si ha:

f(αx1 + (1 - α) x2) ≥ αf(x1) + (1 - α) f(x2). Inoltre, se per un punto della curva convessa giù si traccia la tangente, la curva sta sempre sotto. Questa tan-gente ha equazione y = f(x0) + (x - x0) f’(x0), ma f(x) ≤ y quindi

f(x) ≤ f(x0) + (x - x0) f’(x0) Se scegliessimo x0 = 1, allora

1

1 11

log( ) log( ) ( )x xx

≤ + − ⋅

cioè log(x) ≤ 0 + (x - 1)·(1/1). Da qui discende la relazione log(x) ≤ (x - 1). Tornando all’entropia, applicando questa disuguaglianza, possiamo dire che:

ii

i

M

ii

M

iii

M

ii

M

i

M

p p p p p pM M M M

MM

log1 1

11 1 1

1 01 1 1 11= = = ==

∑ ∑ ∑ ∑∑≤ −

= −

= − = ⋅ − =

da cui

ii

i

M

pp

M⋅ − ≤=∑ log log

10

1. c.v.d.

Il massimo dell’entropia si ha quando i simboli sono equiprobabili e, essendo usasti nel modo più economico possibile, recano la massima quantità di informazione. Pensiamo, ora, ad una sorgente che, anziché emettere un simbolo per volta, emetta una coppia di simboli con una data distribuzione di probabilità sulle coppie. Supponendo che gli alfabeti siano X ed Y, rispettivamente con simboli

xi ed y i, per cui X iM

x==1 1

ed Y jj

N

y==1

, avremo coppie (xi yj).

Definendo pxi yj la probabilità della coppia (xi yj), cerchiamo l’entropia dell’alfabeto congiunto (joint entropy)

H X Y ppi

j

N

i

M

ji j

x yx y

( , ) , log ,

= ⋅==∑∑

11

1 bit/simbolo

4

che misura il contenuto medio di informazione di una coppia di simboli di ingresso ed uscita, ovvero l’incertezza media del sistema di comunicazione formato dall’alfabeto d’ingresso, dal canale e dall’alfabeto di uscita considerati come un tutt’uno. La relazione fra la quantità d’informazione dell’alfabeto congiunto e quella di x (o di y) è:

H(X,Y) ≤ H(X) + H(Y). Vale la relazione di uguaglianza quando la pxi,yj = pxi·py j, cioè quando gli alfabeti sono statisticamente indipendenti. Infatti possiamo dire che:

H XY pp p

pp p

pp

pp

i jj

N

i

M

i j

i jj

N

i

M

ij

i jj

N

i

M

ii j

j

N

i

M

j

x yx y

x yx y

x yx

x yy

( ) , log

, log log

, log , log

= ⋅ =

= ⋅ +

=

= ⋅ + ⋅

==

==

== ==

∑∑

∑∑

∑∑ ∑∑

11

11

11 11

1

1 1

1 1

Possiamo fare alcune considerazioni: ricordiamo che, per il teorema della probabilità totale, avendo M eventi mu-

tuamente esclusivi ed esaustivi, la probabilità di qualunque evento xi può essere espressa in p x p x yi ij

N

j , ==∑

1 e,

analogamente, p y p x yj ii

M

j , ==∑

1. In altri termini, si può notare che il logaritmo dipende solo da xi ed abbiamo una

sommatoria doppia; se abbiamo una distribuzione di probabilità congiunta e sommiamo tutti gli elementi, abbiamo la pro-

babilità marginale dell’altra variabile, appunto p x p x yi ij

N

j , ==∑

1.

Da ciò discende che H(X,Y) = H(X) + H(Y) se e solo se X ed Y sono statisticamente indipendenti [c.v.d] Resta, per altro, da dimostrare la disuguaglianza stretta. Introduciamo, così, il concetto di entropia condizionale [ H(X|Y) ], che misura la quantità di informazione media necessaria per specificare il simbolo di ingresso x quando si conosca il simbolo y di uscita (o ricevuto), ovvero la quanti-tà media di informazione necessaria a specificare il simbolo di uscita y quando sia noto il simbolo di ingresso x -[ H(Y|X) ]. Consideriamo, in questo caso, la prima, ovvero H(X|Y). Ricordiamo che una distribuzione di probabilità condizionata pxi|yj è sempre una distribuzione di probabilità,

per cui vale la relazione p x yii

M

j | =∑ =

11. Quindi, secondo la definizione, possiamo calcolare

H x y p x yp x yj i

i

M

ji j

( | ) | log |

= ⋅=∑

1

1

che mi fornisce l’entropia dei simboli xi sui simboli y j. Possiamo, così, definire l’entropia condizionata dell’alfabeto X sull’alfabeto Y come:

H X Y p y H X yi jj

N

( ) ( | )= ⋅=∑

1

che è la quantità di informazione mediata su tutti i simb oli. Cerchiamo, ora, la relazione fra H(X) ed H(X|Y). Condizionare vuol dire fornire delle informazioni sui simboli e, quindi, ridurre la quantità di informazione che è necessario fornire; in altre parole ci si aspetta che l’entropia condizionata sia minore o, al limite, uguale a quella non con-dizionata, ovvero H(X) ≥ H(X!Y). Dimostriamolo:

H X Y H X

p y p x yp x y

p x yp x

p y p x yp x y

p x yp x

jj

N

i ji

M

i j

i jij

N

i

M

jj

N

i

M

i j

i j

i jj

N

i

M

i

( | ) ( )

| log|

log

| log|

| log

− =

= ⋅ ⋅ − ⋅ =

= ⋅ ⋅ − ⋅

= = ==

== ==

∑ ∑ ∑∑

∑∑ ∑∑1 1 11

11 11

1 1

1 1

5

Ora, tra la probabilità condizionata, la probabilità dell’evento e la probabilità congiunta, vale la relazione: pxi,yj = py j·pxi|yj

inoltre, posso ricordare che la differenza di due sommatorie è pari alla sommatoria delle differenze. Da tutto ciò dirò che:

p y p x yp x y

p x yp x

p y p x yjj

N

i

M

i j

i j

i jj

N

i

M

ij

j

N

i

M

i j | log|

log |== == ==∑∑ ∑∑ ∑∑⋅ ⋅ − = ⋅ ⋅

11 11 11

1 1

⋅ −

= ⋅ ⋅ ≤==∑∑log

|log | log

|

1 111p x y p x

p y p x yp x

p x yi j ij

j

N

i

M

i ji

i j

[ricordando che logx≤x-1]

≤ ⋅ ⋅ −

= ⋅ ⋅ −== ==∑∑ ∑∑p y p x y

p x

p x yp y p x y

p x

p x yj

j

N

i

M

i ji

i j

i i ji

i jj

N

i

M

11 111|

||

|

− ⋅==∑∑ p y p x yj i jj

N

i

M

|11

Bisogna, a questo punto, ricordare che: py j·pxi|yj=p[xi,yj]

e

che p x yi jj

N

i

M

≡==∑∑ 1

11 in quanto, essendo gli eventi statisticamente indipendenti, pxi,yj=pxi·py j e, quindi,

p x y p x p yi j i jj

N

i

M

j

N

i

M

= ⋅ =====∑∑∑∑ 1

1111

da cui

p y p x p y p x y p y p x p x p yj i i i j ij

N

i ij

N

ji

M

i

M

j

N

i

M

ji

M

| ⋅ − ⋅ = ⋅ − ⋅ = = − == =======

∑ ∑∑∑∑∑∑∑1 1111111

0 1 1 0

Con ciò, riprendendo i fili della dimostrazione, abbiamo verificato che H(x) ≤ 0, quindi H(X|Y) - H(X) ≤ 0, ovvero H(X) ≥ H(X|Y). É facilmente dimostrabile che H(XY) = H(Y) + H(X|Y) infatti:

H X Y p x yp x y

i jj

N

i

M

i j

( , ) log= ⋅==∑∑

11

1

ma, come abbiamo visto in precedenza, la probabilità congiunta è esprimibile come prodotto della probabilità condiziona-ta per la probabilità dell’evento condizionante, quindi pxiyj = pxi|yj·pyj. Sostituendo, ottengo:

H X Y p x yp x y p y

p x yp x y p y

p x yp y

p x yp x y

i jj

N

i

M

i j j

i jj

N

i

M

i j j

i j

jj

N

i

M

i j

i jj

N

i

M

( , ) log

log log

log log

= ⋅ =

= ⋅ +

=

= ⋅ + ⋅

==

==

== ==

∑∑

∑∑

∑∑ ∑∑

11

11

11 11

1

1 1

1 1

Ricordando, ora, che l’entropia condizionale H(X|Y) è esprimibile come

H X p x yp x y

ij j

i jj

N

i

M

( ) logY ≡==

∑∑ 111

e che, sempre per il Teorema della probabilità totale,

6

p x y p yi j ji

M

, ==∑

1 potrò scrivere:

( ) ( ) ( )

p x yp y

p x yp x y

p yp y

H X Y H Y H X Y

i j

j j

N

i

M

i

M

j

N

i j

i j

jjj

N

log log|

log | |

1 1

1

1111

1

+ =

= + = +

====

=

∑∑∑∑

[q.e.d.] Essendo H(X|Y) ≤ H(X) potrò, allora, dire che:

H(X,Y) = H(Y) + H(X|Y) ≤ H(Y) + H(X)

Calcoliamo, ora, l’entropia binaria, cioè l’entropia di un alfabeto con due simboli, che verrà indicata con H2(p):

( ) ( )H p p pp2 2 2

12

11

1= ⋅ + −

−log log

Tracciandone il grafico, osserviamo che è simmetrica ed ha un massimo quando i due simboli sono equiprobabili, cioè per p=1-p=0.5, in cui H2(p) = log22 = 1 bit/simbolo. H2(p), quindi, decresce a zero sia per p → 1 che per (1-p) → 1. Nel-la letteratura, questa funzione viene anche detta Ω(p), o funzione a ferro di cavallo.

Facciamo, ora, l’esempio del segnale vocale, di un segnale, cioè, continuo. In teoria, se la variabile casuale diventa continua, bisogna fornire una quantità di informazione infinita perché possa essere quantificata, ovvero, dovremmo di-sporre di un sistema in grado di trasferire una quantità d’informazione infinita per poter trasmettere la variabile casuale. Ma, in realtà, non esiste un simile sistema. Ora, considerando che la quantità di informazione è finita, posso utilizzare un alfabeto finito e discreto; cioè, ed è il teorema di Shannon, comunque si realizzi un sistema di trasmissione, l’informazione utile è discreta. Supponiamo, così, di disporre di un alfabeto A costituito dai numeri reali appartenenti all’intervallo [a,b], caratte-rizzato da una variabile ξ che assuma valori in questo intervallo e da una funzione densità di probabilità da ritenersi con-tinua, escludendo, quindi, i punti di discontinuità. Da quanto detto, possiamo ritenere continua fξ(x). In altri termini, una sorgente di informazione continua, produce un segnale x(t) variante nel tempo. Tratteremo l’insieme di possibili segnali come un insieme di forme d’onda generate da qualche processo casuale, che si assume esse-re ergodico. In termini più pragmatici che formali, possiamo dire che il processo deve essere stazionario in senso lato e che un suo campionamento tipico contiene tutte le variazioni statistiche del processo. Inoltre assumiamo che il processo abbia larghezza di banda finita, nel senso che x(t) è completamente caratterizzato in termini di valori campionati periodi-camente. Così, ad ogni istante di campionamento, l’insieme dei possibili valori campionati costituisce una variabile casua-le continua descritta dalla sua funzione densità di probabilità. La quantità media d’informazione per valore campionato di x(t) è misurata dalla funzione entropia:

( ) ( ) ( )H f xf x

dxξ ξξ

≡−∞

∞∫ log2

1

7

Questa relazione, comunque, è una misura d’informazione relativa e non assoluta. L’entropia assoluta di una sor-gente continua può essere definita dal ragionamento seguente. Costruiamo una successione di variabili casuali ξN , con N→∞ , supponendo che sia proprio N il numero di valori che ξN può assumere. Per semplicità, consideriamo tre intervalli; in questo caso possiamo definire un intervallo

∆ ≡−

=−b a

Nb a

3. Gli intervalli, tutti uguali, vengono chiamati δi; scegliamo ora un punto qualunque x1 ∈ δ1 . Questo

sarà il punto che farò assumere dalla variabile casuale discreta ξN .

Dirò che p x pN i iξ ξ δ= = ∈ . Così facendo, in realtà, associo alla variabile casuale continua una variabile

casuale discreta.

Per la definizione di probabilità di eventi della funzione densità di probabilità ho che ( )p f x dxii

ξ δ ξδ∈ ≡ ∫

quindi ( )p x f x dxN ii

ξ ξδ= ≡ ∫ .

Essendo continua la funzione densità di probabilità, posso applicare il teorema della media integrale:

( ) ( )f x dx f xi

iξδ ξ∫ = ⋅∆

A questo punto, posso dire che ( ) H p xp xN N i

N ii

N

ξ ξξ

= = ⋅==

∑ log21

1 , ricordiamo che x i i∈ δ e, quindi

x i i∈ δ .

Riducendo gli intervalli, facciamo tendere N → ∞ dicendo che ( ) ( )H HN

Nξ ξ≡→∞

lim

Seguendo la catena di uguaglianze appena vista, per cui

( ) ( )p x f x dx f xN i ii

ξ ξ ξδ= = = ⋅∫ ∆

e, sostituendo, posso dire che:

( ) ( ) ( )H f xf xN i

ii

N

ξ ξξ

= ⋅ ⋅⋅

==∑ ∆

∆log2

1

1

( ) ( ) ( )= ⋅ ⋅ + ⋅ ⋅= =∑ ∑f x f x

f xii

N

ii

N

iξ ξ

ξ12

12

1 1∆

∆∆log log .

Essendo ( )p x f xN i iξ ξ= = ⋅ ∆ ed essendo p xN ii

N

ξ = ==

∑1

1 , allora ( )f xii

N

ξ ⋅ ==

∑ ∆ 11

. Quindi

( ) ( ) ( )

( ) ( )

H f xf x

Nb a

f xf x

N ii

N

i

ii

N

i

ξ ξξ

ξξ

= ⋅ + ⋅ ⋅ =

=−

+ ⋅ ⋅ ⋅

=

=

11 1

1

21

2

21

2

log log

log log

∆∆

∆ ∆

8

Prendiamo, adesso, il ( )limN NH

→∞ξ ricordando che, in questo caso, il limite di una somma è pari alla somma dei li-

miti e rammentando anche la definizione di integrale secondo Riemann, potremo dire che:

( ) ( ) ( ) ( )

( )( )

H HN

b af x

f x

Nb a

f xf x

dx

N N N N iii

N

N a

b

ξ ξ ξξ

ξξ

= =−

+ ⋅ ⋅ =

=−

+ ⋅

→∞ →∞ →∞ =

→∞

lim lim log lim log

lim log log

2 21

2 2

1

1

il secondo termine può ricordare un’entropia, ed è per questo che lo si definisce entropia differenziale che viene indicata con:

( ) ( ) ( )h f xf x

dxa

bξ ξ

ξ

≡ ⋅∫ log2

1

ma, in realtà, non è una misura, in quanto ( )h ξ può assumere anche valori negativi o nulli.

Inoltre, l’entropia differenziale di una variabile casuale uniforme è nulla, ma la variabile casuale uniforme porta in-formazione. Scriverò così che:

( ) ( )HN

b ah

Nξ ξ=

+→∞

lim log2

ma il primo termine è, palesemente, infinito, mentre il secondo resta finito. Quindi, per una variabile casuale continua, la misura della quantità d’informazione è infinita. In senso pratico, posso infatti dire che, per specificare un numero reale, ho bisogno di infinite cifre decimali, o-gnuna recante la propria informazione. Vediamo, ora, una descrizione del canale.

Un canale discreto e caratterizzato da un alfabeto di ingresso X x i i

M=

=1, da un alfabeto di uscita

Y y j j

N=

=1 e da un insieme di probabilità condizionate p y xj i| che rappresenta la probabilità di ricevere il simbolo

yj avendo trasmesso il simbolo xi. Inoltre si assume che il canale sia senza memoria, e ciò significa che

p y y y x x x p y xn n i ii

n

1 2 1 21

, ,..., | , ,..., |==

in cui x1, x2, ... ,xn e y1, y2, ... , yn rappresentano, rispettivamente, n simboli trasmessi e ricevuti. Per “disegnare” il canale discreto senza memoria, si usa una rappresentazione a grafo bipartito di questo tipo:

9

Ogni freccia rappresenta una transizione da uno dei simboli dell’alfabeto di ingresso ad uno dei simboli dell’alfabeto di uscita, ed è etichettata con la probabilità condizionale della transizione. Evidentemente la somma delle probabilità relative a tutte le frecce dello stesso simbolo è pari ad 1. È parimenti evidente che, conoscendo la distribuzio-ne di probabilità sui simboli di ingresso pxi e la caratterizzazione del canale py j|xi possiamo facilmente conoscere an-che la distribuzione di probabilità in uscita. Infatti, per il teorema della probabilità totale,

p y p y x xj j i ii

M

= ⋅=

∑ |1

Si è soliti sistemare le probabilità condizionate py j|xi nella matrice di canale. La matrice di canale è costruita in modo tale che il primo pedice (le righe) sia relativo all’ingresso, mentre il secon-do (le colonne) sia relativo alle uscite. Per cui

r

MP

p y x p y x p y xp y x p y x p y x

p y x p y x p y x

N

N

M M N M

=

1 1 2 1 1

1 2 2 2 2

1 2

| | ... || | ... |

| | ... |

In questa matrice, essendo le p y xj i| delle probabilità, è evidente che ogni elemento avrà valore compreso fra 0

ed 1. Inoltre, per lo stesso motivo, p y x i Mj ij

N

| , , ,...,= ∀ ==∑ 1 12 3

1

. In altri termini, la somma degli elementi di una

riga vale 1. Se si verifica anche che p y x i Nj ii

M

| , , ,...,= ∀ ==

∑ 1 1 2 31

, cioè se anche la somma degli elementi delle co-

lonne vale 1, allora la matrice si dice doppiamente stocastica. Analizziamo, a questo punto, la quantità più importante introdotta da Shannon, cercando di rispondere alla do-manda “In un canale di trasmissione discreto e senza memoria, quanta informazione danno i simboli ricevuti sui sim-boli trasmessi ?” cioè, quanto vale I(X,Y) ? Ora, parte dell’informazione H(X) trasmessa sul canale, è persa a causa del rumore presente sul canale stesso. Questa parte è misurata tramite “l’equivocazione” di canale H(X|Y). Il termine equivo-cazione sembra appropriato se si osserva che per un canale privo di rumore H(X|Y)=0, in quanto il simbolo ricevuto de-termina univocamente quello trasmesso, mentre, per un canale inutile, quello, cioè, in cui i simboli di uscita sono indipen-denti da quelli d’ingresso ( py j|xi = py j ), H(X|Y) = H(X). Sembra, così, logico definire un’informazione mutua, che, in letteratura, prende, meno correttamente, il nome di “flusso medio di informazione”, come:

( ) ( ) ( )I X Y H X H X Y; |≡ − bit/simbolo

Ricordando che H(X,Y) = H(Y,X) = H(X) + H(Y|X) = H(Y) + H(X|Y), possiamo derivare un’altra forma per la stessa quanti-tà:

10

( ) ( ) ( ) ( ) ( ) ( )I X Y H Y H Y X H X H Y H X Y; | ,= − = + − .

Confrontando le due formule, è facile dimostrare che

( ) ( )I X Y I Y X; ;=

Dalla definizione si vede, anche, l’entropia come capacità potenziale di un alfabeto di fornire informazione. Se il legame fra X ed Y è deterministico, allora I(XY) = 0. Infatti, se i simboli dell’alfabeto di ingresso sono in corri-spondenza “uno a uno” con quelli dell’alfabeto di uscita, [px|y = 1 ∀ x=y o x=f(y) e px|y = 0 ∀ x ≠ y altrimenti ] allora è evidente che px|y = px, da cui HX|Y = HX e, ricordando la definizione di informazione mutua, I(X:Y) ≡ H(X) - H(X|Y) = 0. Possiamo soffermarci su alcune proprietà della mutua informazione. 1. I(X;Y) ≥ 0 in quanto H(X) ≥ H(X;Y) 2. La mutua informazione è simmetrica, quindi I(XY) = I(YX), come abbiamo già visto, infatti

( ) ( ) ( ) ( ) ( )H X Y H X H Y X H Y H X Y; | |= + = + da cui ( ) ( ) ( )H X Y H X Y H Y| := −

Sostituendo nella definizione ottengo:

( ) ( ) ( ) ( ) ( ) ( )I X Y H X H X Y H X H Y H X Y; | ;= − = + −

Torniamo al caso del canale simmetrico binario:

la matrice stocastica sarà:

rP

p pp p

p pp p

=

=

−−

00 1001 11

11

| || |

Vogliamo calcolare la mutua informazione:

( ) I X Y p xp x

p yp y

p x yp x y

iii

M

jjj

N

i jj

N

i ji

M

; log log log= + −= = ==∑ ∑ ∑∑2

12

1 12

1

1 1 1

Prima di continuare, riprendiamo alcuni punti della teoria delle probabilità. Innanzitutto, per definizione di probabi-lità congiunta, posso dire che:

p x y p x y p y xi j i j j i; ;≡ ∩ =

Dalla definizione di probabilità condizionata:

11

p y xp y x

p x

p y x p y x p x

p x y p y x p x

p x y p x y p y

j i

j i

i

j i j i i

i j j i i

i j i j j

|;

; |

; |

; |

≡ ⇒

⇒ = ⋅ ⇒

⇒ = ⋅ ⇒

⇒ = ⋅

Riscriviamo, inoltre, il teorema della probabilità totale:

p y p y x p x p y xj j ii

M

i j ii

M

= ⋅ == =

∑ ∑| ;1 1

Riprendiamo il teorema di Bayes e facciamo alcune considerazioni:

p y xp x y p y

p x y p y

p y x p x y p y p x y p y

p y x p x y p y p y x

p y x

p xp x y p y x p y x p x y p y x p x

p x y

j i

i j j

i j jj

N

j i i j j i j jj

N

j i i j j j ij

N

j i

ii j

j

N

j i j i i j j i ij

N

i j

||

|;

| | |

| | :

=⋅

⋅ ⋅ = ⋅

⋅ ⋅ =

⋅ = ⇒ ⋅ = ⋅

=

=

=

=

= =

∑ ∑

1

1

1

1 1

p x p x y p xij

N

i j ii

M

j

N

i

M

= ===∑ ∑∑∑⇒ =

1 111

e ciò significa che, avendo la distribuzione di probabilità congiunta, possiamo calcolare le distribuzioni di probabilità marginali come sommatoria delle distribuzioni di probabilità congiunte, fatta sull’altro indice. Torniamo sulla mutua informazione e sfruttiamo i risultati ottenuti:

( )

I XY p xp x

p yp y

p x yp x y

p x yp x

p x yp y

p x y p x y

p x yp x p y

ii

j

j

i jj

N

i

M

j

N

i

M

i j

i jij

N

i

M

i jj

i jj

N

i

M

j

N

i

M

i j

i ji j

= ⋅ + ⋅ − ⋅ =

= ⋅ + ⋅ + ⋅ =

= ⋅ + +

====

== ====

∑∑∑∑

∑∑ ∑∑∑∑

log log log

log log log

log log

2 2 21111

211

2 21111

2 2

1 1 1

1 1

1 1

log

log

211

211

p x y

p x yp x y

p x p y

i jj

N

i

M

i j

i j

i jj

N

i

M

=

= ⋅⋅

==

==

∑∑

∑∑

Da questa equazione si nota la simmetria dei due alfabeti.

12

Se, ora, osserviamo che p y p x y p y x p xi n jn

M

j h hn

M

= = ⋅= =

∑ ∑1 1

| e ricordando il già citato teorema della

probabilità totale, posso dire, sfruttando il risultato appena raggiunto, che

( )

I XY p x yp x y

p x p y

p y x p xp y x p x

p x p y

p y x p xp y x

p y

p y x p xp y x

p y x p x

i ji j

i jj

N

i

M

j i ij i i

i jj

N

i

M

j i ij i

jj

N

i

M

j i ij i

j hh

M

hj

N

i

M

= ⋅ =

= ⋅ ⋅⋅

=

= ⋅ ⋅ =

= ⋅ ⋅⋅

=

==

==

==

=

==

∑∑

∑∑

∑∑

∑∑

log

| log|

| log|

| log|

|

211

211

211

2

1

11∑

Questa notazione esprime la mutua informazione in funzione delle probabilità condizionate. Definiamo ora la capacità di Shannon, tentativo di parametrizzare l’ottimizzazione dell’uso di un canale di caratte-ristiche note. Infatti, osservando che la mutua informazione è:

p xyp xy

p x p yx Xy Y

⋅∈∈

∑ log2 ,

vediamo che l’unica variabile libera è la distribuzione di probabilità dell’alfabeto di ingresso. Facciamo, allora, variare il vettore degli ingressi in modo da massimalizzare l’informazione mutua e definiamo “capacità” di un canale discreto senza memoria il massimo della mutua informazione I(X;Y) che può essere trasmesso sul canale. Riprendendo la scrittura vista in precedenza che, per inciso, discende dalla relazione I(X;Y) = H(Y) - H(Y|X), diciamo che

( ) ( ) ( )

Cp x

I X Yp x

p y x p xp y x

p y x p xj i i

j i

j hh

M

hj

N

i

M

≡ = ⋅ ⋅⋅

=

== ∑∑∑

max;

max| log

|

|2

1

11

con ( ) p x p x p x p x p x M≡ 1 2 3, , ,..., .

Il significato parrebbe non essere molto chiaro, ma in realtà fa riferimento al teorema fondamentale di Shannon sul-la codifica del segnale. Vedremo, in seguito, che non è possibile una trasmissione efficace sul canale se il numero di bit per simbolo è maggiore della capacità del canale. Di fatto, oggi, si sceglie il canale in mo do non da minimizzare la probabilità di errore, quanto di massimizzare la ca-pacità. Infatti, sebbene ci siano linee di pensiero differenti, si ritiene che quanto più sia alta C, tanto più alta sarà la veloci-tà di trasmissione. Si dimostrerà che, se la quantità di informazione di sorgente è minore della velocità, allora è possibile costruire un canale con probabilità di errore nulla. Consideriamo un canale che, per semplicità, sarà supposto binario, di capacità C. Poniamo, all’ingresso del canale, un codificatore e, in uscita, un decodificatore. Siano i simboli usati affetti da una probabilità di errore p che va ridotta. Per raggiungere questo scopo, tradizionalmente, si usava un codice a ripetizione. Ad esempio, il codificatore aggiungeva due simboli identici; così facendo, partivano tre simboli uguali. In ricezione potevo, così, avere 23=8 possibilità. La regola di decodifica era, a questo punto, ragionevolmente basata sul peso. Con questo meccanismo, riducevo sì la probabilità di errore dei simboli di sorgente, ma, in realtà, rallentavo la trasmissione ad 1/3. Usando direttamente il canale, la probabilità di errore sarebbe stata p, mentre ora ho una probabilità pari a [1- (probabilità di corretta ricezione)]. Il ragionamento è banale, se ricevo le parole 000 o 111 so di avere probabilità di errore pari a 0, per i simboli inter-medi deciderò sul numero maggiore di simboli uguali.

13

Traducendo in formule il discorso, dirò che:

( ) ( )[ ]p p p p p pe = − − + ⋅ ⋅ − = −1 1 3 1 3 23 2 2 3 .

In pratica, col codice a ripetizione, distribuivo su ogni bit la probabilità di errore, riducendo, di fatto, le probabilità. Ora, se riesco a trovare una regola di codifica tale che la quantità di informazione sia minore della capacità, allora deve esistere una regola di codifica tale che la probabilità di errore possa essere resa piccola a piacere. Soffermiamoci momentaneamente su questo discorso, abbozzando dei concetti su cui torneremo più dettagliata-mente in seguito. Abbiamo detto, definendo l’entropia di sorgente, che la quantità di informazione prodotta dalla sorgente in un ar-bitrario intervallo simbolico è una variabile casuale discreta con valori possibili pari a I1,I2,...,IM. L’informazione per simb o-lo attesa è, allora, data dalla media statistica, quindi:

( ) H X p x I x p xp xi

i

M

i iii

M

≡ = ⋅= =

∑ ∑1

21

1log bits/simbolo

questa quantità, come visto, è l’entropia. Possiamo interpretare questa definizione in modo più pragmatico, osservando che quando la sorgente emette una sequenza di n simboli, con n»1, l’informazione totale che viene trasferita è di circa n·H(X) bits. Siccome la sorgente produce r simboli al secondo, la durata temporale di questa sequenza è n/r. Allora

l’informazione dovrà essere trasferita al ritmo medio di ( )

( )n H Xnr

r H X⋅

= ⋅ bits/secondo. Formalmente, definiamo il

tasso di informazione di sorgente [Source Information rate] come ( )R r H X≡ ⋅ bits/secondo, che è, quindi, una quantità critica relativamente alla trasmissione. Shannon ha asserito che l’informazione da qualsiasi sorgente discreta senza memoria può essere codificata come bit e trasmessa su un canale privo di rumore al passo di segnale r Rb ≥ binits/sec [il “binit” si usa al posta di “bit” nei

messaggi o negli elementi di codifica]. Ora, un canale, normalmente, ha alfabeti di sorgente e di utente definiti e caratterizzati dalle probabilità dirette di transizione, così che, come abbiamo visto, le uniche quantità variabili in I(X;Y) sono le probabilità di sorgente pxi. Di conseguenza, il massimo trasferimento di informazione richiede specifiche statistiche di sorgente. Questo massimo è, come ormai noto, la capacità di canale: massima quantità di informazione trasferita per simbolo di canale. Possiamo anche misurare la capacità in termini di tasso di informazione: se S è il massimo tasso simbolico permesso dal canale, allora la capacità per unità di tempo è C’ = S·C [bits/sec] che rappresenta il massimo tasso di trasferimento di informazione. Vediamo, così, che vi è un intimo legame fra entropia, informazione, mutua informazione, tasso di informazione e capacità del canale. Riorganizzando il ragionamento, possiamo asserire che: “Se un canale ha capacità C ed una sorgente ha tasso d’informazione R ≤ C, allora esiste un sistema di codifi-ca tale che l’uscita della sorgente può essere trasmessa sul canale con frequenza di errore piccola a piacere. Vicever-sa se R > C, allora non è possibile trasmettere l’informazione senza errori.” Questa è l’enunciazione del Teorema Fondamentale di Shannon per un canale rumoroso. Torneremo in seguito, e più dettagliatamente, su questi concetti. Per il momento, ci basti pensare che il costo da pagare per inviare un segnale con probabilità di errore piccola a piacere è la complessità dei sistemi di codifica e di decodifica. Se decidessimo di tra-smettere una quantià di informazione superiore alla capacità di Shannon, allora la probabilità di errore avrebbe un minimo non nullo. Un esempio di codice, usato da Shannon, è il codice Hamming, codice a blocchi lineare (n,k) con q ≥ 3 bits di con-

trollo, in cui n q= −2 1 e k n q= − . Facciamo l’esempio in cui q=3 e, quindi, n=7 e K=4.

Senza addentrarci sulla generazione dei codici a blocchi, ci basti sapere che, nel caso di codice Hamming (7,4), si trasmettono i 4 simboli xi più 3 simboli di parità y i generati secondo questa regola:

y x x xy x x xy x x x

1 1 2 3

2 2 3 4

3 1 2 4

00

0

= ⊕ ⊕ ⊕= ⊕ ⊕ ⊕= ⊕ ⊕ ⊕

14

Riportiamo di seguito il codice così generato, col peso di ogni parola di codice. Si noti che a parole di parità uguali, corri-spondono pesi di parola differenti. 0000 000 0 0001 011 3 0010 110 3 0011 101 4 0100 111 4 0101 100 3 0110 001 3 0111 010 4 1000 101 3 1001 110 4 1010 011 4 1011 000 3 1100 010 3 1101 001 4 1110 100 4 1111 111 7

La probabilità sarà, quindi, p = =47

0 571. . Costruendo un codice che mantenga costante il rapporto 4/7, come 8/14,

12/21, 16/28, ecc., potrò minimizzare la probabilità di errore senza variare la capacità, in quanto avrò scelto C>0.571, ma se ciò non fosse, non potrò mai riuscire a ridurre la probabilità di errore. Apriamo, ora, un piccolo inciso sul calcolo dei massimi e dei minimi vincolati. Sia R uno spazio funzionale normo -lineare. Si assuma che sia data una regola che associ un numero complesso ϕ(f) ad ogni funzione f ∈ R. Si definisce ϕ funzionale su R. Se ϕ è un funzionale su R, ed f,h ∈ R, allora il funzionale

[ ] [ ]δϕα

ϕ αα

f hd

df h; ≡ +

=0

è chiamato differenziale di Fréchet di ϕ. Il concetto di differenziale di Fréchet fornisce una regola per calcolare i massimi ed i minimi di un funzionale. Abbiamo il seguente risultato: una condizione necessaria perché ϕ(f) raggiunga un valore massimo o minimo per f=f0 è che δϕ(f0;h)=0 ∀ h∈R. In molti problemi di ottimizzazione si richiede la funzione ottima per soddisfare certi vincoli. Consideriamo, in parti-colare, la situazione in cui un funzionale ϕ su R debba essere ottimizzato sotto n vincoli dati in forma implicita ψ1[f]=C1, ψ2[f]=C2,...,ψn[f]=Cn, in cui ψ1, ψ2,...,ψn siano funzionali su R, e C1, C2,...,Cn siano costanti. Abbiamo che, se f0∈R fornisce un massimo o un minimo di ϕ soggetto ai vincoli ψi[f]=Ci, con 1≤ i ≤ n, e se gli n funzionali δψi[f0;h] sono linearmente indi-

pendenti, allora ci sono n scalari λ1, λ2, ... , λn che fanno sì che i differenziali di Fréchet di [ ] [ ]ϕ λ ψf fi ii

n

+=∑

1 si annulli-

no per f0. Questo risultato fornisce una regola per il calcolo di massimi e minimi vincolati. Il procedimento consiste nel for-

mare il funzionale [ ] [ ]ϕ λ ψf fi ii

+ ∑ , calcolare il suo differenziale di Fréchet e trovare le funzioni f che lo annullano per

ogni h. I valori dei “moltiplicatori di Lagrange” λ1, λ2, ... , λn possono essere calcolati utilizzando le equazioni vincolanti. Per meglio illustrare il metodo, risolviamo un semplice problema. Sia da trovare la relazione che fornisce fra gli infiniti rettangoli di lati x ed y, quello di area massima, sotto il vincolo che x+y=p.

La relazione sarà: ( )x y x y L⋅ − + =λ .

Massimizziamo la Lagrangiana L come se non ci fossero i vincoli:

∂∂

λ λ

∂∂

λ λ

Lx

y y

Ly

x x

= − = ⇒ =

= − = ⇒ =

0

0 sostituisco nel vincolo x y p+ = + =λ λ da cui λ =

p2

.

15

Pertanto i valori di x e di y che risolvono il problema sono xp

=2

ed yp

=2

.

Con questo metodo cerchiamo un massimo per la quantità:

max| log

|

,p xp x p y x

p y xp yx y

col vincolo che p xx

∑ = 1 e che p y p y x p xx

= ′ ⋅ ′′

∑ | .

La lagrangiana sarà: ( ) L I X Y p xx

= − ∑; λ . Cerchiamo quando ∂

∂L

p xx X= ∀ ∈0 .

[ ]

( )

∂∂

∂∂

λ

∂∂

λ

∂∂

λ

Lp x p x

p x p y xp y xp x

p y xp y xp y

p x p y xp x

p y x p y

I Y x p x p y x p x p y xp y

p yp x

x y

y yx

yxyx

= ⋅ − ⋅

=

= ⋅ + ⋅ − − =

= + ⋅ − ⋅ −

∑ ∑∑

∑∑∑∑

| log|

| log|

| log | log

| | |

,2

2 2 2

1

01

Ricordando che ∑ ⋅=x

x|ypxpyp da cui

0x|ypxdpydp

+= , posso dire che

( ) ∑ ∑ λ−⋅⋅−=∂

x y

x|ypyp

1x|ypxpx|YI

xpL

Ricordando la definizione di probabilità condizionata, sostituisco a

∑∑∑ ∑ ===x,yy,xy,x y,x

y|xpypy,xpx,ypx|ypxp per cui:

( ) λ−⋅⋅⋅−=∂

∂ ∑y,x

x|ypyp

1y|xpypx|YI

xpL

ma

∑∑ ==⋅xy,x

1x|xpx|ypy|xp per cui

( ) ( ) 1x|YI01x|YI

xpL

+λ=⇒=λ−−=∂∂

.

Se il canale è simmetrico e tutte le variabili sono usate con la stessa probabilità, questa funzione è massimizzata, quindi la capacità è raggiunta. La definizione di “simmetria” discende dall’analisi della matrice stocastica: un canale è simmetrico in senso stretto se tutte le righe della matrice sono permutazioni della prima riga e se tutte le colonne sono permutazioni della prima co-lonna. In questo caso, la somma degli elementi di una riga (probabilità di ingresso) è pari ad 1, mentre le probabilità di u-scita sono uguali, ciò sta ad indicare che, se gli ingressi sono equiprobabili, tali sono anche le uscite. Continuando con la definizione, diremo che un canale è simmetrico in senso lato se la matrice può essere ripartita in sottomatrici o, se si preferisce, in sottoinsiemi di colonne tali che ciascun sottoinsieme goda della proprietà dei canali simmetrici in senso stretto.

16

Se gli ingressi sono equiprobabili, quindi se M1

xp = , allora I(Y|x) non dipende da x e la capacità del canale è

raggiunta. Torniamo al computo della capacità. Dicevamo che

( )

∑ ∑ ∑ ⋅=⋅⋅=

y,x x y2 yp

x|yplogx|ypxp

ypx|yp

logx|ypxpXYI , ma

( )∑ =⋅y

x|yIyp

x|yplogx|yp per cui ( ) ( )∑ ⋅=

x

x|YIxpXYI .

Se il canale è simmetrico, essendo I(Y|x) costante e pari a I(Y|x) = λ + 1, avremo

( ) ( ) ( ) Cx|YI11Y,XI ==+λ⋅=

In questo caso basterà calcolare I(Y|x). Nel caso in cui gli ingressi siano equiprobabili, I(Y|x) non dipende da x, infatti abbiamo:

( ) ∑ ⋅=

y2 yp

x|yplogx|ypx|YI .

Avevamo detto che ∑′

′⋅′=x

xpx|ypyp , ma M1

xp =′ essendo equiprobabili, quindi

∑ ⋅′=y M

1x|ypyp .

Se il canale è strettamente simmetrico, tutte le colonne, tutte le colonne sono permutazioni della prima colonna,

quindi la somma di tutti gli elementi non dipende dalla colonna, e potremo dire, quindi, che ==N1

yp costante, per

cui

( ) ∑ ⋅=y

2

N1

x|yplogx|ypx|YI .

Un esempio aiuterà a capire il concetto. Supponiamo di avere questa matrice di transizione:

=

2.03.05.03.05.02.0

5.02.03.0

Pr

.

Il canale è simmetrico in senso stretto: le righe sono permutazioni della prima riga e le colonne lo sono della prima colonna infatti, sommando per righe (relative agli ingressi) abbiamo sempre 1, così come sommando gli elementi delle co-

lonne, per cui 31

xp = e 31

yp = .

Calcoliamo ( )

315.0

log5.0

312.0

log2.0

313.0

log3.0x|YI 1 ⋅+⋅+⋅= . Otteniamo che:

( ) ( ) ( )321 x|YIx|YIx|YI == . Il valore è, come si può notare, indipendente da x, è massimo ed è pari alla capacità

del canale. Come altro esempio, calcoliamo la capacità del canale simmetrico binario, per il quale le probabilità dei simboli in ingresso siano, in questo caso, p0=0.5 e p1=0.5; in uscita avremo p’0=0.5 e p’1=0.5. Il canale ha matrice stocastica pari a:

17

−=

p1ppp1

Pr

.

Vogliamo calcolare la capacità. Possiamo muoverci in due modi:

Considerando che i simboli sono equiprobabili in ingresso ed in uscita, e quindi 21

xp = , ∑ =x

1xp e

21

yp = , e che il canale e simmetrico, potremo dire che:

( )

( ) ( )

[ ] ( ) ( )[ ][ ] ( )[ ] ( )[ ][ ] ( ) ( )[ ]

( ) ( )

( ) ( )

( )

( )pH1p1

1logp1

p1

logp1

p1logp1p1

logp1

p1logppp1log1plogppp1log1pp1log1plog1p

p1log2logpp1log2logplog2logp

p12logp1p2logp5.0p1

logp15.0

plogp1

ypx|yp

logx|ypxpx|YIC

2

22

22

222

222

222222

22

22

x y2

−=

=−

⋅−−⋅−=

=−⋅−+⋅−=

=−⋅−−−++⋅+==−+−−+++=

=−+−−+++=

=−−+⋅=

=

−+⋅⋅=

=⋅⋅== ∑ ∑

Potevamo raggiungere lo stesso risultato per altra via: abbiamo visto che I(X;Y) = H(Y) – H(Y|X) ed abbiamo an-che detto che una proprietà importante del canale simmetrico è che H(Y|X) è indipendente dalle probabilità di ingresso

pxi e dipende solo dalla matrice di canale Pr

. Infatti:

( ) ( )∑=

⋅=M

1iii x|YHxpX|YH , essendo

( ) ∑=

⋅≡N

1j ij2iji x|yp

1logx|ypx|YH , quindi

( ) ( ) ∑=

⋅−=N

1j ij2ij x|yp

1logx|ypYHY;XI .

Possiamo fare due osservazioni: 1. Il massimo valore della mutua informazione, indipendentemente dal valore della probabilità p, si ha quando px1=0.5,

cioè quando i simboli d’ingresso sono equiprobabili. 2. Se i simboli sono equiprobabili, allora

( ) ∑=

=⋅=M

1J2 1Mlog

M1

YH quindi

( )( )

( )pH1p1

1logp1

p1

logp1C 222 −=−

⋅−−⋅−=

Possiamo diagrammare la capacità del canale binario simmetrico in funzione di p:

18

Si può notare che la capacità è massima quando p=0 o p=1, infatti entrambe queste situazioni conducono al canale

senza rumore, in cui

≠∀=∀

=ji0ji1

x|yp ij ed in cui H(X|Y) = H(Y|X) = 0 e H(X,Y) = H(X) = H(Y).

Per p=0.5, invece, la capacità è nulla in quanto i simboli di uscita sono indipendenti dai simboli di ingresso e nessuna in-formazione può fluire nel canale, che degenera nel canale inutile, in cui py j|xi = py j ∀ j,i. In questo caso la matrice

Pr

ha righe identiche e H(X|Y) = H(X), H(Y|X) = H(Y), H(X;Y) = H(X) + H(Y). Il fatto che H(X|Y) = H(X) ci dice che tutta l'informazione trasmessa è persa nel canale. Consideriamo, in questa piccola rassegna di esempi, il canale simmetrico con cancellazione (o BEC: Binary Erasu-re Channel). Sia p la probabilità di errore e q la probabilità di cancellazione; la matrice stocastica sarà:

−−

−−

=qp1qp

pqqp1

Pr

Da questa matrice vediamo che il canale non è simmetrico in senso stretto, ma lo è in senso lato, in quanto la matrice può essere ripartita in due sottoinsiemi di colonne, tali che ogni sottoinsieme goda delle proprietà dei canali simmetrici. Infatti, scambiando la colonna di posto 3 con quella di posto 2, otteniamo:

−−

−−=

qq

qp1p

pqp1

PMMr

Con questo risultato, della cui utilità pratica ci accorgeremo ben presto, abbiamo dimostrato che il BEC è simmetri-co in senso lato, quindi le probabilità di uscita possono essere diverse. Nei canali simmetrici in senso stretto, invece, le uscite sono equiprobabili.

19

Per calcolare la capacità, dobbiamo calcolare ( ) ∑ ⋅=

y2 yp

x|yplogx|ypx;YI , dato che il canale è simme-

trico. Valutiamo, pertanto, ∑ ∑=⋅=x x

x|ypM1

x|ypxpyp , essendo gli ingressi equiprobabili.

Con riferimento alla matrice delle probabilità di transizione, possiamo dire che basterà sommare per colonne e divi-dere per M, infatti:

12

q1q

2q1

2qp1p

2qq

2pqp1

21p

2p

20p

21|1p0|1p

21|p0|p

21|0p0|0p

x|ypM1

ypx

=

=−

++−

=

=−−+

++

++−−

=

=+η

+=

=+

+η+η

++

=

== ∑

La capacità sarà:

( )

( ) ( )

( ) ( )

( ) ( )

( ) ( )

( ) ( )

( ) ( )

⋅−+−=

=

−−

−−−+−=

=

−−

+

−−+⋅−=

=

⋅−

+−

−−⋅

−−−

−+⋅−=

=−

⋅+⋅+−

−−⋅−−+⋅−−=

=−

⋅+−

−−⋅−−=

=−

⋅+⋅+−

−−⋅−−=

=⋅+⋅+⋅=

q1p

Hq1q1

q1p1

logq1

p

q1p

1

1log

q1p

1q1q1

q1p

logq1

pq1

p1log

q1p

1q12logq1

q1p

logq1

pq1

qp1log

q1qp1

q12logq1

q1p

logp2logpq1

qp1logqp12logqp1

q1p2

logpq1

qp12logqp1

2q1

plogp

qq

logq

2q1

qp1logqp1

ypx|yp

logx|ypyp

x|yplogx|yp

ypx|yp

logx|ypC

2

22

222

222

2222

22

222

3

13213

2

12212

1

11211

in cui con H2(•) si è indicata l'entropia binaria. Basta ricordare che ( ) ( )( )x1

1logx1

x1

logxxH 222 −⋅−+⋅= .

20

È facile osservare che, sostituendo al posto di q1

px

−= e, quindi,

q1qp1

x1−

−−=− , effettivamente il risulta-

to ottenuto è corretto. Se p=0, allora C=1-q. Si può giungere allo stesso risultato per altra via. Sfruttando le proprietà dei canali simmetrici in senso lato e, quindi, dividendo, come visto, la matrice stocastica in due sottomatrici, cioè:

−−

−−

=

qqp1p

qpqp1

P

MMMM

r

e normalizzando la prima matrice per avere la somma degli elementi delle righe pari ad 1, scriveremo:

[ ]( )

−−−

−−−−

+−−=11

q

q1qp1

q1p

q1p

q1qp1

pqp1P Mr

Si può dimostrare che la capacità è la media, secondo queste probabilità di scelta, della capacità di tutti i canali che, a questo punto, sono simmetrici in senso stretto, cioè:

∑=

⋅=r

1iii CpC

In questo caso la capacità è pari al prodotto del termine normalizzante per la capacità di un canale simmetrico binario, per cui:

( ) 0qq1

pH1q1C 2 ⋅+

−⋅−=

in cui 0 è la capacità di un canale con un ingresso e due uscite. Più in generale, è dimostrabile che la capacità di un canale simmetrico in senso stretto è pari a:

C = log2(N° di Uscite) - H(Probabilità di Transizione della Riga 1)

Un altro tipo di canale, usato per rappresentare soprattutto le comunicazioni magnetiche ed in fibra ottica, è il ca-nale z, non simmetrico, e ciò perché, trasmettendo, ad esempio, fotoni, è impossibile che in assenza di luce trasmessa, questa venga ricevuta. La modellizzazione grafica è la seguente: con p si indica la probabilità di errore, cioè, per proseguire nell'esempio, che, trasmettendo luce, questa venga assorbita nel canale e non raggiunga l'uscita. Calcoliamo la capacità.

La matrice di transizione sarà:

=p1p

01Pr

; da questa è evidente la non simmetria. Supponiamo che

α≡= 0xp e α−=β≡= 11xp .

Valutiamo, allora, le probabilità delle uscite applicando il teorema della probabilità totale:

21

∑ ⋅=x

xpx|ypyp quindi p10yp ⋅β+⋅α== e ( )p101yp −β+⋅α== , ponendo p1q −≡ .

Ricordiamo che

( )

( ) ( )X|YHYHxp

maxY;XI

xpmax

C −== , ( ) ( ) ( )p1H0YHYH ⋅β+⋅α=== ed anche

( ) ( ) ( ) ( )qHq0H1YHYH β=⋅β+⋅α=== , ora

( )

[ ]

( )pH0

q1

logqp1

logp01

log011

log1

x|yp1

logx|ypxpx|yp

1logy;xpX|YH

2222

y2

xy,x2

⋅β+=

=

⋅+⋅⋅β+

⋅+⋅⋅α=

=⋅⋅=⋅= ∑∑∑

Sostituendo otteniamo

( ) ( )pHqHxp

maxC β−β= .

Per trovare la capacità devo massimizzare I(X;Y) su una sola variabile (β). Ricordiamo che, essendo la funzione entropia simmetrica, H(p) = H(q). Inoltre è facile ricavare un'espressione semplice per la derivata dell'entropia quando

questa sia espressa .in nat. Infatti ( ) ( ) ( ) ( ) ( )x1logx1xlogxx1

1logx1

x1

logxxH −⋅−−⋅−=−

⋅−+⋅= .

Derivando H(x) in x otteniamo, ricordando che ( )dxdu

vdxdv

uvudxd

+=⋅ ,

( ) ( ) ( ) ( ) ( ) ( )

( ) ( )x

x1logx1log1xlog1

1x1logx1

1x1xlog

x1

xxH

−=−++−−=

=−⋅−−−−

⋅−−−⋅−=′

Con queste premesse, e ricordando che

( ) ( ) ( )[ ] ( ) ( )qHqHqpHqHY;XI −β′=β−ββ∂∂

=β∂∂

eguagliando la derivata a 0, otteniamo:

( ) ( ) ( ) ( )qqH

qH0qHqHq =β′⇒=−β′

sostituendo otteniamo:

22

( ) ( )

( )

( )

( )

( )

+

+

+=β

β−

β−

qqH

qqH

qqH

qqH

21q

1

;

e1

1q

;e1q1

;eq

q1

;qqH

qq1

log

Calcolo ora il valore negli estremi 0 ed 1, sostituendo questi valori a β:

( ) ( ) ( )( ) ( ) ( ) 0qH1qH1I

0qH00H0I=⋅−==⋅−=

Essendo uguali i valori, per il Teorema di Rolle, esiste, nell'intervallo fra 0 ed 1, sicuramente un punto in cui la derivata si annulla. Questo punto sarà, per la positività della funzione, un massimo. Sostituendo il valore calcolato di β nell'espressione di C, troviamo la capacità:

( )( )

( )

+

+

=qqH

qqH

21q

qH

21

1HC .

Essendo H(q) = H(p), otteniamo:

( )( )

( )

+

+

=qpH

qpH

21q

pH

21

1HC .

Analizziamo ora i canali continui. I canali fisici, in natura, sono continui. Per canale fisico vogliamo, qui, intendere la porzione del canale di comuni-cazione che giace fra il modulatore ed il demodulatore. In questo tratto di canale i segnali di ingresso sono funzioni con-tinue del tempo e lo scopo del canale è quello di produrre, alla sua uscita, il segnale elettrico presentatogli in ingresso. Un canale reale è descritto solo approssimativamente in questi termini. Innanzitutto, il canale modifica la forma d'onda del segnale in ingresso in modo deterministico e questo effetto può essere modellizzato adeguatamente trattando il canale come sistema lineare. Inoltre il canale modifica la forma d'onda del segnale di ingresso in modo casuale e ciò è dovuto al rumore additivo e moltiplicativo. Il rumore additivo, che può essere gaussiano o impulsivo, è più frequente di quello mo l-tiplicativo. Il rumore gaussiano include il rumore termico ed il rumore shot. Secondo il teorema del limite centrale, il rumore risultante dalla somma degli effetti di molte sorgenti tende ad avere distribuzione gaussiana con valor medio nullo e va-rianza unitaria. A causa di questa "onnipresenza", il rumore gaussiano è spesso usato per caratterizzare la porzione ana-logica dei canali di comunicazione. Le tecniche di modulazione e demodulazione sono così scelte principalmente allo sco-po di ridurre gli effetti del rumore gaussiano. Un secondo tipo di rumore, quello impulsivo, è caratterizzato da lunghi intervalli di quiete, seguiti da scrosci di impulsi di una certa ampiezza. Questo tipo di rumore è dovuto, prevalentemente, a transitori. La sua caratterizzazione è più complessa rispetto a quella del rumore gaussiano. Inoltre le tecniche di modulazione analogica non sono così adatte, co-

23

me i metodi di codifica numerica, per trattare fenomeni di rumore impulsivo. Per questi motivi gli effetti di questo tipo di rumore sono spesso impulsi nella modellizzazione della parte discreta del canale, tenendo conto, nella modellizzazione della parte analogica, del solo rumore gaussiano.

Il tipico canale continuo, secondo Shannon, è un canale di tipo additivo: l'ingresso del canale è un processo casuale ( ) ℜ∈ξ t che consiste nell'insieme di tutte le forme d'onda generate dal mo-

dulatore. A questo si somma il rumore ν(t), assunto bianco, a valor medio nullo ed a banda limitata. Es sendo, il rumore,

gaussiano, avrà densità di probabilità pari a ( ) 2

2

2y

e21

yf νσ−

υν σπ

= . Con questa modellizzazione stiamo, così, suppo-

nendo che le ampiezze siano infinite ma, in questi tipi di distribuzione, l'infinito è raggiunto dopo 4 o 5 σ. Per incis o, con questa modellizzazione non teniamo conto del fading, in quanto questo effetto è un rumore di tipo moltiplicativo. I canali continui, quindi, hanno densità e non distribuzione di probabilità, ( )y,xf |ξη e gli alfabeti X ed Y hanno

dominio nel piano. Nel prosieguo si supporrà che il dominio in cui variano le variabili sia un rettangolo caratterizzato dalle rette di e-quazione x=a, x=b, y=c, y=d. Questo rettangolo potrà anche essere scritto, con notazione equivalente, Q=[a,b]x[c,d]. Inol-tre si ipotizzerà che la funzione densità di probabilità fξη(x,y) sia continua in Q. Il problema che ci poniamo è di sapere quanta informazione η dia su ξ. La risposta, relativamente ad una trasmis-sione ideale, è "infinita". In realtà, Shannon dimostra che, in questo caso, la capacità del canale è finita, quindi l'informazione è finita (in quanto tutto è approssimato) e, quindi, posso trasmettere solo parte dell'informazione. Vogliamo, ora, dimostrare che la quantità di informazione che si scambiano due variabili casuali continue è finita. Costruiamo una sequenza di variabili casuali discrete che tendono, al limite, alle variabili casuali continue. Per far ciò divido l'intervallo [a b] in M parti e [c d] in N, suddividendo, così, il rettangolo in tanti sottorettangoli Qij.

Chiamiamo ξM e ηN le variabili individuate da xi ed y j. Caratterizziamo ξM e ηN tramite la probabilità che assumano valori finiti, cioè

( ) ijjNiM Q,py;xp ∈ηξ==η=ξ

24

da leggersi come la probabilità che la coppia (ξ,η) cada, quindi appartenga, nel rettangolo Qij. Per cui, per la probabilità degli eventi,

( ) ( )∫ ∫ ξη=∈ηξ dxdyy,xfQ,pijQij applicando il Teorema della media,

( ) ( ) ( )∫ ∫ ⋅= ξηξηijQ ijji Qmisy;xfdxdyy,xf in cui mis (Qij) indica l'area del rettangolo.

Ora, per definizione di densità di probabilità congiunta, posso, da questa, calcolare le probabilità marginali

( ) ( )dyy,xfxfd

c∫ ξηξ = e ( ) ( )dxy,xfyfb

a∫ ξηξ =

posso, a questo punto, conoscere la probabilità che ξM = xi:

( ) ( ) ( )i*iiiM misxfdxxfpxp

iα⋅==α∈ξ==ξ ξα ξ∫ .

La stessa procedura può essere utilizzata per il calcolo di ηN:

( ) ( ) ( )∫β ηη β⋅==β∈η==ηj

j*jjNjN misyfdyyfpyp .

Le misure di αi e βj forniscono mis (Qij) = mis (αi) · mis(βj). Ricordando, ora, che se M ed N tendono all'infinito, allora gli intervallini diventano piccoli e ξM tende a ξ così co-me ηN tende a η, posso calcolare l'informazione mutua:

( ) ( )NM

NM

;Ilim;I ηξ=ηξ∞→∞→

essendo I(ξM;ηN) data da:

( )

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( )∑

ηξ

ξηξη

ηξ

ξηξη

ηξ

ξηξη

⋅⋅⋅=

=⋅

⋅⋅⋅=

=β⋅α

⋅⋅⋅=

==η⋅=ξ

=η=ξ⋅=η=ξ=ηξ

j,i*j

*i

jiijji

j,i ij*j

*i

ijjiijji

j,i j*ji

*i

ijjiijji

jNiM

jNiM

j,ijNiMNM

yfxf

y;xflogQmisy;xf

Qmisyfxf

Qmisy;xflogQmisy;xf

misyfmisxf

Qmisy;xflogQmisy;xf

ypxp

y;xplogy;xp;I

Ricordando che, al limite, la sommatoria doppia tende all'integrale doppio della funzione, dirò che:

( ) ( )( )

( ) ( )∫ ⋅⋅⋅

⋅=ηξηξ

ξηξηQ

dydxyfxf

y;xflogy;xf;I

espressione che, come per l'entropia, è una mutua informazione differenziale, in quanto la quantità è sempre positiva per-ché, essendo normalmente finito l'integrale e trattando con funzioni continue, l'integrale stesso converge. Quindi l'e-spressione stessa è proprio la mutua informazione. Riprendiamo l'espressione dell'entropia differenziale

( ) ( ) ( )∫ξ

ξ=ξb

adx

xf1

logxfh

e riscriviamo la mutua informazione tramite l'entropia differenziale:

( ) ( ) ( ) ( )ηξ−η+ξ=ηξ ;hhh,I

25

che è la stessa formula ricavata per le variabili casuali discrete, in cui al posto dell'entropia abbiamo sostituito le entropie differenziali. Vogliamo, ora, dimostrare che la mutua informazione è sempre positiva o, al limite, nulla. Esistono almeno due vie: la prima si basa banalmente sulla considerazione che ( ) 0,I ≥ηξ in quanto è la somma

di quantità positive; la seconda è più rigorosa: se ( ) 0,I ≥ηξ allora ( ) 0,I ≤ηξ− ma

( ) ( ) ( )( ) ( )

( ) ( ) ( )( ) dxdy

y,xf

yfxflogy,xf

dxdyyfxf

y,xflogy,xf,I

R

R

ξη

ηξξη

ηξ

ξηξη

⋅⋅=

=⋅

⋅−=ηξ−

Ricordando che log(x) ≤ x - 1, allora

( ) ( ) ( )( )

( ) ( ) ( )( )

( ) ( ) ( )[ ] ( ) ( )[ ] ( )011

dxdyy,xfdxdyyfxfdxdyy,xfyfxf

dxdy1y,xf

yfxfy,xfdxdy

y,xf

yfxflogy,xf

RRR

RR

=−=

=−=−=

=

−≤

∫∫∫

∫∫

ξηηξξηηξ

ξη

ηξξη

ξη

ηξξη

essendo densità di probabilità. Abbiamo così dimostrato che ( ) 0,I ≤ηξ− , ovvero che ( ) 0,I ≥ηξ .

In termini di entropia differenziale, per studiare il canale additivo è utile scrivere la mutua informazione in modo da mettere in evidenza i condizionamenti, ricordando che il rapporto fra densità congiunta e densità marginale fornisce la densità condizionata, quindi

( ) ( )( )( ) ( )

( ) ( )( )

( ) ( ) ( ) ( )( ) ( )ξη−η=

=−=

=

⋅=

=

⋅⋅=ηξ

∫∫

ξηξη

ηξη

η

ηξξη

ηξ

ξηξη

|hh

dxdyy,xf

1logy,xfdxdy

yf1

logy,xf

dxdyyf

y;xflogy,xf

dxdyyf

1xf

y,xflogy,xf,I

R|

R

R

|

R

Con procedimento analogo, si ricava il duale:

( ) ( ) ( ) ( ) ( )ηξ−ξ=ξη−η=ηξ |hh|hh,I

Vogliamo, ora, cercare il massimo di ( )ηξ,I su tutte le densità di probabilità, quindi sulle ( )xf ξ , essendo nota la

densità di probabilità ( )yf ν . Le variabili, segnale e rumore, sono statisticamente indipendenti, quindi, per ipotesi,

( ) ( ) ( )yfxfy,xf νξξυ = .

Vogliamo cercare quale, fra tutte le densità di probabilità, è quella che rende massima l'informazione. Dobbiamo porre che la potenza debba essere finita, e, quindi, dovrà essere finita la varianza:

[ ] 22E νσ=ξ [ ( )[ ]22 E µ−ξ=σ con µ uguale per definizione al valor medio della variabile casuale]

in quanto E[ξ]=0, viceversa si otterrebbero infinite funzioni. Se non ci sono altri limiti, tutte le variabili dovrebbero essere depurate del valor medio, che non porta informazio-ne. Si suppone, inoltre, che il rumore sia a valor medio nullo e, quindi,

[ ] 22E νσ=ν in quanto E[ν]=0.

26

Ora, se la varianza è finita ed il valor medio è nullo, allora il rumore è gaussiano. Prima di procedere è però bene richiamare alcuni concetti sui processi ergodici e stazionari. Per semplicità di notazione, indichiamo il set di funzioni del primo ordine con una sola espressione: pV(v;t) con la proprietà che pV(v1,t1)=pV1(v1), ecc. Dando pV(v;t), la media statistica, o valor medio, di v(t) ad ogni momento t è definita come:

( ) ( )[ ] ( )∫∞

∞−≡= dvt;vvtvEtv

vp

e ciò significa che t è considerato costante durante l'operazione di aspettazione. Quell'equazione rappresenta una media di insieme , ovverosia una media sull'insieme di forme d'onda prese fissando il temp o. Un'altra importante media di insieme è la funzione di autocorrelazione, definita da:

( ) ( ) ( )[ ] ( ) 2121vv212121v dvdvvvpvvtvtvEt,tR21∫ ∫

∞−

∞−=≡

Questa aspettazione congiunta differisce in tre aspetti dalla autocorrelazione dei segnali determinati. Innanzitutto abbiamo a che fare con medie di insieme piuttosto che con medie temporali, tanto che alcuni autori enfatizzano questa differenza utilizzando simboli diversi per i due differenti tipi di autocorrelazione, inoltre ( )21v t,tR dipende da t1 e t2

piuttosto che dalla singola variabile τ; terzo, abbiamo limitato la nostra attenzione a processi reali, cosicché il complesso coniugato non compaia nella definizione. ( )21v t,tR ha un'interpretazione simile all'autocorrelazione deterministica, nel

senso che misura la relazione, o la dipendenza, fra V1 e V2. Se dovesse capitare che V1 e V2 siano statisticamente indipen-

denti, allora ( ) ( ) ( )2121v tvtvt,tR ⋅= . All'altro estremo, se t1 = t2 allora ( ) ( )[ ] ( )tvtvEt,tR 2221v == che è il va-

lor quadratico medio v(t) come funzione del tempo. Ora, un processo è stazionario se le sue caratteristiche restano invariate per tutto il tempo, ovvero se qualsiasi traslazione dell'origine dell'asse dei tempi lungo l'insieme non cambia i valori delle medie d'insieme. Fra altre conseguenze

della stazionarietà, segue che il valor medio deve essere indipendente dal tempo, ovvero ( )[ ]vmvtvE == e che la

funzione di autocorrelazione deve dipendere solo dalla differenza t1 - t2, ovvero:

( ) ( )[ ] ( )21v21 ttRtvtvE −=⋅

Sotto queste condizioni diciamo che il processo è almeno stazionario in senso lato. Avendo a che fare con un processo stazionario, in senso stretto o lato, definiamo 21 tt −≡τ e riscriviamo la fun-

zione di autocorrelazione come:

( ) ( ) ( )[ ] ( ) ( )[ ]tvtvEtvtvER v ⋅τ+=τ−⋅=τ

Questa espressione ha forma direttamente analoga a quella di un segnale di potenza reale e deterministico. Po-

nendo τ = 0 si vede subito che ( )[ ] ( )0RtvE v2 = , quindi valor quadratico medio e varianza di un processo stazionario

sono costanti. Come esempio, consideriamo la sinusoide a variazione casuale di fase. Questa è un processo stazionario definito da:

( ) ( ) α=Φ+ϖ⋅= costcosAtv 0

se 0n ≠ , abbiamo:

( )[ ] ( ) ( ) ( )[ ]0

n2sinn2sin

d21

coscosE2

0=

πα−π+α

=Φπ

⋅α=α ∫π

Quindi, con t0ϖ=α ed n = 1, dalla definizione di valor medio,

27

( ) ( )[ ] 0tcosEAtv 0 =Φ+ϖ⋅=

da cui si vede che il valor medio è nullo per tutto il tempo. Cerchiamo, ora, la funzione di autocorrelazione: siano 101 tϖ≡α ed 202 tϖ≡α , allora:

( ) ( ) ( )[ ]

( ) ( )[ ]

( )[ ] ( )[ ]

( ) ( )[ ]2102

212

21212

21212

212

21v

ttcosA21

cosA21

2cosEcosEA21

2coscosEA21

coscosEAt,tR

−ϖ⋅⋅=α−α⋅⋅=

=Φ+α+α+α−α⋅⋅=

=Φ+α+α+α−α⋅⋅=

=Φ+α⋅Φ+α⋅=

Se, ora, poniamo t1 = t2 = t, allora:

( ) ( )2

At,tRtv

2

V2 == . Un processo ergod

e ciò vuol dire che il valor quadratico medio è costante nel tempo. Se, ora, consideriamo il campione ( ) ( )i0i tcosAtv Φ+ω⋅= e calcoliamo la media temporale, abbiamo

( ) ( )∫−∞→= 2

T

2T i

Ti dttv

T1

tv lim

da cui è facile vedere che:

( ) ( )[ ]( ) ( )[ ]( ) ( ) ( ) ( )[ ]τ−=τ−⋅

=

=

tvtvEtvtv

tvEtv

tvEtv

ii

22i

i

Quando tutte le medie di insieme eguagliano le corrispondenti medie temporali, il processo si dice ergodico. Un processo ergodico deve essere stazionario in senso stretto, ma la stazionarietà non garantisce l'ergodicità. L'ergodicità implica la condizione suppletiva che una singola funzione campione sia rappresentativa dell'intero processo. Non esiste una prova semplice di ergodicità per processi arbitrari. Di conseguenza, ci accontentiamo di un ap-proccio più pragmatico ed assumiamo un processo come ergodico se soddisfa la condizione di stazionarietà in senso lato e se, ragionevolmente, possiamo arguire che una tipica funzione campione esibisca tutte le variazioni statistiche del pro-cesso. I processi gaussiani,- quelli, cioè, per cui valgono le seguenti relazioni:

• ( )t;vp V è una funzione densità di probabilità per ogni t;

• ( )2121VV t,t,v,vp21

è una funzione densità di probabilità bivariata per ogni t;

• vale il teorema del limite centrale;

• il processo è completamente descritto da ( )tv e da ( )21v t,tR ;

• se ( ) ( ) ( )2121v tvtvt,tR ⋅= allora v(t1) e v(t2) sono incorrelati e statisticamente indipendenti;

• ogni operazione lineare su v(t) produce un altro processo gaussiano - sono ergodici e strettamente stazionari se v(t) soddisfa le condizioni per la stazionarietà in senso lato. In questo caso, possiamo stabilire le seguenti relazioni fra le medie temporali e le medie di insieme di un segnale ergodico casuale:

1. Il valor medio mv è pari alla componente continua ( )tv ;

2. Il valor medio al quadrato 2vm è pari alla potenza in continua ( ) 2

tv ;

28

3. Il valore quadratico medio 2v è pari alla potenza media totale ( )tv2 ;

4. La varianza 2vσ è pari alla potenza in alternata, o alla potenza nelle componenti tempo-varianti di v(t);

5. La deviazione standard σv è pari al valore rms delle componenti tempo-varianti. Alla fine di questo lungo inciso, riprendiamo la nostra trattazione continuando con le ipotesi sul segnale di in-

gresso: abbiamo che [ ] 22E ξσ=ξ , quindi varianza finita e, perciò, potenza finita e [ ] 0E =ξ .

Vogliamo calcolare la capacità del canale continuo additivo:

( )( )ηξ≡

ξ

,ImaxCxf

con η = ξ + ν

ricordando che l'aspettazione di una somma è pari alla somma delle aspettazioni, calcoliamo l'aspettazione media:

[ ] [ ][ ] [ ]

[ ] [ ] [ ]22

222

EE2E

2EE

0EE

ν+ξν+ξ=

=ν+ξν+ξ=η

=ν+ξ=η

ma ξ e ν sono scorrelati, in quanto statisticamente indipendenti, ed a valor medio nullo, pertanto E[ξν]=0 e, quindi,

[ ] [ ] [ ]222

222 EEE

νξη σ+σ=σ

ν+ξ=η da cui

Con questi vincoli, ξηη=ηξ )|h( - )h( ),I( ma ( ) ( )( )ξν+ξ=ξη |h|h . Essendo ξ e ν statisticamente indipen-

denti, ( )( ) ( )ν=ξν+ξ h|h . Dimostriamolo. Esistono diverse procedure. Vediamole:

( ) dxdy

p|p

log,p,IX

XXY ξ

ηξηξ≡ηξ ∫ ∫

∞−

∞−

( )ηξ,I misura l'informazione assoluta trasferita per campione di y(t) a destinazione. Normalmente conosciamo la

funzione densità di probabilità di transizione diretta ( )ξη |p Y piuttosto che ( )ηξ |p X .

Calcoliamo allora ( )ηξ,I dall'espressione equivalente:

( ) ( ) ( )ξη−η=ηξ |hh,I

in cui h(η) è l'entropia della destinazione ed h(η|ξ) è l'entropia del rumore data da:

( ) ( ) ( ) ( )

( ) ( )( )

dyyf

1logyfdxxf

dxdyy,xf

1logy,xfxf|h

||

||

ξη

∞− ξη

∞− ξ

ξη

∞−

∞− ξηξ

∫∫

∫ ∫

⋅=

==ξη

se il canale ha rumore additivo indipendente, così che y(t) = x(t) + n(t) allora ( )( )( )xf

x,yfyf |

ξ

ηξξη = ma η e ξ sono

statisticamente indipendenti, quindi ( ) ( ) ( )xfyfx,yf ξηηξ ⋅= . Sostituendo

( )( ) ( )

( ) ( ) ( )nxfyfxf

xfyfyf | +==

⋅= ηη

ξ

ξηξη

29

dalla trasformazione lineare ( ) ( )xyfnf −= νν posso dire che:

( ) ( ) ( )nfxyfnxf ννη =−=+

riunendo i risultati ( ) ( )nfyf | νξη = , sostituendo ottengo:

( ) ( ) ( )( )

( )ν⋅=⋅⋅=ξη ∫∫∞

∞−ν

ν

∞− ξ h1dnnf

1lognfdxxf|h

che è indipendente da fξ(x). In totale, sostituendo, otteniamo:

( ) ( ) ( ) ( ) ( )ν−η=ξη−η=ηξ hh|hh,I .

Per altra via, fissiamo ξ, calcoliamo l'entropia di ξ + ν, sapendo che sono statisticamente indipendenti; una volta calcolata quell'entropia, valutiamo la media di ξ + ν. Per far ciò, consideriamo la variabile z = ξ + y e la funzione fν(y). La prima relazione è una traslazione che si risolve in questo modo:

z = ξ + y; y = z - ξ quindi ( ) ( )ξ−= ν zfzf z .

Se z = g(ν) è monotona ed invertibile, è facile passare da fν(y) a fz(z); se, invece, non è monotona, bisognerà divi-derla in intervalli di monotonia.

Ora, ( ) ( ) ( ) ( )∫ξη

ξξη ⋅⋅=ξν+ξR

|| dxdz

zf1

logxfzf|h . A questo punto, posso determinare la densità di pro-

babilità di ν+ξ e calcolare l'entropia condizionata mantenendo ξ fisso. In seguito, dovrò mediare su ξ. Siccome ξ e ν

sono statisticamente indipendenti, posso porre ( )( )x|h =ξν+ξ da cui, avendo fissato x=ξ , ottenere ( )xzf −η .

Pertanto:

( )( ) ( )( )∫

+

η −⋅−==ξν+ξ

xb

xadz

xzf1

logxzfx|h .

L'intervallo di integrazione è centrato attorno ad x, quindi se ν varia fra a e b, allora gli estremi sono xa + e

xb + in quanto xz +ν=ξ+ν= . Se [ ]b,a∈ν , allora [ ]xb;xaz ++∈ .

Attuando il cambiamento di variabili z - x = u, allora

( )( )

( )( )∫∫

νν

+

η ⋅=−

⋅−b

a

xb

xadu

uf1

logufxzf

1logxzf

che è costante rispetto ad x ed è l'entropia differenziale di u. Sostituendo:

( ) ( ) ( ) ( ) ( )ν−η=ξη−η=ηξ hh|hh,I

Volendo, ora, massimizzare ( )ηξ,I su fξ(x), dobbiamo massimizzare la differenza ( ) ( )[ ]ν−η hh sotto i vincoli

che [ ] 22E ξσ=ξ ed E[ξ] = 0.

Massimizzare questa quantità vuol dire che, essendo h(ν) costante ed essendo ν+ξ=η , anziché massimizzare

rispetto a fξ(x), possiamo massimizzare rispetto ad fη(y), in quanto 222νξη σ+σ=σ .

30

Conoscendo le densità di probabilità di η = ξ + ν e di ν, attraverso la convoluzione, conosco anche la densità di probabilità di ξ = η − ν. Il problema si è così spostato, in quanto abbiamo effettuato il passaggio dalla ricerca del

( )( ) ( )[ ]ν−η

ξ

hhmaxxf

al massimo ( )

( )[ ]ηη

hmaxyf

sotto i vincoli che ( ) 2222E ηνξ σ=σ+σ=η e che E(η) = 0.

In altri termini, dobbiamo cosiderare il massimo di:

( ) ( ) dyyf

1logyf

η

∞− η∫ sotto i vincoli ( ) ( ) ( ) 22 dyyfy;1dyyf;0dyyfy η

∞−

∞− ηη

∞− η σ=⋅==⋅ ∫ ∫∫ .

Gli estremi sono fra ± ∞ in quanto ν è gaussiano e, pertanto, definito fra ± ∞. Per il calcolo di questo massimo, ci sono almeno due metodi analitici:

1. Calcolo delle variazioni minimizzando un integrale con quei vincoli. É il metodo che consente di risolvere il problema della brachistocrona.

2. Calcolo dei moltiplicatori di Lagrange: Consideriamo:

( ) ( ) ( ) ( ) ( )∫∫∫∫∞

∞− η

∞− η

∞− ηη

∞− η ⋅λ−⋅λ−λ−⋅≡ dyyfydyyfydyyfdyyf

1logyfL 2

321 .

Abbiamo tre vincoli, quindi dobbiamo usare tre incognite. Applichiamo la proprietà della somma degli integrali, in quanto lineari, quindi:

( )( )

( ) ( )

( ) ( ) ( ) ( )

( )( )

( )[ ] ( )

( )( )[ ] ( )

( )

( ) ( )dyyfyf

elog

dyyfelogyf

1log

dyyfelogdyyf

1logyf

dyyfyydyyf

1logyf

dyyfyydyyf

1logyfL

2321

2321

2321

yy

yy

yy

2321

2321

η

∞−η

⋅λ+⋅λ+λ

η

∞−

⋅λ+⋅λ+λ

η

∞−

∞− η⋅λ+⋅λ+λ

ηη

∞−

∞− ηη

η

∞−

∞− ηη

η

⋅=

=⋅

+=

=⋅+⋅=

=⋅⋅λ−⋅λ−λ−+⋅=

=⋅⋅λ+⋅λ+λ−⋅=

∫ ∫

∫ ∫

∫ ∫

Ricordando che il log(x) ≤ x - 1, abbiamo:

( )( )

( )( )( )

( ) ( )∫∫

∫∞

∞− η⋅λ−⋅λ−λ−∞

∞−η

η

∞−η

⋅λ−⋅λ−λ−

η

−⋅=

=

−≤

dyyfdyeyf

yf

dy1yf

eyfL

2321

2321

yy

yy

Questo passaggio è possibile in quanto gli integrali, ancorché generalizzati, convergono. Ricordando che

( ) 1dyyf =∫∞

∞− η otteniamo ( ) .1dyeL

2321 yy −≤ ∫

∞−

⋅λ−⋅λ−λ−

Se scegliamo λ1, λ2, λ3 in modo che l'integrale sia una distribuzione di probabilità, diremo che ( )∫

∞−

⋅λ−⋅λ−λ− = 1dye2

321 yy e, quindi L ≤ 0.

Operiamo, allora, la scelta indicata e raccogliamo le idee... Devo massimizzare:

31

( )( )

( ) 0dyyf

elogyfL

2321 yy

≤= ∫∞

∞−η

λ−λ−λ−

η

A questo punto, posso scegliere ( )yf η in modo tale che il limite sia raggiunto, ponendo

( ) ( )2321 yyeyf λ−λ−λ−

η = . Inoltre, essendo i λi arbitrari, ho anche un limite sulla somma e, quindi, ho raggiunto un ottimo.

La distribuzione di probabilità che massimalizza ( )yf η è una gaussiana, con media nulla e varianza pari a 2ησ .

Quindi

( ) 2

2

2

y

2e

2

1yf ησ

η

ηπσ

=

Questo metodo è rigoroso. Se avessi seguito il primo, avrei dovuto ricorrere all'equazione di Lagrange-Jacobi, va-lutando anche la derivata seconda, il che non è agvole.

'altro canto, avrei trovato, come limite, ( ) 1dye

2221 yy −∫

∞−

λ−λ−λ− ed avrei dovuto porre l'ipotesi che fosse una di-

stribuzione di tipo gaussiano, per cui ( ) 2321 yyeyf µ−µ−µ−

η = valutando, così, dei µ che fornissero un bound pari a zero.

Ora, se la distribuzione di probabilità della variabile η che massimizza la mutua informazione è di tipo gaussiano e se anche, come abbiamo visto, il rumore è di tipo gaussiano, l'ingresso deve essere gaussiano, quindi

( ) 2

2

2

x

2e

2

1xf ξσ

ξ

ξπσ

=

di questa variabile gaussiana, ξ, voglio calcolare l'entropia:

( )

[ ]

[ ]

( ) ( ) 121

12log21

21

12log21

dxe2

1x

21

e2

12log

dx2x

2loge2

1

dxe2

1loge

2

1h

222

2

2

x

2

22

2

x

22

2

222

x

2

2

x

2

2

x

2

2

2

2

2

2

2

2

2

2

2

⋅+⋅πσ=σ⋅σ

+⋅πσ=

=πσ

⋅σ

+

+πσπσ=

=

σ+πσ⋅

πσ=

=

πσ−⋅

πσ=ξ

ξξξ

ξ

σ−

ξ

∞−ξ

∞−

σ−

ξξ

∞− ξξ

σ−

ξ

∞−

σ+

ξ

σ−

ξ

ξ

ξ

ξ

ξξ

ma 1=log [e], quindi

( ) ( ) ( ) ( )22 e2log21

elog21

2log21

h ξξ σπ=+πσ=ξ .

32

Siamo, così, pronti a calcolare la capacità di Shannon del canale additivo gaussiano bianco [Additive White Gaussian Noise = AWGN]

( ) ( )ν−η= hhC

tenendo presente che sia fη(y) che fν(n) sono distribuzioni gaussiane, useremo il risultato appena ottenuto, quindi:

( ) ( )

( )[ ] ( )( ) ( )

σ

σ+=

σ+σ=

σπ

σ+σπ=

=σπ−σ+σπ=

=σπ−σπ=

ν

ξ

ν

νξ

ν

νξ

ννξ

νη

2

2

2

22

2

22

222

22

1log21

log21

e2

e2log

21

e2log21

e2log21

e2log21

e2log21

C

in cui 2ξσ è la varianza, quindi la potenza, del segnale trasmesso, mentre 2

νσ è la varianza, ovvero, la potenza, del rumore.

Il rapporto fra queste due grandezze, 2

2

ν

ξ

σ

σ, è il rapporto segnale rumore.

Supponiamo, ora, che il canale sia strettamente limitato in banda e che la banda sia B, allora y(t) sarà un segnale completamente definito dai suoi campioni presi con frequenza di Nyquist fs = 2B. Campionare a frequenza superiore vor-rebbe dire avere campioni non indipendenti e, quindi, non aggiungere nulla all’informazione. Dualmente, potremmo supporre che segnali di ingresso e rumore siano strettamente limitati all’intervallo (-B,B). Allora, dal teorema del campionamento, possiamo rappresentare ogni segnale usando almeno 2B campioni per se-

condo, ognuno avente varianza 2ξσ pari alla potenza P del segnale. Inoltre, abbiamo supposto che il rumore sia un pro-

cesso casuale gaussiano bianco, con una densità spettrale di potenza bilatera pari a 2

N0 campionata ogni B21

secondi.

La sua potenza sarà quindi BNB22

N0

02 =⋅=συ . Possiamo, a questo punto, sfruttare la relazione ricavata per la ca-

pacità tenendo conto che usiamo 2B volte al secondo un canale gaussiano con capacità C data da

σ

σ+=

υ

ξ2

2

1log21

C . Così, finalmente, otteniamo la capacità C di un canale gaussiano bianco limitato in banda:

+=

BNP

1logBC0

2 bit/sec

o, se si preferisce, indicando con S/N il rapporto segnale/rumore,

+=

NS

1logBC 2

Questa equazione è il Teorema (o legge) di Hartley – Shannon. (N = νB se la densità spettrale di potenza bilatera del rumore è ν/2 W/Hz). Il teorema di Hartley – Shannon è di importanza fondamentale ed ha due importanti implicazioni. Innanzitutto ci fornisce un limite superiore, che può essere raggiunto, per la frequenza di trasmissione di dati su un canale gaussiano. Pertanto, un progettista cercherà sempre di ottimizzare il suo sistema per avere un passo di dati il più vicino possibile a C con un tasso di errore accettabile.

33

La seconda implicazione del teorema di Shannon – Hartley ha a che fare con lo scambio del rapporto Segna-le/Rumore con la larghezza di banda. Facciamo un esempio: supponiamo di voler trasmettere dati con la velocità di 10 Kbits/sec su un canale con banda B = 3 KHz. Per trasmettere dati alla velocità richiesta, abbiamo bisogno di un canale con capacità di almeno 10 Kbit/sec. Se la capacità del canale è minore del passo dei dati, allora non è possibile trasmettere senza errori. Così, con C = 10 Kbits/sec, dobbiamo avere un rapporto S/N pari a:

91212NS 3.3B

C

≅−=−=

Per lo stesso problema, se avessimo avuto un canale con una banda di 10 KHz, il rapporto S/N sarebbe stato pari a 1. Perciò una riduzione della banda da 10 KHz a 3 KHz impone un aumento di potenza di 9 volte. Un altro aspetto interessante del teorema di Shannon – Hartley è relativo alla compressione della larghezza di banda. Proviamo a rispondere alla domanda “è possibile quantizzare e trasmettere un segnale il cui range spettrale si e-stende fino ad una frequenza fm su un canale con banda minore di fm?”. Supponiamo di campionare un segnale analogico ad una frequenza di 3fm campioni/sec (cioè, per esempio, ad 1.5 volte la frequenza di Nyquist) e di quantizzare il valore del segnale in uno di M possibili livelli. Allora la frequenza dei dati del segnale quantizzato sarà di 3fmlog2M bits/sec. Se la banda del canale è B, allora una scelta appropriata della potenza del segnale ci consentirà di raggiungere una capacità C maggiore di 3fmlog2M. Ad esemp io, con 64 livelli di quantizzazione (M=64) e con un canale di banda pari alla metà della larghezza di banda del canale, avremo bisogno di un rapporto S/N di circa 109 dB per essere in grado di trasmettere il se-gnale quantizzato con una piccola probabilità di errore. Perciò è possibile una compressione di banda di un fattore 2 se possiamo mantenere un rapporto S/N di 109 dB (valore impraticabile) all’uscita del canale. Assumiamo, comunque, tra-scurabile la distorsione del segnale dovuta al campionamento ed alla quantizzazione. Il teorema di Shannon – Hartley ci dice anche che un canale privo di rumore ha capacità infinita. Comunque, se è presente del rumore, la capacità del cananle non si avvicina all’infinito in quanto la banda si allarga perché la potenza di rumore aumenta all’aumentare della banda. La capacità del canale raggiunge un limite superiore finito con l’aumento della larghezza di banda se è fissata la potenza del segnale. Possiamo calcolare questo limite come segue. Con N = νB, in cui ν/2 è la densità spettrale del rumore, abbiamo:

SB

222 BS

1logS

BS

1logSBS

BS

1logBC

υ

υ+⋅

υ=

υ+⋅

υ

υ=

υ+=

ora, ricordando che ( ) ex1lim x1

0x=+

→ e ponendo

BS

= , abbiamo:

υ=

υ=

∞→

S44.1elog

SClim 2

B.

Un sistema di comunicazione in grado di trasmettere informazione alla velocità di Blog2(1 + S/N) è chiamato “Si-stema Ideale”. Shannon propose l’idea seguente per un sistema simile. Assumiamo che la sorgente emetta M messaggi equiprobabili per T secondi e che il messaggio sia codificato da un segnale di canale scelto da una collezione di M fun-zioni campione di rumore bianco di durata T. All’uscita del canale, il segnale ricevuto più il rumore è confrontato con le versioni immagazzinate di segnali di canale. Il segnale di canale che meglio si abbina col segnale più rumore si presume che sia stato trasmesso e, quindi, si decodifica il messaggio corrispondente. La quantità totale di ritardo necessario per osservare il segnale di messaggio, trasmetterlo e decodificarlo è, al meglio, di T secondi. Lo schema di segnalamento ideale che utilizza segnali rumore-simili può portare informazione ad una velocità che tende alla capacità del canale solo quando T tende all’infinito. Le condizioni, quindi, sono soddisfatte solo al limite. Sotto questa condizione limitativa, il sistema ideale ha le seguenti caratteristiche:

Ø Il rate di informazione tende a

+⋅

NS

1logB 2

Ø Il rate di errore tende a zero Ø I segnali trasmessi e ricevuti hanno le caratteristiche di un rumore bianco gaussiano limitato in banda Ø Al tendere di T all’infinito, il numero di segnali M tende all’infinito ed il ritardo di codifica tende all’infinito.

34

È ovvio che un sistema ideale non può essere realizzato in pratica. Piuttosto che cercare di progettare un sistema usando un gran numero di segnali analogici, nei sistemi pratici useremo un piccolo numero di segnali continui. Ciò impli-ca che avremo una probabilità di errore p e non nulla. Il rate di dati e la probabilità di errore definiscono un canale discreto

la cui capacità C’ sarà minore di

+⋅

NS

1logB 2 . Tramite questo canale digitale cercheremo di raggiungere un rate di

dati che si avvicina a C’ con una probabilità di errore che si avvicina a zero utilizzando codifiche digitali di controllo dell’errore. Perciò, nei sistemi pratici, cercheremo raramente di raggiungere la massima velocità teorica di trasmissione dell’informazione sulla porzione analogica del canale. Cercheremo di rendere questa parte del sistema ragionevolmente semplice. Nella parte digitale del sistema, cercheremo di raggiungere una velocità più vicina possibile alla capacità della porzione discreta del canale, in quanto la codifica digitale è più semplice da implementare. Rima di finire questo inciso, dobbiamo sottolineare il fatto che il risultato che abbiamo ottenuto è valido per il ca-nale gaussiano. Però questa limitazione non diminuisce l’importanza e l’utilità della legge di Shannon – Hartley in quanto: innanzitutto la maggior parte dei canali fisici sono generalmente ben approssimati dal canale gaussiano. Inoltre è stato dimostrato che il risultato ottenuto per il canale gaussiano fornisce un limite inferiore per le prestazioni di un sistema che operi su un canale non gaussiano. Cioè, se un particolare codificatore/decodificatore conduce, su un canale gaussiano, ad una probabilità di errore p e, un altro sistema di codifica/decodifica può essere progettato per un canale non gaussiano per avere una probabilità di errore minore. Ci si è accorti del fatto che l’informazione è discreta al momento di progettare il primo sistema televisivo. Infatti, nel caso del segnale TV, bisognava stabilire sia la banda che il come trasmettere l’immagine. Il problema era diverso dalla trasmissione del canale vocale perché, in questo caso, ho un’onda di pressione da trasformare in un segnale elettrico e da riconvertire, in seguito, in onda di pressione, quindi l’onda è attesa come continua. Nel caso dell’immagine questa si-tuazione non c’è più; infatti già col cinema si ricorre ad un sistema di discretizzazione, di campionamento. Il nostro occhio fa, poi, da filtro passa basso ricostruendo il segnale. I fotogrammi sono, di fatto, un campionamento nel sistema spazio-temporale. Nel caso della trasmissione televisiva, si dovette ricorrere ad un secondo campionamento: un’immagine è rappre-sentata da una funzione in due variabili ed i sistemi di trasmissione non sono in grado di trasmettere funzioni di due va-riabili, quindi si doveva, in qualche modo, convertire questa funzione in un’altra ad una varabile, ovvero da F(x,y,t) (con t si tiene conto della variazione temporale) a F(x,y,nT) (con nT abbiamo il campionamento nel tempo) a φ(t). Quindi si parte da una funzione di tre variabili per arrivare ad una di una. Per far ciò si utilizzarono due tipi di discretizzazione per trasmet-tere un segnale che è ancora continuo (solo ora, con l’HDTV si trasmette con un sistema digitale trasmettendo pixel). Una prima discretizzazione è il tempo, ma restano ancora le altre due. Bisognava, quindi, trovare una regola per passare da due variabili ad una e, questa regola, doveva essere invertibile. Si considerò continuo il segnale (continuo) su ogni riga. Ed è continuo sia perché non si sapeva digitalizzare, che perché si riteneva che un segnale continuo trasmettesse più informazione. Considerando il segnale vocale v(t), diciamo che le frequenze presenti, quindi la F(ϖ), vanno da 20 Hz a 20 KHz. Quindi la banda avrebbe dovuto essere di 20 KHz. In realtà bastavano 4 KHz che, di fatto, scendono ad 1.5 KHz, per trasmettere quel segnale con tutta l’informazione relativa. L’informazione contenuta nel segnale vocale era confusa con la sua caratterizzazione in frequenza. Nel caso del segnale otico, abbiamo informazioni fra i 300 ed i 700 THz e, quindi, la banda è di circa 400 THz, necessari per trasmettere non l’informazione ma il segnale stesso. Quando si è studiato il problema, ci si è accorti che 5 MHz erano sufficienti, ma si è dovuto discretizzare il segnale, sia che l’immagine fossa continua, sia che fosse fatta di punti sufficientemente piccoli. Terminata questa discettazione sulle implicanze dei teoremi di Shannon – Hartley, torniamo al nostro sistema, composto da una sorgente e da un canale dotato di una capacità di Shannon finita. Purtroppo si utilizza il termine “capa-cità” anche per indicare la massima velocità, in bits/sec, con cui riusciamo a trasmettere su un doppino telefonico (100 Kbits/sec ). Questa capacità, ovviamente, non è la capacità di Shannon, che fa riferimento alla probabilità di errore. Per distinguere le due capacità, una concetto matematico e l’altra concetto fisico, la prima viene specificata come Capacità di Shannon. (Il vero limite del doppino telefonico è imposto non dalla banda, ma dal rumore: anche se noi ci basiamo sulla banda, guardiamo a monte agli errori che si commettono e definiamo, così, la tratta). Vogliamo, ora, definire la probabilità di errore di un canale fisico, discreto, senza memoria, con capacità di Shan-non C. Per poter definire la probabilità di errore, il numero degli ingressi deve essere uguale al numero delle uscite, ciò significa che l’alfabeto di ingresso e quello di uscita devono avere la stessa cardinalità: |X| = |Y|, possiamo, quindi, sup-porre che i due alfabeti siano uguali. Il canale è caratterizzato da una probabilità di ricezione py|x. La probabilità d’errore è che trasmettendo un simbolo x se ne riceva uno diverso da x. In formule:

∑≠

=

xyy

x|ypx|ep

35

Gli eventi di ricevere y|x sono mutuamente esclusivi, quindi facciamo uso delle probabilità totali. A probabilità di corretta ricezione sarà:

x|xpx|ep1x|cp =−=

Se vogliamo definire la probabilità di errore e di corretta ricezione del canale dobbiamo fare riferimento alla media di tutti i simboli trasmessi:

∑∑∑≠

==x

xyyx

e xpx|ypxpx|epp

La probabilità di corretta ricezione è:

∑ ∑=

==−=x

xyx

ec xpx|ypxpx|cpp1p

Ci sono due relazioni che legano la capacità del canale C alla probabilità di errore pe. La prima è costituita dal Teorema di Shannon, di cui abbiamo già parlato, che asserisce che, se la quantità di in-formazione di sorgente portata dal canale è minore di C, esiste una legge di codifica e di decodifica tale che la probabilità di errore, dopo la decodifica, tende a zero. Il problema inverso è: se la quantità di informazione di sorgente è maggiore di C, allora la probabilità di errore ha un limite inferiore. Chiamiamo con R la quantità di informazione di sorgente usata dai singoli canali. R è quindi il tasso di informazio-ne o, come si usa dire, il rate di codifica o, anche, la velocità di codifica.

Shannon e Fano asseriscono che RC

1p e −≥ , relazione nota come disuguaglianza di Fano.

Se R > C, allora 1RC

< ed il limite è effettivo.

Se R < C, allora il limite non dice nulla in quanto non ha senso dire che 0p e ≥ .

Possiamo dire che la disuguaglianza di Shannon e Fano è il “converso” del Teorema di Shannon. Infatti, se uso il canale ad una velocità minore della capacità, posso avere probabilità di errore nulla, ma, senza la disuguaglianza di Fano, io non saprei cosa capita alla probabilità di errore se usassi il canale ad una velocità maggiore.

Il fatto che RC

1p e −≥ vuol dire che, se uso una tecnica di Shannon per annullare pe con R>C, allora, dopo la

decodifica e, quindi, dopo il percorso sorgente-codifica-canale-decodificatore, la probabilità di errore tende ad 1. Il limite superiore del Teorema di Shannon dice che, se R<C, allora esiste un esponente di errore E® strettamente positivo tale che la probabilità di errore, dopo la decodifica, sia minore o uguale di 2 elevato al prodotto cambiato di se-gno dell’esponente di errore, per la lunghezza n del codice, cioè:

Se ( ) ( ) nREe 2p|0RECR ⋅−≤<∃⇒<

La disuguaglianza di Shannon e Fano, discende dall’entropia condizionata H(Y|X). Essendo il limite indipendente ad X e da Y, allora l’ordine è indifferente, e potrò dire che H(Y|X)=H(X|Y). Il teorema relativo alla disuguaglianza di Fano, dice che “dato un canale discreto senza memoria i cui alfabeti di ingresso e di uscita X ed Y abbiano la stessa cardinalità, cioè lo stesso numero N di simboli, e la cui probabilità di errore sia p e, allora è verificata la seguente disuguaglianza:

( ) ( ) ( ) ( )1NlogppHY|XHX|YH ee −⋅+≤= ”

Anche in questo caso, esistono diversi modi di condurre la dimostrazione. Vediamone due. 1) Riprendiamo, per fissare le idee, il canale binario:

36

La probabilità media di errore pe è definita come:

2121211221e x|ypxpx|ypxpy,xpy,xpp ⋅+⋅=+≡

Se le due probabilità di transizione sono uguali a p, allora il canale diventa un BSC e la probabilità di errore diven-ta:

( ) p1pxpxppp 21e =⋅=+⋅= .

Generalizzando l’espressione di 1221e y,xpy,xpp +≡ ad alfabeti X ed Y di cardinalità N, possiamo scri-

vere la possibilità media di errore come:

∑∑ ∑ ∑=

≠= =

≠=

⋅=≡N

1i

N

ij1j

N

1i

N

ij1j

iiijie x|ypxpy,xpp

chiaramente, la probabilità di corretta ricezione sarà:

∑=

=−≡N

1iiiiec x|ypxpp1p

Definiamo l’entropia di errore H(e) come:

( ) ( ) ( ) ( )1plog1pplogpp1

logpp1

logppH eeeec

ce

ee −⋅−−⋅−=+≡

cioè, consideriamo H(e) come l’entropia di un alfabeto binario con probabilità pe e pc=(1-pe), che corrisponde alla quantità di informazione necessaria per specificare se un errore è occorso durante la trasmissione. Dato questo inciso, usiamo la definizione di entropia condizionata

( ) ∑∑= =

⋅≡M

1i

N

1j ji2ji y;xp

1logy;xpY|XH

per scrivere:

( ) ∑∑∑==

≠=

⋅+⋅=N

1i ii2ii

N

1i

N

ij1j ji

2ji y,xp1

logy,xpy,xp

1logy,xpY|XH

e la definizione ∑ ∑=

≠=

=N

1i

N

ij1j

ijie x|ypxpp per ottenere:

37

( ) ( ) ( )

( )

∑∑ ∑=

≠= =

−⋅+

⋅−⋅=

=−−⋅−N

1i

N

ij1j

N

1i ii

e2ii

ji

e2ji

e2e

y|xpp1

logy,xpy|xp1N

plogy,xp

pH1NlogpY|XH

.

Ricordando che ( ) ( )1xxlog −≤ , otteniamo:

( ) ( ) ( ) ≤−−⋅− e2e pH1NlogpY|XH

( )

=

−⋅+

⋅−⋅≤ ∑∑ ∑

=≠= =

N

1i

N

ij1j

N

1i ii

eii

ji

eji2 1

y|xpp1

y;xp1y|xp1N

py,xpelog

(ricordando che j

ji

ji ypy|xp

y,xp= )

[ ]

−−+−−

= ∑∑ ∑∑ ∑ ∑=

≠= =

≠= = =

N

1i

N

ij1j

N

1i

N

ij1j

N

1i

N

1iiijejij

e2 y,xpypp1y,xpyp

1Np

elog

Ricordando, ora, che:

∑∑

∑∑

=

=

=≠=

=≠=

−=

=

−=

N

1ieii

N

1ii

N

1ie

N

ij1j

ji

N

1i

N

ij1j

j

p1y,xp

;1yp

;py,xp

;1Nyp

possiamo dire che:

( ) ( ) ( )( ) ( ) ( ) 0p1p1ppelog

pH1NlogpY|XH

eeee

e2e

=−−−+−⋅≤≤−−⋅−

quindi

( ) ( ) ( )ee pH1NlogpY|XH +−⋅≤

2)

( )[ ] ( )[ ] ( )[ ]

( ) ( ) ( )[ ] ( )[ ] =−⋅−−⋅−+⋅+

⋅⋅=

=−⋅−−

∑ 1Nlogpp1logp1plogpy|xp

1logypy|xp

1NlogppHY|XH

eeeeey,x

2ee

(Ricordando che la sommatoria doppia è pari alla somma di due sommatorie quando yx ≠ e quando yx = )

38

( ) ( ) =⋅+−

⋅+⋅+

+

⋅⋅+⋅⋅= ∑ ∑

≠ =

cceee

yxy,x

yxy,x

plogp1N

1logpplogp

y|xp1

logypy|xpy|xp

1logypy|xp

(Essendo ec p1p −≡ e ricordando che ∑≠

yxy,x

e ypy|xpp )

( ) =⋅⋅+−

⋅⋅+

+⋅⋅+⋅⋅=

∑ ∑

∑∑

≠ =

=≠

yxy,x

yxy

ce

yxy

yxy,x

plogypy|xp1N

plogypy|xp

y|xp1

logypy|xpy|xp

1logypy|xp

(in cui si è usato: ( )1N

plogp

1N1

logplogp eeee −

⋅=

−+ ed in cui si è fatta la posizione che

∑ ∑=

⋅⇒=⋅=

yxy x

c xpx|xpypy|xpp )

( )

( )

( )

( )∑ ∑

∑∑

∑∑

∑∑

∑∑

≠ =

==

≠≠

=≠

=≠

=−⋅+−−

⋅−=−⋅+−−

⋅=

=−⋅−

−−−

⋅=

=

−⋅+

−⋅≤

≤⋅+−

⋅=

yxy,x

yxy

ccee

ccee

yxy

yxy

c

yxy,x

yxy,x

e

yxy

c

yxy,x

e

yxy

c

yxy,x

e

0pp1p1N

p1Nppypp

1Np

yp

ypy|xpy|xp

pypy|xp

ypy|xpy|xp1N

pypy|xp

1y|xp

pypy|xp1

y|xp1Np

ypy|xp

y|xpp

logypy|xpy|xp1N

plogypy|xp

Rammentando che la capacità di un canale è maggiore o uguale alla mutua informazione, quindi

( ) ( ) ( )Y|XHXHY;XIC −=≥

ed utilizzando il risultato appena ottenuto, cioè

( ) ( ) ( )1NlogppHY|XH ee −⋅+≤

che è condizione maggiore, allora ottengo, per H(X) – H(X|Y), una differenza più piccola, quindi:

( ) ( ) ( )1NlogppHXHC ee −⋅−−≥ .

≤ Facciamo alcune considerazioni su questi due risultati:

39

Il fatto che ( ) ( ) ( )1NlogppHY|XH ee −⋅+≤ può essere visto anche in modo intuitivo. Infatti, avendo ri-

cevuto un simbolo y ∈ Y, se rileviamo il fatto che si sia, o meno, verificato un errore, toglie un’incertezza pari a H(pe). Se non vi è stato errore, allora l’incertezza rimanente sul simbolo trasmesso è nulla. Se, invece, si è verificato un errore, con probabilità pe, dobbiamo decidere quale dei restanti N-1 simboli sia stato trasmesso. L’incertezza su questa scelta non può essere maggiore di log(N-1). Rappresentiamo la funzione ( ) ( )1NlogppH ee −⋅+ , che presenterà un massimo, in quanto somma di due cur-

ve, di cui una a campana.:

La disuguaglianza di Fano dice che le coppie di valori di H(X|Y),pe sono i punti compresi dall’area sottesa da

( ) ( )1NlogppH ee −⋅+ fra i punti 0 ed 1 pari, rispettivamente, alla probabilità di errore nulla, cioè alla corretta ricezio-

ne, ed alla probabilità di errore massima, cioè 1, ovvero alla ricezione errata. Inoltre, essendo ( ) ( ) ( )Y;XIXHY|XH −= , la disuguaglianza fornisce un limite inferiore alla probabilità di

errore, in termini dell’eccesso di entropia dell’alfabeto di ingresso X rispetto al flusso di informazione attraverso il canale. Considerando, ora, che I(X;Y) ≤ C, possiamo dire che

( ) ( ) ( )1NlogppHCXH ee −⋅+≤− ovvero che

( ) ( ) ( )1NlogppHCXH ee −⋅++≤

Analizzando questa curva vediamo che la regione delle coppie permesse pe;H(X) contiene punti in cui p e=0 solo se H(X)≤C. In altri termini, se l’entropia dell’alfabeto di ingresso supera la capacità del canale, allora è impossibile tra-smettere informazione attraverso il canale stesso con probabilità di errore arbitrariamente piccola. Questo risultato è una versione semplificata del converso del teorema fondamentale di Shannon sulla teoria dell’informazione. Se identifichiamo l’alfabeto di ingresso del canale con l’alfabeto di uscita del codificatore di sorgente, la situazione descritta in precedenza viene a riferirsi ad un sistema di comunicazione in cui i simboli in uscita dal codificatore sono inviati direttamente lungo il canale, cioè non viene effettuata alcuna codifica. A questo punto, includiamo il codificatore di canale all’interno del no-stro sistema e cerchiamo di estendere il risultato precedente. Consideriamo, così, il sistema della figura seguente:

40

in questa la “Sorgente” rappresenta la serie della sorgente stessa e del codificatore di sorgente. Supponiamo, per sempli-cità, che l’uscita della sorgente sia una sequenza di simboli binari, emessi ogni Ts secondi. Il codificatore di canale è un codificatore a blocchi, cioè trasforma blocchi di K digits consecutivi dalla sorgente (una “parola”) in blocchi di n simboli

appartenenti all’alfabeto X in ingresso al canale. Possiamo definire un ritmo, o rate, di codifica come nk

R c ≡ .

Siccome dobbiamo trasmettere n simboli ogni kT s secondi, il canale deve essere usato ogni Tc = RcTs secondi. Chiamando W il set di 2k messaggi all’ingresso del codificatore di canale e con Z il set di 2k messaggi all’uscita della de-codifica, possiamo applicare la disuguaglianza di Fano a questi due insiemi ottenendo

( ) ( ) ( )12logppHZ|WH kee W

−⋅+≤

in cui il pedice W indica “Word” e la

Wep rappresenta la probabilità media di decodificare una parola d’errore, cioè una

parola sbagliata. Inoltre, siccome ( ) ( ) ( )Z;WIWHZ|WH −= ed assumendo valida la disuguaglianza

( ) ( )Y,XIZ,WI ≤ , che discende dal teorema del data processing, abbiamo:

( ) ( ) ( )Y;XIWHZ|WH −≥

Siccome la trasmissione di ogni blocco di k bit implica di usare n volte il canale, possiamo dire che

( ) nCY;XI ≤ .

Sostituendo questo risultato nella formula precedente e quello che otteniamo nella disuguaglianza scritta più sopra, otte-niamo:

( ) ( ) ( )12logppHnCWH kee W

−⋅+≤− .

Questa disuguaglianza costituisce il converso del teorema della codifica, su cui torneremo in seguito. Siccome l’alfabeto W è costruito raggruppando k simboli consecutivi all’uscita della sorgente, l’entropia H(W) è data da:

( ) ( )LHkWH ∞⋅=

in cui H∞(L) è l’entropia della sorgente. Quindi la disuguaglianza vista ci dice che la probabilità di decodificare erroneamente una sequenza di k simboli

non può essere resa arbitrariamente piccola quando la velocità (il ritmo) di codifica Rc è maggiore del rapporto ( )LH

C

.

Dalle ultime due relazioni possiamo inferire un limite inferiore alla probabilità di errore operando come segue: ( ) ( )

( )( ) ( )

k1

RC

LHk

1nCLHk12log

pHnCLHkp

ck

eeW

−−=−−⋅

>−

−−⋅≥ ∞

∞∞

41

Abbiamo visto che esiste un limite inferiore alla probabilità di errore, diverso da zero, quando il ritmo di codifica Rc è maggiore della capacità del canale. Vediamo ora cosa succede se Rc è minore di C. Si può provare, ed è il teorema della codifica di canale, che “Data una sorgente d’informazione binaria, con entropia pari a H∞(L) bits/simbolo ed un canale discreto, privo di memoria, con capacità di C bits/simbolo, esiste un codice con velocità Rc=k/n per cui la probabilità di errore è limitata da:

( ) ( )LHRR,ep cRnE

eW ∞− ⋅=<

in cui E(R) è una funzione positiva decrescente, convessa su, di R per 0≤R≤C”. Si noti che, quando l’intera ridondanza della sorgente sia stata rimossa, H∞(L)=1, quindi R=Rc.

Basandoci sulla relazione appena vista, possiamo intraprendere tre strade per migliorare le prestazioni di un sistema di trasmissione dati: 1. Diminuire R diminuendo Rc=k/n. Ciò vuol dire aumentare la ridondanza del codice e, per un dato rate di emissione

della sorgente, utilizzare il canale più spesso. In altri termini, abbiamo bisogno di un canale più largo. Quello che suc-cede è rappresentato nella figura seguente: ci muoviamo da R1 ad R2 così E(R) aumenta ed il limite

( )c

e RC

LHpW

−> ∞ diminuisce.

2. Aumentare la capacità C del canale aumentando il rapporto S/N sul canale stesso. La situazione è mostrata nella figu-

ra seguente.

42

Il punto di funzionamento si sposta da E1(R) ad un maggiore E2(R), aumentando il limite d’errore. 3. Tenendo fisso il rapporto Rc=k/n, aumentare n. Questo terzo approccio non richiede alcun intervento sulla larghezza

di banda e sul SNR del canale. Permette di migliorare le prestazioni del sistema di comunicazione semplicemente au-mentando la lunghezza del blocco all’ingresso del codificatore di canale, ciò al costo di una maggior complessità del blocco di codifica-decodifica e di un maggior ritardo nel ricostruire la sequenza codificata.

Mentre i sistemi delineati ai punti 1. e 2. Sono rimedi ben noti per contenere i disturbi in un sistema di comunica-zione, la terza strada è uno dei più grandi risultati della teoria di Shannon.