135
Információ- és kódelmélet Fegyverneki Sándor Dátum

Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Információ- és kódelmélet

Fegyverneki Sándor

Dátum

Page 2: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Tartalomjegyzék

1. Bevezetés 41.1. A feldogozott területek címszavakban . . . . . . . . . . . . . . . 7

2. Az információmennyiség 92.1. Egyedi információmennyiség, entrópia . . . . . . . . . . . . . . . 92.2. Az entrópia tulajdonságai . . . . . . . . . . . . . . . . . . . . . . 172.3. Feltételes entrópia . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.5. Önellenőrző kérdések . . . . . . . . . . . . . . . . . . . . . . . . 20

3. Az I-divergencia 223.1. Információ és bizonytalanság . . . . . . . . . . . . . . . . . . . . 223.2. Az I-divergencia tulajdonságai . . . . . . . . . . . . . . . . . . . 233.3. A sztochasztikus függőség mérése . . . . . . . . . . . . . . . . . . 253.4. Urnamodellek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.5. Fano-egyenlőtlenség . . . . . . . . . . . . . . . . . . . . . . . . . 293.6. A kölcsönös információmennyiség tulajdonságai . . . . . . . . . . 303.7. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.8. Önellenőrző kérdések . . . . . . . . . . . . . . . . . . . . . . . . 31

4. Forráskódolás 334.1. Alapfogalmak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334.2. Sardinas-Patterson módszer . . . . . . . . . . . . . . . . . . . . . 364.3. Keresési stratégiák és prefix kódok . . . . . . . . . . . . . . . . . 384.4. Shannon-Fano kód . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5. Gilbert-Moore kód . . . . . . . . . . . . . . . . . . . . . . . . . . 434.6. Hatásfok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.7. Huffmann-kód . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

1

Page 3: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.8. McMillan-dekódolási tétel . . . . . . . . . . . . . . . . . . . . . . 524.9. Blokkos kódolás, tömörítés, stacionér forrás entrópiája . . . . . . 564.10. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.11. Önellenőrző kérdések . . . . . . . . . . . . . . . . . . . . . . . . 66

5. Csatornakapacitás 685.1. Zajmentes csatorna kapacitása nem azonos átviteli idő esetén . . 695.2. Shannon-Fano algoritmus, tetszőleges eloszlás esetén . . . . . . . 715.3. Zajos csatorna kapacitása . . . . . . . . . . . . . . . . . . . . . . 745.4. Arimoto-Blahut algoritmus . . . . . . . . . . . . . . . . . . . . . 805.5. Iterációs módszer a relatív kapacitás meghatározására (kiegészítő

tananyag) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.6. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 925.7. Önellenőrző kérdések . . . . . . . . . . . . . . . . . . . . . . . . 95

6. Csatornakódolás 976.1. Hibajavítás, kódtávolság . . . . . . . . . . . . . . . . . . . . . . 976.2. Csoportkód . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1006.3. Lineáris kód . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.4. Hamming-kód . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1036.5. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1046.6. Önellenőrző kérdések . . . . . . . . . . . . . . . . . . . . . . . . 107

7. Bevezetés a folytonos esetbe 1087.1. Diszkretizálás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1087.2. Néhány fogalom folytonos esetben . . . . . . . . . . . . . . . . . 1097.3. Maximum entrópia módszer (MEM) . . . . . . . . . . . . . . . . 1107.4. Feladatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1107.5. Önellenőrző kérdések . . . . . . . . . . . . . . . . . . . . . . . . 111

8. Függelék 1128.1. Jelölések . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1128.2. Konvex függvények . . . . . . . . . . . . . . . . . . . . . . . . . . 1128.3. Az x lnx függvény vizsgálata . . . . . . . . . . . . . . . . . . . . 1168.4. Az aszimptotikus Stirling-formula . . . . . . . . . . . . . . . . . . 1198.5. Valószínűség-számítás összefoglaló . . . . . . . . . . . . . . . . . 119

8.5.1. A valószínűség fogalma . . . . . . . . . . . . . . . . . . . 1198.5.2. A valószínűségi változó . . . . . . . . . . . . . . . . . . . . 1228.5.3. Néhány diszkrét eloszlás és jellemzői . . . . . . . . . . . . 125

2

Page 4: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.5.4. Néhány folytonos eloszlás és jellemzői . . . . . . . . . . . 1268.5.5. A véletlen vektorok . . . . . . . . . . . . . . . . . . . . . . 1278.5.6. Néhány többdimenziós eloszlás . . . . . . . . . . . . . . . 1318.5.7. Néhány alapvető tétel . . . . . . . . . . . . . . . . . . . . 131

Irodalomjegyzék 133

3

Page 5: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

1. fejezet

Bevezetés

A statisztikai hírközléselméletet három fő területre szokás osztani: információ-elmélet, jeldetektálas és sztochasztikus szűrés.Jeldetektálás: Legyen ξt, t ∈ T a megfigyelt sztochasztikus jel. A H0 hipo-tézis esetén ξt, t ∈ T egy mintafüggvény az Nt sztochasztikus zajból, míg aH1 esetén az St + Nt jel+zaj folyamatból. A megfigyelő dönt valamelyik hi-potézis javára felhasználva egy megfelelő optimalitási kritériumot, pl. egy tesztstatisztikát.Sztochasztikus filtráció: ez nem más, mint a jelek, adatok szűrése, azaz a meg-figyelt jel, adatsor transzformálása valamilyen szempontok szerint.Az információ fogalma központi szerepet játszik az egyes ember és a társada-lom életében, és a tudományos kutatásban. Mindennapi életünk minden pilla-natában az információ megszerzés, továbbadás, tárolás problémájával vagyunkelfoglalva. Természetesen más és más a jelentése ugyanannak az információnaka különböző felhasználók számára. Hasonlókat mondhatunk az észlelés, táro-lás, érték stb. esetében is. Az adott helyzettől függően szubjektíven döntünk,használjuk fel stb. Ezért nem foglalkozunk az információ fogalmával.Az információelmélet szempontjából csak az információ mennyisége az érdekes,mint ahogy adattároláskor is mellékes, hogy honnan jöttek és mit jelentenek azadatok. Csak a célszerű elhelyezésükről kell gondoskodni.Napjainkban már eléggé világos, hogy konkrét tartalmától, megjelenési formá-jától és felhasználásától elvonatkoztatva beszélhetünk az információ számszerűmennyiségéről, ami éppen olyan pontosan definiálható és mérhető, mint bármelymás fizikai mennyiség. Hosszú volt azonban az út, amely ehhez a felismeréshezvezetett. Mindenekelőtt azt kell tisztázni, hogy mikor van egyáltalán a kérdés-nek értelme. Persze mindenkinek van valamilyen – többé-kevésbé szubjektív –elképzelése az információ mennyiség fogalmáról, de a köznapi szóhasználatbanez általában az információ konkrét megjelenési formájának terjedelmességéhez,másrészt a hasznosságához és egyéb tulajdonságaihoz kapcsolódik. Ahhoz, hogyjól használható mérőszámot kapjunk, minden esetleges vagy szubjektív ténye-

4

Page 6: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

zőtől el kell vonatkoztatni. Ezek közé soroljuk az információ konkrét tartalmát,formáját és mindent, ami a köznyelvben az információ fogalmához kötődik. Ezta könyörtelen absztrakciót az indokolja, hogy az információ megszerzésével, fel-dolgozásával, felhasználásával (tárolás, átalakítás, továbbítás) kapcsolatos gya-korlati problémák között nagyon sok olyan is akad, melynek megoldásához (pl.a kívánt berendezés vagy eljárás megtervezéséhez) az információ számos jellem-zője közül kizárólag csak a mennyiséget kell figyelembe venni.Az információ fogalma olyan univerzális, annyira áthatja a mindennapi életün-ket és a tudomány minden ágát, hogy e tekintetben csak az energiafogalommalhasonlítható össze. A két fogalom között több szempontból is érdekes párhuza-mot vonhatunk. Ha végigtekintünk a kultúra, a tudomány nagy eredményein,a legnagyobb felfedezéseken, azoknak jelentős részét két világosan elkülöníthetőosztályba sorolhatjuk.Az egyik csoportba az energia átalakításával, tárolásával, továbbításával kap-csolatos felfedezések tartoznak. Pl. a tűz felfedezése, a víz- és szélenergia fel-használása, egyszerű gépek kostruálása, az elektromos energia hasznosítása stb.A másik csoportba az információ átalakításával, tárolásával, továbbításával kap-csolatos felfedezések tartoznak. Pl. az írás, a könyvnyomtatás, a távíró, a fény-képezés, a telefon, a rádió, a televízió és a számítógép stb.Számos, az első csoportba tartozó felfedezésnek megvan a párja a második cso-portban.Még egy szempontból tanulságos párhuzamot vonni az energia- és az informá-ciófogalom között. Hosszú időbe telt, amíg kialakult az energiamennyiség elvontfogalma, amelynek alapján a különböző megjelenési formáit, mint pl. a mecha-nikai energiát, a hőenergiát, a kémiai energiát, az elektromos energiát stb. összelehetett hasonlítani, közös egységgel lehetett mérni. Erre a felismerésre és egy-ben az energia-megmaradás elvének a meghatározására a XIX. század közepénjutott el a tudomány. Az információ fogalmával kapcsolatban a megfelelő lépéscsak a XX. század közepén történt meg.Mielőtt rátérnénk az információmennyiség mértékének kialakulására, történeté-re meghatározzuk, hogy mit is jelent az információ absztrakt formában.Információn általában valamely véges számú és előre ismert lehetőség valame-lyikének a megnevezését értjük.Nagyon fontos, hogy információmennyiségről csak akkor beszélhetünk, ha a le-hetséges alternatívák halmaza adott. De ebben az esetben is csak akkor be-szélhetünk az információmennyiség definiálásáról, ha tömegjelenségről van szó,vagyis ha nagyon sok esetben kapunk vagy szerzünk információt arról, hogy azadott lehetőségek közül melyik következett be. Mindig ez a helyzet a híradás-technikában és az adatfeldolgozásban, de számos más területen is.Az információmennyiség kialakulásához a kezdeteket a statisztikus fizika kuta-tói adták meg. Ebből adódik a fizikában használatos elnevezés (pl. entrópia):L. Boltzmann (1896), Szilárd L. (1929), Neumann J. (1932). Továbbá, a kom-munikációelmélettel foglalkozók: H. Nyquist (1924), R.V.L. Hartley (1928).

5

Page 7: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

A hírközlés matematikai elméletét C.E. Shannon (1948) foglalta össze oly mó-don, hogy hamarosan további, ugrásszerű fejlődés alakuljon ki ezen a területen.Már nemcsak az elmélet alapproblémáit fejti ki, hanem úgyszólván valamennyialapvető módszerét és eredményét megadja.Párhuzamosan fejlesztette ki elméletét N. Wiener (1948), amely erősen támasz-kodott a matematikai statisztikára és elvezetett a kibernetikai tudományok ki-fejlődéséhez.Shannon a következőképpen adta meg a zajmentes (egyirányú) hírközlési rend-szer általános modelljét:

1.1. ábra. Az egyirányú hírközlési rendszer általános modellje (zajmentes)

Látható, hogy meg kell oldanunk a következő problémákat: Az üzenet lefordításatovábbítható formára. Az érkező jel alapján az üzenet biztonságos visszaállítása.A fordítás (kódolás) legyen gazdaságos (a dekódolás is) a biztonság megtartásamellett. Használjuk ki a csatorna lehetőségeit (sebesség, kapacitás).

1.2. ábra. Az egyirányú hírközlési rendszer általános modellje (zajos)

Természetesen ezek a problémák már a tervezési szakaszban felmerülnek. Vi-szont gyakran kerülünk szembe azzal, hogy a már meglévő rendszer jellegzetessé-geit, kapacitásait kell optimálisan kihasználni. Számos számítástechnikai példavan arra, hogy a biztonságos átvitel mennyire lelassítja az adatáramlást. To-vábbá egy "jó" kódolás hogyan változtatja az üzenet terjedelmét, a felhasználásgyorsaságát.Az információelméletet két nagy területre bonthatjuk: az algebrai kódoláselmé-let és a Shannon-féle, valószínűség-számításon alapuló, elmélet.Az információelmélettel foglalkozók a következő három kérdés "mennyiségi"vizsgálatával foglalkoznak: Mi az információ? Melyek az információátvitel pon-tosságának a korlátai? Melyek azok a módszertani és kiszámítási algoritmusok,

6

Page 8: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

amelyek a gyakorlati rendszerek esetén a hírközlés és az információtárolás amegvalósítás során megközelíti az előbb említet pontossági, hatékonysági korlá-tokat?Az eddigiek alapján a jegyzet anyagát a következő témakörökben foglalhatjukössze: Az információmennyiség mérése és ennek kapcsolata más matematikaiterületekkel. A hírközlési rendszerek matematikai modellje (zajos, zajmentesvagy diszkrét, folytonos). Kódoláselmélet (zajos, zajmentes; forrás, csatorna).

1.1. A feldogozott területek címszavakban

Az egyirányú hírközlési rendszer általános modellje. Az információmennyiségHartley-féle értelmezése, szemléletes jelentése, kapcsolata a blokkonkénti kódo-lással.Az A esemény Shannon-féle információmennyisége, axiomatikus bevezetés (el-várt tulajdonságok), a valószínűségi változó értéke által tartalmazott egyediinformációmennyiség, Shannon-féle entrópia, az x ln(x) függvény tulajdonságai,Jensen-egyenlőtlenség, az entrópia tulajdonságai.Információnyereség és várható értéke, Kullback-Leibler eltérés vagy I-divergencia,az entrópia axiomatikus származtatása, a sztochasztikus függőség mérése, teljeseseményrendszerek sztochasztikus függése, kölcsönös információmennyiség, azI-divergencia tulajdonságai.Aszimptotikus Stirling-formula, az I-divergencia és a valószínűség kapcsolata, akölcsönös információmennyiség és az entrópia kapcsolata, McMillan-felbontási(particionálási) tétel, a feltételes entrópia és tulajdonságai, Fano egyenlőtlenség.Kódoláselméleti fogalmak: stacionaritás, betűnkénti és blokkonkénti kódolás,zajmentesség, emlékezetnélküliség, egyértelmű dekódolhatóság. Keresési straté-giák és prefix kódok, kódfa, átlagos kódhossz. Kraft-Fano egyenlőtlenség, prefixkódok átlagos kódhoszszára vonatkozó állítások. Hatásfok, maximális hatásfo-kú kód létezése, McMillan-dekódolási tétel (Karush-féle bizonyítás). Shannon-Fano-, Gilbert-Moore-, Huffman-féle kód. Az optimális kód tulajdonságai, akódfához kapcsolódó tulajdonságok, az optimális kódolás első lépése.Csatornakapacitás: emlékezetnélküli eset, zajmentes eset, bináris szimmetrikuscsatorna. Nem azonos átviteli idő esete: információ átviteli sebesség, csatorna-kapacitás, optimális eloszlás. A kapacitás numerikus meghatározása, a módszerkonvergenciája. Az átlagos időhossz, Kraft-Fano egyenlőtlenség.Blokkonkénti kódolás, átlagos kódhossz és korlátai, stacionér forrás entrópiája,a zajmentes hírközlés alaptétele, McMillan-felbontási tétel és a zajos kódoláskapcsolata.Zajos csatorna kódolása: bináris szimmetrikus csatorna, (k, n) kód, algebraistruktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum likelihood kódolás, a hibajavíthatóság és a kódtávolságkapcsolata, csoportkód, hibajelezhetőség, hibaáteresztés, lineáris kód, sziszte-matikus kód, paritásellenőrző mátrix, szindróma, részcsoport, mellékosztály és

7

Page 9: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

tulajdonságai, mellékosztályok és szindrómák kapcsolata, mellékosztályok táb-lázata, dekódolási táblázat, osztályelsők, a dekódolási táblázat távolság tulaj-donsága.Entrópia és I-divergencia folytonos esetben, tulajdonságok. Speciális eloszlásokentrópiája. Entrópia maximalizálás, véges szórású eset.

8

Page 10: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2. fejezet

Az információmennyiség

2.1. Egyedi információmennyiség, entrópia

A bevezetés alapján információn valamely véges számú és előre ismert lehetőségvalamelyikének a megnevezését értjük.Kérdés: Mennyi információra van szükség egy adott

X = x1, x2, . . . , xn

véges halmaz valamely tetszőleges elemének azonosításához vagy kiválasztásá-hoz?Tekintsük például a jólismert hamis pénz problémát. Itt kétserpenyős mérlegsegítségével kell kiválasztani a külsőre teljesen egyforma pénzdarabok közül akönnyebb hamisat. Ez úgy történhet, hogy azonos darabszámú csoportokat tévea mérlegre, megállapítjuk, hogy a keletkezett három csoportból melyikben vana hamis. Ha ugyanis a mérleg egyensúlyban van, akkor a maradékban van,ha nem, akkor a könnyebb csoportban. Ez az eljárás addig folytatódik, amígmegtaláljuk a hamis pénzdarabot.Ha n = 3k alakú a pénzdarabok száma, akkor átlagosan k mérlegelésre vanszükség, de átlagosan ennél kevesebb már nem vezethet mindig eredményre.

2.1. megjegyzés. Általában legalább

log3 n

mérlegelésre van szükség, ami összefügg azzal, hogy egy mérlegelésnek 3 kime-netele van.

A probléma további vizsgálatára még visszatérünk, viszont előtte tekintsük akövetkező egyszerű problémát: Hány bináris számjegy szükséges egy n eleműhalmaz elemeinek azonosításához?

9

Page 11: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.2. példa. Az amerikai hadseregnél állítólag úgy végzik a vérbajosok felkuta-tását, hogy az egész társaságtól vért vesznek, és a páciensek felének véréből egyrészt összeöntve elvégzik a Wassermann-próbát. Amelyik félnél ez pozitív, ott afelezgetést tovább folytatják egész addig, amíg a betegeket ki nem szűrték. Ez amódszer nagyon gazdaságos, mert ha 1000 páciens között pontosan egy vérbajosvan, akkor az 10 vizsgálattal lokalizálható, míg az egyenkénti vizsgálatnál – amiadminisztrációs szempontból persze sokkal egyszerűbb – átlagosan 500 próbáravan szükség.

Hartley(1928) szerint az n elemű X halmaz elemeinek azonosításához

I = log2 n

mennyiségű információra van szükség.Ennek az a szemléletes tartalma, hogy ha n = 2k alakú, akkor k = log2 nhosszúságú bináris sorozat szükséges. Ha n = 2k alakú, akkor [log2 n] + 1 ([·] azegészrészt jelöli) a szükséges bináris jegyek száma. Továbbá, ha azt tekintjük,hogy az általunk vizsgált esetek valamely tömegjelenséghez tartoznak, akkoraz a kérdés, hogy az X elemeiből álló tetszőlegesen hosszú sorozatok hogyanírhatók le bináris sorozatokkal.Tekintsük az m hosszúságú X elemeiből álló sorozatokat, akkor ezek száma nm.Ha 2k−1 < nm ≤ 2k, akkor az X halmaz egy elemére eső bináris jegyek számak

m. Ekkor

log2 n ≤ k

m< log2 n+

1

m,

azaz m növelésével log2 n tetszőlegesen megközelíthető.Ezek szerint, Hartley formulája az információ mennyiségét a megadáshoz szük-séges állandó hosszúságú bináris sorozatok alsó határaként definiálja.Ennek megfelelően, az információmennyiség egységét bitnek nevezzük, ami való-színűleg a "binary digit" angol nyelvű kifejezés rövidítése. Hartley szerint a kételemű halmaz elemeinek azonosításához van szükség egységnyi (1bit) mennyisé-gű információra. Néhány szerző az e alapú természetes logaritmust preferálja,ekkor az egység a nat. A logaritmusok közötti átváltás alapján 1bit = ln 2nat.

Hartley egyszerű formulája számos esetben jól használható, de van egy komolyhibája: nem veszi figyelembe, hogy – tömegjelenségről lévén szó – az egyesalternatívák nem feltétlenül egyenértékűek.Például, nem sok információt nyerünk azzal, hogy ezen a héten sem nyertünk alottón, mert ezt előre is sejthettük volna, hiszen rendszerint ez történik. Ezzelszemben az ötös találat híre rendkívül meglepő, mert igazán nem számíthatunkrá, ezért az sokkal több információt szolgáltat.Ezt a nehézséget Shannon(1948) a valószínűség és az információ fogalmánakösszekapcsolásával oldotta meg. Shannon szerint egy P (A) valószínűségű Aesemény bekövetkezése

I = log21

P (A)

10

Page 12: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

mennyiségű információt szolgáltat. Ez a mérőszám a Hartley-félénél sokkal ár-nyaltabb megkülönböztetést tesz lehetővé, és ha az n lehetőség mindegyike egy-

formán1

nvalószínűségű, akkor a Hartley-féle formulára redukálódik.

A továbbiakban először megvizsgáljuk, hogy mennyire természetes a Shannonáltal bevezetett mérőszám. Az eddigiek alapján a következő tulajdonságokatvárjuk el az információmennyiség mérőszámától:1. Additivitás: Legyen n = NM alakú, azaz felírható két természetes szám szor-zataként. Ekkor X felbontható N darab diszjunkt M elemű halmaz uniójára,

azaz X =N∪i=1

Ei. Ez azt jelenti, hogy az azonosítása az elemeknek úgy is történ-

het, hogy először az Ei halmazok egyikét azonosítjuk, s utána az Ei halmazonbelül történik az azonosítás. Emlékezzünk vissza a hamis pénz problémára.Ekkor elvárható, hogy a két számítási mód alapján az információmennyiségekmegegyezzenek, azaz

I(NM) = I(N) + I(M).

2.3. megjegyzés. Ez a tulajdonság függetlenségként is felírható, mert két egy-mástól függetlenül elvégzett azonosítás összekapcsolásának felel meg.

2. Monotonitás: A lottós példa alapján elvárható, hogy kisebb valószínűségűesemény bekövetkezése nagyobb információmennyiségű legyen. Ebből viszontrögtön következik, hogy az információmennyiség csak a valószínűségtől függ. Lé-tezik f függvény, hogy az A esemény valószínűségéhez rendelt I(A) = f(P (A)).Hiszen P (A) = P (B) esetén I(A) = I(B), mert ha P (A) ≤ P (B), akkorI(A) ≥ I(B), míg ha P (A) ≥ P (B), akkor I(A) ≤ I(B).

3. Normálás: Legyen I(A) = 1, ha P (A) =1

2. Ez összhagban van azzal, hogy

egy kételemű halmaz elemeinek az azonosításához pontosan 1bit információravan szükség.

2.4. tétel. Ha f : (0, 1] → R és (1) f(p) ≥ f(q), ha p ≤ q, (2) f(pq) =

f(p) + f(q), (3) f(1

2) = 1, akkor

f(p) = log21

p.

Bizonyítás. Az x = log21

pjelöléssel az állításunk alakja: f(2−x) = x, ha

x ≥ 0. Ezt fogjuk bizonyítani.

A (2) feltétel alapján f(pn) = nf(p) (n ∈ N), ami teljes indukcióval egyszerűen

belátható. Ezt alkalmazva a p =1

2esetre kapjuk, hogy f(2−n) = n. Továbbá,

2−n =

(2−n

m

)m

, azaz f(2−n) = mf

(2−n

m

),

11

Page 13: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.1. ábra.

12

Page 14: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

ekkor

f

(2−n

m

)=

n

m.

Tehát bármely 0 < x racionális számra f(2−x) = x. Ha x = 0, akkor

1 = f(1

220) = f(

1

2) + f(20) = 1 + f(1), azaz f(1) = 0.

Ha x > 0 irracionális, akkor minden m ∈ N esetén létezik n ∈ N, hogy

n

m≤ x <

n+ 1

m.

Ekkorn

m= f

(2−n

m

)≤ f(2−x) ≤ f

2−n+ 1

m

=n+ 1

m,

amelyből m → ∞ esetén következik, hogy f(2−x) = x, ha x ≥ 0, azaz

f(p) = log21

p.

2.5. megjegyzés. Néhány alapvető irodalom, amelyben az alapfogalmak és tu-lajdonságaik megtalálhatóak: [3], [12], [7], [8].

2.6. definíció. Az I(ξ = x) = log21

P (ξ = x)mennyiséget a ξ valószínűségi

változó x értéke által tartalmazott egyedi információmennyiségnek nevezzük.

2.7. definíció. AP = p1, p2, . . . , pn

eloszlású ξ valószínűségi változó Shannon-féle entrópiájának nevezzük a

H(ξ) = −n∑

i=1

pi log2 pi

mennyiséget.

2.8. megjegyzés. A valószínűségek között a 0 is előfordulhat, így problémátokozhat, hiszen a logaritmus függvény csak pozitiv számokra értelmezett. Eztazonban megoldja az, hogy az x log2 x függvény folytonosan kiterjeszthető anullára, mert

limx→0+0

x log2 x = 0, azaz 0 log2 0 = −0 log21

0= 0

lehet definíció szerint.

13

Page 15: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.2. ábra. A reciprok logaritmusa

14

Page 16: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.3. ábra. Az entrópia függvény bináris esetben

15

Page 17: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.4. ábra. Az xln(x) függvény

16

Page 18: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Vegyük észre, hogy a H(ξ) mennyiség nem más, mint az egyedi információ-mennyiség várható értéke.Ha nem okoz zavart, akkor az entrópia jelölésére még a következőket is fogjukhasználni:

H(ξ) = H(P) = Hn(p1, p2, . . . , pn) = H(p1, p2, . . . , pn).

2.2. Az entrópia tulajdonságai

1. Hn(p1, p2, . . . , pn) ≥ 0.

Bizonyítás. Az összeg minden tagja nemnegatív.⋄

2. Ha pk = 1 és pi = 0 (1 ≤ i ≤ n, i = k), akkor Hn(p1, p2, . . . , pn) = 0.

3. Hn+1(p1, p2, . . . , pn, 0) = Hn(p1, p2, . . . , pn).

4. Hn(p1, p2, . . . , pn) ≤ Hn

(1

n,1

n, . . . ,

1

n

)= log2 n.

Bizonyítás. A − log2 x konvex függvényre alkalmazzuk a Jensen-egyenlőtlenséget.⋄

5. H(ξ) folytonos függvény.6. Hn(p1, p2, . . . , pn) szimmetrikus a valószínűségekben.7. Ha qn = p1 + p2 + · · ·+ pm, akkor

Hn+m−1(q1, q2, . . . , qn−1, p1, p2, . . . , pm) =

= Hn(q1, q2, . . . , qn) + qnHm(p1qn

,p2qn

, . . . ,pmqn

).

17

Page 19: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.5. ábra. Az entrópia függvény három elemű eloszlásra

18

Page 20: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Bizonyítás.

Hn(q1, q2, . . . , qn) + qnHm(p1qn

,p2qn

, . . . ,pmqn

) =

=−n∑

i=1

qi log2 qi − qn

m∑i=1

piqn

log2piqn

=

=−n∑

i=1

qi log2 qi −m∑i=1

pi(log2 pi − log2 qn) =

=−n−1∑i=1

qi log2 qi − qn log2 qn −m∑i=1

pi log2 pi + log2 qn

m∑i=1

pi =

=−n−1∑i=1

qi log2 qi −m∑i=1

pi log2 pi =

=Hn+m−1(q1, q2, . . . , qn−1, p1, p2, . . . , pm).

Tehát finomítás hatására az entrópia értéke nem csökkenhet.⋄

2.9. megjegyzés. Az entrópia axiomatikus származtatása [1], [12]: Ha a fentitulajdonságok közül megköveteljük, hogy(1) H(P) folytonos a P eloszlásban;

(2) A pi =1

n(1 ≤ i ≤ n) esethez tartozó H monoton növekvő az n függvényé-

ben;(3) Ha 0 ≤ λ ≤ 1, akkor

Hn+1(p1, p2, . . . , λpn, (1− λ)pn) = Hn(p1, p2, . . . , pn) + pnH2(λ, 1− λ).

2.3. Feltételes entrópia

X = x1, . . . , xn, Y = y1, . . . , ym.Legyen

(ξ, η) : Ω → X × Y

véletlen vektor, melynek együttes eloszlása

P (ξ = xi, yj) = pij .

Mivel az entrópiát csak az eloszlás határozza meg, ezért rögtön adódik, hogy

H(P) = H(ξ, η) = −n∑

i=1

m∑j=1

pij log2 pij .

19

Page 21: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2.10. definíció. A

H(ξ|η) =m∑j=1

P (η = yj)H(ξ|η = yj)

mennyiséget a ξ valószínűségi változó η valószínűségi változóra vonatkozó felté-teles entrópiájának nevezzük, ahol

H(ξ|η = yj) =n∑

i=1

P (ξ = xi|η = yj) log21

P (ξ = xi|η = yj).

2.11. tétel.H(ξ, η) = H(η) +H(ξ|η).

2.12. tétel.H(ξ) ≥ H(ξ|η)

egyenlőség teljesül függetlenség esetén.

2.4. Feladatok

1. n pénzdarab közül az egyik hamis, könnyebb, mint a többi. A többi mindegyenlő súlyú. Legalább hány mérésre van szükség ahhoz, hogy kétserpenyősmérleggel, súlyok nélkül minden esetben meg tudjuk határozni, melyik a hamis.2. 12 pénzdarab közül az egyik hamis, de nem tudjuk könnyebb-e náluk vagynehezebb. A többi mind egyenlő súlyú. Igazoljuk, hogy 3 mérés elég ahhoz, hogykétserpenyős mérleggel, súlyok nélkül minden esetben meg tudjuk határozni,melyik a hamis! Általánosítsuk a feladatot n darabra!3. Igazolja, hogy H(ξ, ξ) = H(ξ)!

4. Igazolja, hogy H(ξ, η) = H(η) +H(ξ|η)!5. Igazolja, hogy H(ξ) ≥ H(ξ|η)!6. Igazolja, hogy H(ξ, η) ≤ H(η) +H(ξ)! Mikor van egyenlőség?7. Határozza meg az entrópiát a következő eloszláshoz:

P = 0.5, 0.25, 0.125, 0.075, 0.05!

2.5. Önellenőrző kérdések

1. Ismertesse az egyirányú hírközlés általános modelljét!2. Definiálja az egyedi információmennyiséget!3. Definiálja az entrópiát!4. Ismertesse az entrópia tulajdonságait!

20

Page 22: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5. Definiálja a feltételes entrópiát, ha adott az együttes eloszlás!6. Adja meg az entrópiát meghatározó axiómákat!7. Lehet-e az entrópia negatív?8. Definiálja a feltételes entrópiát!9. Ismertesse, hogy mely tulajdonságokból adódik a Shannon-féle információ-mennyiség!10. Ismertesse a Jensen-egyenlőtlenséget!

21

Page 23: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

3. fejezet

Az I-divergencia

3.1. Információ és bizonytalanság

Egy véletlentől függő kimenetelű kísérlet eredménye több-kevesebb mértékbenbizonytalan. A kísérlet elvégzésével ez a bizonytalanság megszűnik. A kísérleteredményére vonatkozó, erdetileg fennálló bizonytalanságot mérhetjük azzal azinformációmennyiséggel, amit a kísérlet elvégzésével (átlagban) nyerünk. A bi-zonytalanságot tehát felfoghatjuk, mint információ hiányt, vagy megfordítva: azinformációt úgy, mint a bizonytalanság megszüntetését. Az információ betöltéseekvivalens a bizonytalanság megszüntetésével, azazinformáció betöltés=a-priori bizonytalanság – a-posteriori bizonytalanság.

A két fogalom viszonyát jól világítja meg a következő példa:Ha egy A esemény valószínűsége eredetileg p, de a B esemény megfigyelése utánq-ra változott (azaz P (A) = p és P (A|B) = q), akkor

log21

p− log2

1

q= log2

q

p

információt nyertünk (vagy vesztettünk). Tehát log2q

pinformációt szereztünk

A-ra nézve. Vegyük észre, hogy

log2q

p= log2

P (A|B)

P (A)= log2

P (A ∩B)

P (A)P (B)= log2

P (B|A)P (B)

.

Továbbá, hogy az információnyereség 0, ha A és B függetlenek.Egy K kísérlet lehetséges kimeneteleinek egy teljes eseményrendszere legyenaz A1, A2, . . . , An, amelyek (a-priori) valószínűsége pi = P (Ai) számok (i =1, 2, . . . , n). Megfigyeltük egy B esemény bekövetkezését, amely kapcsolatbanáll a K kísérlettel. Úgy azon feltétel mellett, hogy B bekövetkezett, az Ai ese-mények feltételes (a-posteriori) valószínűségei eltérnek ezek eredeti (a-priori)valószínűségeitől, mégpedig P (Ai|B) = qi.

22

Page 24: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Kérdés: mennyi információt nyertünk a B esemény megfigyelése által a K kísér-let várható kimenetelére nézve?Tudjuk, hogy P = pi és Q = qi eloszlások. Ha nem azonosak, akkor létezikolyan Ak esemény, amelyre pk > qk ( a bizonytalanság csökkent) és olyan is,amelyre pk < qk (a bizonytalanság nőtt). Az információnyereség várható értéke:

D(Q||P) =

n∑i=1

qi log2qipi.

Ezt a mennyiséget a B esemény megfigyelése által kapott, a K kísérletre vonatko-zó, Shannon-féle információmennyiségnek vagy a P eloszlásnak a Q eloszlássalvaló helyettesítésénel fellépő információnyereségnek nevezzük.

3.1. példa. Egy választáson n párt indít jelöltet. Előzetes elképzelésünk az,hogy az egyes pártok jelöltjeire a leadott szavazatokból p1, p2, . . . , pn rész esik.A választás után megismerjük a tényleges q1, q2, . . . , qn szavazati arányokat. Aza hír, amely ezt az információt szállította információmennyiséget juttatta birto-kunkba, amely mennyiség jellemzi azt, hogy az eredeti elképzelésünktől milyenmessze áll a valóság. Tehát felfogható a két eloszlás közötti eltérés mérőszáma-ként is.

3.2. megjegyzés. Az eloszlások közötti eltérések mérőszámára sokféle próbál-kozás történt (Hellinger(1926), Kolmogorov(1931), Mises(1931), Pearson(1905)stb.) Az információmennyiséghez kötődőt a

D(Q||P)

diszkrimináló információt Kullback és Leibler(1951) vezette be hipotézisvizs-gálat felhasználásával. Szokásos elnevezés még az információ divergencia vagyI-divergencia.

3.2. Az I-divergencia tulajdonságai

1. D(Q||P) ≥ 0, egyenlőség akkor és csak akkor, ha pi = qi (1 ≤ i ≤ n).

Bizonyítás.

D(Q||P) =n∑

i=1

qi log2qipi

≥ 1

ln 2

n∑i=1

qi

(1− qi

pi

)=

n∑i=1

qi −n∑

i=1

pi = 0.

2. Ha qk = 1 és qi = 0 (1 ≤ i ≤ n, i = k), akkor D(Q||P) = log21

pk.

3. D(Q||P) nem szimmetrikus.

23

Page 25: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Bizonyítás. Tekintsük pédául azt az esetet, amikor

pk = 1 és pi = 0 (1 ≤ i ≤ n, i = k).

4. D(Q||P) folytonos függvény.5. D(Q||P) konvex függvénye a P eloszlásnak a Q rögzítése esetén.6. D(Q||P) konvex függvénye a Q eloszlásnak a P rögzítése esetén.7. Legyenek Q1 és Q2 illetve P1 és P2 függetlenek, ekkor

D(Q1 ×Q2||P1 ×P2) = D(Q1||P1) +D(Q2||P2).

8. Ha qk =

mk∑j=1

qkj és pk =

mk∑j=1

pkj (k = 1, . . . , n), akkor

n∑k=1

mk∑j=1

qkj log2qkjpkj

≥n∑

k=1

qk log2qkpk

,

azaz a felosztás (particionálás) finomítása nem csökkenti a diszkrimináló infor-mációt. Egyenlőség akkor és csak akkor, ha bármely k és j esetén

qkjqk

=pkjpk

.

Bizonyítás. Az ún. log-szumma egyenlőtlenség alapján bizonyítunk. Legyena1, . . . , an és b1, . . . , bn mindegyike nemnegatív, továbbá

n∑i=1

ai = a ésn∑

i=1

bi = b > 0,

ekkorn∑

i=1

ai log2aibi

≥ a log2a

b.

Egyenlőség akkor és csak akkor, ha bármely 1 ≤ i ≤ n eseténaia

=bib.

Ha a = 0, akkor az állítás nyilvánvaló. Ha a = 0, akkor legyen

qi =aia, pi =

bib, és

n∑i=1

ai log2aibi

− a log2a

b= aD(Q||P) ≥ 0.

3.3. megjegyzés. Legyen L(Q||P) =n∑

i=1

qi log2 pi. Ekkor

D(Q||P) = −H(Q)− L(Q||P).

24

Page 26: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ha Q rögzített, akkor D(Q||P) minimális, ha L(Q||P) maximális, ezért ezt ma-ximum likelihood feladatnak nevezzük. Szokásos elnevezés L(Q||P) kifejezésrea likelihood illetve a T (Q||P) = −L(Q||P) kifejezésre az inakkurancia.Ha P rögzített, akkor D(Q||P) minimalizálása a minimum diszkrimináló infor-máció feladat.

3.3. A sztochasztikus függőség mérése

A sztochasztikus függetlenség ellentéte a sztochasztikus függőség, ami azonbannem írható le olyan egyértelműen, mint az előbbi, hiszen nem csak egy esetlehetséges, ezért a függőség erősségének jellemzésére megpróbálunk bevezetniegy mérőszámot.Legyen A és B két esemény, amelyre P (A) = a és P (B) = b. Továbbá

C1 = A ∩B,C2 = A ∩B,C3 = A ∩B,C4 = A ∩B.

A Ci teljes eseményrendszerhez kétféleképpen kapcsolunk valószínűségeket:a-priori feltételezzük, hogy függetlenek (P (Ci) = pi) és a-posteriori meghatá-rozzuk (megfigyelés, becslés) a P (Ci) = qi valószínűségeket. Ekkor meg tudjukhatározni a két eloszlás eltérését.

3.4. definíció. Az A és B esemény függőségi mérőszámának nevezzük a

D(Q||P)

diszkrimináló információt.

Jele: I(A ∧B).

Ha A és B függetlenek, akkor

p1 = ab, p2 = a(1− b), p3 = (1− a)b, p4 = (1− a)(1− b).

Ha P (A ∩B) = x, akkor

q1 = x, q2 = a− x, q3 = b− x, q4 = 1− a− b+ x.

Tehát

I(A ∧B) = x log2x

ab+ (a− x) log2

(a− x)

a(1− b)+

+ (b− x) log2(b− x)

b(1− a)+ (1− a− b+ x) log2

(1− a− b+ x)

(1− a)(1− b).

Vizsgáljuk meg I(A ∧B) viselkedését!1. D(Q||P) ≥ 0, így I(A ∧B) ≥ 0.

2. I(A ∧B) = I(B ∧A), azaz szimmetrikus.

25

Page 27: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

3. Ha a és b rögzített, akkor

max0, a+ b− 1 ≤ x ≤ mina, b.

Legyen u = max0, a + b − 1 és v = mina, b, azaz u ≤ x ≤ v. Éz az inter-vallum sohasem üres, hiszen ab ∈ [u, v]. Innen az is következik, hogy x mindigmegválasztható úgy, hogy I(A ∧B) minimuma elérhető legyen.4. Legyen f(x) = I(A ∧B) ln 2, ekkor

f ′(x) = lnx(1− a− b+ x)

(a− x)(b− x),

f ′′(x) =1

x+

1

1− a− b+ x+

1

a− x+

1

b− x.

Ebből adódik, hogy f konvex, f ′ monoton növekvő. Könnyen belátható, hogy

limx→u+0

f ′(x) = −∞, limx→v−0

f ′(x) = +∞ és f ′(ab) = 0.

3.5. definíció. Legyenek A1, A2, . . . , An és B1, B2, . . . , Bm teljes eseményrend-szerek, amelyekre P (Ai) = qi (1 ≤ i ≤ n), P (Bj) = rj (1 ≤ j ≤ m) ésP (Ai ∩ Bj) = pij . Ekkor a Ai és Bj teljes eseményrendszerek sztochaszti-kus összefüggésének mérőszáma

I(Ai, Bj) =n∑

i=1

m∑j=1

pij log2pijqirj

.

Ezt a mérőszámot kölcsönös információmennyiségnek nevezzük.

3.6. megjegyzés. A teljes eseményrendszerek alapján átírható valószínűségiváltozókra. Jele: I(ξ, η).

3.4. Urnamodellek

Egy urnában n különböző fajtájú golyó van. Legyenek ezek a típusok a1, a2, . . . ,an. Az ai típus kihúzása jelentse az Ai eseményt és tudjuk, hogy P (Ai) = pi(1 ≤ i ≤ n). Húzzunk az urnából visszatevéssel K-szor. Ekkor

Ω = ω|ω = (ai1 , . . . , aiK azaz |Ω| = nK .

3.7. definíció. Legyen pi =kiK

(1 ≤ i ≤ n), ahol ki az Ai esemény bekövet-kezéseinek a száma egy adott ω ∈ Ω elemi esemény(minta) esetén. Az ω ∈ Ωminta (K, ε) tipikus ("jó"), ha |pi − pi| < ε minden 1 ≤ i ≤ n esetén.

3.8. megjegyzés. A jó minták valószínűsége közel azonosnak tekinthető:

P (ω) = pk11 pk2

2 · · · · · pknn .

26

Page 28: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

log2 P (ω) =n∑

i=1

ki log2 pi =

= −Kn∑

i=1

kiK

log21

pi=

= −Kn∑

i=1

pi log21

pi.

∣∣∣∣∣n∑

i=1

pi log21

pi−

n∑i=1

pi log21

pi

∣∣∣∣∣ =∣∣∣∣∣

n∑i=1

(pi − pi) log21

pi

∣∣∣∣∣ < ε

∣∣∣∣∣n∑

i=1

log21

pi

∣∣∣∣∣ ,ahol ∣∣∣∣∣

n∑i=1

log21

pi

∣∣∣∣∣egy korlátos mennyiség, így

P (ω) ≈ 2−KH .

Felmerül a kérdés, hogy a tipikus minták mennyire töltik meg az elemi esemé-nyek terét.

Tekintsük rögzített K, n, ε esetén az összes tipikus mintát. Jelöljük ezt C-vel ésjelölje Bi azt amikor az i-edik típusú golyó becslése (a relatív gyakoriság) ε-nálközelebb van a valószínűséghez. Ekkor

C = B1 ∩B2 ∩ · · · ∩Bn = B1 ∪B2 ∪ · · · ∪Bn,

így

P (C) = 1− P(B1 ∪B2 ∪ · · · ∪Bn

)≥ 1−

n∑i=1

P (Bi),

de P (Bi) → 1 a nagy számok törvénye értelmében. Tehát a "jó" minták összes-ségének valószínűsége tart egyhez.Az előzőek alapján heurisztikusan az várható, hogy Ω két részre bontható,amelyből az egyik valószínűsége kicsi, a másik pedig közel azonos valószínűségűelemekból áll.

3.9. tétel. (McMillan felbontási tétel) Legyen adott az előzőek szerint egyurnamodell. Rögzített δ > 0 esetén létezik K0, ha K > K0, akkor

Ω = F ∪ F ,

ahol

1. P (F ) < δ.

2. Ha ω ∈ F, akkor∣∣∣∣ 1K log2

1

P (ω)−H

∣∣∣∣ < δ.

3. (1− δ)2K(H−δ) ≤ |F | ≤ 2K(H+δ).

27

Page 29: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Bizonyítás. Legyen

F = ω|| log21

P (ω)−KH| < Kδ,

azaz teljesítse a 2. feltételt. Tehát ha ω ∈ F, akkor

2−K(H+δ) ≤ P (ω) ≤ 2−K(H−δ).

Legyen ξ(ω) = − log2 P (ω), ekkor E(ξ) = KH és a függetlenség miatt

D2(ξ) = K

(n∑

i=1

pi

(log2

1

pi

)2

−H2

).

Legyen D2(ξ) = Kσ2, akkor a Csebisev-egyenlőtlenség alapján

P (F ) = P (|ξ −KH| > Kδ) ≤ Kσ2

K2δ2=

1

K

σ2

δ2< δ,

ha K0 elég nagy.A 3. rész bizonyításához vegyük észre, hogy

1 ≥∑ω∈F

P (ω) ≥∑ω∈F

2−K(H+δ) = |F |2−K(H+δ),

amelyből adódik az állítás egyik fele. Másrészt P (F ) ≥ 1− δ, így rögtön követ-kezik a másik egyenlőtlenség is.

3.10. megjegyzés. Ha az urnamodellünk esetén nem a minták valószínűsé-gét vizsgáljuk, hanem a gyakoriságok valószínűségét, akkor a következő érdekeseredményre jutunk.Ha az i-edik típus gyakorisága ki, azaz a relatív gyakoriság

kiK

,

akkor a relatív gyakoriság közelítése (maximum likelihood becslése) az aprioripi valószínűségnek. Mivel a gyakoriságokat később ismerjük meg, így tekinthetőaposteriori valószínűségnek (eloszlásnak). Legyen az A esemény az, hogy agyakoriságok pontosan

k1, k2, . . . , kn.

TehátP (A) =

K!

k1!k2! · · · kn!pk11 pk2

2 · · · pknn .

28

Page 30: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ekkor felhasználva az aszimptotikus Stirling-formulát (l. Függelék)

lnP (A) = lnK!−n∑

i=1

ln ki! +n∑

i=1

ki ln pi ≈

≈K lnK −K −n∑

i=1

(ki ln ki − ki) +n∑

i=1

ki ln pi =

=K lnK −K −n∑

i=1

ki ln ki +

n∑i=1

ki +

n∑i=1

ki ln pi =

=

n∑i=1

(ki ln

K

kipi

)=

=−K

n∑i=1

(kiK

lnki

K

pi

).

Ebből

log2 P (A) ≈ −Kn∑

i=1

(kiK

log2

ki

K

pi

)= −KD(P||P).

Rögzített K esetén, ha nagy az eltérés valószínűségben, akkor nagy az I-divergencia.Ekkor viszont kicsi az ilyen minta valószínűsége. Ezt fejezi ki lényegében a nagyszámok törvénye.

3.5. Fano-egyenlőtlenség

3.11. lemma. Ha η = y esetén a ξ valószínűségi változó m(y) számú értéketvehet fel pozitív valószínűséggel, akkor

H(ξ|η) ≤∑y∈Y

P (Y = y) log2 m(y).

Bizonyítás. Az entrópia maximumára vonatkozó egyenlőtlenség alapján

H(ξ|η = y) ≤ log2 m(y),

amelynek várható értékét képezve kapjuk az állítást. ⋄

3.12. tétel. (Fano-egyenlőtlenség) Tegyük fel, hogy a ξ és az η valószínűségiváltozók ugyanazt az m értéket vehetik fel pozitív valószínűséggel, és legyen

Pe =∑x=y

P (ξ = x, η = y),

ekkorH(ξ|η) ≤ Pe log2(m− 1) +H(Pe, 1− Pe).

29

Page 31: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Bizonyítás.

H(ξ|η) =∑x =y

P (ξ = x, η = y) log2P (η = y)

P (ξ = x, η = y)+

+∑y

P (ξ = y, η = y) log2P (η = y)

P (ξ = y, η = y).

Mivel ∑x =y

P (η = y) =∑x

(1− P (ξ = x)) = m− 1,

a Pe definíciója alapján adódik, hogy∑x =y

P (ξ = x, η = y) log2P (η = y)

P (ξ = x, η = y)≤

≤ Pe log2m− 1

Pe= Pe log2(m− 1) + Pe log2

1

Pe.

Másrészt a feltételes entrópia második tagjánál∑y

P (ξ = y, η = y) = 1− Pe.

ezért ∑y

P (ξ = y, η = y) log2P (η = y)

P (ξ = y, η = y)≤ (1− Pe) log2

1

1− Pe.

A két felső becslés együttesen kiadja az állítást. ⋄

3.13. megjegyzés. Ha tehát a ξ valószínűségi változót az η valószínűségi válto-zóval akarjuk helyettesíteni, akkor az itt elkövetett hibára alsó becslés adható afeltételes entrópia függvényeként. A Fano-egyenlőtlenség értéke éppen az, hogya P (ξ = η) hibavalószínűséget egy információelméleti mérőszámmal becsüli meg.

3.6. A kölcsönös információmennyiség tulajdonsá-gai

3.14. tétel. (A kölcsönös információmennyiség és az entrópia kapcso-lata)

I(ξ, η) = H(ξ) +H(η)−H(ξ, η).

Bizonyítás. A definíció alapján a logaritmus felbontásával rögtön adódik:

I(ξ, η) =n∑

i=1

m∑j=1

pij log2pijqirj

,

30

Page 32: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

H(ξ, η) =−n∑

i=1

m∑j=1

pij log2 pij ,

H(ξ) =−n∑

i=1

m∑j=1

pij log2 qi,

H(η) =−n∑

i=1

m∑j=1

pij log2 rj .

3.15. tétel. (A kölcsönös információmennyiség és a feltételes entró-pia kapcsolata)

I(ξ, η) = H(ξ)−H(ξ|η) = H(η)−H(η|ξ).

Bizonyítás. A feltételes entrópiáról tudjuk, hogy

H(ξ, η) = H(η) +H(ξ|η) = H(ξ) +H(η|ξ),

s így az előző tétel felhasználásával adódik állításunk. ⋄

3.7. Feladatok

1. Határozza meg a

P = 2−1, 2−2, 2−3, 2−4, 2−5, 2−5

eloszlás és aQ = 3−1, 3−1, 3−2, 3−2, 3−3, 2 · 3−3

eloszlás Kullback-Leibler eltérését!2. Igazolja a Bernoulli-féle nagy számok törvényét az I-divergencia felhasználá-sával!3. Igazolja, hogy

n∏i=1

xipi ≤

n∑i=1

xipi,

ahol p1, p2, . . . , pn eloszlás és x1, x2, . . . , xn pozitív valós számok! Mikor vanegyenlőség?

3.8. Önellenőrző kérdések

1. Definiálja a Kullback-Leibler eltérést!2. Ismertesse az I-divergencia tulajdonságait!

31

Page 33: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

3. Bizonyítsa, hogy az I-divergencia nemnegatív!4. Definiálja a kölcsönös informácíómennyiséget!5. Definiálja teljes eseményrendszerek sztochasztikus függésének a merőszámát!6. Ismertesse az aszimptotikus Stirling-formulát!7. Ismertesse a Markov-egyenlőtlenséget!8. Ismertesse a Csebisev-egyenlőtlenséget!9. Bizonyítsa a McMillan-felbontási tételt!10. Ismertesse a polinimiális eloszlást és tulajdonságait!11. Ismertesse a Fano-egyenlőtlenséget!

32

Page 34: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4. fejezet

Forráskódolás

4.1. Alapfogalmak

A Shannon-féle egyirányú hírközlési modell általános alakja [16], [3]:

4.1. ábra. Az egyirányú hírközlési rendszer általános modellje (zajos)

A hírközlés feladata eljuttatni az információt a felhasználóhoz. A távolságokmiatt az információ továbbítására valamilyen eszközöket (csatornákat) haszná-lunk, amelyek néhány jól meghatározott típusú jelet tudnak továbbítani. Teháta továbbításhoz az információt a csatorna típusának megfelelően kell átalakí-tani. Ez a kódolás, míg a továbbítás után vett jelekből az információnak avisszaalakítását dekódolásnak nevezzük.További probléma forrása, hogy az átvitel során a továbbított jelek megvál-tozhatnak, azaz ún. zajos csatornával dolgozunk. Tehát olyan módszerekre isszükség van, melyekkel az ilyen zajos csatornákon is elég megbizhatóan vihe-tő át az információ, és amellett az átvitel költségei, sebessége sem gátolja ahasználhatóságot.Az információ ezer alakban jelenhet meg, ám minden csatorna csak jól meghatá-rozott típusú, a csatornára nézve specifikus információkat tud továbbítani. Azüzenetet ezért mindig olyan jelekké kell átalakítanunk, amelyek a rendelkezé-sünkre álló csatornán átvihetők. A jelek átalakítását kódolásnak nevezzük. Ha

33

Page 35: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

egészen pontosak akarunk lenni, azt kell mondanunk, hogy a kommunikációbanmindig átkódolást végzünk, sőt legtöbbször az üzenetet két-háromszor is át ésvisszaalakítjuk (transzformáljuk). Ha például az információ forrása az ember,az első átkódolás akkor zajlik le, amikor a gondolatainkat, amelyek az agynaknevezett információfeldolgozó és tároló berendezésben valamilyen formában elvannak raktározva, szabályos nyelvi formába öntjük. A második akkor, ami-kor beszédhanggá alakítjuk. Adott kommunikációs szituációban legtöbbször akommunikációs láncnak csak egy szakaszát vizsgáljuk, s így teljes joggal beszél-hetünk az illető szakaszra vonatkozó kódolásról.

4.1. definíció. A kódolás az az eljárás, amely egy nyelv véges ábécéjéből kép-zett szavakat kölcsönösen egyértelmű módon hozzárendeli egy másik nyelv meg-határozott szavaihoz. A kódolással ellentétes eljárás a dekódolás.

A csatornakapacitás egyik meghatározása: az az információmennyiség, amelyetegy adott csatornán optimális kódolás mellett az időegység alatt át lehet vinni.Shannon azt is megállapította, hogy alkalmas kódolási eljárással zaj jelenlétébenis megvalósítható tetszőlegesen kis hibavalószínűségű információátvitel, ha azátvitel sebessége kisebb a csatorna kapacitásánál.A kódolásnak az információátvitelben kettős célja van. Egyrészt az üzenetet acsatornán átvihető alakra kell hozni, másrészt ezt úgy kell végrehajtani, hogy azüzenet minél gazdaságosabban, minél rövidebb idő alatt és minél kevesebb vesz-teséggel jusson el a csatorna másik végébe. (Az adatfeldolgozásban a kódolásnakmás céljai is vannak: az adatok tömörítése, titkosítása stb.).

4.2. megjegyzés. A kódolásnál elsőrendű követelmény a dekódolhatóság. Ha avevő nem tudja az üzenetet, nem lehet szó kommunikációról. A megfejtés akkorlehetséges, ha az üzenet egyértelműen dekódolható. Ennek szükséges, de nemelégséges feltétele, hogy a különböző közleményekhez rendelt kódközleményekkülönbözőek legyenek.

A legegyszerűbb kódolási eljárás a betűnkénti kódolás: a forrásközlemény min-den betűjéhez hozzárendeljük az illető betű kódját. Hiába különböznek azonbanaz egyes betűk kódjai egymástól, az üzenet attól még nem lesz egyértelműen de-kódolható. Ha ugyanis a jeleket egymás után írjuk, a jelsorozatot többféleképpenis felbonthatjuk. Ezen a bajon Morse úgy segített, hogy a betűk közé szüne-tet iktatott be. Az egyértelműséget azzal fizette meg, hogy hosszabbá tette azüzenetet. Baudot más megoldást választott: minden betűnek azonos hosszúsá-gú kódjelet feleltetett meg. Így az üzenetet egyértelműen tagolni lehet, viszontezzel a módszerrel is hosszabbá válik.A változó kódhossz sokkal gazdaságosabb, mivel lehetőség van arra, hogy fi-gyelembe vegyük a forrásábécé jeleinek gyakoriságát, s a gyakrabban előfordulójeleket rövidebb, a ritkábban előfordulókat hosszabb kódjelekkel kódoljuk. Ezttette Morse is: az angol nyelv betűgyakorisága alapján állította össze ábécéjét.A gazdaságosságnak van még egy feltétele: az, hogy a betűk minden elválasztásnélkül egyértelműen dekódolhatók legyenek. Ez a feltétel csak akkor teljesül, haúgynevezett prefix tulajdonságú kódot alkalmazunk.

34

Page 36: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

A hírközlés matematikai modelljében szereplő résztvevők tulajdonságainak aleírására és a feladat megoldására használjuk a következő fogalmakat.

4.3. definíció. Legyen X = x1, . . . , xn, amely véges halmaz tartalmazza aforrásábécé elemeit. Jelölje az X-ből készített véges sorozatok halmazát X .Ennek elemeit nevezzük forrásüzeneteknek.

4.4. megjegyzés. Tehát

X =∞∪k=1

Xk.

Természetesen minden a forrás által kibocsátott minden elem tekinthető való-színűségi változónak, azaz a forrásüzenet az egy valószínűségi változó sorozat.Sztochasztikus tulajdonságainak leírásához meg kell adni a sorozat együttes el-oszlását. Mint látni fogjuk, sokszor egyszerűsítjük ezt az általános esetet, hogy avéletlen leírása egyszerűbb legyen. A korábbi urnamodellünk is egy ilyen esetetír le.

4.5. definíció. A forrást emlékezetnélkülinek nevezzük, ha a valószínűségi vál-tozó sorozat teljesen független.

4.6. definíció. A forrást stacionáriusnak (stacionérnek) nevezzük, ha a való-színűségi változó sorozatban az eltolódással kapott véges dimenziós eloszlásokmegegyeznek, azaz (ξ1, ξ2, . . . , ξm) és (ξk+1, ξk+2, . . . , ξk+m) véletlen vektorokegyüttes eloszlása minden m, k ∈ N esetén megegyezik.

4.7. definíció. Legyen Y = y1, . . . , ys (s ≥ 2), amely halmaz tartalmazza akódábécé vagy csatornaábécé elemeit. Jelölje az Y -ból készített véges sorozatokhalmazát Y. Ennek elemeit nevezzük kódüzeneteknek.

4.8. megjegyzés. Tehát

Y =

∞∪k=1

Y k.

A forrásüzenetet át kell alakítanunk olyan formára, hogy továbbítható legyenaz ún. csatornán. Zajmentesnek nevezzük a csatornát, ha az üzenet továbbításközben nem történik változás (hiba), ekkor általában nem szükséges továbbiátalakítás. Viszont, ha a csatorna megváltoztathatja az üzenetet, akkor mégtörténik egy átalakítás, hogy ez a változás jelezhető illetve javítható legyen. Eztfogjuk csatornakódolásnak nevezni.

4.9. definíció. A kódolás az az eljárás, amely során a forrásüzenetekhez kód-üzenetet rendelünk hozzá, azaz megadunk egy

g : X → Y

függvényt.

35

Page 37: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.10. definíció. Betűnkénti kódolásnak nevezzük, ha

g : X → Y,

azaz a hozzárendelés a forrásüzenethez elemenként történik. A

g(x1), g(x2), . . . , g(xn)

a forrásábécé elemeihez rendelt kódszavak.

4.11. definíció. Blokkonkénti kódolásnak nevezzük, ha

g : Xk → Y,

ahol k ∈ N rögzített, azaz a hozzárendelés a forrásüzenethez blokkonként tör-ténik.

4.12. megjegyzés. Az Xk halmaz tekinthető forrásábécének, s így tekinthetőbetűnkénti kódolásnak is. Továbbá, ha

g : Xk → Y l,

ahol l ∈ N szintén rögzített, akkor blokkhoz blokkot rendelünk, ekkor a blok-kokhoz rendelt kódszavak hossza megegyezik, azaz állandó hosszúságú kódrólbeszélünk. Speciális eset a betűnkénti eset (k = 1).

4.13. megjegyzés. A kódok készítésénél természetesen sok szempontot szokásfigyelembe venni, amelyek közül a legfontosabb a dekódolhatóság. Mi itt csakaz egyértelműen dekódolható esetekkel foglalkozunk. Ha a g függvény kölcsö-nösen egyértelmű, akkor a kód egyértelműen dekódolható. Először a zajmentescsatorna esettel foglalkozunk, feltételezve, hogy a csatornán a betűk (jelek) azo-nos költséggel mennek át. Nem azonos költségű esetnek tekinthető például aMorse-kód, merta jelek nem azonos idejűek, azaz ha összeadjuk az időket, akkorazonos darabszám esetén is lehet az üzenet hossza különböző (additív költségűeset).

Tehát a következő esetekben az ún. zajmentes csatorna + betűnkénti kódolás+ azonos költségű esetekkel foglalkozunk, azaz

g : X → Y.

4.14. megjegyzés. g(xi) = Ki az xi betűhöz rendelt kódszó. Jelölje K akódszavak halmazát.

4.2. Sardinas-Patterson módszer

Először egy olyan módszerrel foglalkozunk, amely segítségével egy kódról eldönt-hető, hogy egyértelműen dekódolható.

36

Page 38: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Legyen K tetszőleges kód, amelyben a kódszavak különbözőek és nem üresek. AK ′′ szó a K ′ szó után következik, ha K ′′ = ∅ és létezik Ki ∈ K, hogy K ′K ′′ = Ki

vagy K ′ = KiK′′.

A K kódhoz rekurzíve megkonstruáljuk az Sm, m = 0, 1, 2, . . . halmazokat.Legyen S0 = K. Az Sm+1 halmazt az Sm halmaz szavai után következő szavakhalmazaként definiáljuk.

4.15. tétel. A X kód akkor és csak akkor egyértelműen dekódolható, ha az Si,(i ≥ 1) halmazok nem tartalmaznak kódszót, azaz S0 valamelyik elemét.

4.16. megjegyzés. A tétel bizonyításával nem foglalkozunk, mert absztrakt al-gebra nélkül a bizonyítás hosszadalmas. Egy ilyen megtalálható a [3] könyvben.Az absztrakt algebrai bizonyítás pedig a [4] könyvben.

4.17. példa.S0 S1 S2 S3 S4

10 1 0 01 ∅101 01001

Tehát egyértelműen dekódolható.

4.18. példa.S0 S1 S2 S3 S4

0 10 1 01 1010 0101

Tehát nem egyértelműen dekódolható hiszen a 0 ∈ S4 kódszó.

4.19. példa.S0 S1 S2 S3 S4 S5

a d eb de b adc bb cde bcdeadabbbaddebbbcde

Tehát nem egyértelműen dekódolható hiszen az ad ∈ S5 kódszó.

37

Page 39: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.20. példa.

S0 S1 S2 S3 S4 S5 S6

x1 010 1 100 11 00 01 0x2 0001 1110 110 011 10x3 0110 01011 110 001x4 1100 0 110x5 00011 0011x6 00110 0110x7 11110x8 101011

Tehát nem egyértelműen dekódolható hiszen az x3 = 0110 ∈ S6 kódszó.A 000110101111000110 kódüzenet például kétféleképpen is dekódolható:

x2x8x4x3

ésx5x1x7x6.

4.3. Keresési stratégiák és prefix kódok

Elképzelhető olyan keresési feladat, ahol egyszerre legfeljebb s ≥ 2 csoportróltudjuk egyetlen kísérletre eldönteni, hogy a keresett elem melyikben van.Absztrakt megfogalmazás: Legyen a keresett ξ dolog az X = x1, . . . , xn vé-ges halmaz valamelyik eleme. A ξ-t valószínűségi változónak tekintjük: pi =P (ξi = xi) a ξ eloszlása. A kesesési stratégiák definiálásához és áttekintéséhezfelhasználjuk a gráfos leírásukat.Fának nevezzük az olyan irányított gráfokat, melyek egy kitüntetett szögpont-jából, a kezdőpontból, ágak (irányított utak) indulnak ki, melyek a későbbiszögpontokban ismét elágaznak, de újra biztosan nem találkozhatnak. Azokata szögpontokat, melyekből további élek már nem indulnak ki, végpontoknaknevezzük. Mivel az ágak újra nem találkozhatnak, a kezdőpontot mindegyikvégponttal pontosan egy ág köti össze. Az ágat alkotó élek számát az ág hosszá-nak nevezzük.Tekintsünk egy n végpontú fát és rendeljük hozzá kölcsönösen egyértelmű mó-don a fa végpontjaihoz (ágaihoz) az n elemű X halmaz elemeit. Az ilyen módoncimkézett végpontú fát az X halmaz kódfájának nevezzük. Ha a kódfa min-den szögpontjához az X halmaznak azt az A részhalmazát rendeljük hozzá,amely a szögponton áthaladó ágak végpontjaihoz tartozó elemekből áll, akkorolyan megfeleltetést kapunk a szögpontok és az X bizonyos részhalmazai kö-zött, hogy bármelyik szögponthoz rendelt halmaz a szögpontból kiinduló élekvégpontjaihoz tartozó, páronként diszjunkt halmazok egyesítése. Látható, hogyaz X halmaz olyan kódfája, ahol minden szögpontból legfeljebb s él indul ki

38

Page 40: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

egy s alternatívás keresési stratégiát definiál. Ez a megfeleltetés kölcsönösenegyértelmű.Ha ξ = x, akkor a megtaláláshoz szükséges lépések száma az x végpontba vezetőág L(x) hossza. A feladat az

L =n∑

i=1

L(xi)P (ξ = xi)

várható lépésszám minimalizálása. Mivel egy lépéssel legfeljebb log2 s mennyi-ségű információt nyerhetünk és a hiányzó információ H(ξ), ezért várhatóan Lnagyobb lesz, mint

H(ξ)

log2 s.

4.21. tétel. Az s alternatívás keresési stratégiára

L =n∑

i=1

L(xi)P (ξ = xi) ≥H(ξ)

log2 s.

Bizonyítás. Tekintsünk egy tetszőleges kódfát, és legyen A a kódfa olyan szög-pontja, amely nem végpont. Jelölje B1, B2, . . . , Bj (j ≤ s) az A-ból kiindulóélek végpontjait. A megfelelő halmazokat is jelöljük ugyanígy. Legyen

P (A) =∑x∈A

P (ξ = x),

ekkor a pi = P (ξ = xi) valószínűséget az xi végponthoz vezető ág minden, avégponttól különböző szögpontjához odaírva, és áganként összegezve közvetlenülkapjuk, hogy

L =∑

P (A),

ahol az összegzést a végpontoktól különböző szögpontokra kell elvégezni.Mivel P (A) éppen annak a valószínűsége, hogy a keresés során eljutunk az Aszögpontba, az A szögpontban végzendő kísérlet B1, B2, . . . , Bj kimeneteinekvalószínűsége rendre P (B1|A), P (B2|A), . . . , P (Bj |A), ahol

P (Bi|A) =P (Bi)

P (A).

Ennek a kísérletnek az entrópiája tehát

HA =−j∑

i=1

P (Bi)

P (A)log2

P (Bi)

P (A)=

=− 1

P (A)(P (Bi) log2 P (Bi)− P (A) log2 P (A)) .

Számoljuk ki a ∑P (A)HA

39

Page 41: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

mennyiséget, ahol az összegzést a kódfa végponttól különböző szögpontjaira kellelvégezni. A felbontás azt mutatja, hogy ebben az öszzegben, a kezdőpont és avégpont kivételével minden szögponthoz a

P (C) log2 P (C)

kifejezés egyszer pozitív, egyszer negatív előjelű, mert C egyszer A típusú egy-szer pedig B típusú.Tehát az összegzés

∑P (A)HA = −

n∑i=1

pi log2 pi + P (X) log2 P (X) = H(ξ).

Viszont az entrópia tulajdonságai alapján

HA ≤ log2 s.

TehátH(ξ) =

∑P (A)HA ≤ log2 s

∑P (A) = L log2 s,

amelyből adódik az állítás. ⋄

4.22. megjegyzés. Jól látható, hogy az alsó korlátot akkor közelítjük meg, haminden lépésben az egyenletes elszláshoz közel eső s alternatívás lépést alkal-mazunk.

Jelölés: A g kódolás esetén ||g(xi)|| = Li a g(xi) kódszó hossza.

4.23. definíció. A K kód prefix, ha a kódszavak mind különbözőek és egyikkódszó sem folytatása a másiknak.

4.24. megjegyzés. Az állandó kódhosszú kód mindig prefix, ha a kódszavaikülönbözőek. A prefix kódhoz kódfa rendelhető, s így közvetlen kapcsolatbanvan a keresési stratégiákkal.

4.25. tétel. Minden prefix kód egyértelműen dekódolható.

Bizonyítás. A K kód prefix, azaz a kódszavak mind különbözőek és egyik kód-szó sem folytatása a másiknak. Tételezzük fel, hogy létezik egy üzenet, amelykétféleképpen dekódolható. Az ilyen üzenetek között van legrövidebb, s ekkorfeltételezve, hogy létezik két különböző kódszavakra bontás, az első kódszavak-nak rögtön különbözőknek kell lenniük. Viszont ekkor az egyik folytatása amásiknak (egyforma hosszúak nem lehetnek). Ez ellentmond annak, hogy a kódprefix. ⋄

4.26. megjegyzés. A Sardinas-Patterson módszer alkalmazása esetén prefixkódra S1 = ∅.

40

Page 42: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.27. lemma. A kódfák és a prefix kódok között kölcsönös egy-egyértelmű meg-feleltetés van.

4.28. megjegyzés. A prefix kód átlagos kódhossza nem lehet kisebb, mint

H(ξ)

log2 s.

4.29. tétel. (Kraft-Fano egyenlőtlenség.) Ha K = K1, . . . ,Kn s számúkódjelből készített prefix kód, akkor

n∑i=1

s−Li ≤ 1,

ahol Li a Ki kódszó hossza.

Bizonyítás. Legyen m = max1≤i≤n Li. Minden kódszót egészítsünk ki m hosszú-vá. Li kiegészítése sm−Li-féleképpen lehetséges. Tehát

n∑i=1

sm−Li ≤ sm,

amelyből adódik az állítás. ⋄

4.30. tétel. (Kraft-Fano egyenlőtlenség megfordítása.) Ha az

L1, . . . , Ln

természetes számok eleget tesznek a

n∑i=1

s−Li ≤ 1

egyenlőtlenségnek, ahol s ≥ 2 természetes szám, akkor létezik s kódjelből alkotottK = K1, . . . ,Kn prefix kód, melynél a Ki kódszó hossza éppen Li.

Bizonyítás. Legyen m = max1≤i≤n Li, ekkor

n∑i=1

sm−Li ≤ sm.

Legyen a K∗ teljes kódfa, amelyben minden ág m hosszú. Válasszunk ki egyágat, amelyből m− L1 élet elhagyunk stb. Teljes indukcióval adódik az állítás.⋄

41

Page 43: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.4. Shannon-Fano kód

Bár Shannon nevét általában az információmennyiség meghatározásával kapcso-latban szokták legtöbbször emlegetni, információelméleti munkáiban a kódoláselvi kérdéseit is tisztázta, sőt eljárást is kidolgozott az optimális kódolásra. Ashannoni tétel kimondja, hogy valamely meghatározott kódábécé esetén egy éscsakis egy olyan ábrázolási mód van, amely adott mennyiségű információt alehető legkevesebb jellel fejez ki. Ez az optimális kód. Ha az üzenetet többjellel fejezzük ki, redundánssá válik. Ez történik például, amikor egy olyan ábé-cét kell bináris kódra átírnunk, amelyben a betűk száma nem kettőnek egészszámú hatványa. Egy 26 betűs ábécét csak 5 bináris számjeggyel írhatunk át.A látszólagos információmennyiség tehát 5 bit, holott egy betűhöz csak 4.65bit tényleges információmennyiség tartozik. A parazita információk arányátcsökkenthetjük, ha a betűket nem egyenként, hanem blokkonként, kettesével,hármasával stb. kódoljuk. Ekkor azonban a kód egyre bonyolultabbá válik ésnő a kódolás költsége.

4.31. tétel. Létezik prefix kód, hogy

L <H(P)

log2 s+ 1.

Bizonyítás. A bizonyítás konstruktív és az elkészített kódot Shannon-Fanokódnak nevezzük.Most pedig nézzük, hogy az algoritmus milyen lépésekből áll.Legyen

P = p1, p2, . . . , pn, pi > 0, (i = 1, . . . , n),n∑

i=1

pi = 1

tetszőleges forráseloszlás.Ekkor a lépések a következők:

1. Rendezzük a valószínűségeket csökkenő sorrendbe:

p∗1 ≥ p∗2 ≥ · · · ≥ p∗n > 0.

2. Képezzük az x∗i (i = 1, . . . , n) értékeket a következőképpen:

x∗1 = 0, x∗

2 = p∗1, x∗3 = p∗1 + p∗2, . . . , x

∗n = p∗1 + · · ·+ p∗n−1.

3. Ábrázoljuk ezen értékeket a [0, 1) intervallumon és osszuk fel a [0, 1) in-tervallumot s egyenlő részre (s a kódábécé elemeinek száma).

4. Azokat az intervallumokat, melyek egynél több xi értéket tartalmaznakosszuk fel újra egészen addig míg mindegyik x∗

i más intervallumba nemkerül.

42

Page 44: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5. A g(x∗i ) kódszó az s−1, s−2, . . . , s−k hosszúságú intervallumok megfelelő

sorszámából áll, amelyekben x∗i benne van, ahol k a kódszó hossza, illetve

az osztáslépések száma.

A konstrukcióból látszik, hogy prefix kódot kapunk.Megmutatjuk, hogy

p∗i < s−Li+1,

ahol Li = ||g(x∗i )||.

Az x∗i értéket tartalmazó utolsó előtti, s−Li+1 hosszúságú intervallumban leg-

alább még egy pont van, azaz az x∗i−1 és az x∗

i+1 közül legalább az egyik. Mivela p∗i−1 ≥ p∗i , így mindenképpen igaz, hogy

p∗i < s−Li+1.

Képezzük mindkét oldal logaritmusát, majd negatívját és összegezzük mindeni-re, akkor kapjuk, hogy

H(P) = −n∑

i=1

pi log2 pi > log2 s

n∑i=1

pi(Li − 1) = (L− 1) log2 s.

Ezzel az állítást bizonyítottuk. ⋄

4.5. Gilbert-Moore kód

Nagyméretű forrásábécé esetén a sorbarendezés költsége magas lehet. Erre admegoldást a következő kód, amelynél nincs szükség sorbarendezésre.

4.32. tétel. Létezik prefix kód, hogy

L <H(P) + 1

log2 s+ 1.

Bizonyítás. A bizonyítás konstruktív és az elkészített kódot Gilbert-Moorekódnak nevezzük.Most pedig nézzük, hogy az algoritmus milyen lépésekből áll.Legyen

P = p1, p2, . . . , pn, pi > 0, (i = 1, . . . , n),n∑

i=1

pi = 1

tetszőleges forráseloszlás.Ekkor a lépések a következők:

43

Page 45: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.2. ábra. Példa a Shannon-Fano kódolásra (intervallumfelosztás)

4.3. ábra. Példa a Shannon-Fano kódolásra (kódfa)

44

Page 46: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.4. ábra. Példa a Shannon-Fano kódolásra (kód)

4.5. ábra. Példa a Shannon-Fano kódolásra (intervallumfelosztás)

45

Page 47: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.6. ábra. Példa a Shannon-Fano kódolásra (kód)

1. Képezzük az x∗i (i = 1, . . . , n) értékeket a következőképpen:

x∗1 =

p12, x∗

2 = p1 +p22, x∗

3 = p1 + p2 +p32, . . . , x∗

n = p1 + · · ·+ pn−1 +pn2.

2. Ábrázoljuk ezen értékeket a [0, 1) intervallumon és osszuk fel a [0, 1) in-tervallumot s egyenlő részre (s a kódábécé elemeinek száma).

3. Azokat az intervallumokat, melyek egynél több xi értéket tartalmaznakosszuk fel újra egészen addig míg mindegyik x∗

i más intervallumba nemkerül.

4. A g(x∗i ) kódszó az s−1, s−2, . . . , s−k hosszúságú intervallumok megfelelő

sorszámából áll, amelyekben x∗i benne van, ahol k a kódszó hossza, illetve

az osztáslépések száma.

A konstrukcióból látszik, hogy prefix kódot kapunk.Megmutatjuk, hogy

pi2

< s−Li+1,

ahol Li = ||g(x∗i )||.

Az x∗i értéket tartalmazó utolsó előtti, s−Li+1 hosszúságú intervallumban leg-

alább még egy pont van, azaz az x∗i−1 és az x∗

i+1 közül legalább az egyik. Tehát

46

Page 48: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

mindenképpen igaz, hogypi2

< s−Li+1.

Képezzük mindkét oldal logaritmusát, majd negatívját és összegezzük mindeni-re, akkor kapjuk, hogy

H(P) = −n∑

i=1

pi log2 pi > log2 sn∑

i=1

pi((Li − 1)− 1) = (L− 1) log2 s− 1.

Ezzel az állítást bizonyítottuk. ⋄

4.7. ábra. Példa a Gilbert-Moore kódolásra (intervallumfelosztás)

47

Page 49: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.8. ábra. Példa a Gilbert-Moore kódolásra (kódfa)

4.9. ábra. Példa a Gilbert-Moore kódolásra (kód)

48

Page 50: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.10. ábra. Példa a Gilbert-Moore kódolásra (intervallumfelosztás)

4.11. ábra. Példa a Gilbert-Moore kódolásra (kódfa)

49

Page 51: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.12. ábra. Példa a Gilbert-Moore kódolásra (kód)

4.6. Hatásfok

4.33. definíció. Az egyértelműen dekódolható kód hatásfoka:

γ =H(P)

L log2 s.

4.34. definíció. A kódot optimálisnak nevezzük, ha egyértelműen dekódolhatóés maximális hatásfokú.

4.35. tétel. Adott P eloszlású forrásábécé s számú kódjelből alkotott egyértel-műen dekódolható kódjai között mindig van optimális.

4.7. Huffmann-kód

Huffmann-kód – maximális hatásfokú prefix kód.Tulajdonságok:1. Monotonitás. Ha p1 ≥ p2 ≥ · · · ≥ pn, akkor L1 ≤ L2 ≤ · · · ≤ Ln.

2. A kódfa teljessége. Legyen m = Ln, ekkor minden m− 1 hosszúságú kódjel-sorozat ki van használva a kódolásnál, azaz maga is kódszó vagy egy rövidebbkódszó kiegészítéséből adódik, vagy pedig az egyik kódjel hozzáírásával valame-lyik m hosszúságú kódszót kapjuk belőle. Ha volna kihasználatlan ág, akkor

50

Page 52: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

azt választva ismét prefix kódot kapnánk, melynek viszont kisebb az átlagoskódhossza.

4.36. megjegyzés. Optimális, bináris kódfa teljes.

3. Ln = Ln−1 és az utolsó kódjelüktől eltekintve azonosak.

4.37. megjegyzés. Összevonási algoritmus. Az optimális kódfa minden vég-ponttól különböző szögpontjából s él indul ki, kivéve esetleg egy végpont előttiszögpontot, amelyből r él megy tovább, ahol 2 ≤ r ≤ s. Ekkor

n = k(s− 1) + r.

A teljes kódfánál r = s. Tehát az első összevonási lépésben az r legkevésbé való-színű elemet kell összevonni, míg az összes többiben az s legkevésbé valószínűt.

4.13. ábra. Példa Huffman-féle kódolásra 1. változat

51

Page 53: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.14. ábra. Példa Huffman-féle kódolásra 2. változat

4.8. McMillan-dekódolási tétel

4.38. tétel. (McMillan-dekódolási tétel.) Ha g : X → Y egyértelműendekódolható, akkor

n∑i=1

s−||g(xi)|| ≤ 1.

Bizonyítás. Jelölje W (N,L) azon N hosszúságú közleményeknek a számát,melyek kódközleményének a hossza éppen L.

m := max1≤i≤n

Li.

A bizonyítás lépései (vázlat):1. A kód egyértelműen dekódolható.

W (N,L) ≤ sL, azaz W (N,L)s−L ≤ 1.

TehátmN∑L=1

W (N,L)s−L ≤ mN.

2. Teljes indukcióval bizonyítjuk, hogy

mN∑L=1

W (N,L)s−L =

(n∑

i=1

s−Li

)N

.

52

Page 54: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.15. ábra. Példa Huffman-féle kódolásra 3. változat

53

Page 55: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.16. ábra. Példa a Huffman kódolásra

4.17. ábra. Példa a Huffman kódolásnál az eloszlás ellenőrzésére

54

Page 56: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.18. ábra. Példa a Huffman kódolásra 1. rész

4.19. ábra. Példa a Huffman kódolásra 2. rész

55

Page 57: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

3. Ha c és m adott pozitív számok, akkor az

(1 + c)N ≤ mN

egyenlőtlenség nem teljesülhet minden N természetes számra, így

n∑i=1

s−Li ≤ 1.

4.39. tétel. Egyértelműen dekódolható kód esetén

L ≥ H(P)

log2 s.

Bizonyítás. Legyen

qi :=s−Li

n∑j=1

s−Lj

.

Ekkor0 ≥ −D(Q||P).

4.40. tétel. Bármely egyértelműen dekódolható kód helyettesíthető egy másikugyanolyan kódhosszúságú kóddal, amely viszont már prefix kód.

Bizonyítás. A McMillan dekódolási tétel szerint egyértelműen dekódolhatókódra teljesül a Kraft-Fano egyenlőtlenség. A Kraft-Fano megfordítása szerintviszont létezik olyan prefix kód amelyiknek pontosan ezek a kódhosszai. ⋄

4.41. megjegyzés. Az előző tétel szerint az optimális egyértelműen dekódol-ható kódhoz létezik ugyanilyen prefix, így az optimális prefix optimális az egy-értelműen dekódolható kódok között is.

4.9. Blokkos kódolás, tömörítés, stacionér forrásentrópiája

Blokkos kódolás, azazg : Xk → Y,

esetén jelölje P(k) az együttes eloszlást és L(k) az átlagos kódhosszot.Az egy betűre jutó átlagos kódhossz pedig legyen

L =L(k)

k.

56

Page 58: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Az optimális kódra:

H(P(k))

log2 s≤ L(k) ≤ H(P(k))

log2 s+ 1.

Emlékezetnélküli, stacionárius forrás esetén a függetlenségből

H(P(k)) = kH(P),

s ígyH(P)

log2 s≤ L ≤ H(P)

log2 s+

1

k.

A következőkben egy stacionér forrás entrópiájával foglalkozunk, mert enneksegítségével tudjuk megadni a korlátokat általános esetben.

4.42. tétel. H(ξ|η) ≤ H(ξ|f(η)).

Bizonyítás. z jelölje f(η) egy lehetséges értékét, és legyen

py =P (ξ = x, η = y)

P (ξ = x, f(η) = z), qy =

P (η = y)

P (f(η) = z).

Ekkor py és qy is egy eloszlást ad, ha y felveszi azokat az értékeket, amelyref(y) = z, azaz y ∈ f−1(z). Az I-divergencia tulajdonságai alapján:∑

f(y)=z

py log2pyqy

≥ 0,

azaz ∑f(y)=z

P (ξ = x, η = y)

P (ξ = x, f(η) = z)log2

P (ξ = x, η = y)P (f(η) = z)

P (ξ = x, f(η) = z)P (η = y)≥ 0.

Szorozzuk be a P (ξ = x, f(η) = z) közös nevezővel és bontsuk fel a logaritmusta következőképpen:

∑f(y)=z

P (ξ = x, η = y) log2P (ξ = x, η = y)

P (η = y)+

+∑

f(y)=z

P (ξ = x, η = y) log2P (f(η) = z)

P (ξ = x, f(η) = z)≥ 0.

∑f(y)=z

P (ξ = x, η = y) log21

P (ξ = x|f(η) = z)≥

≥∑

f(y)=z

P (ξ = x, η = y) log21

P (ξ = x|η = y).

57

Page 59: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

P (ξ = x, f(η) = z) log21

P (ξ = x|f(η) = z)≥

≥∑

f(y)=z

P (ξ = x, η = y) log21

P (ξ = x|η = y).

Ez minden ξ = x és f(y) = z esetén teljesül. Végezzül el a∑x

∑z

összegzést

ezekre az egyenlőtlenségekre. Mivel

H(ξ|η) =∑y

P (η = y)∑x

P (ξ = x|η = y) log21

P (ξ = x|η = y),

így igazoltuk az állítást. ⋄

4.43. tétel. Stacionér forrás esetén a

limk→∞

H(P(k))

k

határérték létezik.

Jele: H⋆

Bizonyítás. Tudjuk, hogy a forrás stacionér és

H(ξ, η) = H(η) +H(ξ|η),

ezért

H(P(k)) = H(ξ1, . . . , ξk) = H(ξ2, . . . , ξk) +H(ξ1|ξ2, . . . , ξk) == H(ξk) +H(ξk−1|ξk) + · · ·+H(ξ1|ξ2, . . . , ξk) == H(ξ1) +H(ξ1|ξ2) + · · ·+H(ξ1|ξ2, . . . , ξk) =

= H(ξ1) +

k∑i=2

H(ξ1|ξ2, . . . , ξi).

A (ξ2, . . . , ξi) véletlen vektor függvénye a (ξ2, . . . , ξi+1) véletlen vektornak, ezért

H(ξ1) ≥ H(ξ1|ξ2) ≥ · · · ≥ H(ξ1|ξ2, . . . , ξk).

H(P(k)) = H(ξ1) +k∑

i=2

H(ξ1|ξ2, . . . , ξi) ≥ kH(ξ1|ξ2, . . . , ξk+1).

Tehát

H(P(k+1)) = H(P(k)) +H(ξ1|ξ2, . . . , ξk+1) ≤k + 1

kH(P(k)).

58

Page 60: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

EkkorH(P(k+1))

k + 1≤ H(P(k))

k.

Tehát a sorozat monoton csökkenő és alulról korlátos, s így létezik a határérték.⋄

4.44. definíció. A H⋆ mennyiséget a forrás átlagos entrópiájának nevezzük.

4.45. megjegyzés. Emlékezetnélküli esetben H⋆ = H(P), egyébként H⋆ ≤H(P).

Tekintsünk egy csatornát, amelybe bemennek a kódjeleink (jelölje általánosan ξ)és kijönnek a jelek (jelölje általánosan η). Kérdés mennyi információmennyiségérkezett meg az elküldöttből, azaz az η mennyit mond el a ξ-ről. Ez nyilván akölcsönös információmennyiség. Ezután a csatornakapacitás (emlékezetnélkülieset):

C = maxQ

I(ξ, η).

4.46. megjegyzés. Mivel az eloszlások korlátos, zárt halmazt alkotnak, így amaximum létezik. Legyen C a kapacitás, L az átlagos kódhossz. Ha H(P) ≤ LC,akkor továbbíthatjuk a forrás által szolgáltatott közleményeket.

4.47. megjegyzés. Zajmentes és emlékezetnélküli csatorná esetén ξ = η, ezért

C = log2 s.

4.48. megjegyzés. Bináris szimmetrikus csatorna:

C = 1−H(p, q).

Milyenek a bemeneti illetve kimeneti eloszlások?

4.49. tétel. (A zajmentes hírközlés alaptétele.) Ha a H⋆ entrópiájú sta-cionárius forrás közleményeit C kapacitású zajmentes csatornán továbbítjuk, ak-kor nincsen olyan egyértelműen dekódolható blokkonkénti kódolási eljárás, mely-nél

L <H⋆

C,

ha viszont R > H⋆, akkor létezik olyan blokkhossz, hogy

L <R

C.

59

Page 61: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.20. ábra. Bináris szimmetrikus csatorna

60

Page 62: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.21. ábra. Bináris szimmetrikus csatorna kapacitása a valószínűség függvényé-ben

61

Page 63: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.50. megjegyzés. A McMillan-particionálási tétel szerepe: 1. Felhasználhatóállandó kódhosszú kód tervezéséhez. 2. Gyakorlati szempont: megfelelő az olyankódolás is, amelynél annak valószínűsége, hogy egy kódszó dekódolásánál hibátkövetünk el kisebb, mint egy előre megadott δ > 0 szám. Az ilyen kódolásieljárást 1− δ megbízhatósággal dekódolhatónak nevezzük.

4.51. megjegyzés. A jegyzetnek nem feladata kompresszióval, tömörítésselfoglalkozni, de közvetlenül kapcsolódik a blokkos kódoláshoz. Kompressziórólbeszélünk, ha a forrásüzenetet úgy kódoljuk, hogy a kódüzenet rövidebb, mintaz eredeti. Erre biztosíték ha pl.

X = Y,

mert ekkor az entrópia tulajdonságai alapján

1 ≥ H(P)

log2 s.

A következő példák mutatják, hogy milyen lehetőségeink vannak független (em-lékezetnélküli) és függő esetben.

4.22. ábra. Példa blokkos kódoláshoz 1.

62

Page 64: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.23. ábra. Példa blokkos kódoláshoz 2.

4.24. ábra. Példa blokkos kódoláshoz 3.

63

Page 65: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4.10. Feladatok

1. Egyértelműen dekódolható-e az alábbi kód:

K = cdc, cccd, cddc, ddcc, cccdd, ccddc, ddddc, dcdcdd,

ahol K a kódszavak halmaza? Ha nem, akkor adjon meg két forrásüzenetet,amelynek megegyezik a kódja!2. Egyértelműen dekódolható-e az alábbi kód:

K = abc, abcd, e, dba, bace, ceac, ceab, eabd,

ahol K a kódszavak halmaza?

3. Az n és s milyen pozítív egész értékeire teljesülhet az 1 =

n∑i=1

s−Li egyenlőség,

ahol az Li értékek alkalmasan választott természetes számok?4. A Kraft-Fano egyenlőtlenség alapján bizonyítsa be, hogy létezik prefix kód,amelyre az L átlagos kódhossz olyan, hogy

L ≤ H(ξ)

log2 s+ 1,

ahol H(ξ) a forrásábécé eloszlásának az entrópiája és s a kódábécé elemeinek aszáma!5. Bizonyítsa be, hogy a Q eloszlású Z forrásábécé d számú kódjelből alkotottegyértelműen dekódolható kódolásai között mindig van optimális kódolás!6. Egyértelműen dekódolható-e az alábbi kód:

K = 123, 321, 32, 011, 02, 023, 33, 3323, 22,

ahol K a kódszavak halmaza?7. A Kraft-Fano egyenlőtlenség alapján bizonyítsa be, hogy minden prefix kódra

L ≥ H(P)

log2 s,

ahol L az átlagos kódhossz, H(P) a forrásábécé eloszlásának az entrópiája és sa kódábécé elemeinek a száma!8. Egyértelműen dekódolható-e az alábbi kód:

K = 0, 11, 21, 20, 220, 2220, 12200, 12210, 121, 10,

ahol K a kódszavak halmaza?9. A P = 0.51, 0.18, 0.12, 0.09, 0.05, 0.04, 0.01 eloszláshoz határozza meg aShannon-Fano bináris kódot! Határozza meg az átlagos kódhosszot és hasonlítsaössze az entrópiából adódó alsó korláttal!

64

Page 66: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

10. A P = 0.31, 0.15, 0.18, 0.07, 0.08, 0.09, 0.12 eloszláshoz határozza meg aHuffmann-féle kódot és az optimális kód hatásfokát, ha a kódábécé Y = 1, 2, 3!

11. A P = 38,1

8,1

6,1

8,1

12,1

8 eloszláshoz határozza meg a Gilbert-Moore kó-

dot, ha a kódábécé 0, 1, 2! Határozza meg a kód hatásfokát!12. A P = 0.51, 0.18, 0.12, 0.09, 0.05, 0.04, 0.01 eloszláshoz határozza meg aGilbert-Moore kódot és az átlagos kódhosszot, ha a csatornaábécé 0, 1!13. A

P = 0.2, 0.18, 0.1, 0.1, 0.1, 0.061, 0.059, 0.04, 0.08, 0.04, 0.03, 0.01

eloszláshoz határozza meg a Gilbert-Moore kód hatásfokát, ha a kódábécé Y =1, 2, 3!14. A

P = 0.2, 0.18, 0.1, 0.1, 0.1, 0.061, 0.059, 0.04, 0.04, 0.04, 0.04, 0.03, 0.01

eloszláshoz határozza meg az optimális kód hatásfokát, ha a kódábécé Y =1, 2, 3!15. A P = 0.51, 0.18, 0.12, 0.09, 0.05, 0.04, 0.01 eloszláshoz határozza megaz optimális kódot, ha a csatornaábécé 0, 1, 2! Határozza meg az átlagoskódhosszot és hasonlítsa össze az entrópiából adódó alsó korláttal!16. A P = 0.51, 0.12, 0.04, 0.09, 0.05, 0.01, 0.18 eloszláshoz határozza meg aHuffmann-féle kódot és az optimális kód hatásfokát, ha a kódábécé Y = 1, 2, 3!17. Bizonyítsa be, hogy a

P = 3−1, 3−1, 3−2, 3−2, 3−3, 3−3, 3−3,

eloszlású forrásábécének a 0, 1, 2 kódjelekből alkotott minden optimális prefixkódjára igaz az, hogy a csatorna kimenetelénél a kódjelek mind 3−1 valószínű-séggel fordulnak elő!18. Mutassa meg, hogy az X = x1, x2, . . . , x8 forrásábécének egyetlen olyanegyértelműen dekódolható bináris kódja van, ahol a maximális kódhossz háromés határozza ezt meg!19. Legyen az X forrásábécé eloszlása

P = 2−1, 2−2, 2−3, 2−4, 2−5, 2−5,

a kódolása pedigK = 1, 01, 001, 0001, 00001, 00000.

Igazolja, hogy egy véletlenszerűen választott közlemény kódolásához felhasznált0-k és 1-esek számának várható értéke megegyezik!20. Sorolja fel az összes olyan prefix és az összes olyan egyértelműen dekódolhatóbináris kódot, melyek kódhosszai 1, 2, 3, 3!

65

Page 67: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

21. Adott egy információforrás, amely az X = 0, 1 jeleket állítja elő P =

14,3

4 valószínűségekkel. Mennyi lesz az egy betűre jutó átlagos kódhossz 3

hosszúságú blokkok alkalmazása esetén? Milyen blokkhossz esetén lehetségeskompresszió?22. Adott egy információforrás, amely az X = a, b, c jeleket állítja elő P =

14,1

4,1

2 valószínűségekkel. Mennyi lesz az egy betűre jutó átlagos kódhossz

2 hosszúságú blokkok alkalmazása esetén? Milyen blokkhossz esetén lehetségeskompresszió?23. Adott egy információforrás, amely az X = a, b, c jeleket állítja elő P =

13,1

6,1

2 valószínűségekkel. Mennyi lesz az egy betűre jutó átlagos kódhossz

2 hosszúságú blokkok alkalmazása esetén? Milyen blokkhossz esetén lehetségeskompresszió?24. Legalább hány kódjelre van szükség az X = x1, x2, . . . , x8 forrásábécénekolyan prefix kódjának az elkészítéséhez, melynek a kódhosszai rendre 2, 2, 2, 4,4, 4, 4, 4.25. A P = 0.2, 0.15, 0.15, 0.1, 0.1, 0.1, 0.1, 0.1 eloszlású nyolcelemű X for-rásábécének készítse el a 0, 1 kódjelekből két olyan egyértelműen dekódolhatóoptimális kódját, melyek kódhosszai különbözőek!26. Sorolja fel az összes olyan prefix és az összes olyan egyértelműen dekódolhatóbináris kódot, melyek kódhosszai 1, 2, 3, 3!27. Adott egy információforrás, amely az X = 0, 1 jeleket állítja elő P =

13,2

3 valószínűségekkel. Mennyi lesz az egy betűre jutó átlagos kódhossz 3

hosszúságú blokkok alkalmazása esetén? Milyen blokkhossz esetén lehetségeskompresszió?28. A P = 0.47, 0.13, 0.12, 0.09, 0.09, 0.05, 0.04, 0.01 eloszláshoz határozzameg az optimális kódot, ha a csatornaábécé 0, 1, 2! Határozza meg az átlagoskódhosszot és a hatásfokot!29. A P = 0.47, 0.13, 0.12, 0.09, 0.09, 0.05, 0.04, 0.01 eloszláshoz határozzameg a Shannon-Fano kódot, ha a csatornaábécé 0, 1, 2! Határozza meg azátlagos kódhosszot és a hatásfokot!30. A P = 0.31, 0.15, 0.18, 0.07, 0.08, 0.09, 0.12 eloszláshoz határozza meg aHuffmann-féle kódot és az optimális kód hatásfokát, ha a kódábécé Y = 1, 2, 3!

4.11. Önellenőrző kérdések

1. Ismertesse a McMillan-dekódolási tételt!2. Ismertesse a McMillan-felbontási tételt!3. Mutassa meg, hogy az X = x1, x2, . . . , x8 forrásábécének egyetlen olyanegyértelműen dekódolható bináris kódja van, ahol a maximális kódhossz három!4. Bizonyítsa, hogy létezik maximális hatásfokú prefix kód!

66

Page 68: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5. Ismertesse a Kraft-Fano egyenlőtlenséget!6. Definiálja a prefix kódot!7. Ismertesse az optimális kód tulajdonságait!8. Ismertesse a zajmentes kódolás alaptételét!9. Definiálja a stacionér forrás entrópiáját!10. Definiálja egy kód hatásfokát!11. Bizonyítsa a maximális hatásfokú kód létezését!12. Bizonyítsa a stacionárius forrás entrópiájának a létezését!

67

Page 69: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5. fejezet

Csatornakapacitás

A csatorna tulajdonságai szempontjából az egyik legfontosabb tulajdonság acsatornakapacitás. A csatornakapacitás az elemenként ("betűnként") átvihetőinformáció mennyiségével egyenlő (s így a csatornakapacitás lényegében sebességjellegű mennyiség, ahol azonban a sebesség vonatkoztatási alapja nem az idő,hanem a "betű", noha a kettő ebből a szempontból összefügg). A csatornakapa-citás fogalmával függ össze a redundancia, amely a betűnként továbbított átlagosinformáció mennyiségét és a csatornakapacitást hasonlítja össze mennyiségileg,vagyis azt mondja meg, hogy mennyivel terjengősebb egy közlemény az elvbenlehetséges legrövidebb formánál. Maguk a kódok (szokás őket - mesterséges -nyelveknek is nevezni, így pl. idetartoznak a számítógépek programnyelvei),amelyekkel az információelmélet csökkenteni igyekszik a redundanciát, illetőlegnövelni a kölcsönös információt, több típusba sorolhatók aszerint, hogy hányelemet ("betűt") használnak fel a közlemények összeállításánál. Az ún. bináriskódokban, amelyeket elterjedten használnak a digitális számítógépekben, két"betű" van csak: a 0 és az 1. Az ún. kódoláselmélet az információelméletenbelül a különböző feltételeket teljesítő kódok konstruálásával foglalkozik. Ezek-re igyekszik általános módszereket kidolgozni. Shannon, az információelméletegyik úttörője általánosságban bebizonyította, hogy alkalmas kódolási eljárás-sal zaj jelenlétében is megvalósítható a hibátlan (pontosabban előírhatóan kishibavalószínűségű) információtovábbítás, ha sebessége kisebb a csatornakapaci-tásnál. Ez a tétel az információelmélet egyik alaptétele, maga a tétel azonbansemmit sem tartalmaz a implementációra vonatkozóan. Az információelméletgyakorlati feladata tehát az optimalizálásban ragadható meg. Ez egyrészt aköltségek csökkentését, másrészt pedig a hibamentesség növelését jelenti.Fizikai valójukban a csatornák nagyon sokfélék lehetnek: a levegő, a telefon-vezeték, az optikai üvegszál, az élőlények idegszálai, a könyv, a CD stb. Osz-tályozni is több szempontból lehet őket. A térbeli csatornák a tér valamelyikpontjából egy vagy több másik pontjába, az időbeli csatornák a T időponttól a(T +t) időpontba szállítják az információkat. Előbbiekre példa a telefonvezeték,utóbbiakra a CD. Természetesen ez a megkülönböztetés csak a lényegi jegyekre

68

Page 70: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

vonatkozik, mivel az információnak a térbeli csatornában is időre van szüksége,hogy célba jusson, a szóbeli csatornákon is lehet térben szállítani az információt.Az volna az eszményi, ha a csatorna kimeneteli oldalán mindig azt az informá-ciót kapnánk meg, amely a másik oldalán belépett, azaz a belépő xi jelnek akimenetelnél mindig yj jel felelne meg. Az ilyen - csak elméletben létező- ideáliscsatorna neve zajmentes csatorna. Sajnos a reális csatornák mindig zajosak,zaj minden olyan jelenség, amely a hírközlő csatornában "megtámadja" a hasz-nos információt, megcsonkítja, elnyomja, eltorzítja, legrosszabb esetben meg issemmisíti. Másképpen fogalmazva: zajos csatornánál a kilépő jel nem felel megmindig a belépő jelnek, hamis jelek keverednek az igaziak közé. Zaj példáulaz az elektromágneses rezgés, amely zavarja a rádióvételt, az utca zaja, amelyelnyomja a beszélgetőtársunk hangját, a sajtóhiba. A zajokat két csoportraoszthatjuk. A rendszertorzítás azonos jel esetén mindig azonos, és elvileg tel-jesen kiküszöbölhető. A csatorna- vagy csőzaj független a jeltől, rendszertelen,statisztikus jellege van, és teljesen sohasem szüntethető meg. (Tulajdonképpena zaj is információ, csak éppen nem az, amire szükségünk van, s nagyon sok-szor a kódját sem ismerjük. Az is előfordulhat, hogy valamely jelenség zaj egyszempontból, s értékes információ egy másikból. Például a légköri elektromosjelenségek a rádióhallgató és a légkör fizikáját kutató tudós szempontjából.)

5.1. definíció. Az információtovábbítás eszközeként definiáljuk a diszkrét em-lékezetnélküli csatornát (angol rövidítéssel DMC) a következőképpen:

- a csatorna bemenetén ütemenként egy szimbólumot fogad, és ütemenként egyszimbólum jelenik meg a kimenetén (szinkron működés);

- a bemeneti és a kimeneti szimbólumkészlet nem feltétlenül azonos, de mindkettőrögzített és véges számú elemet tartalmaz (diszkrét);

- ha a bemeneti szimbólumok egymástól függetlenek, akkor a kimeneti szimbó-lumok is függetlenek lesznek (emlékezet nélküli).

Az eddigiek alapján tudjuk, hogy zajmentes csatorna esetén az egy csatornajelre(kódábécébeli elemre) jutó átlagos információ átvitel megegyezik a kódábécéeloszlásához kapcsolódó entrópával, azaz H(Q), amely akkor maximális, ha ajelek eloszlása egyenletes. A forrás optimális kódolása ezt a maximális esetetpróbálja közelíteni. A következő szakaszban arra próbálunk választ adni, mitörténik akkor, ha a csatornajelek átviteli ideje nem azonos.

5.1. Zajmentes csatorna kapacitása nem azonos át-viteli idő esetén

Adott Y = y1, . . . , ys csatornaábécé esetén feltételezzük, hogy a jelek átviteliideje ismert illetve kísérleti úton megfelelő pontossággal meghatározható. Jelöljeaz időket T = t1, . . . , ts. Feltételezzük, hogy ti > 0 (i = 1, . . . , s).

69

Page 71: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ha egy információforrás jeleket bocsát ki, akkor azt kódolva keletkezik egy kód-üzenet (csatornaüzenet). Ekkor felmerülnek a következő kérdések: Egy adottkódolás esetén milyen gyorsan, milyen átlagos sebességgel továbbítja a csatornaaz üzenetet? Van-e az információtovábbításnak felső határa és ha van, mennyiaz?Nyilván a sebesség függ a kódolástól (a kódüzenet elemeinek az eloszlásától),ezért az a célunk, hogy a kódot úgy válasszuk meg, hogy az információtovábbítássebessége maximális legyen.Legyen a csatornaábécé betűinek eloszlása Q = q1, . . . , qs. Ha a csatornaüze-net hossza N, akkor egy kiválasztott jel, pl. yi várhatóan Nqi-szer fordul előés várhatóan −Nqi log2 qi mennyiségű információt továbbít. Ugyanez a teljesüzenetre

s∑i=1

Nqi log21

qi= NH(Q).

Hasonlóan a várható átviteli idő:s∑

i=1

Nqiti = Ns∑

i=1

qiti,

ebből az egy betűre jutó várható átviteli idő (jelölje τ)

τ =s∑

i=1

qiti.

5.2. definíció. Az információtovábbítás sebességének nevezzük a

v(Q) =H(Q)

τ

mennyiséget.

5.3. megjegyzés. Az előző definícióban szereplő mennyiség átlagsebesség.

5.4. definíció. Az információátviteli sebesség maximumát csatornakapacitás-nak nevezzük (jele: C), azaz

C = maxQ

v(Q),

ahol Q a csatornaábécé lehetséges eloszlása.

5.5. megjegyzés. Az eloszlások összessége az előző definícióban kompakt hal-mazt alkot és v(Q) folytonosan függ a Q eloszlástól, ezért létezik a szupremumaés azt fel is veszi.

5.6. tétel. Zajmentes, emlékezetnélküli (véges, diszkrét) csatorna esetén a csa-tornakapacitás a

s∑i=1

2−vti = 1

70

Page 72: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

egyenlet egyetlen v = C ≥ 0 megoldása. Ezt a

qi = 2−Cti (i = 1, . . . , s)

eloszlás realizálja.

Bizonyítás. Ha C megoldása az egyenletnek, akkor a tétel szerint megadotteloszlás és az átlagsebességre teljesül a következő:

v(Q) =H(Q)

τ=

s∑i=1

qi log21

qis∑

i=1

qiti

s∑i=1

qi log21

2−Cti

s∑i=1

qiti

=

s∑i=1

qiCti

s∑i=1

qiti

= C,

ahol az egyenlőség csak a tételben megadott eloszlás esetén teljesül.Tehát csak azt kell belátnunk, hogy C egyértelműen létezik. Az

f(v) =s∑

i=1

2−vti

függvény szigorúan monoton csökkenő. Továbbá,

f(0) = s > 1 és limv→+∞

f(v) = 0.

A folytonosság miatt létezik v = C, ahol f(C) = 1 és ez egyértelmű a szigorúmonotonitás miatt. ⋄

5.2. Shannon-Fano algoritmus, tetszőleges eloszlásesetén

Most nézzük, hogy mit kell tennünk, ha az intervallumok egyenletes felosztásahelyett a felosztást tetszőleges módon végezzük el.Legyen

P = p1, p2, . . . , pn, pi > 0, (i = 1, . . . , n),

n∑i=1

pi = 1

tetszőleges forráseloszlás, továbbá legyen

Q = (q1, q2, . . . , qk)

az optimális bemeneti eloszlás. Ekkor a lépések a következők:

71

Page 73: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.1. ábra. Példa csatornakapcitás numerikus meghatározására additív költségesetén

72

Page 74: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.2. ábra. Példa csatornakapcitás numrikus meghatározására additív költség ese-tén

73

Page 75: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

1. Rendezzük a P eloszlás valószínűségeit csökkenő sorrendbe;

2. Képezzük az xi(i = 1, . . . , n) értékeket a következőképpen:

x1 = 0, x2 = p1, x3 = p1 + p2, . . . , xn = p1 + · · ·+ pn−1;

(p1 ≥ p2 ≥ · · · ≥ pn > 0)

3. Ábrázoljuk ezen értékeket a [0, 1) intervallumon. Majd osszuk fel az [0, 1)intervallumot a qi valószínűségek arányában (i = 1, . . . , s) (s a kódábécéelemeinek száma);

4. Azokat az intervallumokat, melyek egynél több xi értéket tartalmaznakosszuk fel újra egészen addig míg mindegyik xi más intervallumba nemkerül;

5. A g(xi) kódszó az s−1, s−2, . . . , s−k hosszúságú intervallumok megfelelősorszámából áll, amelyekben xi benne van.

Mint észrevehetjük ez a megoldás csak az intervallumok felosztásának módjábantér el a korábban ismertetett eljárástól. Ezzel a módszerrel a kódolás additívköltség esetén is elvégezhető.Nézzünk egy példát az egyenletes esetre:

5.7. példa. Legyen p = (0.08, 0.36, 0.10, 0.20, 0.08, 0.08, 0.04, 0.04, 0.02) beme-neti eloszlás, valamint a kódábécé legyen K = A,B,C,D. A rendezés utánképezzük az xi értékeket, amire kapjuk:

(0.0, 0.36, 0.56, 0.66, 0.74, 0.82, 0.90, 0.94, 0.98).

Ekkor az xi értékekhez a generált kódszavak a következők:

K =

0.0 : A0.36 : B0.56 : CA0.66 : CC0.74 : CD0.82 : BD0.90 : DC0.94 : DDA0.98 : DDC

.

5.3. Zajos csatorna kapacitása

Bemeneti ábécé: Y = y1, . . . , ys.Kimeneti ábécé: Z = z1, . . . , zm.

74

Page 76: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

qj = P (ξ = yj), j = 1, 2, . . . , s,

ri = P (η = zi), i = 1, 2, . . . ,m,

tij = P (zi|yj),pij = tijqj ,

ri =

s∑j=1

tijqj , i = 1, 2, . . . ,m,

R = TQ.

A T = (tij) mátrixot adókarakterisztika vagy csatornamátrixnak nevezzük. Mígaz együttes eloszlás P = (pij) mátrixa az ún. átviteli mátrix.Csatornakapacitás:

C = maxQ

I(ξ, η).

5.8. megjegyzés. I(ξ, η) = H(R)−H(R|Q) = H(Q)−H(Q|R).

A zajos csatornák osztályozása a csatornamátrix alapján:1. H(Q|R) = 0 – veszteségmentes. A kimenet egyértelműen meghatározza abemenetet. Minden i esetén létezik j, hogy pij = ri.

2. H(R|Q) = 0 – determinisztikus. A bemenet egyértelműen meghatározza akimenetet. Minden j esetén létezik i, hogy pij = qj .

3. H(R|Q) = H(Q|R) = 0 – zajmentes. A bemenet és a kimenet egyértelműenmeghatározzák egymást. Ekkor tij = δij .

4. C = 0, azaz H(R|Q) = H(R) – használhatatlan. Pl. az oszlopok megegyez-nek.5. Szimmetrikus csatorna – a sorok és az oszlopok is ugyanazokból a vektorokbólépülnek fel.

T =

1

6

1

31

6

1

31

3

1

61

3

1

6

.

Szimmetrikus csatorna esténH(η|ξ = yj)

minden j esetén ugyanaz, így

H(η|ξ) = H(η|ξ = yj).

Tehát

C = maxQ

I(ξ, η) = maxQ

H(R)−H(R|Q) = log2 m−H(R|Q).

75

Page 77: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.9. megjegyzés. Ha a kimeneti eloszlás egyenletes, akkor a bemeneti is az.

Legyen s = m, azaz a bemeneti és kimeneti ábécé betűinek száma megegyezik.Jelölje Hk a csatornamátrix k-adik oszlopának entrópiáját, azaz Hk = H(η|ξ =yk). Ekkor a

C = maxQ

I(ξ, η)

szélsőérték feladatot kell megoldanunk a

s∑j=1

qj = 1

feltétel mellett, így a Lagrange-féle multiplikátoros módszert alkalmazhatjuk. ALagrange-függvény

L(Q, λ) =s∑

i=1

ri log21

ri+

s∑i=1

s∑j=1

pij log2 tij + λ

s∑j=1

qj − 1

.

Határozzuk meg a deriváltakat:

1. ri =

s∑j=1

qjtij , így

∂H(η)

∂qk=

s∑i=1

∂H(η)

∂ri

∂ri∂qk

=

= −s∑

i=1

(log2 ri +

1

ln 2

)tik =

= − 1

ln 2−

s∑i=1

tik log2 ri.

2. H(η|ξ) =s∑

j=1

qjHj , így

∂H(η|ξ)∂qk

= Hk.

Tehát a Lagrange-függvény deriváltjaiból adódó egyenletrendszer

∂L

∂qk= − 1

ln 2−

s∑i=1

tik log2 ri −Hk + λ = 0, k = 1, . . . , s,

∂L

∂λ=

s∑j=1

qj − 1 = 0.

76

Page 78: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

1. Az első s egyenlet mindegyikét szorozzuk meg a megfelelő qk valószínűséggelés adjuk őket össze. Ekkor

− 1

ln 2+

s∑i=1

ri log21

ri−∑k=1

qkHk + λ = 0.

EbbőlC = H(η)−H(η|ξ) = 1

ln 2− λ.

2. Meghatározzuk C =1

ln 2− λ értékét.

A Lagrange-függvény parciális deriváltjaiból adódó egyenleteket alakítsuk át akövetkezőképpen.

−Hk =s∑

i=1

(1

ln 2− λ+ log2 ri

)tik, k = 1, . . . , s.

Ez egy lineáris egyenletrendszernek tekinthető, amelynek az ismeretlenjei

ui =1

ln 2− λ+ log2 ri, i = 1, . . . , s.

A megoldás felírható

ui =1

ln 2− λ+ log2 ri = −

s∑k=1

Hkτki, i = 1, . . . , s,

alakban, ahol a (τki) mátrix a T mátrix inverze. Ekkor

2

s∑k=1

Hkτki

= ri2

1

ln 2− λ

, i = 1, . . . , s.

Összeadva az egyenleteket és alkalmazva a log2 függvényt azt kapjuk, hogy

log2

s∑i=1

2

s∑k=1

Hkτki

=1

ln 2− λ.

A lineáris egyenletrendszerből

2−C · 2−

s∑k=1

Hkτki

= ri, i = 1, . . . , s,

ahol C =1

ln 2− λ. Ezzel meghatároztuk az R kimeneti eloszlást. Az

R = TQ

lineáris egyenletrendszer megoldásával pedig meghatározható a Q bemeneti el-oszlás.

77

Page 79: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.10. megjegyzés. Ha létezik qk = 0, akkor problémás a megoldás első része.

5.11. megjegyzés. I(ξ, η) maximális (és ezért egyenlő a csatornakapacitással)akkor és csak akkor, ha a Q bemeneti eloszlás olyan, hogy

a)∂I

∂qk= λ minden k esetén, amikor qk = 0.

b)∂I

∂qk≤ λ minden k esetén, amikor qk = 0.

5.12. tétel. A létező megoldás egyértelmű és maximalizálja a kölcsönös infor-mációmennyiséget.

Bizonyítás. A csatornamátrix rögzített, ezért I(ξ, η) csak a bemeneti Q elosz-lástól függ. Jelölje: I(Q).

I(Q) konkáv függvénye a Q eloszlásnak.Legyen Q1 = q11, q12, . . . , q1s, Q2 = q21, q22, . . . , q2s, és

Q = ϑQ1 + (1− ϑ)Q2, ahol 0 ≤ ϑ ≤ 1.

H(R|Q) =s∑

j=1

qjHj =s∑

j=1

(ϑq1j + (1− ϑ)q2j)Hj =

= ϑs∑

j=1

q1jHj + (1− ϑ)s∑

j=1

q2jHj =

= ϑH(R1|Q1) + (1− ϑ)H(R2|Q2).

Ebből adódóan

I(Q) = H(Q)− ϑH(R1|Q1)− (1− ϑ)H(R2|Q2).

Viszont az entrópia konkáv, így I(Q) is konkáv. ⋄

5.13. lemma. Tegyük fel, hogy g : Rn → R konkáv az

S = (p1, . . . , pn)|pi ≥ 0, i = 1, 2, . . . , n ésn∑

i=1

pi = 1

halmazon. Ha g folytonosan differenciálható S belsejében és létezik

p∗i > 0 (i = 1, 2, . . . , n)

úgy, hogy∂g

∂pi|p=p∗ = 0, i = 1, 2, . . . , n és p∗ ∈ S,

ahol p = (p1, . . . , pn), p∗ = (p∗1, . . . , p

∗n), akkor a g függvény abszolút maximuma

az S halmazon g(p∗).

78

Page 80: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Bizonyítás. Tegyük fel, hogy g(p) > g(p∗). Legyen 0 < ϑ ≤ 1, akkor

g((1− ϑ)p∗ + ϑp)− g(p∗)

ϑ≥ (1− ϑ)g(p∗) + ϑg(p)− g(p∗)

ϑ=

= g(p)− g(p∗) > 0.

A feltételek alapján viszont

∂g

∂pi|p=p∗ = 0, i = 1, 2, . . . , n,

és így az iránymenti deriváltnak 0-hoz kellene tartani, ami ellentmondás. Tehátminden p ∈ S esetén g(p) ≤ g(p∗). ⋄

5.14. példa. Legyen a csatornamátrix

T =

(0.9 0.20.1 0.8

).

Ekkorq1 + q2 = 1,

r1 = 0.9q1 + 0.2q2,

r2 = 0.1q1 + 0.8q2,

H1 ≈ 0.4689956,

H2 ≈ 0.7219281.

A parciális deriváltakból adódó egyenletrendszer:

− 1

ln 2− 0.9 log2 r1 − 0.1 log2 r2 −H1 + λ = 0,

− 1

ln 2− 0.2 log2 r1 − 0.8 log2 r2 −H2 + λ = 0.

Átalakítva:

−H1 =

(1

ln 2− λ+ log2 r1

)0.9 +

(1

ln 2− λ+ log2 r2

)0.1,

−H2 =

(1

ln 2− λ+ log2 r1

)0.2 +

(1

ln 2− λ+ log2 r2

)0.8.

Legyen

u2 =1

ln 2− λ+ log2 r1,

u1 =1

ln 2− λ+ log2 r2.

79

Page 81: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ekkor

u2 ≈ −0.7941945,

u1 ≈ −0.4328624,

C = log2 (2u1 + 2u2) ≈ 0.397754.

Továbbá

2−C+u1 = r1 = 0.9q1 + 0.2q2,

2−C+u2 = r2 = 0.1q1 + 0.8q2,

r2 ≈ 0.4377112,

r1 ≈ 0.5622888,

q1 ≈ 0.517555,

q2 ≈ 0.48445.

5.4. Arimoto-Blahut algoritmus

Zajos csatorna kapacitásának kiszámítására általános módszert Arimoto [2] ésBlahut [6] adtak először egymástól függetlenül 1972-ben. A módszer ismertetéseelőtt nézzük milyen kifejezésekre lesz szükségünk.Legyen P = p1, . . . , pn a csatorna egy lehetséges bemeneti eloszlása, valamintQ = q1, . . . , qm eloszlás a csatorna kimenetén. Ha T az adókarakterisztikamátrix, akkor a P bemeneti eloszlásból a kimeneti eloszlást a TP mátrix-vektorszorzat adja. Bontsuk fel az adókarakterisztika mátrixot oszlopvektoraira és aT mátrix j-edik oszlopát jelölje Tj . Továbbá legyen

Dj(Q) = D(Tj ||Q) =

m∑i=1

tij logtijqi

.

Legyen P(0)pi > 0, (i = 1, . . . , n) tetszőleges eloszlás. Képezzük az alábbi ite-rációs formula alapján eloszlásoknak egy sorozatát, valamint konstansok egysorozatát:

p(N+1)j =

1

S(N)p(N)j eDj(TP(N)), j = 1, . . . ,m,

S(N) =m∑j=1

p(N)j eDj(TP(N)),

N = 0, 1, 2, . . .

Ekkor aP(0), P(1), P(2), . . .

80

Page 82: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

eloszlások sorozata konvergál valamely optimális csatornabemeneti eloszláshozés a

logS(0), logS(1), logS(2), . . .

konstansok sorozata alulról konvergál a csatorna C kapacitásához.

Bizonyítás. Legyen P∗ egy tetszőleges bemeneti eloszlás és

RQ(P∗) =m∑l=1

p∗jD(Qj ||P∗Q) = C(Q).

Arimoto eredeti bizonyítása alapján kapjuk a következőt:

D(P∗||P(k))−D(P∗||P(k+1)) =m∑l=1

p∗j log2p(k+1)j

p(k)j

=

m∑l=1

p∗jD(Qj ||P(k)Q)− log2

( m∑j=1

p(k)j 2D(Qj ||P(k)Q)

)= D(P∗Q||P(k)Q) +RQ(P∗)− log2

( m∑j=1

p(k)j 2D(Qj ||P(k)Q)

)≥ C(Q)− log2

( m∑j=1

p(k)j 2D(Qj ||P(k)Q)

)≥ C(Q)−RQ(P(k+1))

≥ 0 k = 0, 1, 2, . . .

Ebből következik, hogy

m∑k=1

[C(Q)−RQ(P(k))] ≤ D(P∗||P(0)) ≤ +∞,

mert C(Q) ≥ RQ(P(k)) bármely k ≥ 0-ra, és limk→∞[C(Q) − RQ(P(k))] = 0,ugyanis

limk→∞

RQ(P(k)) = C(Q).

Ezenfelül az is látszik, hogy

D(P∗||P(k)) ≥ D(P∗||P(k+1)) ≥ 0 k = 0, 1, 2, . . . .

Ennek következtében fennáll a következő határérték

limk→∞

D(P∗||P(k)) = α∗ ∈ R+, ∀P∗ ∈ P ′.

81

Page 83: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Legyen P(ik)ik ≥ k egy részsorozata a P(k) sorozatnak ∀k ≥ 0, melyre igaz akövetkező:

limk→∞

P(ik) = P.

Az RQ(p) függvény folytonosságából következik, hogy

RQ(P) = limk→∞

RQ(P(ik)) = C(Q).

A korábbi egyenlőségekből beláthatjuk, hogy

limk→∞

D(P||P(k)) = α ∈ R+.

Az előző egyenlőségek alapján

α = limk→∞

D(P||P(ik)) = D(P||P) = 0.

Ennélfogva azt kapjuk, hogy D(P||P(k)) → 0, továbbá P(k) → P, ha k → ∞. ⋄

Nézzünk pár egyszerű példát a csatornakapacitás meghatározására diszkrét, em-lékezetnélküli csatorna esetén. A következő példák megtalálhatóak a [3], illetvea [18] irodalomban.

5.15. példa. Legyen a csatorna adókarakterisztika mátrixa a következő:

T =

12

13

16 0 0 1

16

12

13 0 1 0

13

16

12 1 0 0

.

Ekkor C(Q) = log2 3 ≈ 1.5849625 és az optimális bemeneti eloszlás pedig

p = 0, 0, 0, 13,1

3,1

3.

Az algoritmus pedig a következő eredményeket szolgáltatja 10−11 pontossággal:

C(Q) = 1.5849624079, p =

0.00000001610.00000001430.00000000640.33333332470.33333332190.3333333166

Az eredmények előállításához 17 iterációra volt szükség.

82

Page 84: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.16. példa. Legyen a csatorna adókarakterisztika mátrixa

T =

0.1 0.3 0.4 0.20.3 0.4 0.2 0.10.4 0.2 0.1 0.30.2 0.1 0.3 0.4

.

Ez egy gyengén szimmetrikus, diszkrét, emlékezetnélküli csatorna. A csatornakapacitása

C(Q) = log2 4−H(0.1, 0.2, 0.3, 0.4) = 2 +3

10log2 3− log2 5 ≈ 0.15356065.

Az optimális bemeneti eloszlásra pedig igaz a következő:

P = P = (p1, p2, p3, p4)|p1 + p2 = 0.5, p3 = p1, p2 = p4.

Az Arimoto-Blahut algoritmussal kapott eredmények:

C(Q) = 0.1535606553, p∗ =

0.31010207550.18990900770.31010202690.1898868898

.

Az eredmények előállításához 116 iterációra volt szükség.

5.17. példa. Legyen a csatorna adókarakterisztika mátrixa

T =

0.04 0.11 0.05 0.05 0.23 0.07 0.03 0.02 0.05 0.160.06 0.21 0.13 0.19 0.04 0.18 0.23 0.24 0.14 0.330.26 0.04 0.20 0.22 0.17 0.39 0.17 0.15 0.37 0.030.40 0.40 0.36 0.42 0.08 0.07 0.50 0.33 0.32 0.170.24 0.24 0.26 0.12 0.48 0.29 0.07 0.26 0.12 0.31

.

A csatorna kapacitásaC(Q) = 0.36217799,

az optimális bemeneti eloszlás

p = 0, 0, 0, 0, 0.4954, 0, 0.5045, 0, 0, 0.

Az Arimoto-Blahut algoritmussal kapott eredmények pedig a következőek:

C(Q) = 0.3621779913,

p∗ = 0, 0, 0, 0, 0.4954129680, 0.0000025254, 0.5045845066, 0, 0, 0.

Az eredmények előállításához 3739 iterációra volt szükség.

83

Page 85: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.18. példa. Legyen a csatorna adókarakterisztika mátrixa

T =

0 β 1− β0 1− β β1 0 0

.

A csatorna kapacitása

C(Q) = log (1 + 21−H(β,1−β)).

Ha β = 0.5 akkor

C(Q) = log (1 + 21−H(0.5,0.5))

= log (1 + 21+(0.5 log 0.5+0.5 log 0.5))

= log (1 + 21+(−1)

= log (1 + 20) = log 2 = 1.

Az Arimoto-Blahut algoritmussal kapott eredmények pedig a következőek:

C(Q) = 1,

p∗ =

0.50.1250.375

.

Az eredmények előállításához 1 iterációra volt szükség.

5.19. példa.

T =

p2

1−p2

p2

1−p2

1−p2

p2

1−p2

p2

.

A csatorna kapacitása C(Q) = 1 − H(p, 1 − p). Ha p = 0.5, akkor C(Q) = 0.Legyen p = 0.2, ekkor

C(Q) = 1− [−(0.2 log 0.2 + 0.8 log 0.8)]

= 1 + (−0.464385− 0.257542)

= 1− 0.721928 = 0, 278071

Az Arimoto-Blahut algoritmussal kapott eredmények pedig a következőek:

C(Q) = 0.2780719051

ésp∗ = [0.5, 0.5].

Az eredmények előállításához 1 iterációra volt szükség.

84

Page 86: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.5. Iterációs módszer a relatív kapacitás megha-tározására (kiegészítő tananyag)

A szakasz kitekintést ad arra, hogyan lehetne az Arimoto-Blahut algoritmustáltalánosítani, ha zajos csatorna esetén a jelek különböző idő alatt mennek át,azaz additív költség esetén [14].

5.20. definíció. Relatív kapacitásnak nevezzük a csatornán ténylegesen átvittinformáció és a forrásentrópia hányadosát:

CR =I(P,Q)

H(P).

Legyen a P és P ′ bemeneti eloszlásvektorok halmaza a következőképpen defini-álva:

P =

P = (p1, . . . , pn); pi > 0 (i = 1, . . . , n),

n∑i=1

pi = 1

és

P ′ =

P = (p1, . . . , pn); pi ≥ 0(i = 1, . . . , n),

n∑i=1

pi = 1

,

valamint legyen

T = (tij) (i = 1, . . . ,m; j = 1, . . . , n);

tij ≥ 0,n∑

i=1

tij = 1

az adókarakterisztika mátrix.Ekkor a csatornán átvitt információmennyiséget a következőképpen számolhat-juk ki:

I(P) =m∑i=1

n∑j=1

pitij logtij∑mi=1 tij

, p ∈ P ′.

Az egyszerűség kedvéért legyen

Di(P) =n∑

j=1

tij logtij∑m

i=1 pitij=

n∑j=1

tij logtijqi

,

ahol Q = (q1, . . . , qn) kimeneti eloszlás, mely TP mátrix-vektor szorzással meg-határozható.Az jelölésbeni egyszerűsítés után az átvitt információmennyiség:

I(P) =

m∑i=1

piDi(P).

85

Page 87: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ezek után vezessünk be egy li > 0 költségváltozót minden i-dik bemeneti szim-bólumhoz, valamint legyen l(P) költségfüggvény

l(P) =m∑i=1

lipi, p ∈ P ′.

A relatív kapacitást a következőképpen definiálta Reza(1961):

CR = maxp∈P ′

I(P)

l(P).

Az iterációs algoritmus a következő:

1. Legyen a = mini li.

2. Legyen P(0) ∈ P tetszőleges bemeneti eloszlás.

3. A P(k) valószínűségi vektor után határozzuk meg a P(k+1) vektort a kö-vetkezőképpen

p(′k+1)i = p

(k)i exp

[aDi(P(k))

li

], i = 1, . . . ,m;

w(k) =

m∑i=1

p(′k+1)i ;

p(k+1)i =

p(′k+1)i

w(k), i = 1, . . . ,m.

5.21. tétel. Az

I(P(k))

l(P(k))

sorozat monoton növekvő és konvergál a relatív kapacitáshoz.

Bizonyítás. Először is azt mutatjuk meg, hogy az eljárás által kapott

I(P(k))

l(P(k))

sorozat monoton növekvő. Jelöljük P-vel és R-rel a k-adik és a (k+1)-edik va-lószínűségi vektorokat, melyeket az előbbi iterációs formulával kapunk. Legyen

xi = xi(P) = Di(P)/li,

fi = exp[axi], (i = 1, . . . , n)

w =n∑

i=1

pifi.

86

Page 88: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ekkor nyilvánvalóan

ri =pifiw

.

Legyen U = (u1, . . . , un), ahol:

ui =pilil(P)

.

A következő lemma garantálja, hogy az eljárás fenti sorozata monoton növekvőlesz.

5.22. lemma.I(P)

l(P)≤ log λ

a≤ I(R)

l(R),

ahol

λ =

n∑i=1

uifi.

Egyenlőség akkor és csak akkor áll fenn mindkét oldalon, ha xi konstans bármelypi > 0 -ra.

Bizonyítás. A Jensen-egyenlőtlenséget alkalmazva kapjuk, hogy

log λ

a≥ 1

a

n∑i=1

ui log fi =I(P)

l(P).

A második egyenlőtlenséghez elegendő belátni a következőt:

Q = aI(R)− l(R) log λ ≥ 0.

Legyen S = (s1, . . . , sm) kimeneti valószínűségi vektor úgy, hogy

sj =n∑

i=1

ritij (j = 1, . . . ,m).

Az I-divergencia tulajdonságából könnyen beláthatjuk a következő egyenlőtlen-séget:

D(R||P) ≥ D(S||Q).

87

Page 89: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Figyelembe véve ezt az egyenlőtlenséget kapjuk a következőt:

I(R) =m∑i=1

ri

n∑j=1

tij logtijsj

=

m∑i=1

ri

n∑j=1

tij logtijqj

−D(S||Q)

≥m∑i=1

riDi(P)−D(R||P)

=1

a

m∑i=1

rili log fi −D(R||P).

Másfelől

λ =

m∑i=1

uifi =wl(R)

l(P).

Ennélfogva

Q ≥m∑i=1

rili log fi − aD(R||P)− l(R) log λ

=m∑i=1

rili logfiw

− aD(R||P)− l(R) logl(R)

l(P)

=

m∑i=1

ri(li − a) logripi

− l(R) logl(R)

l(P)

≥ (l(R)− a) logl(R)− a

l(P)− al(R) log

l(R)

l(P).

A lemmából azonnal következik, hogy ha z ≥ a > 0 és b ≥ a, akkor az

f(z) = (z − a) logz − a

b− a− z log

z

b

függvény a z = b esetben veszi fel a 0 értéket, és pozitív ha z = b. Könnyűbelátni, hogy az egyenlőség feltétele, hogy xi konstans legyen bármely pi > 0-ra.Most már készen vagyunk, hogy bebizonyítsuk, az iterációs eljárás által létre-hozott

I(P(k))

l(P(k))

sorozat a relatív kapacitáshoz tart.

88

Page 90: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Legyen

x(k)i =

Di(P(k))

li,

f(k)i = exp[ax

(k)i ],

u(k)i =

p(k)i li

l(P(k)), (i = 1, . . . ,m, k = 0, 1, . . . ),

w(k) =m∑i=1

p(k)i f

(k)i ,

λ(k) =

∑mi=1 p

(k)i lif

(k)i

l(P(k))=

m∑i=1

u(k)i f

(k)i .

Mivel

p(k+1)i =

p(k)i f

(k)i

w(k),

kapjuk, hogy

I(P(k))

l(P(k))≤ logλ(k)

a≤ I(P(k+1))

l(P(k+1))≤ CR, (k = 0, 1, 2, . . . ).

Ennélfogva a

I(P(k))

l(P(k))

és a

logλ(k)

a

sorozatok monoton növekvőek és ugyanahhoz az értékhez tartanak. Vezessünkbe egy P∗ valószínűségi vektort mely elérte a relatív kapacitást és legyen

u∗i =

p∗i lil(P∗)

.

Ezenfelül vezessünk be egy

Q(k) (k = 0, 1, 2, . . . )

és Q∗ kimeneti valószinűségi vektorokat. Ha figyelembe vesszük, hogy

u(k+1)i

u(k)i

=f(k)i

λ(k),

89

Page 91: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

akkor a következőhöz jutunk

D(U∗||U (k))−D(U∗||U (k+1)) =

m∑i=1

u∗i log

u(k+1)i

u(k)i

= a

m∑i=1

u∗i x

(k)i − log λ(k)

=a

l(P∗)

( m∑i=1

p∗iDi(P∗) +D(Q∗||Q(k)))− log λ(k)

= aCR − log λ(k) +a

l(P∗)D(Q∗||Q(k)).

Az egyenlőség jobboldalán lévő kifejezés nemnegatív, ezért

1

aD(U∗||U (k))−D(U∗||U (k+1)) ≥ CR − log λ(k)

a(≥ 0), k = 0, 1, 2, . . . .

Összeadva ezeket az egyenlőtlenségeket k = 0-tól k = N − 1-ig, kapjuk, hogy

N−1∑k=0

(CR − log

λ(k)

a

)≤ 1

aD(U∗||U (0))−D(U∗||U (N))

≤ 1

aD(U∗||U (0)), N = 0, 1, 2, . . . .

Az egyenlőtlenség jobb oldalán lévő kifejezés független N -től, és véges, a

log λ(k)

a

sorozat tart a CR relatív kapacitáshoz. Ezzel bizonyítottuk az iterációs eljáráskonvergenciáját. ⋄

5.23. következmény. AQ(k)

kimeneti eloszlások sorozata, hasonlóan az

U (k)

bemeneti eloszlások sorozatához, konvergens.

Bizonyítás. Az tételből kapjuk a

0 ≤ a

l(P∗)D(Q∗||Q(k)) ≤ D(U∗||U (k))−D(U∗||U (k+1)), k = 0, 1, 2, . . . .

egyenlőtlenséget. Összeadva ezeket az egyenlőtlenségeket k = 0-tól k = N − 1-ig, úgy, mint a korábbi egyenlőtlenség levezetésében, könnyen beláthatjuk akövetkezmény helyességét. ⋄

A következő lemma a kovergencia sebességének kimondásához szükséges.

90

Page 92: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.24. lemma. A közelítés

e(k) = CR − log λ(k)

a

hibája egyconst

ka

kifejezéssel határolható.

Bizonyítás. Az előzőek felhasználásával jutunk el a következő kifejezésig

e(k) ≤ 1

kaD(U∗||U (0)) =

const

ka.

A konvergencia sebessége:Abban az esetben ha a P∗ bemeneti eloszlás eléri a relatív kapacitást, akkor ezegyedi és P∗ ∈ P. Ekkor a konvergencia sebessége meglehetősen javul.A következőkben szükségünk lesz az alábbi lemmára, mely könnyen levezethetőa Kuhn-Tucker tételből.

5.25. lemma. Ha a P∗ valószínűségi vektor eléri a relatív kapacitást, akkor

Di(P∗)

li= CR ∀p∗i > 0,

≤ CR ∀p∗i = 0.

5.26. tétel. Ha a bemeneti P∗ valószínűségi vektor eléri a relatív kapacitást,akkor az egyedi és P∗ ∈ P . Ekkor létezik olyan pozitív egész N és egy konstans0 < σ ≤ 1, amik kielégitik a következő egyenlőtlenséget

e(k) ≤ σ

a(1− σ)k−ND(U∗||U (N)) ∀k ≥ N

és N független σ-tól.

Bizonyítás. Legyen D = P∗ − Pk, ekkor D tart a 0-hoz, ha k → ∞.Továbbá legyen

ci =li

l(P∗)=

u∗i

p∗i.

91

Page 93: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ekkor a következőkhöz jutunk:

D(U∗||U (k)) = −m∑i=1

u∗i log

p(k)i

p∗i+ log

l(P(k))

l(P∗)

= −m∑i=1

u∗i log

(1− di

p∗i

)+ log

(1−

m∑i

dici

)=

1

2

[ m∑i=1

cip∗i

d2i −( m∑

i=1

dici

)2]+

m∑i=1

O(d3i )

=1

2dAdT +

m∑i=1

O(d3i ),

ahol A = (aij) egy n× n méretű szimmetrikus mátrix, úgy, hogy

aij =cip∗i

− c2i , ha i = j,

= −cicj , ha i = j.

Eléggé nagy N esetén

D(U∗||U (k)) ≤ (1− σ)k−ND(U∗||U (k)), ∀k ≥ N.

Az Arimoto-Blahut algoritmus bizonyításához hasonló érveléssel, kombinálva azegyenlőtlenségeket, bizonyítani tudjuk a tételt. ⋄

5.6. Feladatok

1. Az Y = 0, 1, 2, 3 csatornaábécéhez tartozó átviteli idők T = 1, 1, 1, 3.Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt!2. Bináris törlődéses csatornáról a következőt tudjuk: egy elküldött jel 0.9valószínűséggel marad az eredeti és 0.1 valószínűséggel válik felismerhetetlenné.Határozza meg a csatornakapacitást!

3. AzY = 0, 1, 2, 3

csatornaábécéhez tartozó átviteli idők

T = 0.5, 1.2, 1.3, 2.1.

Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt!

92

Page 94: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.3. ábra. Bináris törlődéses csatorna

93

Page 95: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

4. Bináris csatorna esetén p0|0 = 0.95, p1|1 = 0.85, p0|1 = 0.05, p1|0 = 0.15.Határozza meg a csatornakapacitást!5. Az Y = 0, 1, 2 csatornaábécéhez tartozó átviteli idők T = 1, 1.2, 2.3.Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt!6. Az

Y = 0, 1, 2, 3

csatornaábécéhez tartozó átviteli idők

T = 0.5, 1.2, 1.3, 2.1.

Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt!7. A csatornamátrix

T =

0.9 00.1 0.10 0.9

.

Határozza meg a csatornakapacitást!8. A csatornamátrix

T =

0.1 0.40.4 0.10.4 0.10.1 0.4

.

Határozza meg a csatornakapacitást!9. Az Y = 0, 1, 2, 3 csatornaábécéhez tartozó átviteli idők T = 0.6, 1, 1.2, 3.Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt (Pontosság=0.00001)!10. Az Y = 0, 1, 2, 3, 4 csatornaábécéhez tartozó átviteli idők

T = 0.5, 0.8, 1.2, 1.3, 2.1.

Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt!11. Bináris csatorna esetén p0|0 = 0.97, p1|1 = 0.94, p0|1 = 0.06, p1|0 = 0.03.Határozza meg a csatornakapacitást!12. Bináris csatorna esetén p0|0 = 0.9, p1|1 = 0.8, p0|1 = 0.1, p1|0 = 0.2.Határozza meg a csatornakapacitást!13. Bináris szimmetrikus csatorna esetén p0|0 = p1|1 = p és p0|1 = p1|0 = q.Határozza meg a csatornakapacitást, ha p = 0.9 és q = 0.1!

14. Az Y = 0, 1, 2, 3 csatornaábécéhez tartozó átviteli idők T = 1, 1, 2, 3.Határozza meg a csatornakapacitást! Optimális kódolás esetén határozza megaz átlagos átviteli időt!15. Sorba kötött csatornák esetén határozza meg a csatornakapacitást!

94

Page 96: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

5.4. ábra. Egymás után két csatorna (soros eset)

5.5. ábra. Egymás után több csatorna (soros eset)

16. Párhuzamos csatornák esetén határozza meg a csatornakapacitást!

5.6. ábra. Egymás mellett két csatorna (párhuzamos eset)

5.7. Önellenőrző kérdések

1. Definiálja a feltételes entrópiát!

95

Page 97: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

2. Definiálja a feltételes entrópiát, ha adott az együttes eloszlás!3. Definiálja a kölcsönös informácíómennyiséget!4. Definiálja a csatornakapacitást azonos átviteli idő esetén!5. Vezesse le a szimmetrikus csatorna kapacitását!6. Vezesse le a bináris törlődéses csatorna kapacitását!7. Definiálja a csatornakapacitást nem azonos átviteli idő esetén!8. Definiálja a csatornakapacitást additív költség esetén!9. Definiálja az információ átviteli sebességét!10. Bizonyítsa az adatátviteli lemmát!11. Ismertesse és jellemezze a tanult csatorna típusokat!12. Bizonyítsa a csatornakapacitás kiszámítására használt numerikus módszerkonvergenciáját additív költség esetén!13. Ismertesse az Arimoto-Blahut algoritmust!

96

Page 98: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6. fejezet

Csatornakódolás

6.1. Hibajavítás, kódtávolság

Szimmetrikus bináris csatorna esete, azaz a csatorna átviteli mátrixa legyen akövetkező:

T =

(p qq p

).

Probléma: Milyen feltételek mellett és hogyan oldható meg a csatornában azátvitelnél keletkezett hibák jelzése és javítása?

6.1. példa. A bit háromszorozás módszere (Commodore-64 kazettás egység):

0 → 000

1 → 111

Ha a dekódolás a több azonos bit szerint történik, akkor a legfeljebb két hibajelezhető és egy hiba javítható.Ha p = 0.9, akkor a helyes átvitel (javítással) valószínűsége

p3 + 3p2q = 0.972.

6.2. definíció. Az üzenetszó (k bit)→ kódszó (n bit) átalakítást (kódolást)(k, n) kódnak nevezzük.

6.3. megjegyzés. Ez egy blokkos kódolás.

Legyen A = 0, 1 és adott a következő két művelet:a "kizáró vagy" művelet (jele:∨) vagy másképpen a modulo 2 összeadás (jele:⊕),és a hagyományos szorzás a másik művelet.

97

Page 99: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6.1. ábra. Bináris szimmetrikus csatorna

98

Page 100: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Ekkor (A,∨) és (A, ·) Abel-csoport. Továbbá, (A,∨, ·) test. Értelmezzük az An

esetén az előbbi műveleteket bitenként, ekkor (An,∨) vektortér az (A,∨, ·) testfelett.

6.4. definíció. Legyen a ∈ An. ||a|| jelentse az egyes bitek számát.

Ekkor ||·|| : An → Z norma.

6.5. definíció. A d(a, b) = ||a ∨ b|| mennyiséget Hamming-féle távolságnak ne-vezzük.

6.6. lemma. A Hamming-féle távolság kielégíti a távolság tulajdonságait.

6.7. lemma. A Hamming-féle távolság invariáns az eltolásra, azaz

d(a, b) = d(a ∨ c, b ∨ c).

Bizonyítás.

d(a ∨ c, b ∨ c) = ||(a ∨ c) ∨ (b ∨ c)|| = ||a ∨ (c ∨ c) ∨ b)|| = ||a ∨ b|| == d(a, b).

6.8. definíció. A v1, v2, . . . , vm kódszavakból álló kód esetén a kódszavak tá-volságai közül a minimálisat kódtávolságnak nevezzük, azaz a d kódtávolságra

d = mini =j

d(vi, vj).

6.9. megjegyzés. Legyen d = mini =j

d(vi, vj), a csatornaábécé

Y = 0, 1. Jelölések: u ∈ Y k (az eredeti üzenet), v ∈ Y n (az u-nak megfelelőcsatorna kódszó), v ∈ Y n (a v-nek megfelelő csatornán áthaladt jelsorozat, azazaz átvitelnél keletkezik). Ekkor

P (v|v) = qd(v,v)pn−d(v,v).

Ha a v eredetijének azt a v kódszót tekintjük, amelyre a P (v|v) feltételes való-színűség a lehető legnagyobb, azt maximum likelihood kódolásnak nevezzük.

Tegyük fel, hogy 0 < q < 0.5, akkor

P (v|v) =(q

p

)d(v,v)

pn

maximális, ha d(v, v) minimális.Ez azt jelenti, hogy bináris szimmetrikus csatorna esetén a minimális távolságonalapuló dekódolás (javítás) megegyezik a maximum likelihood kódolás alapjántörténővel.

99

Page 101: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6.10. tétel. Legyen egy vett szóban a hibák száma legfeljebb r. Tetszőleges kód-szó esetén a legfeljebb r számú hiba a minimális távolságon alapuló hibajavításmódszerével akkor és csak akkor javítható, ha a kódtávolság d ≥ 2r + 1.

Bizonyítás. Elégségesség: Ha d ≥ 2r + 1 és ||e|| ≤ r (e a hibavektor), akkor

d(v, vi) < d(v, vj)

bármely i = j esetén, ha v = vi ∨ e.

d = mini =j

d(vi, vj) ≤ d(vi, vj) ≤ d(vi, v) + d(v, vj) ≤ r + d(v, vj),

azazd(v, vj) ≥ d− r ≥ (2r + 1)− r = r + 1.

Szükségesség: Ha ||e|| ≤ r és v = vi∨ e minimális távolságon alapuló dekódolásamindig helyes eredményre vezet, akkor d ≥ 2r + 1.

d(vi, vj) ≤ d(vi, v) + d(v, vj) ⇒ d(v, vj) ≥ d− r,

azaz a vi-ből torzult v szó a vj-től legalább d − r távolságra van. Mivel aztakarjuk, hogy a dekódolás vi-be történjen, ezért

d(v, vi) < d− r ⇒ d > 2r, azaz d > 2r + 1.

6.2. Csoportkód

6.11. definíció. Ha a kódszavak csoportot alkotnak, a kódot csoportkódnaknevezzük.

6.12. példa. Adottak a következő (2,5) kódok:

A B C00 → 00000 00100 0000001 → 01011 01011 0101110 → 10101 10101 1011111 → 11110 11110 11110

Az A-val jelzett oszlop csoportkód, míg a másik kettő nem, hiszen a B oszlopbannincs zérusvektor és a C oszlop esetén

01011 ∨ 10111 = 11100.

Természetesen a vektorok oszlopvektorok, de az egyszerűség kedvéért, ha nemfélreérthető, akkor csak sorban és egymás mellé írt bitsorozat lesz a vektor.

100

Page 102: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6.13. tétel. Csoportkódban a kódszó alakú hibavektor esetén a hiba nem jelez-hető és nem javítható. A nem kódszó alakú hiba legalább jelezhető.

6.14. tétel. Csoportkód esetén a hibaáteresztés valószínűsége megegyezik a csu-pa zérus kódszó alakú hibák valószínűségének az összegével.

6.15. példa. Az (A) csoportkód esetén, ha p = 0.9, akkor a hibaáteresztésvalószínűsége: 2q3p2+q4p = 0.0171, a kódtávolság: 3, a dekódolói hiba ( 2 vagytöbb hiba): 0.08146.

6.16. tétel. Egy (k, n) csoportkód esetén d = minvi =0

||vi||.

6.17. tétel. G csoportkód, vi ∈ G rögzített, e hibavektor. Ha a hiba javítható,akkor ez a tulajdonsága független vi-től.

Bizonyítás. Ha e javítható, akkor

d(vi ∨ e, vi) < d(vi ∨ e, vj) i = j.

Azt kell belátni, hogy

d(vk ∨ e, vk) < d(vk ∨ e, vj) k = j.

A Hamming-távolság eltolásra invariáns, ezért

d(vk ∨ e, vj) = d((vk ∨ e) ∨ (vk ∨ vi), vj ∨ (vk ∨ vi)) =

= d(vi ∨ e, vj ∨ (vk ∨ vi)) ≥ d(vi ∨ e, vi) =

= d((vi ∨ e) ∨ (vk ∨ vi), vi ∨ (vk ∨ vi)) = d(vk ∨ e, vk).

6.18. megjegyzés. Hogyan lehetne automatizálni a következő problémákat?1. A csoport tulajdonság ellenőrzése.2. Tárolás, kódszó keresés.3. Kódtávolság kiszámítás.

6.3. Lineáris kód

6.19. definíció. Legyen u ∈ Ak, G k × n típusú mátrix, ahol gij ∈ A. A kódlineáris, ha

vT = uTG.

A G mátrixot generáló mátrixnak nevezzük. A v vektor transzponáltjának ajele vT .

101

Page 103: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6.20. példa.

G =

(1 0 1 0 10 1 0 1 1

)Éppen az (A) csoportkódot adja meg.

6.21. tétel. A lineáris kód csoportkód.

Bizonyítás.G : Ak → An,

azaz mivel (Ak,∨) csoport, így van zérusvektor. Nem vezet ki a művelet ahalmazból és létezik inverz elem hiszen minden elem a saját inverze. ⋄

6.22. definíció. Legyen E k× k típusú egységmátrix. A G = (E|P ) generátormátrixú kódot szisztematikus kódnak nevezzük.

Néhány elnevezés:P paritásmátrix,

F =

(P

E

)paritásellenőrző mátrix (E(n−k)×(n−k)),

uTP paritásvektor.

6.23. definíció. Legyen v egy vett kódszó a csatornakimeneten. Az s vektorta v vektorhoz tartozó szindrómának nevezzük, ha

sT = vTF.

6.24. tétel. A szindróma akkor és csak akkor zérusvektor, ha a vett szó kódszó.

6.25. megjegyzés. A szindrómák egy osztályozást adnak.

6.26. tétel. A csatorna kimenetén vett azonos mellékosztályokba tartozó szavakszindrómája azonos, különböző mellékosztályokhoz tartozóké különböző.

(k, n) szisztematikus kód esetén: (Ak,∨) csoport, a generálás után (S,∨) rész-csoport (S ⊂ An), S meghatároz egy mellékosztályra bontást. Készítsük ela mellékosztálytáblázatot, majd ebből a dekódolási táblázatot, azaz mindenmellékosztályban kiválasztjuk a mimimális normájú osztályelemet. Ezzel azosztályelemmel generáljuk a mellékosztályt.

6.27. példa. A

G =

(1 0 1 0 10 1 0 1 1

)generátormátrixhoz készítsük el a mellékosztály táblázatot!

102

Page 104: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

A következő mellékosztálytáblázat első sorában van a generált csoportkódunk,s a további sorokban egy-egy mellékosztály:

00000 01011 10101 1111000001 01010 10100 1111100010 01001 10111 1110000100 01111 10001 1101001000 00011 11101 1011000101 01110 10000 1100111001 10010 01100 0011111000 10011 01101 00110

Egy mellékosztálytáblázat akkor jó dekódolási táblázatnak, ha minden sorbana legkisebb normájú elem az első. Ezek az ún. osztályelsők. Jól látható, hogyez nem teljesül a 6. és a 7. sorban, így ezeket a sorokat újraszámoljuk.Dekódolási táblázat:

00000 01011 10101 1111000001 01010 10100 1111100010 01001 10111 1110000100 01111 10001 1101001000 00011 11101 1011010000 11011 00101 0111010010 11001 00111 0110011000 10011 01101 00110

Természetesen előfordulhat, hogy a normák megegyeznek, akkor választunkegyet.A kódolás menete: kiválasztjuk a kódszót a táblázatban, majd hozzárendeljükaz oszlop tetején lévő kódszót. Ehhez pedig az eredeti kódot.Legyen vT = 11011, ami a hatodik sor második oszlopban található. Az osz-lop tetején lévő elem: 01011, amelyhez eredetileg a 01 kódszó tartozik. Ekkorfeltételeztük, hogy a hibavektor 10000, a hatodik sor első eleme.

6.28. tétel. A dekódolási táblázatban bármely szó távolsága a saját oszlopa te-tején álló kódszótól nem nagyobb, mint bármely más kódszótól.

6.29. megjegyzés. A dekódolási táblázat alkalmas maximum likelihood kódo-lásra.

6.30. megjegyzés. Az osztályelső alakú hibák javíthatók.

6.31. megjegyzés. A helyes dekódolás valószínűsége megegyezik az osztályelsőalakú hibák valószínűségeinek az összegével.

6.4. Hamming-kód

Sokféle Hamming-kód van. Itt a legegyszerűbb esetet vizsgáljuk.

103

Page 105: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6.32. definíció. Hamming-kódnak nevezzük azokat a szisztematikus kódokat,amelyek pontosan egy hibát tudnak javítani.

6.33. megjegyzés. A lineáris (k, n)-kód 2k k hosszúságú közleményhez rende-li hozzá a kódszavakat kölcsönösen egyértelmű módon. Bázistranszformációvalkönnyű megmutatni, hogy minden lineáris kód előállítható szisztematikus gene-rátormátrixszal.

sT = vTF = eTF, v = v ∨ e,

ahol e a hibavektor. Tehát a szindrómából az e hibavektor egyértelműen meg-adható. Ugyanis a dekódolás hibátlan lesz, hiszen a hibavektor ismeretében azüzenet is meghatározható.Javítsunk ki minden egy hibát! Ha e = el, azaz az l-edik egységvektor, akkorsT = fT

l . Éppen a paritásellenőrző mátrix l-edik sora. Minden sornak különbö-zőnek kell lennie, azaz

n = 2n−k − 1.

Ebbőlk = 2n−k − (n− k)− 1.

Néhány kód mérete kiszámolva:

n− k 2 3 4 5 6k 1 4 11 26 57n 3 7 15 31 63

Vegyük észre, hogy az (1, 3)-kód éppen a bit háromszorozása.

6.5. Feladatok

1. Legyen a szisztematikus kód paritásmátrixa

P =

(1 1 11 0 1

).

Dekódolja az 10111 vett kódszót a maximum likelihood dekódolás alapján!2. Bináris szimmetrikus csatornán a hibás továbbítás valószínűsége q = 0.02.Legyen a szisztematikus kód paritásmátrixa

P =

1 1 01 0 11 1 1

.

Határozza meg a hibaáteresztés valószínűségét! Dekódolja az 101111 vett kód-szót a maximum likelihood dekódolás alapján (Indoklás!)!

104

Page 106: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

3. Bináris szimmetrikus csatornán a hibás továbbítás valószínűsége q = 0.08.Legyen a szisztematikus kód paritásmátrixa

P =

0 1 11 0 11 1 1

.

Határozza meg a hibaáteresztés valószínűségét! Dekódolja az 101101 vett kód-szót a maximum likelihood dekódolás alapján (Indoklás!)!4. Legyen a szisztematikus kód paritásmátrixa

P =

1 1 01 0 10 1 1

.

Határozza meg a hibaáteresztés valószínűségét!

5. Bináris szimmetrikus csatornán a hibás továbbítás valószínűsége q =1

8és az

A, B, C, D betűket rendre 111, 100, 010, 001-gyel kódoljuk, és 110, 101, 011, 000vétele esetén is A-t, B-t, C-t, D-t dekódolunk. Határozza meg a dekódolásnálelkövetett hiba valószínűségét!6. A szisztematikus kód paritásmátrixa

P =

1 1 01 0 11 1 1

.

Határozza meg a szindrómákat!7. Bináris szimmetrikus csatornán a szisztematikus kód paritásmátrixa

P =

1 1 01 0 11 1 1

.

Dekódolja az 111011 vett üzenetet!!8. A lineáris kód generátormátrixa

G =

1 1 0 1 1 01 0 1 1 0 10 1 0 0 1 0

.

Határozza meg a hibaáteresztés valószínűségét, ha q = 0.023!9. A szisztematikus kód paritásmátrixa

P =

(1 1 01 0 1

).

Dekódolja az 11111 vett kódszót a maximum likelihood dekódolás alapján! Ha-tározza meg a hibaáteresztés valószínűségét, ha p=0.98!

105

Page 107: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

10. A szisztematikus kód paritásmátrixa

P =

(1 1 01 0 1

).

Határozza meg a dekódolási táblázatot!11. A szisztematikus kód paritásmátrixa

P =

1 1 01 0 11 1 1

.

Határozza meg a kódszavak részcsoportját és határozza meg a javítható hibákszámát!12. A szisztematikus kód paritásmátrixa

P =

(1 1 01 0 1

).

Határozza meg a kódszavak részcsoportját és határozza meg a kódtávolságot!13. A szisztematikus kód paritásmátrixa

P =

0 1 10 0 11 1 0

.

Határozza meg az 110011 vett kódszóhoz tartozó szindrómát, továbbá azokat avett kódszavakat, amelyek szindrómája azonosan 0!14. A szisztematikus kód paritásmátrixa

P =

1 1 01 0 10 1 1

.

Határozza meg a hibaáteresztés valószínűségét és a vT = (0, 0, 1, 1, 1, 1) vektor-hoz tartozó szindrómát és mellékosztályt!

15. Bináris szimmetrikus csatornán a hibás továbbítás valószínűsége q =1

8. A

szisztematikus kód paritásmátrixa

P =

1 1 01 0 11 1 1

.

Határozza meg a hibaáteresztés valószínűségét! Dekódolja az 111011 vett üze-netet!16. A hibajavító kód generátormátrixa

G =

1 0 0 1 1 00 1 0 1 0 10 0 1 0 1 1

.

Határozza meg azt a mellékosztályt, amelyhez tartozó szindróma sT = 110!

106

Page 108: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

6.6. Önellenőrző kérdések

1. Definiálja a Hamming-kódot!2. Definiálja a mellékosztályt!3. Ismertesse és bizonyítsa a maximum likelihood kódolás és a minimális kód-távolság ekvivalenciáját!4. Igazolja, hogy a mellékosztályok diszjunktak!5. Definiálja a lineáris kódot!6. Ismertesse a Hamming-távolság tulajdonságait!7. Igazolja, hogy a lineáris kód csoportkód!8. Ismertesse és bizonyítsa a Hamming-távolság eltolásinvarianciáját!9. Definiálja a szisztematikus kódot!10. Bizonyítsa a hibajavíthatóság és kódtávolság kapcsolatára vonatkozó állí-tást!11. Definiálja a szisztematikus kódot!12. Definiálja a Hamming-féle távolságot!13. Igazolja, hogy a szindróma jellemző a mellékosztályra!14. Igazolja, hogy a dekódolási táblázatban bármely szó távolsága a saját osz-lopa tetején álló kódszótól nem nagyobb, mint bármely más kódszótól!15. Adott egy csoportkód és benne egy rögzített v kódszó. Igazolja, ha az ehiba javítható v-nél, akkor ez a tulajdonsága igaz bármely más kódszóra is!

107

Page 109: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

7. fejezet

Bevezetés a folytonos esetbe

7.1. Diszkretizálás

A ξ folytonos valószínűségi változó lehetséges értékeinek halmaza nem megszám-lálható, ezért H(ξ) definiálásához először elkészítjük a ξδ diszkrét valószínűségiváltozót, amely a ξ kerekítésének is tekinthető:

ξδ = nδ, ha (n− 1)δ < ξ ≤ nδ, n ∈ Z.

Ekkor

P (ξδ = nδ) = P ((n− 1)δ < ξ ≤ nδ) =

nδ∫(n−1)δ

f(x)dx = δf(nδ),

ahol mn ≤ f(nδ) ≤ Mn, azaz a minimum és a maximum közötti érték az adottintervallumon.

H(ξδ) =−+∞∑

n=−∞δf(nδ) ln(δf(nδ)) =

=− ln δ −+∞∑

n=−∞δf(nδ) ln(f(nδ)),

mert+∞∑

n=−∞δf(nδ) =

+∞∫−∞

f(x)dx = 1.

Ha δ → 0, akkor − ln δ → +∞, ezért

limδ↓0

(H(ξδ) + ln δ) = −+∞∫

−∞

f(x) ln f(x)dx = H(ξ).

108

Page 110: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

7.1. példa. Legyen ξ a (0, ϑ) intervallumon egyenletes eloszlású. Ekkor

H(ξ) = lnϑ,

azaz jól látható, hogy a H(ξ) lehet negatív is.

7.2. megjegyzés. Az entrópia diszkrét esetben a bizonytalanságot méri, mígfolytonos esetben csak a bizonytalanság változását.

7.2. Néhány fogalom folytonos esetben

Entrópia, mint várható érték: H(ξ) = E(− ln f(ξ)).

7.3. példa. 1. Exponenciális eloszlásra: H(ξ) = 1− lnλ.

2. Normális eloszlásra: H(ξ) = 0.5 + ln(σ√2π).

Együttes entrópia: H(ξ, η) = E(− ln f(ξ, η)).

7.4. példa. Normális eloszlásra: H(ξ, η) = 1 + ln(2πσ1σ2

√1− r2).

Kölcsönös információmennyiség:

I(ξ, η) = E

(ln

f(ξ, η)

fξ(ξ)fη(η)

).

7.5. példa. Normális eloszlásra: I(ξ, η) = −0.5 ln(1− r2).

I-divergencia:

D(η||ξ) = E

(ln

fη(η)

fξ(η)

).

7.6. megjegyzés. D(η||ξ) ≥ 0.

7.7. megjegyzés. Transzformáció: η = g(ξ).

Diszkrét esetben H(η) ≤ H(ξ). Egyenlőség akkor és csak akkor, ha g invertál-ható.Folytonos esetben H(η) ≤ H(ξ)+E(ln |g′(ξ)|). Egyenlőség akkor és csak akkor,ha g invertálható.

Bizonyítás. Ha g invertálható, akkor a valószínűségi változók transzformációjaalapján

H(η) =−+∞∫

−∞

fη(y) ln fη(y)dy =

=−+∞∫

−∞

fξ(x) lnfξ(x)

|g′(x)|dx =

=−+∞∫

−∞

fξ(x) ln fξ(x)dx+

+∞∫−∞

fξ(x) ln |g′(x)|dx.

109

Page 111: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

7.3. Maximum entrópia módszer (MEM)

Entrópia maximalizálás feltételek mellett.

7.8. példa. Pénzfeldobás: ξ = P (fej). Feltétel: A sűrűségfüggvény 0 a [0, 1]intervallumon kívül. Kérdés: H(ξ) mikor lesz maximális?Az I-divergencia nemnegativitása alapján tetszőleges g sűrűségfüggvény esetén

−1∫

0

g(x) ln g(x)dx ≤ −1∫

0

g(x) ln f(x)dx = 0 = H(ξ),

ha ξ egyenletes eloszlású a [0, 1] intervallumon.

Várható érték feltételek:A ξ valószínűségi változó f sűrűségfüggvényét nem ismerjük. Viszont adott,hogy

E(gi(ξ)) = ai, (i = 1, 2, . . . , n),

ahol a gi függvények ismertek. Ekkor a MEM alapján

f(x) = A exp

(−

n∑i=1

λigi(x)

),

ahol a λi értékeket meghatározzák az adott várható értékek, míg az A értékeabból adódik, hogy f sűrűségfüggvény.

Bizonyítás. Ha f(x) ebben a formában adott, akkor

E(ln f(ξ)) = lnA−n∑

i=1

λiai.

Más sűrűségfüggvény esetén az I-divergencia alapján:

−E(ln g(ξ)) ≤n∑

i=1

λiai − lnA.

7.4. Feladatok

1. Határozza meg az entrópiát a Gamma-eloszláshoz!2. Határozza meg az entrópiát a Cauchy-eloszláshoz!

110

Page 112: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

3. Határozza meg az entrópiát az n-dimenziós normális eloszláshoz!4. A ξ valószínűségi változó nemnegatív és E(ξ) = 3. Határozza meg, hogy ilyenfeltételek mellett melyik folytonos eloszlás esetén lesz az entrópia maximális?5. A ξ valószínűségi változóra D(ξ) = 3. Határozza meg, hogy ilyen feltételekmellett melyik folytonos eloszlás esetén lesz az entrópia maximális?

7.5. Önellenőrző kérdések

1. Ismertesse az I-divergencia tulajdonságait!2. Bizonyítsa, hogy az I-divergencia folytonos esetben is nemnegatív!3. Definiálja a kölcsönös informácíómennyiséget!4. Ismertesse és bizonyítsa a maximum entrópia módszert várható érték felté-telek esetén!5. Adjon meg olyan esetet, amikor az entrópia negatív (folytonos)!6. Definiálja az entrópiát!7. Definiálja a Kullback-Leibler eltérést!8. Milyen a kapcsolat a valószínűségi változó és a transzformált valószínűségiváltozó entrópiája között?

111

Page 113: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8. fejezet

Függelék

8.1. Jelölések

N – a természetes számok halmaza (pozitív egészek)R – a valós számok halmazaR2 – (x, y)|x, y ∈ RA ⊂ B – az A részhalmaza a B-nekA ∩B – az A és B halmaz közös részeA ∪B – az A és B halmaz összes eleme egy halmazbanA – az alaphalmaz A halmazon kívüli elemeiA\B – A ∩B

F (a+ 0) – a jobboldali határérték, azaz limx→a+0

F (x)

F (a− 0) – a baloldali határérték, azaz limx→a−0

F (x)

exp(x) – ex

f(·) : D → R – az f leképezés, D az értelmezési tartomány, a "pont" aváltozót helyettesítif(D) – az f leképezés értékkészlete

8.2. Konvex függvények

8.1. definíció. Legyen U egy intervallum (zárt, nyílt, félig zárt). Az f : U → Rkonvex függvény, ha

f(λa+ µb) ≤ λf(a) + µf(b),

ahol a, b ∈ U, λ+ µ = 1, λ ≥ 0 és µ ≥ 0.

112

Page 114: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.2. tétel. Ha f és g konvex függvény és α ≥ 0, β ≥ 0, akkor αf + βg szinténkonvex.

8.3. tétel. Véges sok konvex függvény összege is konvex.

8.4. tétel. Konvex függvények egy konvergens sorozatának a (pontonkénti) ha-tára is konvex.

8.5. tétel. Ha f : U → R konvex függvény és a < x < b, akkor

f(x)− f(a)

x− a≤ f(b)− f(a)

b− a≤ f(b)− f(x)

b− x.

Ha f szigorúan konvex, akkor az egyenlőtlenségek is szigorúak.

8.6. tétel. Ha f : U → R konvex függvény és a < c < b, akkor létezik a bal- ésjobboldali derivált minden c esetén. Továbbá, f ′

− és f ′+ monoton nemcsökkenő

ésf ′

−(c) ≤ f ′+(c).

Ezenkívül minden x ∈ U esetén

f(x) ≥ f(c) + f ′−(c)(x− c), f(x) ≥ f(c) + f ′

+(c)(x− c),

azaz a konvex függvény minden pontjához létezik egyenes ( amely az adott pontonkeresztül megy), amely a görbe alatt marad vagy legfeljebb érinti azt.

8.7. tétel. Az f : U → R konvex függvény folytonos az intervallum mindenbelső pontjában.

8.8. tétel. Legyen U nyílt és f kétszer differenciálható. Az f konvex akkor éscsak akkor, ha f ′′ > 0 minden x ∈ U.

8.9. tétel. (Jensen-egyenlőtlenség) Ha f konvex függvény és ξ olyan való-színűségi változó, amelyre létezik E(f(ξ)) és f(E(ξ)), akkor

E(f(ξ)) ≥ f(E(ξ)).

Bizonyítás. Legyen L a támasztóegyenes az f függvényhez az (E(ξ), f(E(ξ)))pontban, akkor

E(f(ξ)) ≥ E(L(ξ)) = L(E(ξ)) = f(E(ξ)).

8.10. megjegyzés. E(ξ2) ≥ E2(ξ).

113

Page 115: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.1. ábra. Az xln(x) függvény

114

Page 116: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.2. ábra. Az xln(x) függvény deriváltja

115

Page 117: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.3. Az x ln x függvény vizsgálata

Az f(x) = x lnx csak x > 0 esetén értelmezett, viszont folytonosan kiterjeszt-hető az x = 0 esetre, azaz ha x → 0, akkor létezik f határértéke.

f ′(x) = 1+lnx, amiből látható, hogy x < e−1 esetén f ′(x) < 0, azaz f monotoncsökkenő a (0, e−1) szakaszon.

Továbbá,

1 ≤ n√n ≤ 2

√n+ (n− 2) · 1

n=

n− 2

n+

2√n< 1 +

2√n,

ígylim

n→+∞n√n = 1.

Tehátlim

x→0+0x lnx = lim

n→+∞

1

nln

1

n= lim

n→+∞

(− ln n

√n)= 0.

8.11. tétel.1− 1

x≤ lnx ≤ x− 1.

Bizonyítás. Az lnx függvény konkáv, így az x = 1 helyen felírt támasztóegyenesre igaz, hogy

lnx ≤ x− 1,

egyenlőség csak x = 1 esetén. Továbbá, ha x > 0, akkor

1

x> 0

is teljesül, azaz

ln1

x≤ 1

x− 1,

ami ekvivalens azzal, hogy

lnx ≥ 1− 1

x.

116

Page 118: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.3. ábra. A logaritmus függvény konvexitásának bemutatása

117

Page 119: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.4. ábra. A reciprok logaritmusa

118

Page 120: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.4. Az aszimptotikus Stirling-formula

8.12. tétel. Ha an > 0 (valós) számsorozat és an → a, akkor

limn→+∞

1

n

n∑k=1

ak = a és limn→+∞

n

√√√√ n∏k=1

ak = a.

8.13. tétel.lim

n→+∞

nn√n!

= e.

8.14. tétel. (Aszimptotikus Stirling-formula)

limn→+∞

lnn!

n lnn− n= 1.

8.5. Valószínűség-számítás összefoglaló

8.5.1. A valószínűség fogalma

8.15. definíció. Egy véletlen kísérlet lehetséges eredményeinek összességét ese-ménytérnek (mintatér) nevezzük. Jele: Ω. Az Ω elemeit elemi eseményekneknevezzük.

8.16. definíció. Az Ω részhalmazainak egy F rendszerét σ-algebrának nevez-zük, ha(1) Ω ∈ F ,

(2) A ∈ F , akkor A ∈ F ,

(3) A1, A2, · · · ∈ F , akkor A1 ∪A2 ∪ · · · ∈ F .

Az F elemeit pedig eseményeknek nevezzük.

8.17. megjegyzés. Ha A,B ∈ F , akkor A ∩B ∈ F .

8.18. definíció. Az Ω-t szokás biztos eseménynek, az ∅-t pedig lehetetlen ese-ménynek nevezni. Továbbá, az A esemény bekövetkezik, ha a kísérlet eredményeeleme az A halmaznak.

8.19. megjegyzés. Az A ∪ B esemény bekövetkezik, ha legalább az egyik kö-zülük bekövetkezik, míg az A∩B esemény akkor következik be, ha mind a kettőbekövetkezik.

8.20. definíció. A P : F → R nemnegatív leképezést valószínűségnek nevez-zük, ha(1) P (Ω) = 1,

(2) A ∩B = ∅, akkor P (A ∪B) = P (A) + P (B),

119

Page 121: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

(3) A1, A2, . . . egymást kölcsönösen kizáró események (azaz Ai ∩ Aj = ∅, hai < j és i, j = 1, 2, . . . ), akkor

P

( ∞∪i=1

Ai

)=

∞∑i=1

P (Ai).

8.21. lemma. (1) P (A) = 1− P (A).

(2) P (∅) = 0.

(3) P (B\A) = P (B)− P (A ∩B).

(4) Ha A ⊂ B, akkor P (A) ≤ P (B).

(5) P (A ∪B) = P (A) + P (B)− P (A ∩B).

(6) Ha Bn+1 ⊂ Bn és∞∩i=1

Bn = ∅, akkor limn→∞

P (Bn) = 0.

8.22. definíció. Az (Ω,F , P ) hármast valószínűségi mezőnek nevezzük.

8.23. definíció. Ha az elemi események száma véges és valószínűségük meg-egyezik, akkor a valószínűségi mezőt klasszikusnak nevezzük.

8.24. megjegyzés. Legyen |Ω| = n és jelölje az elemi eseményeket ωi (i =1, 2, . . . , n). Ekkor

1 = P (Ω) = P

(n∪

i=1

ωi

)=

n∑i=1

P (ωi) = nP (ωi).

Tehát P (ωi) =1

n(i = 1, 2, . . . , n).

8.25. definíció. Bernoulli kísérletsorozatnak nevezzük azt, ha adott A ∈ F ésegymástól függetlenül, azonos körülmények között elvégezzük ugyanazt a kísér-letet, s "csak" azt figyeljük, hogy az A esemény bekövetkezett-e vagy sem.

8.26. példa. Visszatevéses mintavétel: Adott N darab különböző objektum,amelyek közül s darab rendelkezik egy bizonyos tulajdonsággal, például selejt.Visszatevéssel kiveszünk n darabot. Legyen a kivett selejtek száma ξ. Mennyia valószínűsége, hogy ξ = k, ahol 0 ≤ k ≤ n.

P (ξ = k) =

(nk

)sk(N − s)n−k

Nn.

8.27. példa. Visszatevés nélküli mintavétel: Adott N darab különböző objek-tum, amelyek közül s darab rendelkezik egy bizonyos tulajdonsággal, példáulselejt. Visszatevés nélkül kiveszünk n darabot. Legyen a kivett selejtek számaξ. Mennyi a valószínűsége, hogy ξ = k, ahol 0 ≤ k ≤ minn, s.

P (ξ = k) =

(sk

)(N−sn−k

)(Nn

) .

120

Page 122: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.28. tétel. (Poincaré) Az A1, A2, . . . , An eseményekre

P

(n∪

i=1

Ai

)=

n∑k=1

(−1)k−1∑

i1<i2<···<ik

P

k∩j=1

Aij

,

ahol az összegzést az összes lehetséges i1, i2, . . . , ik ⊂ 1, 2, . . . , n esetre te-kintjük.

8.29. definíció. Az A esemény B feltétel melletti feltételes valószínűségéneknevezzük a

P (A|B) =P (A ∩B)

P (B)

mennyiséget, ha P (B) > 0.

8.30. megjegyzés. A P (·|B) : F → R leképezés tényleg valószínűség.

8.31. lemma. Ha az A1, A2, . . . , An eseményrendszerre P (

n−1∩i=1

Ai) > 0, akkor

P (n∩

i=1

Ai) = P (A1)P (A2|A1) · · ·P (An|A1 ∩A2 ∩ · · · ∩An−1).

8.32. definíció. Az A1, A2, . . . eseményrendszert teljes eseményrendszernek ne-vezzük, ha

Ai ∩Aj = ∅,

(i < j és i, j = 1, 2, . . . ) és∞∪i=1

Ai = Ω.

8.33. tétel. (teljes valószínűség) Ha A1, A2, . . . teljes eseményrendszer ésP (Ai) > 0, ha i = 1, 2, . . . , akkor tetszőleges B esemény esetén

P (B) =

∞∑i=1

P (B|Ai)P (Ai).

8.34. tétel. (Bayes) Ha A1, A2, . . . teljes eseményrendszer és P (Ai) > 0, hai = 1, 2, . . . , akkor tetszőleges pozitív valószínűségű B esemény esetén

P (Ak|B) =P (B|Ak)P (Ak)∑∞i=1 P (B|Ai)P (Ai)

.

8.35. megjegyzés. A Bayes-tételhez kapcsolódóan bevezethetjük a következőelnevezéseket: P (Ai) az ún. a-priori valószínűség és P (Ai|A) az ún. a-posteriorivalószínűség.

121

Page 123: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.36. definíció. Az A és B eseményt sztochasztikusan függetlennek nevezzük,ha

P (A ∩B) = P (A)P (B).

Az A1, A2, . . . , An eseményeket páronként sztochasztikusan függetlennek nevez-zük, ha

P (Ai ∩Aj) = P (Ai)P (Aj) (1 ≤ i < j ≤ n).

Az A1, A2, . . . , An eseményeket teljesen sztochasztikusan függetlennek nevezzük,ha

P (Ai1 ∩ · · · ∩Aik) = P (Ai1) · · ·P (Aik),

ahol 1 ≤ i1 < · · · < ik ≤ n, 2 ≤ k ≤ n.

8.37. lemma. Ha az A és B események függetlenek, akkor A és B, A és B ésA és B is függetlenek.

8.38. lemma. Ha A1, A1, . . . , An független események és P (Ai) < 1 (i = 1, 2, . . . , n),akkor

P (

n∪i=1

Ai) < 1.

Bizonyítás.

P

(n∪

i=1

Ai

)= P

n∪i=1

Ai

= 1− P

(n∪

i=1

Ai

)=

= 1− P

(n∩

i=1

Ai

)= 1−

n∏i=1

P (Ai).

8.5.2. A valószínűségi változó

8.39. definíció. A ξ : Ω → R leképezést valószínűségi változónak nevezzük, ha

ξ < x = ω|ω ∈ Ω, ξ(ω) < x ∈ F , ∀x ∈ R.

8.40. definíció. Az F (x) = P (ξ < x) formulával meghatározott valós függ-vényt a ξ valószínűségi változó eloszlásfüggvényének nevezzük.

8.41. tétel. Az F valós függvény akkor és csak akkor lehet eloszlásfüggvény, ha1. lim

x→−∞F (x) = 0,

2. limx→∞

F (x) = 1,

3. F (x1) ≤ F (x2), ha x1 < x2, azaz monoton növekvő,4. lim

x→x0−0F (x) = F (x0), ∀x0 ∈ R, azaz balról folytonos.

122

Page 124: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.42. tétel. Legyen F a ξ valószínűségi változó eloszlásfüggvénye és a, b ∈ R,ekkor1. P (a ≤ ξ < b) = F (b)− F (a),

2. P (ξ = a) = F (a+ 0)− F (a).

8.43. definíció. A ξ valószínűségi változót diszkrétnek nevezzük, ha a lehetsé-ges értékek ξ(Ω) halmazának számossága legfeljebb megszámlálhatóan végtelen.

8.44. megjegyzés. Diszkrét valószínűségi változó esetén a lehetséges értékekfelírhatók egy sorozatként.

8.45. definíció. Legyen a ξ valószínűségi változó lehetséges értekeinek sorozatax1, x2, . . . . A pi = P (ξ = xi) (i = 1, 2, . . . ) valószínűségek sorozatát eloszlásnaknevezzük.

8.46. tétel. Ha p1, p2, . . . eloszlás, akkor

pi ≥ 0 (i = 1, 2, . . . ) és∞∑i=1

pi = 1.

8.47. definíció. Ha létezik f nemnegatív valós függvény, melyre

F (x) =

x∫−∞

f(t)dt, ∀x ∈ R,

akkor f az F eloszlásfüggvényhez tartozó sűrűségfüggvény.

8.48. megjegyzés. A sűrűségfüggvény nem egyértelmű.

8.49. tétel. Az f valós függvény akkor és csak akkor lehet sűrűségfüggvény, hanemnegatív és

+∞∫−∞

f(t)dt = 1.

8.50. definíció. A valószínűségi változót folytonosnak nevezzük, ha létezik asűrűségfüggvénye.

8.51. tétel. Legyen a ξ folytonos valószínűségi változó f sűrűségfüggvénnyel és

a, b ∈ R, ekkor P (ξ = a) = 0, és P (a ≤ ξ < b) =b∫a

f(x)dx.

8.52. definíció. 1. Ha a ξ diszkrét valószínűségi változó lehetséges értékeineka száma véges, azaz a lehetséges értékek

x1, x2, . . . , xn és pi = P (ξ = xi) (i = 1, 2, . . . , n),

123

Page 125: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

akkor an∑

i=1

xipi

mennyiséget várható értéknek nevezzük.2. Ha a ξ diszkrét valószínűségi változó lehetséges értékeinek számossága meg-számlálhatóan végtelen, azaz a lehetséges értékek

x1, x2, . . . , és pi = P (ξ = xi) (i = 1, 2, . . . ),

akkor a∞∑i=1

xipi

mennyiséget várható értéknek nevezzük, ha∞∑i=1

|xi|pi < +∞.

3. Ha ξ folytonos valószínűségi változó f sűrűségfüggvénnyel, akkor a+∞∫

−∞

xf(x)dx

mennyiséget várható értéknek nevezzük, ha+∞∫

−∞

|x|f(x)dx < +∞.

A ξ valószínűségi változó várható értékének a jele: E(ξ).

8.53. tétel. 1. E(aξ + b) = aE(ξ) + b, ∀a, b ∈ R.

2. Ha m ≤ ξ ≤ M, akkor m ≤ E(ξ) ≤ M.

8.54. definíció. Legyen ξ valószínűségi változó és g valós függvény. Ha azη = g(ξ) függvény valószínűségi változó, akkor a ξ transzformáltjának nevezzük.

8.55. megjegyzés. A transzformált eloszlásfüggvénye

Fη(y) = P (ω|g(ξ(ω)) < y).

8.56. tétel. Ha g differenciálható és g′(x) = 0, akkor ξ folytonos valószínűségiváltozó esetén η = g(ξ) folytonos valószínűségi változó, melynek sűrűségfüggvé-nye

fη(y) =

fξ(g−1(y))| d

dyg−1(y)|, ha a < y < b,

0, egyébként,

ahol

a = min( limx→−∞

g(x), limx→+∞

g(x)), b = max( limx→−∞

g(x), limx→+∞

g(x)).

124

Page 126: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.57. tétel. Ha η = g(ξ) a ξ valószínűségi változó transzformáltja, akkor

E(η) =

∞∑i=1

g(xi)P (ξ = xi), ha ξ diszkrét,

+∞∫−∞

g(x)fξ(x)dx, ha ξ és η folytonos.

8.58. definíció. Az E((ξ − E(ξ))2) mennyiséget a ξ valószínűségi változó szó-rásnégyzetének nevezzük. Jele: D2(ξ).

8.59. definíció. A√E((ξ − E(ξ))2) mennyiséget a ξ valószínűségi változó szó-

rásának nevezzük. Jele: D(ξ).

8.60. definíció. Az E(ξk) mennyiséget a ξ valószínűségi változó k-adik mo-mentumának nevezzük.

8.61. definíció. Az E((ξ−E(ξ))k) mennyiséget a ξ valószínűségi változó k-adikcentrális momentumának nevezzük.

8.62. tétel. 1. D(aξ + b) = |a|D(ξ), ∀a, b ∈ R.

2. mina∈R

E((ξ − a)2) = D2(ξ), és ekkor a = E(ξ).

3. D2(ξ) = E(ξ2)− E2(ξ).

8.5.3. Néhány diszkrét eloszlás és jellemzői

1. BINOMIÁLIS ELOSZLÁSLegyen n ∈ N, A ∈ F és végezzünk el egy n hosszúságú Bernoulli kísérletso-rozatot. Továbbá, legyen ξ az A esemény bekövetkezéseinek a száma. Ekkor ξeloszlása

P (ξ = k) =

(n

k

)pkqn−k, (k = 0, 1, . . . , n),

ahol P (A) = p és q = 1− p.

E(ξ) = np, D2(ξ) = npq.

8.63. megjegyzés. A visszatevéses mintavétel binomiális eloszláshoz vezet.

2. POISSON-ELOSZLÁSLegyen λ > 0 és λ = npn, ekkor

limn→∞, λ=npn

(n

k

)pkn(1− pn)

n−k = e−λλk

k!, ahol k = 0, 1, . . . .

A ξ valószínűségi változót Poisson-eloszlásúnak nevezzük λ > 0 paraméterrel,ha eloszlása

P (ξ = k) = e−λλk

k!, ahol k = 0, 1, . . . .

125

Page 127: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

E(ξ) = λ, D2(ξ) = λ.

3. GEOMETRIAI ELOSZLÁSA binomiális eloszlás bevezetésekor használt jelölések mellett a ξ valószínűségiváltozó jelentse az A esemény első bekövetkezéséhez szükséges kísérletek számát.A ξ eloszlása

P (ξ = k) = pqk−1, ahol k = 1, 2, . . . .

E(ξ) =1

p, D2(ξ) =

q

p2.

8.64. megjegyzés. A η = ξ − 1 valószínűségi változót is szokás geometriaieloszlásúnak nevezni. Az η eloszlása

P (η = k) = pqk, ahol k = 0, 1, 2, . . . .

E(η) =q

p, D2(η) =

q

p2.

8.5.4. Néhány folytonos eloszlás és jellemzői

1. EGYENLETES ELOSZLÁSLegyen a, b ∈ R és a < b. A ξ egyenletes eloszlású az (a, b) intervallumon, ha asűrűségfüggvénye

f(x) =

1

b− a, ha a < x < b,

0, egyébként.

E(ξ) =a+ b

2, D2(ξ) =

(b− a)2

12. Az eloszlásfüggvény

F (x) =

0, ha x ≤ a,x− a

b− a, ha a < x ≤ b,

1, ha x > b.

2. EXPONENCIÁLIS ELOSZLÁSA ξ exponenciális eloszlású λ > 0 paraméterrel, ha a sűrűségfüggvénye

f(x) =

λe−λx, ha x ≥ 0,

0, egyébként.

E(ξ) =1

λ, D2(ξ) =

1

λ2. Az eloszlásfüggvény

F (x) =

0, ha x ≤ 0,

1− e−λx, ha x > 0.

126

Page 128: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Örökifjú tulajdonság: P (ξ ≥ a+ b|ξ ≥ a) = P (ξ ≥ b), ahol a > 0, b > 0.

3. NORMÁLIS ELOSZLÁSLegyen m ∈ R, σ > 0. Az η normális eloszlású, ha a sűrűségfüggvénye

f(x) =1

σ√2π

exp

(− (x−m)2

2σ2

), x ∈ R.

E(ξ) = m, D2(ξ) = σ2. Ha m = 0 és σ = 1, akkor a valószínűségi változótstandard normális eloszlásúnak nevezzük. Jelölje a sűrűségfüggvényét φ és azeloszlásfüggvényét Φ. Ha ξ standard normális eloszlású, akkor az η = σξ + mvalószínűségi változó F eloszlásfüggvényére jellemző, hogy

F (x) = Φ

(x−m

σ

).

8.65. megjegyzés. A φ függvény írja le a Gauss-görbét (harang görbét). Φ(0) =0.5 és Φ(−x) = 1− Φ(x).

4. CAUCHY-ELOSZLÁSLegyen c ∈ R, s > 0. Az η Cauchy-eloszlású, ha a sűrűségfüggvénye

f(x) =1

πs

[1 +

(x− c

s

)2] , x ∈ R.

Nem létezik a várható érték. Az eloszlásfüggvény

F (x) =1

2+

1

πarctan

(x− c

s

).

8.66. megjegyzés. Szokás csak a c = 0, s = 1 esetet (standard) Cauchy-eloszlásnak nevezni.

8.5.5. A véletlen vektorok

8.67. definíció. A (ξ, η) : Ω → R2 leképezést (kétdimenziós) véletlen vek-tornak nevezzük, ha

ξ < x, η < y = ω|ω ∈ Ω, ξ(ω) < x, η(ω) < y ∈ F , ∀x, y ∈ R.

8.68. definíció. Az F (x, y) = P (ξ < x, η < y) formulával meghatározott valósértékű függvényt a (ξ, η) véletlen vektor együttes eloszlásfüggvényének nevezzük.Az

Fξ(x) = limy→+∞

F (x, y), Fη(y) = limx→+∞

F (x, y)

függvényeket peremeloszlásfüggvénynek nevezzük.

127

Page 129: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.69. tétel. Az F függvény akkor és csak akkor lehet együttes eloszlásfüggvény,ha1. lim

x→−∞F (x, y) = 0, lim

y→−∞F (x, y) = 0,

2. limx→∞y→∞

F (x, y) = 1,

3. F mindkét változójában balról folytonos,4. F (b, d) − F (b, c) − F (a, d) + F (a, c) ≥ 0, ∀a < b, c < d esetén, azaz teljesülaz ún. "téglalap" tulajdonság.

8.70. megjegyzés. A téglalap tulajdonságból következik, hogy F mindkét vál-tozójában monoton növekvő.

8.71. definíció. A (ξ, η) véletlen vektort diszkrétnek nevezzük, ha a lehetségesértékek számossága legfeljebb megszámlálhatóan végtelen.

8.72. definíció. Legyen a ξ, illetve η valószínűségi változó lehetséges értekeineksorozata x1, x2, . . . , illetve y1, y2, . . . . A P (ξ = xi, η = yj) = pij (i, j = 1, 2, . . . )valószínűségek sorozatát együttes eloszlásnak nevezzük. A

qi =∞∑j=1

pij , (i = 1, 2, . . . ),

rj =∞∑i=1

pij , (j = 1, 2, . . . )

valószínűség sorozatokat peremeloszlásnak nevezzük. Minden rj > 0 esetén a ξfeltételes eloszlása adott η = yj mellett

P (ξ = xi|η = yj) =pijrj

.

Az

E(ξ|η = yj) =∞∑i=1

xipijrj

mennyiséget feltételes várható értéknek nevezzük. Az

E(ξ|η = yj) = m2(yj)

függvényt a ξ-nek az η-ra vonatkozó regressziós függvényének nevezzük.

8.73. tétel. Ha pij (i, j = 1, 2, . . . ) együttes eloszlás, akkor

pij ≥ 0 (i, j = 1, 2, . . . ) és∞∑i=1

∞∑j=1

pij = 1.

128

Page 130: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.74. definíció. Ha létezik f nemnegatív valós értékű függvény, melyre

F (x, y) =

x∫−∞

y∫−∞

f(u, v)dvdu, ∀x, y ∈ R,

akkor f az F eloszlásfüggvényhez tartozó együttes sűrűségfüggvény. Az

fξ(x) =

+∞∫−∞

f(x, y)dy, fη(y) =

+∞∫−∞

f(x, y)dx

függvényeket peremsűrűségfüggvénynek nevezzük.

8.75. tétel. Az f függvény akkor és csak akkor lehet együttes sűrűségfüggvény,ha nemnegatív és

+∞∫−∞

+∞∫−∞

f(x, y)dydx = 1.

8.76. definíció. A (ξ, η) véletlen vektort folytonosnak nevezzük, ha létezik azegyüttes sűrűségfüggvénye.

8.77. definíció. A ξ és η valószínűségi változót függetlennek nevezzük, ha

F (x, y) = Fξ(x)Fη(y), ∀x, y ∈ R.

8.78. megjegyzés. A függetlenség megfelelői diszkrét illetve folytonos esetben:

pij = qirj , (i, j = 1, 2, . . . ),

f(x, y) = fξ(x)fη(y), ∀x, y ∈ R.

8.79. definíció. Legyen (ξ, η) véletlen vektor. Az F (x|y) a feltételes eloszlás-függvénye a ξ-nek η = y esetén, ha

F (x|y) = P (ξ < x|η = y) = limh→0+0

P (ξ < x|y ≤ η < y + h).

8.80. megjegyzés. Ha léteznek a feltételes valószínűségek.

8.81. definíció. Ha létezik fξ|η nemnegatív valós értékű függvény, melyre

F (x|y) =x∫

−∞

fξ|η(u|y)du, ∀x, y ∈ R,

akkor fξ|η a ξ-nek az η-ra vonatkozó feltételes sűrűségfüggvénye.

129

Page 131: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.82. megjegyzés.

fξ|η(x|y) =f(x, y)

fη(y).

8.83. definíció. A feltételes sűrűségfüggvény segítségével meghatározott felté-teles várható értéket regressziós függvénynek nevezzük, azaz az

+∞∫−∞

fξ|η(x|y)dx = m2(y)

függvényt a ξ-nek az η-ra vonatkozó regressziós függvényének nevezzük.

8.84. megjegyzés. Ha (ξ, η) véletlen vektor és g : R2 → R olyan függvény,hogy g(ξ, η) valószínűségi változó, akkor

E(g(ξ, η)) =

∑i,j

g(xi, yj)pij , ha (ξ, η) diszkrét,

+∞∫−∞

+∞∫−∞

g(x, y)f(x, y)dydx, ha (ξ, η) folytonos.

8.85. definíció. A

cov(ξ, η) = E((ξ − E(ξ))(η − E(η)))

mennyiséget kovarianciának nevezzük. Az

r(ξ, η) =cov(ξ, η)

D(ξ)D(η)

mennyiséget pedig korrelációs együtthatónak nevezzük.

8.86. tétel. 1. E(ξ + η)) = E(ξ) + E(η).

2. D2(ξ + η)) = D2(ξ) +D2(η) + 2cov(ξ, η).

3. E(E(ξ|η = y)) = E(ξ).

4. |cov(ξ, η)| ≤ D(ξ)D(η), azaz |r(ξ, η)| ≤ 1.

8.87. megjegyzés. A véletlen vektor és a hozzákapcsolódó fogalmak definíció-ját csak kétdimenziós esetben adtuk meg, de nagyon egyszerűen kiterjeszthetőekvéges sok valószínűségi változó esetére. Például, a ξ1, ξ2, . . . , ξn valószínűségiváltozókat függetlennek nevezzük, ha

F (x1, x2, . . . , xn) = Fξ1(x1)Fξ2(x2) · · ·Fξn(xn), ∀x1, x2, . . . , xn ∈ R.

8.88. tétel. Az F (x1, x2, . . . , xn) függvény akkor és csak akkor együttes elosz-lásfüggvény, ha minden változójában balról folytonos, és

limxi→−∞

F (x1, x2, . . . , xn) = 0, (i = 1, 2, . . . , n),

130

Page 132: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

limxi→+∞(i=1,2,...,n)

F (x1, x2, . . . , xn) = 1,∑K=e1+e2+···+en

(−1)KF (e1a1 + (1− e1)b1, . . . , enan + (1− en)bn) ≥ 0,

∀ai ≤ bi, (i = 1, 2, . . . , n)

és az összegzést ∀K esetében vesszük, ahol az

e1, e2, . . . , en

értéke 0 és 1 lehet.

8.89. tétel. Legyenek ξ1, ξ2, . . . , ξn független valószínűségi változók, melyeknekrendre Fξ1 , Fξ2 , . . . , Fξn az eloszlásfüggvénye. Ekkor(a) az η(ω) = maxξ1(ω), . . . , ξn(ω) (∀ω ∈ Ω) valószínűségi változó eloszlás-függvénye

Fη(y) = Fξ1(y)Fξ2(y) · · ·Fξn(y).

(b) az η(ω) = minξ1(ω), . . . , ξn(ω) (∀ω ∈ Ω) valószínűségi változó eloszlás-függvénye

Fη(z) = 1− (1− Fξ1(z))(1− Fξ2(z)) · · · (1− Fξn(z)).

8.5.6. Néhány többdimenziós eloszlás

A (ξ, η) véletlen vektor(i) normális eloszlású, ha

f(x, y) =1

2πσ1σ2

√1− ρ2

exp[−Q],

Q =1

2(1− ρ2)

[(x−m1

σ1)2 − 2ρ(

x−m1

σ1)(y −m2

σ2) + (

y −m2

σ2)2],

ahol σ1 > 0, σ2 > 0,−1 < ρ < 1.

(ii) egyenletes eloszlású az A ⊂ R2 tartományon, ha

f(x, y) =

1

|A|, ha (x, y) ∈ A,

0, egyébként.

8.5.7. Néhány alapvető tétel

8.90. tétel. (Markov-egyenlőtlenség) Legyen a ξ nemnegatív valószínűségiváltozó, melynek létezik a várható értéke, ekkor ∀c > 0 esetén

P (ξ ≥ c) ≤ E(ξ)

c.

131

Page 133: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

8.91. tétel. (Csebisev-egyenlőtlenség) Ha a ξ valószínűségi változónaklétezik a szórásnégyzete, akkor ∀ε > 0 esetén

P (|ξ − E(ξ)| ≥ ε) ≤ D2(ξ)

ε2.

8.92. tétel. (nagy számok gyenge törvénye) Legyen ξ1, ξ2, . . . független,azonos eloszlású valószínűségi változók sorozata. Létezik a szórásnégyzet. Ekkortetszőleges ε > 0 esetén

limn→+∞

P

(|ξ1 + · · ·+ ξn

n− E(ξ1)| ≥ ε

)= 0.

8.93. megjegyzés. Legyen A esemény és Sn az A esemény gyakorisága az elsőn kísérletből egy Bernoulli kísérletsorozatnál. Ekkor tetszőleges ε > 0 esetén

limn→+∞

P

(|Sn

n− P (A)| ≥ ε

)= 0.

8.94. tétel. (centrális határeloszlás-tétel) Legyen ξ1, ξ2, . . . független,azonos eloszlású valószínűségi változók sorozata és létezik az E(ξi) = µ és

D2(ξi) = σ2 > 0. Ha Sn =n∑

k=1

ξk, akkor

limn→+∞

P

(Sn − nµ

σ√n

< x

)= Φ(x), x ∈ R,

ahol Φ a standard normális eloszlásfüggvény.

8.95. tétel. (Moivre-Laplace) Legyen a ξ valószínűségi változó binomiáliseloszlású n és p paraméterrel és 0 ≤ a < b ≤ n egész, akkor

P (a ≤ ξ ≤ b) =b∑

k=a

(n

k

)pkqn−k ≈

≈ Φ

b− np+1

2√npq

− Φ

a− np− 1

2√npq

.

132

Page 134: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

Irodalomjegyzék

[1] J. Aczél, Z. Daróczy: On Measures of Information and Their Charac-terization, Academic Press, New York, 1975.

[2] S. Arimoto: An algorithm for calculating the capacity of an arbitrarydiscrete memoryless channel, IEEE Trans. Inform. Theory, IT-18, 1972,

pp14-20.

[3] R.B. Ash: Information Theory, Interscience, New York, 1965.

[4] J. Berstel, D. Perrin: Theory of Codes, Academic Press, New York,2002.

[5] G. Birkhoff, T.C. Bartee: A modern algebra a számítógéptudományban,Műszaki Könyvkiadó, Budapest, 1964.

[6] R. Blahut: Computation of channel capacity and rate distortion func-tions, IEEE Trans. Inform. Theory, IT-18, 1972, pp460-472.

[7] T.M. Cover, J.A. Thomas: Elements of information theory, Wiley, NewYork, 1991.

[8] Csiszár I., Fritz József: Informácíóelmélet, Tankönyvkiadó, Budapest,1980.

[9] Fritz József: Bevezetés az informácíóelméletbe, Tankönyvkiadó, Budapest,1971.

[10] Fritz József: Informácíóelmélet, Mat.Kut.Int., Budapest, 1973.

[11] Fülöp Géza: Az információ, Eötvös Loránd Tudományegyetem Könyv-tártudományi - Informatikai Tanszék, Budapest, 1996.

[12] S. Guiasu: Information theory with applications, McGRAW-HILL, NewYork, 1977.

[13] Sz.V. Jablonszkij, O.B. Lupanov: Diszkrét matematika a számítástu-dományban, Műszaki Könyvkiadó, Budapest, 1980.

133

Page 135: Fegyverneki Sándor Dátummatfs/INF_11_main_kep.pdf · 2020. 9. 18. · struktúrák, vektortér, a kizáró vagy művelete, norma, Hamming-távolság és tu-lajdonságai, maximum

[14] M. Jimbo, K. Kunisawa: An Iteration Method for Calculating the Rela-tive Capacity, Department of Information Sciences, Faculty os Sience andTechnology, Sience University of Tokyo, Noda City Chiba 278, Japan.

[15] F.M. Reza: Bevezetés az informácíóelméletbe, Műszaki Könyvkiadó,Budapest, 1963.

[16] C.E. Shannon, W.Weaver: A kommunikáció matematikai elmélete,OMIKK, Budapest, 1986.

[17] Vassányi István: Információelmélet, Veszprémi Egyetem, Műszaki Infor-matika Szak, 2002-2005.

[18] Xue-Bin Liang: An Algebraic, Analytic and Algorithmic Investigationon the Capacity and Capacity-Achieving Input Probability Distributions ofFinite-Input Finite-Output Discrete Memoryless Channels, Department ofElectrical and Computer Engineering Louisiana State University, Baton Ro-uge, LA 70803, 2004.

134