59
Dch và biên son t Tp chí k thut ca Bell System, bi nhóm VNTelecom (http://vntelecom.org) Tp. 27, trang 379-423, 623-656, tháng By, năm 1948 NGUYÊN LÝ TOÁN HC V TRUYN TIN C. E. SHANNON M ĐU S phát trin gn đây ca mt lot các phương pháp điu ch như PCM (Pulse Code Modulation - Điu ch mã xung - ND) và PPM (Pulse Position Modulation - Điu ch v trí xung - ND) đánh đi đ rng băng tín hiu ly t s tín hiu trên nhiu đã làm tăng mnh m mi quan tâm v mt nguyên lý truyn tin tng quát. Mt cơ s cho mt lý thuyt như th nm trong các bài báo quan trng ca Nyquist 1 và Hartley 2 v vn đ này. Trong bài báo này, chúng tôi s m rng thêm lý thuyt đó bao gm mt s các yu t mi, đc bit là v tác đng ca nhiu trên kênh và nhng tit kim có th đt đưc nh cu trúc thng kê ca bn tin gc cũng như nh bn cht ca đích đn cui cùng ca thông tin. Vn đ cơ bn ca truyn tin là vn đ tái to li, hoc chính xác hoc gn đúng, ti mt đim này mt bn tin đã đưc chn ra mt đim khác. Thưng thưng thì các bn tin có nghĩa; nghĩa là chúng liên quan hoc có quan h tương ng ti mt s h thng vi các thc th vt lý hoc khái nim nào đó. Các khía cnh ng nghĩa này ca vic truyn tin thì không liên quan ti vn đ k thut. Khía cnh có ý nghĩa quan trng là chuyn bn tin thc s thì đưc chn ra t mt tp các bn tin kh dĩ. H thng nht thit phi đưc thit k đ làm vic đi vi tng la chn kh dĩ ch không ch vi mi mt cái mà nó s thc s đưc la chn bi vì điu này là không bit đưc vào lúc thit k. Nu s các bn tin trong tp là hu hn thì con s này hay bt kỳ mt hàm đơn điu nào ca s này đu có th đưc xem như mt đ đo ca thông tin đưc to ra khi mt bn tin đưc chn ra t tp đó, vi tt c các la chn đu có kh năng như nhau. Như đã đưc Hartley ch ra, la chn t nhiên nht (v hàm s đơn điu hình thành nên đ đo - ND) là hàm logarit. Mc dù đnh nghĩa này nht thit phi đưc tng quát hoá mt cách rõ ràng khi chúng ta xem xét nh hưng ca các s liu thng kê ca bn tin đó hay khi ta có mt di liên tc các bn tin. Trong mi trưng hp chúng ta s vn s dng mt đ đo v căn bn là mt hàm logarit. Đ đo logarit thun tin hơn do mt s lý do sau: 1. V mt thc t thì nó hu ích hơn. Các thông s quan trng v k thut như thi gian, đ rng băng, s các rơ-le... có xu hưng thay đi tuyn tính theo logarit ca s các kh năng. Ví d như vic thêm mt cái rơ-le vào mt nhóm các rơ-le thì làm tăng gp đôi s các trng thái có th có ca nhóm các rơ-le đó. Cái đó cng thêm 1 vào logarit cơ s 2 ca s các trng thái y. Vic tăng gp đôi thi gian s gn như bình phương s các bn tin kh dĩ, nói cách khác là tăng gp đôi giá tr hàm logarit, vân vân. 2. Nó gn gũi hơn vi cm nhn trc giác ca chúng ta v mt đ đo đúng đn. Điu này thì liên h gn gũi vi mc (1) do chúng ta đo lưng các thc th mt cách trc giác bng vic so sánh tuyn tính vi các chun mc chung. Ví d như ta cm thy rng hai cái bìa đc l thì có l có gp đôi dung lưng so vi mt cái v phương din lưu tr thông tin, và hai kênh như nhau thì có gp đôi dung lưng truyn tin so vi mt kênh. 3. Nó thích hp hơn v mt toán hc. Nhiu phép toán gii hn s tht đơn gin nu dùng hàm logarit song nu như ta dùng (trc tip) s các kh năng thì có l phi cn đn nhng din gii khá lòng vòng. Vic chn mt cơ s logarit tương ng vi vic chn mt đơn v đo thông tin. Nu cơ s 2 đưc s dng thì các đơn v có đưc có th đưc gi là các s nh phân, hay vn tt hơn là các bit, mt t đưc đ xut bi J. W. Tukey. Mt thit b vi hai trng thái n đnh, như mt rơ-le hay mt mch tri-gơ, có th tr đưc mt bit thông tin. N thit b như th có th lưu gi N bit, do tng s các trng thái kh dĩ là 2 N log 2 (2 N )= N. 1 Nyquist, H., “Certain Factors Affecting Telegraph Speed,” Bell System Technical Journal, April 1924, p. 324; “Certain Topics in Telegraph Transmission Theory,” A.I.E.E. Trans., v. 47, April 1928, p. 617. 2 Hartley, R. V. L., “Transmission of Information,” Bell System Technical Journal, July 1928, p. 535. 1 Dch và biên son bi VNTelecom

Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Embed Size (px)

Citation preview

Page 1: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Dịch và biên soạn từ Tạp chí kỹ thuật của Bell System, bởi nhóm VNTelecom (http://vntelecom.org)Tập. 27, trang 379-423, 623-656, tháng Bảy, năm 1948

NGUYÊN LÝ TOÁN HỌC VỀ TRUYỀN TIN

C. E. SHANNON

MỞ ĐẦU

Sự phát triển gần đây của một loạt các phương pháp điều chế như PCM (Pulse Code Modulation - Điều chếmã xung - ND) và PPM (Pulse Position Modulation - Điều chế vị trí xung - ND) đánh đổi độ rộng băng tínhiệu lấy tỷ số tín hiệu trên nhiễu đã làm tăng mạnh mẽ mối quan tâm về một nguyên lý truyền tin tổng quát.Một cơ sở cho một lý thuyết như thế nằm trong các bài báo quan trọng của Nyquist1 và Hartley2 về vấn đềnày. Trong bài báo này, chúng tôi sẽ mở rộng thêm lý thuyết đó bao gồm một số các yếu tố mới, đặc biệt làvề tác động của nhiễu trên kênh và những tiết kiệm có thể đạt được nhờ cấu trúc thống kê của bản tin gốccũng như nhờ bản chất của đích đến cuối cùng của thông tin.

Vấn đề cơ bản của truyền tin là vấn đề tái tạo lại, hoặc chính xác hoặc gần đúng, tại một điểm này mộtbản tin đã được chọn ra ở một điểm khác. Thường thường thì các bản tin có nghĩa; nghĩa là chúng liên quanhoặc có quan hệ tương ứng tới một số hệ thống với các thực thể vật lý hoặc khái niệm nào đó. Các khía cạnhngữ nghĩa này của việc truyền tin thì không liên quan tới vấn đề kỹ thuật. Khía cạnh có ý nghĩa quan trọnglà chuyện bản tin thực sự thì được chọn ra từ một tập các bản tin khả dĩ. Hệ thống nhất thiết phải được thiếtkế để làm việc đối với từng lựa chọn khả dĩ chứ không chỉ với mỗi một cái mà nó sẽ thực sự được lựa chọnbởi vì điều này là không biết được vào lúc thiết kế.

Nếu số các bản tin trong tập là hữu hạn thì con số này hay bất kỳ một hàm đơn điệu nào của số này đềucó thể được xem như một độ đo của thông tin được tạo ra khi một bản tin được chọn ra từ tập đó, với tất cảcác lựa chọn đều có khả năng như nhau. Như đã được Hartley chỉ ra, lựa chọn tự nhiên nhất (về hàm số đơnđiệu hình thành nên độ đo - ND) là hàm logarit. Mặc dù định nghĩa này nhất thiết phải được tổng quát hoámột cách rõ ràng khi chúng ta xem xét ảnh hưởng của các số liệu thống kê của bản tin đó hay khi ta có mộtdải liên tục các bản tin. Trong mọi trường hợp chúng ta sẽ vẫn sử dụng một độ đo về căn bản là một hàmlogarit.

Độ đo logarit thuận tiện hơn do một số lý do sau:

1. Về mặt thực tế thì nó hữu ích hơn. Các thông số quan trọng về kỹ thuật như thời gian, độ rộng băng, sốcác rơ-le... có xu hướng thay đổi tuyến tính theo logarit của số các khả năng. Ví dụ như việc thêm mộtcái rơ-le vào một nhóm các rơ-le thì làm tăng gấp đôi số các trạng thái có thể có của nhóm các rơ-leđó. Cái đó cộng thêm 1 vào logarit cơ số 2 của số các trạng thái ấy. Việc tăng gấp đôi thời gian sẽ gầnnhư bình phương số các bản tin khả dĩ, nói cách khác là tăng gấp đôi giá trị hàm logarit, vân vân.

2. Nó gần gũi hơn với cảm nhận trực giác của chúng ta về một độ đo đúng đắn. Điều này thì liên hệ gầngũi với mục (1) do chúng ta đo lường các thực thể một cách trực giác bằng việc so sánh tuyến tính vớicác chuẩn mực chung. Ví dụ như ta cảm thấy rằng hai cái bìa đục lỗ thì có lẽ có gấp đôi dung lượng sovới một cái về phương diện lưu trữ thông tin, và hai kênh như nhau thì có gấp đôi dung lượng truyềntin so với một kênh.

3. Nó thích hợp hơn về mặt toán học. Nhiều phép toán giới hạn sẽ thật đơn giản nếu dùng hàm logaritsong nếu như ta dùng (trực tiếp) số các khả năng thì có lẽ phải cần đến những diễn giải khá lòng vòng.

Việc chọn một cơ số logarit tương ứng với việc chọn một đơn vị đo thông tin. Nếu cơ số 2 được sử dụngthì các đơn vị có được có thể được gọi là các số nhị phân, hay vắn tắt hơn là các bit, một từ được đề xuất bởiJ. W. Tukey. Một thiết bị với hai trạng thái ổn định, như một rơ-le hay một mạch tri-gơ, có thể trữ được mộtbit thông tin. N thiết bị như thế có thể lưu giữ N bit, do tổng số các trạng thái khả dĩ là 2N và log2(2N) = N.

1Nyquist, H., “Certain Factors Affecting Telegraph Speed,” Bell System Technical Journal, April 1924, p. 324; “Certain Topics inTelegraph Transmission Theory,” A.I.E.E. Trans., v. 47, April 1928, p. 617.

2Hartley, R. V. L., “Transmission of Information,” Bell System Technical Journal, July 1928, p. 535.

1 Dịch và biên soạn bởi VNTelecom

Page 2: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

NGUỒN TIN

BẢN TIN

MÁY PHÁT

TÍN HIỆU TÍN HIỆUNHẬN ĐƯỢC

MÁY THU

BẢN TIN

ĐÍCH ĐẾN

NGUỒN TẠP ÂM

Hình 1—Sơ đồ khối của một hệ thống truyền tin tổng quát.

Nếu cơ số 10 được sử dụng thì các đơn vị có thể gọi là các số thập phân. Do

log2 M = log10 M/ log10 2= 3.32log10 M,

một số thập phân thì bằng khoảng 3 13 bit. Một bánh xe số trên một máy tính để bàn (máy tính cơ khí quay

tay thời của Shannon - ND) có mười vị trí ổn định và do đó nó có khả năng lưu trữ một số thập phân. Trongtính toán giải tích bao gồm các phép tính tích phân và vi phân thì cơ số e đôi khi là hữu dụng. Các đơn vị đothông tin khi đó sẽ được gọi là các đơn vị tự nhiên. Việc đổi từ cơ số a sang cơ số b chỉ cần nhân với logba.(Nếu cơ số logarit là 2 thì đơn vị đo thông tin là bit. Nếu cơ số logarit là 10 thì đơn vị đo thông tin là Hartley.Nếu cơ số logarit là e thì đơn vị đo thông tin là nat (đọc là [neit])-ND).

Với thuật ngữ một hệ thống thông tin, chúng tôi muốn nói đến một hệ thống thuộc loại được chỉ ra bằngsơ đồ khối trên hình vẽ 1. Hệ thống này về cơ bản gồm 5 phần sau:

1. Một nguồn tin tạo ra một bản tin hoặc một chuỗi các bản tin định truyền tới đầu cuối thu. Bản tin cóthể có nhiều kiểu: (a) Một chuỗi các chữ cái như trong một bản điện tín trong hệ thống điện báo; (b)Một đơn hàm theo thời gian f (t) như trong ra-đi-ô hay điện thoại; (c) Một hàm của thời gian và cácbiến khác như trong truyền hình đen-trắng — trong đó bản tin có thể xem như một hàm f (x;y, t) củahai toạ độ không gian và thời gian, cường độ sáng tại điểm (x;y) và thời gian t trên một phiến của đènpíc-cớp; (d) Hai hay nhiều hơn các hàm theo thời gian, ta hãy gọi là f (t), g(t), h(t) — là trường hợptrong phát thanh "ba chiều" (lập thể) hay trong trường hợp khi hệ thống dự định dùng để phục vụ mộtsố kênh riêng lẻ trong ghép kênh; (e) Một số hàm nhiều biến — trong truyền hình màu thì bản tin gồm3 hàm f (x;y, t), g(x;y, t), h(x : y, t) xác định trong một tập vô hạn (continuum) ba chiều — ta cũng cóthể xem ba hàm này như thể các thành phần của một trường véc-tơ xác định trong một miền — tươngtự vậy, một số nguồn tivi đen-trắng có lẽ cũng tạo ra các "bản tin" gồm một số các hàm ba biến; (f)Các bản tin hỗn hợp cũng có thể xảy ra, ví dụ như trong truyền hình có kênh âm thanh đi kèm.

2. Một máy phát xử lý bản tin theo một số cách nhằm tạo ra một tín hiệu thích hợp với việc truyền đitrên kênh. Trong điện thoại thì thao tác này chỉ đơn thuần gồm việc biến đổi áp suất âm thanh thànhmột dòng điện tỷ lệ với áp suất âm thanh. Trong điện báo, chúng ta có một thao tác mã hoá cho ra mộtdãy các chấm, gạch và dấu cách trên kênh tương ứng với bản tin. Trong một hệ thống PCM có ghépkênh, các hàm tiếng nói khác nhau nhất thiết phải được lấy mẫu, nén, lượng tử hoá rồi mã hoá và cuốicùng thì được ghép xen nhau một cách đúng đắn nhằm tạo ra tín hiệu. Các hệ thống mã hoá nguồnphát thanh, truyền hình và phát thanh điều tần (phát thanh FM) là những ví dụ khác về các thao tácphức tạp được áp dụng với các bản tin để có được tín hiệu.

3. Kênh đơn thuần chỉ là môi trường được sử dụng để truyền tín hiệu từ máy phát tới máy thu. Nó có thểlà một đôi dây xoắn, một cáp đồng trục, một dải các tần số vô tuyến, một chùm sáng, vân vân.

2 Dịch và biên soạn bởi VNTelecom

Page 3: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

4. Máy thu tuần tự thực hiện các thao tác ngược với các thao tác đã được thực hiện bởi máy phát nhằmtái tạo lại bản tin từ tín hiệu.

5. Đích đến là con người (hoặc vật) mà bản tin định truyền đến.

Chúng tôi muốn xem xét các vấn đề tổng quát nhất định, liên quan tới hệ thống truyền tin. Để làm đượcđiều này trước hết cần biểu diễn các phần tử liên quan khác nhau dưới dạng các thực thể toán học được lýtưởng hoá một cách phù hợp từ hai bộ phận vật lý tương ứng của chúng. Chúng ta có thể phân loại thô cáchệ thống thông tin thành ba loại chính: rời rạc, liên tục và hỗn hợp. Nói một hệ thống rời rạc là chúng tôimuốn nói đến một hệ thống mà trong chúng cả bản tin lẫn tín hiệu đều là một chuỗi các ký tự (symbol) rờirạc. Một trường hợp tiêu biểu là điện báo trong đó bản tin là một chuỗi các chữ cái còn tín hiệu là một chuỗicác chấm, gạch và dấu cách. Một hệ thống liên tục là một hệ thống trong đó cả bản tin lẫn tín hiệu đều đượcxử lý như các hàm liên tục, như ra-đi-ô hay tivi chẳng hạn. Một hệ thống hỗn hợp là hệ thống trong đó cảcác biến liên tục lẫn rời rạc đều có, ví dụ như truyền tiếng nói PCM.

Trước hết, chúng tôi sẽ xem xét trường hợp rời rạc. Trường hợp này có các ứng dụng không chỉ trong lýthuyết truyền tin mà còn cả trong lý thuyết máy tính, trong thiết kế các tổng đài điện thoại và các lĩnh vựckhác nữa. Ngoài ra, trường hợp rời rạc hình thành nên một nền tảng cơ sở cho các trường hợp liên tục cũngnhư hỗn hợp, sẽ được đề cập đến trong nửa sau của bài báo.

PHẦN I: HỆ THỐNG RỜI RẠC KHÔNG NHIỄU

1. KÊNH TRUYỀN RỜI RẠC KHÔNG NHIỄU

Điện báo và điện tín là hai ví dụ đơn giản của một kênh rời rạc để truyền thông tin. Một cách tổng quát, mộtkênh rời rạc sẽ có nghĩa là một hệ thống trong đó một chuỗi các lựa chọn từ một tập hữu hạn các ký hiệunguyên tố S1, . . . ,Sn có thể được truyền từ một điểm này đến điểm khác. Mỗi ký hiệu Si được giả định là cóđộ dài ti giây nào đó (không nhất thiết giống nhau cho các ký hiệu Si khác nhau, chẳng hạn như các chấmvà gạch trong điện tín). Cũng không yêu cầu tất cả các chuỗi khả dĩ của các ký hiệu Si có thể được truyềntrên hệ thống; chỉ một số chuỗi đã biết mới có thể được cho phép. Đây sẽ có thể là những tín hiệu cho kênhtruyền. Do đó trong điện báo, giả sử các ký hiệu: (1) Một chấm tạo bởi một đường đóng trong một đơn vịthời gian và sau đó là một đường mở trong cùng một đơn vị thời gian; (2) Một gạch dài tạo bởi ba đơn vịthời gian đóng và một đơn vị thời gian mở; (3) Một dấu cách ký tự tạo bởi ba đơn vị đường mở; (4) dấu cáchtừ tạo bởi sáu đơn vị đường mở. Chúng ta có thể đặt ra giới hạn đối với các chuỗi cho phép như không cókhoảng trống liên tiếp (đối với hai dấu cách ký tự kề nhau, nó cũng hoàn toàn tương đương với một dấu cáchtừ). Câu hỏi chúng ta quan tâm bây giờ là làm thế nào để đo được dung lượng của một kênh truyền tin nhưvậy.

Trong trường hợp điện báo, tất cả các ký hiệu đều có cùng một độ dài (về thời gian) và bất kỳ chuỗi nàocó 32 ký hiệu thì đều được phép, câu trả lời nói chung là dễ dàng. Mỗi ký hiệu được đại diện bởi 5 bit thôngtin. Nếu hệ thống truyền n ký hiệu trong một giây, một cách tự nhiên thì chúng ta cũng tìm được dung lượngkênh là 5n bit/giây. Điều đó không có nghĩa là kênh điện báo luôn truyền thông tin ở tốc độ này. Nó là tốcđộ tối đa có thể và tốc độ thực tế có đạt được tốc độ tối đa này hay không thì lại phụ thuộc vào nguồn tin màđưa thông tin vào kênh, như sẽ được xem xét ở phần sau.

Trong các trường hợp chung với các độ dài ký hiệu khác nhau cũng như các ràng buộc khác nhau trêncác chuỗi cho phép, chúng ta đưa ra định nghĩa sau :Định nghĩa: Dung lượng C của một kênh rời rạc được cho bởi:

C = LimT→∞

logN(T )T

trong đó N(T ) là số tín hiệu cho phép có độ dài T .Có thể dễ dàng nhận ra rằng trong trường hợp điện báo, công thức này đưa đến kết quả trước đó. Cũng

dễ thấy giới hạn cần tìm sẽ tồn tại như một số hữu hạn trong hầu hết các trường hợp nghiên cứu. Giả sử tấtcả các chuỗi ký hiệu S1, . . . ,Sn đều được phép truyền và các ký hiệu này có độ dài t1, . . . , tn. Dung lượng của

3 Dịch và biên soạn bởi VNTelecom

Page 4: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

kênh trong trường hợp này là bao nhiêu? Nếu N(t) đại diện cho số các chuỗi với khoảng thời gian t, chúngta có:

N(t) = N(t− t1)+N(t− t2)+ · · ·+N(t− tn).

Tổng này sẽ bằng tổng các số lượng chuỗi kết thúc bởi ký hiệu S1,S2, . . . ,Sn và các số này lần lượt làN(t− t1),N(t− t2), . . . ,N(t− tn). Theo một kết quả đã biết của các vi sai hữu hạn N(t) sẽ tiệm cận tới X t

0 khit lớn với X0 là nghiệm thực lớn nhất của phương trình đặc trưng:

X−t1 +X−t2 + · · ·+X−tn = 1

và do đóC = logX0.

Trong trường hợp có các giới hạn áp đặt trên các chuỗi cho phép, chúng ta vẫn thường có thể nhận đượcmột phương trình vi sai loại này và tìm C từ phương trình đặc trưng. Trong trường hợp điện báo đề cập ởtrên:

N(t) = N(t−2)+N(t−4)+N(t−5)+N(t−7)+N(t−8)+N(t−10)

như chúng ta thấy nhờ đếm các chuỗi ký hiệu dựa theo ký hiệu cuối hoặc áp cuối xuất hiện trong chuỗi. Dođó C bằng− logµ0 với µ0 là nghiệm dương của phương trình 1 = µ2 +µ4 +µ5 +µ7 +µ8 +µ10. Giải phươngtrình này ta tìm được C = 0.539.

Một loại giới hạn chung nhất mà có thể áp đặt trên các chuỗi ký hiệu cho phép như sau: Chúng ta hìnhdung một số trạng thái khả dĩ a1,a2, . . . ,am. Với mỗi trạng thái thì chỉ có một số lượng nhất định ký hiệu nàođó trong tập ký hiệu S1, . . . ,Sn có thể được truyền đi (các tập con khác nhau cho các trạng thái khác nhau).Khi một trong số tập con này được truyền đi, trạng thái hiện tại sẽ thay đổi sang trạng thái mới phụ thuộc cảvào trạng thái cũ lẫn ký hiệu đặc biệt được truyền. Nếu vậy, khi đó chỉ một chấm hoặc một gạch có thể đượcgửi tiếp theo và trạng thái luôn hay đổi. Nếu không, bất kỳ ký hiệu nào có thể được truyền và trạng thái thayđổi nếu một dấu cách được gửi đi nếu không thì nó sẽ vẫn như cũ. Các điều kiện có thể được trình bày trongđồ thị tuyến tính như Hình 2.

GẠCH

CHẤM

GẠCH

CHẤM

CÁCH KÝ TỰ

CÁCH TỪ

Hình 2—Biểu diễn đồ thị các ràng buộc trên ký hiệu điện báo.

Các điểm liên kết tương ứng với các trạng thái và các đường mũi tên biểu thị các ký hiệu có thể trongmột trạng thái và trạng thái kết quả tương ứng. Phụ lục 1 cho thấy các điều kiện áp đặt trên các chuỗi chophép có thể được mô tả trong dạng C sẽ tồn tại và có thể được tính toán theo các kết quả sau:

Định lí 1: Cho b(s)i j là khoảng thời gian của ký hiệu thứ s, là ký hiệu được phép ở trạng thái i và dẫn đến

chuyển sang trạng thái j. Khi đó, dung lượng C của kênh sẽ bằng logW với W là nghiệm thực lớn nhất củaphương trình định thức ∣∣∣∑

sW−b(s)

i j − δi j

∣∣∣ = 0

với δi j = 1 nếu i = j = 0 trong các trường hợp còn lại.Ví dụ, trong trường hợp điện báo (Hình 2), định thức là:

∣∣∣∣−1 (W−2 +W−4)

(W−3 +W−6) (W−2 +W−4−1)

∣∣∣∣ = 0.

Khai triển định thức sẽ đưa đến phương trình cho phía trên trong trường hợp này.

4 Dịch và biên soạn bởi VNTelecom

Page 5: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

2. NGUỒN TIN RỜI RẠC

Chúng ta đã thấy trong các điều kiện rất chung, hàm logarit của số các tín hiệu khả dĩ trong một kênh rời rạctăng tuyến tính theo thời gian. Dung lượng truyền tin có thể được xác định bằng cách gán cho tốc độ tăngmột số lượng bit trên đơn vị thời gian cần thiết để xác định một tín hiệu riêng được sử dụng.

Bây giờ, chúng ta xem xét về nguồn tin. Làm thể nào để mô tả một nguồn tin bằng công cụ toán học vàlượng thông tin theo bít/giây được tạo ra từ một nguồn tin cho trước? Vấn đề chính là tác động của hiểu biếtcó tính thống kê về nguồn tin trong việc giảm dung lượng kênh cần thiết bằng cách sử dụng phương phápmã hóa thông tin hợp lý. Trong điện báo chẳng hạn, các bản tin được truyền gồm các chuỗi chữ cái. Tuynhiên, các chuỗi này lại không phải ngẫu nhiên. Nói chung, chúng hình thành các câu và có cấu trúc thôngkê, ví dụ, của tiếng Anh. Chữ cái E xuất hiện thường xuyên hơn Q và tổ hợp TH thường xuyên hơn XP, v..v..Sự tồn tại của cấu trúc này cho phép một ai đó có thể tiết kiệm thời gian (hay dung lượng kênh) bằng cáchmã hóa hợp lý các chuỗi bản tin thành các chuỗi tín hiệu. Việc này đã được thực hiện đến một chừng mựcnào đó trong điện báo bằng việc sử dụng các ký hiệu kênh ngắn nhất, chấm, cho các các chữ cái tiếng Anhthường xuyên xuất hiện như E trong khi các chữ cái ít xuất hiện hơn, như Q, X, Z, được diễn tả bởi các chuỗichấm-gạch dài hơn. Ý tưởng này còn được sử dụng trong một số mã thương mại, khi đó các từ và các câuthông dụng được diễn tả bởi các nhóm mã bốn hoặc năm chữ, đạt được một mức tiết kiệm đáng kể về thờigian trung bình. Các bức điện tín chúc mừng hay kỷ niệm thường dùng hằng ngày mở rộng điều này bằngviệc mã hóa một hoặc hai câu thành một chuỗi các số tương đối ngắn.

Chúng ta có thể nghĩ đến một nguồn rời rạc tạo ra bản tin, ký hiệu nối tiếp ký hiệu. Nói chung, nó sẽchọn các ký hiệu liên tiếp dựa trên các xác suất nào đó phụ thuộc vào các lựa chọn trước đó cũng như các kýhiệu riêng biệt định phát. Một hệ thống vật lý hay một mô hình toán học của một hệ thống mà tạo ra chuỗiký hiệu như vậy chịu chi phối bởi một tập hợp xác suất, được biết tới là quá trình ngẫu nhiên.3 Do đó, chúngta có thể xem xét một nguồn rời rạc được mô tả bởi một quá trình ngẫu nhiên. Ngược lại, bất kỳ quá trìnhngẫu nhiên mà tạo ra một chuỗi rời rạc các ký hiệu được chọn từ một tập hợp hữu hạn có thể được coi nhưmột nguồn rời rạc. Điều này bao gồm các trường hợp sau:

1. Ngôn ngữ viết tự nhiên như tiếng Anh, tiếng Đức, tiếng Trung Quốc.

2. Các nguồn tin liên tục được rời rạc hóa bởi quá trình lượng tử hóa. Ví dụ như lời nói được lượng tửhóa từ bộ phát PCM hoặc tín hiệu TV đã được lượng tử hóa.

3. Các trường hợp toán học mà chúng ta định nghĩa đơn thuần một cách trừu tượng một quá trình ngẫunhiên tạo ra một chuỗi ký hiệu. Dưới đây là ví dụ cho loại nguồn cuối cùng.

(A) A. Giả sử chúng ta có 5 chữ cái A, B, C, D, E, mỗi chữ có xác suất được chọn là 0.2, các lựachọn liên tiếp là độc lập. Điều này có thể dẫn đến một dãy mà dưới đây là ví dụ điển hình:B D C B C E C C C A D C B D D A A E C E E AA B B D A E E C A C E E B A E E C B C E A D.Chuỗi này được xây dựng dựa trên việc sử dụng một bảng số ngẫu nhiên.4

(B) Cũng vẫn sử dụng 5 chữ cái đó nhưng với các xác suất lần lượt là 0.4, 0.1, 0.2, 0.2, 0.1, các lựachọn liên tiếp là độc lập. Một bản tin điển hình từ nguồn này là:A A A C D C B D C E A A D A D A C E D AE A D C A B E D A D D C E C A A A A A D.

(C) Chúng ta có để nhận được một cấu trúc phức tạp hơn nếu các ký hiệu liên tiếp không được chọnmột cách độc lập nhưng các xác suất của chúng lại phụ thuộc vào các chữ cái trước đó. Trongtrường hợp đơn giản nhất của loại này một lựa chọn chỉ phụ thuộc vào chữ cái đứng trước nó màkhông phụ thuộc vào các chữ cái đứng trước chữ cái trước nó. Khi đó, cấu trúc thống kê có thểđược mô tả bởi một tập các xác suất chuyển đổi pi( j), là xác suất là chữ cái j đứng trước chữ cáii. Các chỉ số i, j chạy dọc tất cả các ký hiệu khả dĩ. Một cách thứ hai tương đương để xác định

3Tham khảo, ví dụ, S. Chandrasekhar, “Stochastic Problems in Physics and Astronomy,” Reviews of Modern Physics, v. 15, No. 1,January 1943, p. 1.

4Kendall and Smith, Tables of Random Sampling Numbers, Cambridge, 1939.

5 Dịch và biên soạn bởi VNTelecom

Page 6: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

cấu trúc này là vẽ một "digram" xác suất p(i, j), giả như tần số tương đối của digram i j. Các tầnsố xuất hiện chữ cái p(i) (xác suất xuất hiện của chữ cái i), các xác suất chuyển đổi pi( j) và cácxác suất digram p(i, j) liên hệ với nhau theo công thức sau:

p(i) = ∑j

p(i, j) = ∑j

p( j, i) = ∑j

p( j)p j(i)

p(i, j) = p(i)pi( j)

∑j

pi( j) = ∑i

p(i) = ∑i, j

p(i, j) = 1.

Lấy một ví dụ cụ thể, giả sử ba chữ cái A, B, C với bảng phân bố xác suất:

pi( j) jA B C

A 0 45

15

i B 12

12 0

C 12

25

110

i p(i)

A 927

B 1627

C 227

p(i, j) jA B C

A 0 415

115

i B 827

827 0

C 127

4135

1135

Một bản tin tiêu biểu phát bởi nguồn này có thể có dạng như sau:A B B A B A B A B A B A B A B B B A B B B B B A B A B A B A B A B B B A C A C A BB A B B B B A B B A B A C B B B A B A.Bước tiếp theo chúng ta sẽ tăng độ phức tạp bằng cách có thể thêm vào các tần số trigram. Việclựa chọn một chữ cái có thể phụ thuộc vào hai chữ cái đứng trước nó nhưng không phụ thuộcvào bản tin trước thời điểm lựa chọn. Một tập các tần số trigram p(i, j,k) hay nói cách tươngđương, một tập các xác suất chuyển đổi pi j(k) có thể sẽ cần thiết. Cứ theo cách này, chúng ta cóthể nhận được các quá trình ngẫu nhiên phức tạp hơn một cách liên tiếp. Trong trường hợp tổngquát n-gram, một tập các xác suất n-gram p(i1, i2, . . . , in) hay một tập các xác suất chuyển đổipi1,i2,...,in−1(in) là cần thiết để xác định cấu trúc thống kê.

(D) Các quá trình ngẫu nhiên có thể cũng được định nghĩa là quá trình sinh ra một đoạn văn bản gồmmột chuỗi các “từ”. Giả định có 5 chữ cái A, B, C, D, E và 16 “từ” trong ngôn ngữ văn bản vớicác xác suất tương ứng:

.10 A .16 BEBE .11 CABED .04 DEB

.04 ADEB .04 BED .05 CEED .15 DEED

.05 ADEE .02 BEED .08 DAB .01 EAB

.01 BADD .05 CA .04 DAD .05 EE

Giả sử các từ liên tiếp được chọn độc lập và được cách nhau bởi ký tự trống. Một bản tin điểnhình có thể là:DAB EE A BEBE DEED DEB ADEE ADEE EE DEB BEBE BEBE BEBE ADEE BED DEEDDEED CEED ADEE A DEED DEED BEBE CABED BEBE BED DAB DEED ADEB.Nếu tất cả các từ đều có độ dài hữu hạn thì quá trình này tương đương với một trong số các dạngquá trình đã nói ở trên nhưng việc mô tả có vẻ như đơn giản hơn trên phương diện cấu trúc từ vàxác suất. Chúng ta có thể tổng quát hóa ở đây và đưa ra xác suất chuyển đổi giữa các từ, v.v.

Các ngôn ngữ nhân tạo này rất hữu dụng trong việc xây dựng các vấn đề và ví dụ đơn giản để minh họacác khả năng khác nhau. Chúng ta cũng có thể xấp xỉ gần đến ngôn ngữ tự nhiên bằng cách xâu chuỗi cácngôn ngữ nhân tạo đơn giản. Phương pháp xấp xỉ bậc không đạt được bằng cách chọn tất cả các chữ với cácxác suất như nhau và độc lập. Xấp xỉ bậc nhất đạt được bằng cách chọn các chữ cái liên tiếp một cách độclập nhưng mỗi chữ cái có xác suất như xác suất của các chữ cái trong ngôn ngữ tự nhiên.5 Do đó, trong xấp

5Tần số chữ cái, digram và trigram được cho trong Secret and Urgent by Fletcher Pratt, Blue Ribbon Books, 1939. Tần số từ đượcthống kế trong Relative Frequency of English Speech Sounds, G. Dewey, Harvard University Press, 1923.

6 Dịch và biên soạn bởi VNTelecom

Page 7: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

xỉ bậc nhất ngôn ngữ tiếng Anh, E được chọn với xác suất 0.12 (tần số xuất hiện của chữ cái E trong tiếngAnh thông thường) và W với xác suất 0.02 nhưng không hề có ảnh hưởng giữa hai chữ cái cạnh nhau vàkhông có xu hướng hình thành các digram ưu tiên như TH, ED, v..v.. Trong xấp xỉ bậc hai, chúng ta áp dụngcấu trúc digram. Sau khi một chữ cái được chọn, chữ tiếp theo được chọn theo tần số của chữ cái đi ngay sauchữ cái đầu tiên. Điều này yêu cầu một bảng tần số digram pi( j). Trong xấp xỉ bậc ba, chúng ta sử dụng cấutrúc trigram. Mỗi chữ cái được lựa chọn với các xác suất phụ thuộc vào hai chữ cái trước nó.

3. CÁC DÃY XẤP XỈ NGÔN NGỮ TIẾNG ANH

Để đưa ra một ý tưởng trực quan về việc làm thế nào để dãy các quá trình này đạt gần đến một ngôn ngữ,chúng ta xây dựng các dãy đặc trưng trong quá trình xấp xỉ tới tiếng Anh như dưới đây. Trong mọi trườnghợp, chúng ta đã giả định bảng chữ cái 27 ký tự alphabet gồm 26 chữ cái truyền thống và một dấu cách trắng.

1. Xấp xỉ bậc không (các ký hiệu độc lập và đồng xác suất)

XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD QPAAMKBZAACIBZL-HJQD.

2. Xấp xỉ bậc nhất (các ký hiệu độc lập nhưng với tần số xác định theo ngôn ngữ tiếng Anh).

OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVANAH BRL.

3. Xấp xỉ bậc hai (cấu trúc digram như trong tiếng Anh).

ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY ACHIN D ILONASIVE TU-COOWE AT TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE.

4. Xấp xỉ bậc ba (cấu trúc trigram như trong tiếng Anh).

IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONS-TURES OF THE REPTAGIN IS REGOACTIONA OF CRE.

5. Xấp xỉ từ bậc nhất, thay vì tiếp tục với cấu trúc tetragram, . . . , cấu trúc n-gram, chắc sẽ dễ dàng hơnvà tốt hơn nếu chúng ta chuyển sang đơn vị từ. Ở đây, các từ được chọn độc lập nhưng với các tần sốthích hợp.

REPRESENTING AND SPEEDILY IS AN GOOD APT OR COME CAN DIFFERENT NATU-RAL HERE HE THE A IN CAME THE TO OF TO EXPERT GRAY COME TO FURNISHESTHE LINE MESSAGE HAD BE THESE.

6. Xấp xỉ từ bậc hai. Các xác suất chuyển đổi từ đã chuẩn nhưng không sử dụng thêm cấu trúc nào

THE HEAD AND IN FRONTAL ATTACK ON AN ENGLISH WRITER THAT THE CHAR-ACTER OF THIS POINT IS THEREFORE ANOTHER METHOD FOR THE LETTERSTHAT THE TIME OF WHO EVER TOLD THE PROBLEM FOR AN UNEXPECTED.

Sự giống nhau so với văn bản tiếng anh chuẩn tăng đáng kể ở mỗi bước kể trên. Chú ý rằng các mẫu thửnày có cấu trúc hợp lý hơn khoảng hai lần so với phạm vi đã được xem xét trong việc xây dựng mẫu. Do đótrong bước (3), quá trình thống kê đảm bảo một đoạn văn bản hợp lý với các dãy hai chữ cái, nhưng các dãybốn chữ cái của mẫu có thể được làm cho phù hợp với các câu có nghĩa. Trong (6) chuỗi 4 từ hoặc nhiều hơncó thể dễ dàng đặt vào trong câu mà không gặp phải câu vô nghĩa hay gượng ép. Chuỗi đặc biệt gồm 10 từ“attack on an English writer that the character of this” cũng không hoàn toàn không hợp lý. Có vẻ như lúcđó một quá trình ngẫu nhiên đủ phức tạp sẽ đưa ra một biểu diễn thỏa đáng của một nguồn rời rạc.

Hai mẫu đầu tiên được xây dựng nhờ sử dụng một quyển sách các số ngẫu nhiên cùng với bảng các tần sốxuất hiện của chữ cái (ví dụ 2). Phương pháp này có thể được tiếp tục sử dụng cho (3), (4), và (5) do digram,trigram và bảng tần số xuất hiện từ sẵn có nhưng chúng ta đã sử dụng phương pháp tương đương đơn giản

7 Dịch và biên soạn bởi VNTelecom

Page 8: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

hơn. Để xây dựng (3) chẳng hạn, một người mở một quyển sách ở một trang ngẫu nhiên, chọn một chữ cáingẫu nhiên trên trang đấy. Chữ cái này được ghi lại. Quyển sách lại tiếp tục được mở ở trang khác và ngườiđó đọc cho đến khi gặp lại chữ cái này. Chữ cái kế tiếp chữ này lại được ghi lại. Giở sang trang khác, chữ cáithứ hai này lại được tìm kiếm và chữ cái tiếp theo chữ cái thứ hai này lại được ghi nhận v.v. Quá trình tươngtự được sử dụng cho (4), (5), và (6). Có lẽ sẽ thú vị hơn nếu các quá trình xấp xỉ hơn nữa được xây dựngnhưng công việc cần thiết sẽ trở nên vô cùng lớn cho các bước tiếp theo.

4. BIỂU DIỄN ĐỒ THỊ CỦA MỘT QUÁ TRÌNH MARKOFF

Các quá trình ngẫu nhiên của loại đươc mô tả ở trên được biết đến trong toán học như là các quá trìnhMarkoff rời rạc và đã được nghiên cứu rộng rãi trong nhiều tài liệu.6 Trường hợp tổng quát có thể được môtả như sau: Cho một số hữu hạn các “trạng thái” khả dĩ của một hệ thống: S1,S2, . . . ,Sn. Thêm vào đó là mộttập các xác suất chuyển đổi; pi( j) là xác suất mà nếu hệ thống ở trạng thái Si, tiếp theo nó sẽ chuyển sangtrạng thái S j. Để đặt quá trình Markoff này vào trong một nguồn tin, chúng ta chỉ cần giả sử rằng một chữcái được tạo ra mỗi khi hệ thống chuyển từ trạng thái này sang trạng thái khác. Các trạng thái này sẽ tươngứng với “thặng dư ảnh hưởng” từ các chữ cái trước đó.

Điều này có thể được minh họa bằng đồ thị như trong hình 3, 4 và 5. Các "trạng thái" là các điểm nối

AB

C

D

E

.1

.1

.2

.2

.4

Hình 3—Đồ thị tương ứng với nguồn trong ví dụ B.

trong đồ thị, các xác suất và các chữ cái được tạo ra ứng với một chuyển đổi được cho bên cạnh các đườngmũi tên tương ứng. Hình 3 là minh họa cho ví dụ B ở Phần 2, trong khi hình 4 tương ứng với ví dụ C. Trong

AA

B

B

BC

C

.1

.5 .5

.5

.2.8

.4

Hình 4—Đồ thị tương ứng với nguồn trong ví dụ C.

hình 3 chỉ có một trạng thái do các chữ cái liên tiếp là độc lập. Trong hình 4, số lượng trạng thái nhiều nhưsố lượng chữ cái. Nếu một ví dụ trigram được xây dựng thì cần tối thiểu n2 trạng thái tương ứng với các cặpchữ cái khả dĩ đi trước một chữ cái sẽ được chọn. Hình 5 là đồ thị cho trường hợp cấu trúc từ trong ví dụ D.Ở đây, S tương ứng với ký tự cách trắng.

5. ERGODIC VÀ NGUỒN HỖN HỢP

Như chúng ta đã chỉ ra ở trên, một nguồn rời rạc cho mục đích của chúng ta có thể được xem như được môtả bởi một quá trình Markoff. Trong số các quá trình Markoff rời rạc khả dĩ, có một nhóm với các thuộc tính

6Về chi tiết có thể tham khảo tài liệu M. Fréchet, Méthode des fonctions arbitraires. Théorie des événements en chaı̂ne dans le casd’un nombre fini d’états possibles (Phương pháp hàm ngẫu nhiên. Lý thuyết các chuỗi sự kiện với các trạng thái khả dĩ hữu hạn). Paris,Gauthier-Villars, 1938.

8 Dịch và biên soạn bởi VNTelecom

Page 9: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

đặc biệt quan trọng trong lý thuyết truyền tin. Lớp đặc biệt này bao gồm các quá trình “ergodic” và chúngta sẽ gọi các nguồn tương ứng này là nguồn ergodic. Mặc dù một định nghĩa chính xác hơn về quá trìnhergodic cũng cần được đề cập đến một chút, song ý tưởng chung thì đơn giản. Trong một quá trình ergodic,mỗi chuỗi được tạo ra bởi quá trình thì giống nhau về các thuộc tính thống kê. Do vậy, các tần số xuất hiệncác chữ cái, các tần số xuất hiện của digram v..v.., nhận được từ các chuỗi riêng biệt sẽ tiến gần đến giới hạnxác định độc lập của các chuỗi riêng biệt khi chiều dài của chuỗi tăng. Thực tế điều này không đúng với mọichuỗi nhưng tập các chuỗi cho kết quả không đúng lại có xác suất bằng 0. Đại khái thuộc tính ergodic nghĩalà đồng nhất thống kê.

Tất cả các ví dụ về ngôn ngữ nhân tạo ở trên đều là ergodic. Thuộc tính này có liên hệ với cấu trúc củađồ thị tương ứng. Nếu đồ thị có hai thuộc tính7 sau đây thì quá trình tương ứng với nó sẽ có tính ergodic:

1. Đồ thị không bao gồm 2 phần tách biệt A và B sao cho không thể đi từ các điểm nối ở phần A tới cácđiểm nối ở phần B dọc theo các đường chuyển trạng thái của đồ thị theo hướng mũi tên và cũng khôngthể đi từ các điểm nối ở phần B tới các điểm nối ở phần A.

2. Một dãy đóng của các đường chuyển trạng thái trong đồ thị sẽ có tất cả các mũi tên trên đường chuyểntrạng thái chỉ cùng một hướng sẽ được gọi là một mạch kín. "Chiều dài" mạch là số đường chuyểntrạng thái trong mạch. Do đó trong hình 5, dãy BEBES là một mạch kín có chiều dài 5. Thuộc tínhthứ hai yêu cầu rằng ước số chung lớn nhất của các chiều dài của tất cả các mạch kín trong đồ thị phảilà 1.

S

S

S

A

A

A

A

A

B

B

B

B

B

B BC

D

D

D

D

D

D

E

E

E

E

E

E

E

E

E

E

E

Hình 5—Đồ thị tương ứng với nguồn trong ví dụ D.

Nếu điều kiện đầu tiên được thỏa mãn nhưng điều kiện thứ hai bị vi phạm do có ước số chung lớn nhấtbằng d > 1, các chuỗi có một loại cấu trúc tuần hoàn nào đó. Các chuỗi khác nhau rơi vào d các lớp khácnhau mà các lớp này thì giống nhau về mặt thống kê ngoại trừ một thay đổi dịch vị trí của gốc (ví như chữcái nào trong chuỗi được gọi là chữ cái số 1). Bằng cách dịch từ 0 tới d−1, bất kỳ chuỗi nào có thể được tạotương đương thống kê với bất kỳ chuỗi còn lại. Một ví dụ đơn giản với d = 2 như sau: có 3 chữ cái có khả dĩlà a,b,c. Chữ cái a được theo sau bởi hoặc b hoặc c với xác suất lần lượt 1

3 và 23 . Hoặc b hoặc c sẽ được theo

sau bởi chữ cái a. Do đó một chuỗi đặc trưng sẽ là:

a b a c a c a c a b a c a b a b a c a c.

Loại hình này thì cũng không quá quan trọng trong nghiên cứu của chúng ta.7Chúng là những phát biểu lại dưới dạng đồ thị điều kiện cho bởi Fréchet.

9 Dịch và biên soạn bởi VNTelecom

Page 10: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Nếu điều kiện thứ nhất bị vi phạm, đồ thị có thể bị chia thành một tập các đồ thị con mà mỗi đồ thị conlại thỏa mãn điều kiện thứ nhất. Chúng ta giả định rằng điều kiện hai cũng sẽ được thỏa mãn với các đồ thịcon. Trong trường hợp này chúng ta có cái mà được gọi là nguồn "hỗn hợp", hình thành bởi một số các thànhphần nguyên chất. Các thành phần tương ứng với các đồ thị con khác nhau. Nếu L1, L2, L3, . . . là các nguồnthành phần, chúng ta có thể viết:

L = p1L1 + p2L2 + p3L3 + · · ·với pi là xác suất của nguồn thành phần Li.

Cụ thể, tình huống này được biểu diễn như sau: Có nhiều nguồn khác nhau L1, L2, L3, . . . mà đều cócấu trúc thống kê đồng nhất (nghĩa là có tính ergodic). Chúng ta không biết trước nguồn nào được sử dụngnhưng khi các chuỗi bắt đầu được tạo ra ở một nguồn thành phần nguyên chất Li, nó tiếp tục mãi mãi theocấu trúc thống kê của thành phần đó.

Ví du, ai đó có thể lấy hai trong số các quá trình được định nghĩa ở trên và giả sử p1 = 0.2 và p2 = 0.8.Môt chuỗi từ nguồn hỗn hợp

L = 0.2L1 +0.8L2

có thể đạt được bằng cách đầu tiên chọn L1 hoặc L2 với các xác suất 0.2 và 0.8 và sau đó lựa chọn này sinhra một chuỗi từ bất cứ cái nào được chọn.

Ngoại trừ khi điều ngược lại xảy ra, chúng ta sẽ giả sử một nguồn là ergodic. Giả định này cho phép xácđịnh trung bình dọc theo một dãy với trung bình trên cả tập hợp các chuỗi khả dĩ (xác suất của mâu thuẫnbằng 0). Chẳng hạn tần số tương đối của chữ cái A trong một dãy vô hạn cụ thể sẽ bằng với tần số tương đốicủa nó trong tập hợp các dãy với xác suất 1.

Nếu Pi là xác suất của trạng thái i và pi( j) là xác suất chuyển đổi trạng thái từ i sang j, khi đó, với quátrình được gọi là tĩnh thì rõ ràng Pi phải thỏa mãn các điều kiện cân bằng:

Pj = ∑i

Pi pi( j).

Trong trường hợp ergodic, có thể cho thấy là với bất kỳ điều kiện khởi đầu nào, các xác suất Pj(N) ở trạngthái j sau N ký hiệu tiến tới giá trị cân bằng khi N → ∞.

6. SỰ LỰA CHỌN, TÍNH BẤT ĐỊNH VÀ ENTROPY

Chúng ta đã trình bày về nguồn tin rời rạc như một quá trình Markoff. Liệu chúng ta có thể định nghĩa mộtđại lượng mà có thể đo, theo một nghĩa nào đó, có bao nhiêu lượng thông tin được tạo ra bởi quá trình nhưvậy, hoặc tốt hơn, ở tốc độ nào thông tin được tạo ra?

Giả sử chúng ta có một tập các sự kiện có thể xảy ra với xác suất là p1, p2, . . . , pn. Các xác suất này đượcbiết trước nhưng đó là tất cả những gì chúng ta biết liên quan đến sự kiện nào sẽ xảy ra. Liệu chúng ta có thểtìm một phép đo số các “lựa chọn” trong việc chọn một sự kiện hay mức độ “bất định” của kết quả thu đượcở đầu ra?.

Nếu có một phép đo như vậy, giả sử là H(p1, p2, . . . , pn), cũng hợp lý nếu yêu cầu nó phải có các đặctính sau:

1. H phải liên tục theo pi.

2. Nếu các xác suất là như nhau (pi = 1n ) thì H phải là hàm đơn điệu tăng theo n. Với các sự kiện mà xác

suất xảy ra bằng nhau thì sẽ có nhiều lựa chọn, hay tính bất định, khi có nhiều sự kiện có khả năngxảy ra

3. Nếu một sự lựa chọn được chia thành hai lựa chọn liên tiếp nhau, đại lượng H của sự kiện gốc phảilà tổng trọng số của hai giá trị thành phần của H. Nghĩa của điều này được minh họa trong Hình 6.Ở hình vẽ bên trái, chúng ta có ba khả năng với xác suất p1 = 1

2 , p2 = 13 , p3 = 1

6 . Ở hình vẽ bên phảichúng ta trước hết chọn giữa hai khả năng, mỗi khả năng ứng với xác suất 1

2 . Và nếu khả năng thứ haixảy ra làm thành một lựa chọn với mỗi xác suất thành phần lần lượt 2

3 và 13 . Các kết quả cuối cùng có

cùng xác suất như cho trước. Chúng ta yêu cầu, trong trường hợp đặc biệt này, như sau:

H( 12 , 1

3 , 16 ) = H( 1

2 , 12 )+ 1

2 H( 23 , 1

3 ).

10 Dịch và biên soạn bởi VNTelecom

Page 11: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

1/2

1/3

1/6

1/2

1/22/3

1/3

1/2

1/3

1/6

Hình 6—Phân tách một sự lựa chọn từ ba khả năng.

Hệ số là 12 bởi vì lựa chọn thứ hai chỉ xảy ra ở một nửa thời gian.

Trong Phụ lục 2, kết quả sau được thiết lập:Định lí 2: Đại lượng H duy nhất thỏa mãn ba giả thiết trên phải có dạng

H =−Kn

∑i=1

pi log pi

với K là hằng số dương.Định lí này và các giả định trên cần thiết cho chứng minh của nó thì tuyệt nhiên không cần thiết cho lý

thuyết được đề cập trong bài báo này. Nó được đưa ra chủ yếu để cho thấy sự hợp lý trong một số định nghĩasẽ được đề cập đến ở phía sau. Tuy nhiên, tính đúng đắn của các định nghĩa này lại nằm ngay trong chính ẩný của chúng.

Các đại lượng ở dạng H =−∑ pi log pi (hằng số K chỉ đơn thuần có nghĩa là một lựa chọn đơn vị đo)đóng vai trò trung tâm trong lý thuyết thông tin như độ đo thông tin, lựa chọn và tính bất định. Dạng của Hsẽ được công nhận như entropy được định nghĩa trong một số công thức của cơ học thống kê8 ở đó pi là xácsuất của hệ thống trong tế bào i trong không gian pha của nó. Ví dụ, H khi đó là H trong định lý H nổi tiếngcủa Boltzmann. Chúng ta sẽ gọi H = −∑ pi log pi là entropy của tập các xác suất p1, . . . , pn. Nếu x là mộtbiến cơ hội, chúng ta sẽ viết H(x) cho entropy của nó; do đó x không phải argument của một hàm nhưng lànhãn cho một số, để phân biệt nó với H(y), là entropy của biến cơ hội y.

Entropy trong trường hợp của hai khả năng với xác suất p và q = 1− p được tính:

H =−(p log p+q logq)

được vẽ trong hình 7 như là hàm của p. Đại lượng H có một số tính chất thú vị mà sẽ chứng minh nó là mộtđại lượng đo hợp lý cho lựa chọn hay thông tin.

1. H = 0 khi và chỉ khi tất cả các pi, trừ một xác suất có giá trị đơn vị, đều bằng 0. Do đó chỉ khi chúngta chắc chắn về kết quả thì H mới triệt tiêu. Nếu không thì H có giá trị dương.

2. Cho trước n, H cực đại và bằng logn khi tất cả các pi đều bằng nhau (tức là bằng 1n ). Một cách trực

giác, đây cũng là trường hợp có tính bất định nhất.3. Giả sử có hai sự kiện, x và y, đang xem xét với m khả năng cho sự kiện thứ nhất và n cho sự kiện thứ

hai. Đặt p(i, j) là xác suất chung xảy ra của khả năng i với sự kiện thứ nhất và j với sự kiện thứ hai. Entropycủa sự kiện chung được tính:

H(x,y) =−∑i, j

p(i, j) log p(i, j)

trong đó

H(x) =−∑i, j

p(i, j) log∑j

p(i, j)

H(y) =−∑i, j

p(i, j) log∑i

p(i, j).

8Tham khảo, ví dụ, R. C. Tolman, Principles of Statistical Mechanics, Oxford, Clarendon, 1938.

11 Dịch và biên soạn bởi VNTelecom

Page 12: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

HBITS

p

0

.1

.2

.3

.4

.5

.6

.7

.8

.9

1.0

0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0

Hình 7—Entropy trong trường hợp của hai khả năng với xác suất p và q = 1− p.

Dễ dàng chứng minh đượcH(x,y)≤ H(x)+H(y)

Dấu = xảy ra khi các sự kiện độc lập (tức p(i, j) = p(i)p( j)). Tính bất định của sự kiện chung sẽ nhỏ hơnhoặc bằng tổng của các bất định thành phần.

4. Bất kỳ thay đổi nào theo hướng cân bằng của các xác suất p1, p2, . . . , pn đều làm tăng H. Do đó nếup1 < p2 và chúng ta tăng p1, giảm p2 một lượng bằng nhau làm sao cho p1 và p2 tiến gần đến giá trị bằngnhau, khi đó H sẽ tăng. Một cách chung nhất, nếu chúng ta thực hiện bất kỳ phép toán “trung bình” lên trênpi ở dạng

p′i = ∑j

ai j p j

trong đó ∑i ai j = ∑ j ai j = 1, và tất cả ai j ≥ 0, khi đó H tăng (trừ trường hợp đặc biệt nếu phép biến đổi nàychỉ là phép hoán vị không hơn không kém các p j với H tất nhiên vẫn giữ nguyên).

5. Giả giử có hai sự kiện cơ hội x và y như trong 3, không nhất thiết phải độc lập. Với bất kỳ giá trị iriêng biệt nào mà x có thể nhận thì có xác suất có điều kiện pi( j) mà y có giá trị j được xác định bởi côngthức:

pi( j) =p(i, j)

∑ j p(i, j).

Chúng ta định nghĩa entropy có điều kiện của y, Hx(y) như là trị trung bình của entropy của y với mỗi giá trịcủa x, trọng số dựa theo xác suất nhận được một giá trị x riêng biệt. Nghĩa là:

Hx(y) =−∑i, j

p(i, j) log pi( j) .

Đại lượng này đo độ bất định trung bình của y khi biết về x. Thay thế giá trị của pi( j), chúng ta thu được

Hx(y) =−∑i, j

p(i, j) log p(i, j)+∑i, j

p(i, j) log∑j

p(i, j)

= H(x,y)−H(x)

12 Dịch và biên soạn bởi VNTelecom

Page 13: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

HoặcH(x,y) = H(x)+Hx(y).

Độ bất định (hay entropy) của sự kiện chung x,y bằng độ bất định của x cộng thêm độ bất định của y khi đãbiết về x.

6. Từ 3 và 5, ta cóH(x)+H(y)≥ H(x,y) = H(x)+Hx(y).

Do vậyH(y)≥ Hx(y).

Độ bất định của y sẽ không bao giờ tăng theo hiểu biết về x. Nó sẽ giảm trừ phi x và y là các sự kiện độc lập,trong trường hợp này nó không thay đổi.

7. ENTROPY CỦA MỘT NGUỒN TIN

Xem xét một nguồn rời rạc của dạng trạng thái hữu hạn đã nêu ở trên. Với mỗi trạng thái khả dĩ i sẽ có mộttập các xác suất pi( j) của việc tạo ra các ký hiệu khả dĩ khác nhau j. Do đó có một entropy Hi với mỗi trạngthái. Entropy của nguồn sẽ được định nghĩa như giá trị trung bình của các Hi đo theo xác suất xuất hiện củacác trạng thái đang xem xét.

H = ∑i

PiHi

=−∑i, j

Pi pi( j) log pi( j) .

Đây là entropy của nguồn theo mỗi ký hiệu của văn bản. Nếu quá trình Markoff theo đuổi ở một tốc độ nhấtđịnh theo thời gian thì cũng sẽ có entropy trên giây

H ′ = ∑i

fiHi

trong đó fi là tần số trung bình (số lần xuất hiện trên một giây) của trạng thái i. Rõ ràng

H ′ = mH

với m là số lượng trung bình các ký hiệu được tạo ra trong một giây. H hay H ′ đo lượng thông tin tạo ra bởinguồn trên ký hiệu hoặc nguồn trên giây. Nếu cơ số của hàm logarit là 2, chúng sẽ đại diện cho tốc độ bittrên ký hiệu hoặc trên giây.

Nếu các ký hiệu liên tiếp nhau độc lập với nhau thì H chỉ đơn giản là −∑ pi log pi với pi là xác suất củaký hiệu thứ i. Giả sử trong trường hợp này chúng ta xem xét một bản tin dài gồm N ký hiệu. Nó sẽ chứa, vớixác suất cao, khoảng p1N sự kiện ký hiệu đầu tiên xảy ra, p2N sự kiện ký hiệu thứ hai xảy ra, v..v.. Do đóxác suất của bản tin cụ thể này sẽ vào khoảng:

p = pp1N1 pp2N

2 · · · ppnNn

Hoặc

log p .= N ∑i

pi log pi

log p .=−NH

H .=log1/p

N.

Do đó H xấp xỉ logarit của xác suất nghịch đảo của một chuỗi dài đặc trưng được chia bởi số các ký hiệutrong chuỗi. Kết quả tương tự đúng với bất kỳ nguồn nào. Nói chính xác hơn ta có (xem Phụ lục 3):

13 Dịch và biên soạn bởi VNTelecom

Page 14: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Định lí 3: Cho bất kỳ ε > 0 và δ > 0, chúng ta có thể tìm thấy một N0 sao cho các chuỗi có độ dài bấtkỳ N ≥ N0 thuộc vào hai loại sau:

1. Một tập hợp mà tổng xác suất của nó nhỏ hơn ε.

2. Phần dư, tất cả các tập mà phần tử của nó có xác suất thỏa mãn bất đẳng thức:∣∣∣∣log p−1

N−H

∣∣∣∣ < δ.

Nói cách khác, chúng ta hầu như chắc chắn nhận đượclog p−1

Ntiến gần tới H với N đủ lớn.

Một kết quả quan hệ mật thiết khác tính đến số các dãy với xác suất khác nhau. Xem xét lại các dãy cóchiều dài N và sắp xếp chúng theo thứ tự giảm dần của xác suất. Chúng ta định nghĩa n(q) là số mà chúng tasẽ lấy từ tập này bắt đầu với cái có khả năng xảy ra cao nhất để lũy tiến một xác suất tổng q cho những cáiđã được lấy.

Định lí 4:

LimN→∞

logn(q)N

= H

khi q khác 0 và 1.Chúng ta có thể xem logn(q) là số bit cần thiết để xác định chuỗi khi chúng ta chỉ xem xét các chuỗi

có khả năng xảy ra nhất với một xác suất tổng q. Khi đólogn(q)

Nlà số bit trên ký hiệu để xác định được

lại chuỗi. Định lí phát biểu rằng với một số N lớn, nó sẽ độc lập với q và bằng với H. Tốc độ tăng của hàmlogarit của số các chuỗi có khả năng xảy ra được cho bởi H, bất luận các giải thích của chúng ta về “khảnăng xảy ra”. Theo kết quả này, được chứng minh ở Phụ lục 3, hoàn toàn có thể, cho hầu hết các mục đích,xem xét các chuỗi dài mặc dù chỉ có 2HN trong số đó với mỗi cái có xác suất 2−HN .

Hai định lí tiếp theo chỉ ra rằng H và H ′ có thể được xác định bằng cách hạn chế các phép toán trực tiếptừ thống kê các chuỗi bản tin, mà không tham chiếu tới các trạng thái và xác suất chuyển đổi giữa các trạngthái.

Định lí 5: Cho p(Bi) là xác suất của chuỗi ký hiệu Bi lấy từ một nguồn. Cho

GN =− 1N ∑

ip(Bi) log p(Bi)

trong đó tổng tính trên tất cả các chuỗi Bi gồm N ký hiệu. Khi đó, GN là hàm đơn điệu giảm theo N và

LimN→∞

GN = H.

Định lí 6: Cho p(Bi,S j) là xác suất của chuỗi Bi theo sau bởi ký hiệu S j và pBi(S j) = p(Bi,S j)/p(Bi)là xác suất có điều kiện của S j sau Bi. Cho

FN =−∑i, j

p(Bi,S j) log pBi(S j)

trong đó tổng tính trên tất cả các khối Bi gồm N− 1 ký hiệu và trên tất cả các ký hiệu S j. Khi đó hàm FNđơn điệu giảm theo N,

FN = NGN − (N−1)GN−1,

GN =1N

N

∑n=1

Fn,

FN ≤ GN ,

và LimN→∞ FN = H.

14 Dịch và biên soạn bởi VNTelecom

Page 15: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Các kết quả này được dẫn ra từ trong Phụ lục 3. Chúng cho thấy một dãy các xấp xỉ đến H có thể nhậnđược bằng cách chỉ xem cấu trúc thống kê của các chuỗi trải trên toàn bộ 1,2, . . . ,N ký hiệu. FN là xấp xỉtốt hơn. Trên thực tế FN chính là entropy của xấp xỉ bậc N với nguồn thuộc loại đã được nghiên cứu ở trên.Nếu không có các ảnh hưởng thống kê trải trên nhiều hơn N ký hiệu, nghĩa là nếu xác suất có điều kiện củaký hiệu tiếp theo khi biết N−1 ký hiệu trước đó sẽ không bị thay đổi bởi hiểu biết về bất kỳ cái gì trước đó,khi đó FN = H. FN rõ ràng là entropy có điều kiện của ký hiệu tiếp theo khi N−1 ký hiệu trước đó đã đượcbiết, trong khi GN là entropy theo ký hiệu của các khối gồm N ký hiệu.

Tỉ số của entropy của nguồn với giá trị cực đại nó có thể có trong khi vẫn giới hạn với các ký hiệu giốngnhau được gọi là entropy tương đối. Đây là mức nén tối đa có thể khi chúng ta mã hóa sang cùng một bộchữ cái. Lấy 1 trừ đi entropy tương đối sẽ là phần dư thông tin (redundancy). Phần dư của tiếng Anh chuẩn,không xem xét tới cấu trúc thống kê trên các khoảng cách lớn hơn 8 chữ cái, thì xấp xỉ 50%. Điều này nghĩalà, khi chúng ta viết tiếng Anh, một nửa những gì chúng ta viết được xác định bởi cấu trúc của ngôn ngữ vànửa còn lại thì được lựa chọn tự do. Con số 50% được tìm thấy bởi vài phương pháp độc lập mà tất cả đềucho một kết quả sát nhau. Một là bằng cách tính entropy của xấp xỉ tới tiếng Anh. Phương pháp thứ hai làxóa một phần nào đó các chữ cái từ một đoạn văn bản mẫu tiếng anh và đưa cho ai đó cố gắng khôi phục lạinó. Nếu nó có thể được khôi phục khi mà 50% đã bị xóa mất thì phần dư thông tin chắc hẳn sẽ lớn hơn 50%.Phương pháp thứ ba phụ thuộc và một số kết quả đã biết đến trong mật mã.

Hai điểm cực trong dư thông tin ở văn xuôi của tiếng Anh được trình bày trong “Tiếng anh cơ bản” vàtrong sách của James Joyce “Finnegans Wake”. Từ vựng tiếng Anh cơ bản được giới hạn tới 850 từ và phầndư thông tin rất cao. Điều này được phản ánh trong phần mở rộng khi một đoạn văn được dịch sang tiếngAnh chuẩn. Joyce mặt khác mở rộng từ vựng và được cho là đã đạt đến được một bản nén về nội dung ngữnghĩa.

Dư thông tin của một ngôn ngữ liên quan đến sự tồn tại của trò chơi ô chữ. Nếu mà dư thông tin là 0 bấtkỳ dãy chữ cái nào cũng là một văn bản hợp lý trong ngôn ngữ và bất kỳ mảng hai chiều các chữ cái nàocũng hình thành một ô đố chữ. Nếu dư thông tin quá lớn, ngôn ngữ đặt ra quá nhiều hạn chế cho các ô đốchữ lớn để có thể giải được. Một phân tích chi tiết đã chỉ ra rằng nếu chúng ta giả thiết các ràng buộc dongôn ngữ áp đặt này có bản chất ngẫu nhiên và lộn xộn, các ô đố chữ lớn chỉ có thể giải được khi dư thôngtin là 50%. Nếu dư thông tin là 33% thì các ô đố chữ 3 chiều cũng có thể giải được v.v.

8. BIỂU DIỄN CÁC THAO TÁC MÃ HOÁ VÀ GIẢI MÃ

Chúng ta chưa biểu diễn một cách toán học các thao tác thực hiện bởi máy phát và máy thu trong quá trìnhmã hoá và giải mã thông tin. Cả hai máy này đều được gọi là máy biến năng rời rạc. Đầu vào của máy biếnnăng là chuỗi ký hiệu vào và đầu ra là một chuỗi ký hiệu ra. Máy biến năng có thể có một bộ nhớ trong đểđầu ra phụ thuộc không chỉ vào ký hiệu vào hiện tại mà còn phụ thuộc vào các ký hiệu vào trước đó. Chúngta giả định rằng bộ nhớ trong là hữu hạn, nghĩa là, tồn tại một số hữu hạn m trạng thái khả dĩ của máy biếnnăng, và đầu ra là một hàm của trạng thái hiện tại và ký hiệu đầu vào hiện tại. Trạng thái kế tiếp sẽ là mộthàm thứ hai của hai đại lượng này. Do đó, một máy biến năng có thể được biểu diễn bởi hai hàm:

yn = f (xn,αn)αn+1 = g(xn,αn)

trong đó

xn là ký hiệu vào thứ n,

αn là trạng thái của máy biến năng khi nhận ký hiệu vào thứ n

yn là ký hiệu ra (hoặc chuỗi ký hiệu ra) được tạo ra khi xn được đặt ở đầu vào nếu trạng thái là αn.

Nếu các ký hiệu ra của một máy biến năng có thể được dẫn vào một máy biến năng thứ hai, chúng có thểghép nối tiếp với nhau, và kết quả thu được cũng sẽ là một máy biến năng. Nếu tồn tại một máy biến năngthứ hai hoạt động ngay trên đầu ra của máy biến năng đầu và phục hồi lại đầu vào gốc, thì máy thứ nhất đượcgọi là không suy biến và máy thứ hai sẽ được gọi là nghịch đảo của máy thứ nhất.

15 Dịch và biên soạn bởi VNTelecom

Page 16: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Định lí 7: Đầu ra của một máy biến năng trạng thái hữu hạn được điều khiển bởi một nguồn thống kêtrạng thái hữu hạn là một nguồn thống kê có trạng thái hữu hạn, có entropy (trong một đơn vị thời gian) nhỏhơn hoặc bằng entropy của đầu vào. Nếu máy biến năng không suy biến, thì chúng bằng nhau.

Gọi α là trạng thái của nguồn tạo ra chuỗi ký hiệu xi; và gọi β là trạng thái của máy biến năng tạo ra cáckhối ký hiệu y j tại đầu ra của nó. Hai hệ thống được kết hợp và biểu diễn bằng một “không gian trạng tháitích” của cặp (α,β). Hai điểm trong không gian này (α1,β1) và (α2,β2), được nối bởi một đường thẳng nếuα1 có thể tạo ra một giá trị x mà thay đổi β1 thành β2, và đường thẳng này được cho xác suất của giá trị xđó trong trường hợp này. Đường thẳng được gán với khối ký hiệu y j tạo ra bởi máy biến năng. Entropy củađầu ra có thể được tính bởi tổng trọng số của tất cả các trạng thái. Nếu chúng ta tính tổng của β trước tiên,mỗi kết quả thu được sẽ nhỏ hơn hoặc bằng tổng tương ứng của α, bởi vì entropy không tăng. Nếu máy biếnnăng không suy biến, chúng ta nối đầu ra với máy biến năng nghịch đảo. Giả sử H ′

1, H ′2 và H ′

3 là các entropyđầu ra của nguồn, lần lượt của máy biến năng thứ nhất và thứ hai, thì H ′

1 ≥H ′2 ≥H ′

3 = H ′1 và do đó H ′

1 = H ′2.

Giả sử chúng ta có một hệ thống các ràng buộc về các chuỗi khả dĩ mà có thể được biểu diễn bằng mộtđồ thị tuyến tính ở Hình 2. Nếu các xác suất p(s)

i j được gán cho các đường thẳng nối trạng thái i đến trạngthái j, hệ thống này sẽ trở thành một nguồn. Có một cách gán đặc biệt để cực đại hoá entropy thu được (xemPhụ lục 4).

Định lí 8: Gọi hệ thống các ràng buộc ở trên là một kênh truyền có dung lượng C = logW . Nếu chúngta gán

p(s)i j =

B j

BiW−`

(s)i j

trong đó `(s)i j là thời gian để ký hiệu thứ s chuyển từ trạng thái i sang trạng thái j và Bi thoả mãn điều kiện

Bi = ∑s, j

B jW−`

(s)i j

khi đó H sẽ đạt cực đại và bằng C.Bằng cách gán giá trị thích hợp cho các xác suất chuyển đổi, entropy các ký hiệu trên một kênh truyền

có thể đạt giá trị cực đại bằng với dung lượng kênh.

9. ĐỊNH LÍ CƠ BẢN CHO KÊNH TRUYỀN KHÔNG CÓ NHIỄU

Bây giờ chúng ta sẽ chứng minh cách diễn giải H của chúng ta như là tốc độ sinh ra thông tin bằng cáchchứng minh rằng H xác định dung lượng kênh truyền được yêu cầu với hầu hết các mã hoá hiệu quả.

Định lí 9: Gọi một nguồn có entropy H (bit trên ký hiệu) và một kênh truyền có dung lượng C (bit trên

giây). Khi đó, chúng ta có thể mã hoá đầu ra của nguồn theo một cách để truyền với tốc độ trung bìnhCH− ε

ký hiệu trên giây trên một kênh truyền mà ε nhỏ tùy ý. Ta không thể truyền với tốc độ trung bình lớn hơnCH

.

Phần đảo của định lí nói rằngCH

không thể bị vượt qua, có thể được chứng minh nhờ vào nhận xét entropy

của đầu vào của kênh truyền trên một giây bằng với giá trị đó của nguồn, bởi vì máy phát phải không suybiến, và ngoài ra entropy này không được vượt quá dung lượng kênh truyền. Do đó H ′ ≤ C và số ký hiệutrên một giây = H ′/H ≤C/H.

Phần đầu của định lí sẽ được chứng minh theo hai cách. Cách thứ nhất là xem xét một tập hợp tất cả cácchuỗi N ký hiệu sinh bởi nguồn. Với N lớn, chúng ta có thể chia tập này thành hai nhóm, một chứa ít hơn2(H+η)N phần tử và nhóm thứ hai chứa ít hơn 2RN phần tử (ở đó R là logarít của số các ký hiệu khác nhau) vàcó xác suất tổng nhỏ hơn µ. Khi N tăng, η và µ tiến gần đến 0. Số tín hiệu có khoảng thời gian T trên kênhtruyền lớn hơn 2(C−θ)T với θ nhỏ khi mà T lớn. Nếu chúng ta chọn

T =(

HC

)N

16 Dịch và biên soạn bởi VNTelecom

Page 17: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

thì sẽ có một số lượng đủ các chuỗi ký hiệu kênh cho nhóm xác suất cao khi mà N và T đủ lớn (cho dù λnhỏ), ngoài ra còn có thêm vài chuỗi phụ khác. Nhóm xác suất cao được mã hoá bằng một ánh xạ một-mộtbất kì vào trong tập hợp này. Các chuỗi còn lại được biểu diễn bằng các chuỗi lớn hơn, bắt đầu và kết thúcbởi một trong những chuỗi không được dùng trong nhóm xác suất cao. Chuỗi đặc biệt này dùng như tín hiệukhởi đầu và kết thúc cho một mã khác. Giữa đó sẽ có thời gian đủ cho phép các chuỗi đủ khác nhau cho mọibản tin xác suất thấp. Điều này yêu cầu

T1 =(

RC

)N

trong đó ϕ nhỏ. Tốc độ truyền các ký hiệu bản tin trên một giây tính theo trung bình sẽ lớn hơn

[(1− δ)

TN

+ δT1

N

]−1

=[(1− δ)

(HC

+λ)

+ δ(R

C+ϕ

)]−1

.

Khi N tăng δ, λ và ϕ tiến đến không và tốc độ tiến đếnCH

.

Một cách khác để tiến hành việc mã hoá này, và từ đó chứng minh định lí, có thể trình bày như sau: Sắpxếp các bản tin có chiều dài N theo thứ tự xác suất giảm và giả sử xác suất của chúng là p1 ≥ p2 ≥ p3 · · · ≥ pn.Đặt Ps = ∑s−1

1 pi; nghĩa là Ps xác suất tích lũy tiến đến, nhưng không chạm, ps. Trước tiên chúng ta mã hoáthành một hệ thống nhị phân. Mã nhị phân cho bản tin s thu được bằng cách khai triển Ps thành một số nhịphân. Sự khai triển chiếm ms vị trí, trong đó ms là số nguyên thoả mãn:

log21ps≤ ms < 1+ log2

1ps

.

Do đó các bản tin có xác suất cao được biểu diễn bởi các mã ngắn, các bản tin có xác suất thấp được biểudiễn bởi mã dài. Từ các bất đẳng thức này chúng ta có

12ms

≤ ps <1

2ms−1 .

Mã cho Ps sẽ khác với tất cả các mã tiếp theo ở một hoặc nhiều hơn trong số ms vị trí, bởi tất cả Pi còn lạilớn hơn ít nhất 1

2ms và khai triển nhị phân của chúng do đó sẽ khác nhau ở ms vị trí đầu tiên. Do vậy mọi mãđều khác nhau, và có thể phục hồi lại bản tin từ mã của nó. Nếu các chuỗi kênh chưa phải là các dãy số nhịphân, chúng có thể được gán bằng các số nhị phân tùy ý, và mã nhị phân do vậy sẽ được dịch ra tín hiệu phùhợp với kênh truyền.

Giá trị trung bình H ′ của các số nhị phân sử dụng trong một ký hiệu của bản tin gốc có thể được ướclượng dễ dàng. Chúng ta có

H ′ =1N ∑ms ps.

Nhưng,1N ∑

(log2

1ps

)ps ≤ 1

N ∑ms ps <1N ∑

(1+ log2

1ps

)ps

và do đó,

GN ≤ H ′ < GN +1N

Khi N tăng, GN tiến tới H, entropy của nguồn, và H ′ tiến tới H.Từ đây chúng ta thấy sự thiếu hiệu quả của mã hoá khi chỉ có một trễ hữu hạn của N ký hiệu được dùng,

yêu cầu không lớn hơn 1N cộng với hiệu của entropy thực H và entropy GN được tính cho các chuỗi có chiều

dài N. Phần trăm thời gian thừa so với thời gian cần thiết lí tưởng do đó nhỏ hơn

GN

H+

1HN

−1.

17 Dịch và biên soạn bởi VNTelecom

Page 18: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Cách mã hoá này về căn bản giống với cách được tìm ra độc lập bởi R. M. Fano.9 Phương pháp của ônglà sắp xếp các bản tin chiều dài N theo thứ tự xác suất giảm dần. Chia chuỗi này thành hai nhóm có xác suấtgần bằng nhau nhất có thể được. Nếu bản tin nằm trong nhóm đầu, bit đầu tiên của nó là 0, ngược lại, là 1.Các nhóm được chia tương tự thành các tập con có xác suất gần bằng nhau và tập con riêng biệt xác địnhchữ số nhị phân thứ hai. Quá trình tiếp tục cho đến khi mỗi tập con chỉ chứa một bản tin. Dễ thấy rằng ngoạitrừ một số khác biệt nhỏ (thường ở chữ số cuối), cách này cho kết quả giống với tiến trình số học được mô tảở trên.

10. THẢO LUẬN VÀ MỘT SỐ VÍ DỤ

Để đạt được công suất lớn nhất từ máy phát đến tải, cần đưa vào một máy biến thế để máy phát có một trởtải. Tình huống ở đây cũng tương tự. Máy biến năng thực hiện phần mã hoá cần làm cho nguồn phù hợp vớikênh truyền, theo nghĩa thống kê. Nguồn, được nhìn thấy từ kênh truyền thông qua máy biến năng cần cócùng cấu trúc thống kê với nguồn tăng tối đa entropy trong kênh truyền. Nội dung của Định lí 9 là, mặc dùsự phù hợp hoàn toàn nói chung không thực hiện được, nhưng chúng ta có thể xấp xỉ với độ chính xác theoý muốn. Tỉ số của tốc độ truyền trên dung lượng C có thể được gọi là hiệu suất của hệ thống mã hoá. Tỉ sốnày đương nhiên bằng với tỉ số giữa entropy thực sự của các kí hiệu kênh truyền trên entropy lớn nhất có thểđạt được.

Nói chung, mã hoá lí tưởng hoặc gần lí tưởng đòi hỏi độ trễ lớn ở máy phát và máy thu. Trong trườnghợp không có nhiễu như chúng ta đã xem xét ở trên, chức năng chính của độ trễ này là để cho phép tươngthích một cách phù hợp các xác suất với các độ dài chuỗi tương ứng. Với một mã tốt, lô-ga-rít của xác suấttương hỗ của một bản tin dài phải tỉ lệ với thời gian của tín hiệu tương ứng. Tóm lại

∣∣∣ log p−1

T−C

∣∣∣

phải nhỏ cho tất cả các bản tin, ngoại trừ một phần nhỏ các bản tin dài.Nếu một nguồn chỉ có thể tạo ra một bản tin riêng biệt, entropy của nó bằng không, và không cần phải có

kênh truyền. Ví dụ, một máy tính được thiết lập để tính các chữ số liên tiếp của π tạo ra một chuỗi xác định,không có phần tử biến cố. Không cần kênh truyền để “truyền” thông tin này đến một điểm khác. Người tacó thể chế tạo một máy thứ hai để tính toán cùng một dãy tại một điểm khác. Tuy nhiên, điều này có thể phithực tế. Trong một tình huống như vậy, chúng ta có thể chọn để bỏ qua một vài hoặc tất cả hiểu biết thống kêvề nguồn. Chúng ta có thể xem rằng các chữ số của π là một chuỗi ngẫu nhiên, trong đó chúng ta xây dựngmột hệ thống có khả năng truyền bất kì chuỗi chữ số nào. Bằng một cách tương tự, chúng ta có thể chọn sửdụng một vài trong những hiểu biết thống kê của tiếng Anh để xây dựng một mã, nhưng không phải tất cả.Trong trường hợp đó, chúng ta xem như nguồn có entropy cực đại thoả các điều kiện thống kê mà chúng tamong muốn giữ lại. Entropy của nguồn này xác định dung lượng cần và đủ của kênh truyền. Trong ví dụ vềπ, thông tin duy nhất chúng ta giữ lại đó là các chữ số được chọn trong tập hợp 0,1, . . . ,9. Trong trường hợpngôn ngữ tiếng Anh, người ta có thể muốn dùng hiểu biết thống kê về tần số xuất hiện các chữ cái, ngoàira không còn gì khác. Nguồn có entropy cực đại sẽ là xấp xỉ đầu tiên của tiếng Anh, và entropy của nó xácđịnh dung lượng cần thiết của kênh truyền.

Dưới đây là một ví dụ đơn giản từ các kết quả trên. Xét một nguồn tạo ra chuỗi các chữ cái được chọntrong A, B, C, D với xác suất 1

2 , 14 , 1

8 , 18 , các ký hiệu liên tiếp được chọn độc lập với nhau. Ta có

H =−( 12 log 1

2 + 14 log 1

4 + 28 log 1

8

)

= 74 bit trên ký hiệu.

Do đó chúng ta có thể xấp xỉ một hệ thống mã hoá để mã hoá các bản tin từ nguồn này thành các chữ số nhịphân, với trung bình 7

4 chữ số trên một ký hiệu. Trong trường hợp này, thực tế chúng ta có thể đạt được giá

9Technical Report No. 65, The Research Laboratory of Electronics, M.I.T., March 17, 1949.

18 Dịch và biên soạn bởi VNTelecom

Page 19: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

trị giới hạn bằng mã sau (có được bằng phương pháp trong cách chứng minh thứ hai của Định lí 9):

A 0B 10C 110D 111

Số trung bình của các chữ số nhị phân sử dụng trong mã hoá của một chuỗi N ký hiệu sẽ là

N( 1

2 ×1+ 14 ×2+

28×3

)= 7

4 N.

Dễ thấy rằng các chữ số nhị phân 0, 1 có xác suất 12 , 1

2 do đó H cho chuỗi được mã hoá là một bit trên mộtký hiệu. Bởi vì tính trung bình chúng ta có 7

4 ký hiệu nhị phân cho một chữ cái gốc, entropy tính theo thờigian cũng như vậy. Entropy khả dĩ cực đại cho tập hợp gốc là log4 = 2, xảy ra khi A, B, C, D có các xác suất14 , 1

4 , 14 , 1

4 . Do đó entropy tương đối là 78 . Chúng ta có thể dịch các chuỗi nhị phân này trở lại thành tập hợp

ký hiệu gốc theo chuẩn hai-một nhờ bảng sau:

00 A′01 B′10 C′11 D′

Tiến trình kép này sau đó mã hoá bản tin gốc thành các ký hiệu giống nhau nhưng với tỉ lệ nén trung bình là78 .

Ví dụ thứ hai, xét một nguồn tạo một chuỗi các A và B với xác suất p cho A và q cho B. Nếu p¿ q chúngta có

H =− log pp(1− p)1−p

=−p log p(1− p)(1−p)/p

.= p logep.

Trong trường hợp đó, người ta có thể xây dựng một bộ mã bản tin khá tốt trên một kênh truyền 0, 1 bằngcách gửi một chuỗi đặc biệt, ví dụ 0000, cho ký hiệu không thường xuyên A và sau đó một chuỗi biểu thị sốlượng B theo sau nó. Điều này có thể được chỉ ra bằng biểu diễn nhị phân trong đó mọi số chứa chuỗi đặcbiệt sẽ bị xoá. Mọi số, cho đến 16 được biểu diễn theo cách thông thường, riêng số 16 được biểu diễn bằngsố kế tiếp không chứa bốn số không liên tiếp, nghĩa là 17 = 10001, v.v.

Có thể thấy rằng khi p→ 0 mã hoá trên sẽ tiến đến lí tưởng với điều kiện độ dài của chuỗi đặc biệt đượcđiều chỉnh thích hợp.

PHẦN II: KÊNH RỜI RẠC CÓ NHIỄU

11. BIỂU DIỄN CỦA KÊNH RỜI RẠC CÓ NHIỄU

Bây giờ ta xem xét trường hợp mà tín hiệu bị rối loạn bởi nhiễu trong quá trình truyền hay tại các thiết bịđầu cuối. Có nghĩa là, tín hiệu thu không nhất thiết phải bằng tín hiệu phát ở máy phát. Có thể phân ra thànhhai trường hợp: nếu một tín hiệu được truyền dẫn riêng biệt luôn tạo ra cùng một tín hiệu thu, hay tín hiệuthu là một hàm xác định của tín hiệu phát, khi đó ảnh hưởng có thể được gọi là méo dạng. Nếu hàm này tồntại hàm ngược, nghĩa là không có hai tín hiệu phát nào tạo ra cùng một tín hiệu thu, thì méo dạng tín hiệucó thể được sửa chữa, ít nhất về mặt lí thuyết, bằng việc thực hiện đơn thuần một quá trình ngược lại lên tínhiệu thu.

19 Dịch và biên soạn bởi VNTelecom

Page 20: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Trường hợp cần quan tâm ở đây là trường hợp mà trong đó tín hiệu không phải luôn chịu cùng một thayđổi trong quá trình truyền. Trong trường hợp này, ta có thể giả thiết tín hiệu thu E là một hàm của tín hiệuphát S và một biến thứ hai, nhiễu N.

E = f (S,N)

Nhiễu cũng được xem như một biến cơ hội như bản tin ở trên. Nói chung, nhiễu có thể được đặc trưng bởimột quá trình ngẫu nhiên phù hợp. Dạng phổ biến nhất của kênh rời rạc có nhiễu mà ta sẽ xem xét là mộtsự tổng quát hóa của kênh không nhiễu trạng thái hữu hạn như mô tả ở trên. Chúng ta giả thiết một số lượnghữu hạn các trạng thái và một tập các xác suất:

pα,i(β, j).

Đây là xác suất nếu kênh ở trạng thái α và ký hiệu i được phát đi, bên thu nhận được ký hiệu j và kênhchuyển sang trạng thái β. Do vậy α và β chạy dọc theo các trạng thái khả dĩ của kênh, i thuộc tập các tínhiệu phát khả dĩ và j thuộc tập các tín hiệu thu khả dĩ. Trong trường hợp các ký hiệu liên tiếp bị tác độngbởi nhiễu một cách độc lập, thì chỉ có một trạng thái của kênh, và kênh được mô tả bởi một tập các xác suấtchuyển đổi pi( j), chính là xác suất phát đi ký hiệu i và nhận được ký hiệu j.

Nếu một kênh có nhiễu được cấp từ một nguồn có hai quá trình thống kê làm việc: nguồn và nhiễu. Dovậy, có một số entropy có khả năng tính được. Thứ nhất, đó là entropy H(x) của nguồn hay entropy của đầuvào kênh (các entropy này là bằng nhau nếu máy phát là không suy biến). Entropy của đầu ra của kênh, nghĩalà tín hiệu thu, được kí hiệu là H(y). Trong trường hợp kênh không có nhiễu thì H(x) = H(y). Entropy đồngthời của đầu vào và đầu ra là H(xy). Cuối cùng, hai dạng entropy có điều kiện Hx(y) và Hy(x) là entropy củađầu ra khi đã biết đầu vào và ngược lại. Giữa các đại lượng này, ta có biểu thức quan hệ:

H(x,y) = H(x)+Hx(y) = H(y)+Hy(x).

Tất cả các entropy này có thể được đo theo đơn vị trên giây hoặc trên ký hiệu

12. ĐỘ MẬP MỜ VÀ DUNG LƯỢNG KÊNH

Nếu kênh có nhiễu, nói chung không thể khôi phục lại bản tin gốc hay tín hiệu phát với một độ tin cậy nàođó bằng bất cứ cách xử lí nào trên tín hiệu thu E. Tuy nhiên, vẫn có phương pháp phát thông tin tối ưu hóatrong việc chống nhiễu. Đây là vấn đề mà bây giờ chúng ta xem xét.

Giả thiết có hai ký hiệu 0 và 1 được phát đi với tốc độ 1000 ký hiệu mỗi giây, xác suất phát là p0 = p1 = 12 .

Do vậy, nguồn tin tạo thông tin với tốc độ 1000bit/giây. Trong quá trình truyền thông tin, nhiễu tạo ra lỗi,trung bình cứ 100 bit nhận thì có một bit không chính xác (phát 0 nhận 1 hoặc phát 1 nhận 0). Vậy tốc độphát tin là bao nhiêu? Nói chung sẽ thấp hơn 1000bit/giây do có khoảng 1% ký hiệu thu được là không chínhxác. Phản ứng đầu tiên của chúng ta có thể là: tốc độ truyền tin là 990 bit/giây, đơn thuần chỉ trừ đi số lỗiước tính có thể xảy ra. Kết quả này là không hợp lí, do đã không tính tới khả năng phía thu không biết vịtrí xảy ra các lỗi. Chúng ta có thể đưa nó vào trường hợp xấu nhất và giả thiết rằng nhiễu lớn tới mức cácký hiệu thu hoàn toàn độc lập với các ký hiệu đã phát. Xác suất thu được 1 là 1

2 cho dù ký hiệu phát đi là 1hay 0, và cũng tương tự khi thu được ký hiệu 0. Do đó, có khoảng một nửa số ký hiệu thu được là chính xácdo cơ may độc lập, và chúng ta có thể đưa ra hệ thống truyền thông tin tin cậy với tốc độ 500bit/giây, trongkhi thực tế là không có thông tin nào được truyền đi. Một truyền dẫn tốt có thể đạt được bằng việc gieo mộtđồng xu xấp ngửa tại điểm thu mà không cần tính đến kênh truyền.

Hiển nhiên, một hiệu chỉnh hợp lí đối với tổng lượng thông tin được truyền đi sẽ chính bằng lượng tin bịmất ở tín hiệu thu, hay chính là độ bất định về tín hiệu thực sự được phát khi ta biết tín hiệu thu. Từ phần thảoluận trước của chúng ta về entropy như một đơn vị đo độ bất định, dường như cũng hợp lí nếu coi entropycó điều kiện của bản tin, được biết đến như là tín hiệu thu, là độ đo của lượng thông tin bị tổn thất. Đây quảthực là một định nghĩa hợp lí, và sẽ được làm rõ dần về sau. Theo ý tưởng đó, tốc độ truyền tin thực tế R cóthể thu được bằng cách lấy tốc độ phát tin (entropy của nguồn) trừ đi tốc độ trung bình của entropy có điềukiện

R = H(x)−Hy(x)

Entropy có điều kiện Hy(x), để ngắn gọn, sẽ được gọi là độ mập mờ (equivocation). Nó đo lường sựkhông rõ ràng tính theo trung bình của tín hiệu thu.

20 Dịch và biên soạn bởi VNTelecom

Page 21: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Trong ví dụ ở trên, nếu bit thu được là 0 thì xác suất hậu nghiệm ứng với sự kiện bit 0 đã được phát đi là0.99 và bit 1 đã được phát đi là 0.01. Các kết quả này ngược lại nếu bit thu được là 1. Do đó

Hy(x) =−[0.99log0.99+0.01log0.01]= 0.081 bit/ký hiệu

hay 81bit/giây. Ta có thể phát biểu rằng hệ thống đó truyền tin với tốc độ 1000−81 = 919 bít/s. Trong trườnghợp xấu nhất, khi bit 0 đều có thể được thu như thể bit 0 hoặc 1, tương tự cho bit 1, thì xác suất hậu nghiệmlà 1

2 , 12 và

Hy(x) =−[ 12 log 1

2 + 12 log 1

2

]

= 1 bit/ký hiệu

hay 1000 bit/giây. Tốc độ truyền tin do vậy bằng 0 như mong đợi.Định lí sau đây cho một cách hiểu trực giác về độ mập mờ và cũng dùng để chứng tỏ nó là đơn vị đo

lường thích hợp duy nhất. Giả thiết có một hệ thống truyền tin và một người quan sát (hay thiết bị bổ trợ) cóthể quan sát cả tín hiệu được phát và được phục hồi (với các lỗi do nhiễu gây ra). Người quan sát này đánhdấu các lỗi trong bản tin đã được khôi phục và phát dữ liệu đi tới một điểm thu qua "kênh sửa lỗi" để chophép máy thu sửa các lỗi này. Tình huống này được miêu tả bằng lược đồ như trên hình 8.

NGUỒN

M

MÁY PHÁT MÁY THU THIẾT BỊSỬA LỖI

QUAN SÁT VIÊN

M′ M

DỰ LIỆU SỮA LỖI

Hình 8—Lược đồ hệ thống sửa lỗi.

Định lí 10: Nếu kênh sửa lỗi có dung lượng bằng Hy(x), ta có thể mã hóa dữ liệu sửa lỗi để gửi qua kênhnày và hiệu chỉnh tất cả các lỗi, trừ một phần nhỏ tùy ý ε . Điều này là không thể nếu dung lượng kênh nhỏhơn Hy(x).

Nói đại khái thì Hy(x) là tổng thông tin bổ sung phải được cấp trong mỗi giây tại điểm thu nhằm sửa lạibản tin thu.

Để chứng minh phần thứ nhất, giả thiết có một số chuỗi dài trong bản tin thu M′ tương ứng với bản tingốc M. Có thể tìm ra theo cách logarit T Hy(x) bản tin nguồn M mà có khả năng tạo ra một cách hợp lí mỗibản tin M′. Do vậy ta có T Hy(x) số nhị phân được gửi đi trong mỗi T giây. Điều này có thể được thực hiệnvới tần số lỗi ε trên kênh có dung lượng Hy(x).

Phần thứ hai được chứng minh như sau: với các biến xác suất rời rạc x,y, z bất kì ta có:

Hy(x,z)≥ Hy(x).

Khai triển vế trái, ta có:

Hy(z)+Hyz(x)≥ Hy(x)Hyz(x)≥ Hy(x)−Hy(z)≥ Hy(x)−H(z).

21 Dịch và biên soạn bởi VNTelecom

Page 22: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Nếu ta gán x là đầu ra nguồn tin, y là tín hiệu thu và z là tín hiệu truyền qua kênh sửa lỗi, thì vế phải chínhlà độ mập mờ trừ đi tốc độ phát tín hiệu qua kênh sửa lỗi. Nếu dung lượng kênh này nhỏ hơn độ bất định, vếphải sẽ lớn hơn 0 và Hyz(x) > 0. Nhưng đó lại là độ bất định của thông tin phát khi biết tín hiệu thu và tínhiệu sửa lỗi. Nếu độ mập mờ này lớn hơn 0, tần số lỗi sẽ không thể nhỏ tùy ý.

Ví dụ:

Giả sử lỗi xảy ra ngẫu nhiên trong chuỗi số nhị phân; xác suất số nhị phân sai là p và đúng là q = 1− p.Các lỗi này có thể sửa nếu biết vị trí. Do vậy kênh sửa lỗi chỉ có nhiệm vụ truyền thông tin vị trí cáclỗi. Vấn đề này chung quy lại cũng chỉ là truyền tín hiệu từ một nguồn tạo ra các số nhị phân với xácsuất truyền bit 1 là p (không chính xác) và bit 0 là q (chính xác). Do vậy dung lượng kênh cần thiết là

−[p log p+q logq]

Đây chính là độ mập mờ của hệ thống gốc.

Tốc độ truyền tin R có thể viết dưới hai dạng khác nữa theo các đặc tính chú ý ở trên. Ta có:

R = H(x)−Hy(x)= H(y)−Hx(y)= H(x)+H(y)−H(x,y).

Biểu thức định nghĩa thứ nhất được phát biểu chính bằng tổng lượng tin phát trừ đi độ bất ngờ của nó. Biểuthức thứ hai tính tổng lượng tin thu trừ đi phần bị nhiễu. Biểu thức thứ ba là tổng 2 lượng tin trừ đi entropyđồng thời, và theo nghĩa nào đó chính là tốc độ bit trên giây chung với cả 2 đầu cuối. Cả 3 biểu thức trên đềucó mức quan trọng nhất định.

Dung lượng kênh truyền có nhiễu C tốt nhất là bằng tốc độ truyền tin tối đa cho phép, nghĩa là, tốc độkhi nguồn tin hoàn toàn phù hợp với kênh truyền. Do đó ta có biểu thức tính dung lượng kênh:

C = Max(H(x)−Hy(x)

)

trong đó, phép toán Max ứng với mọi nguồn tin có thể dùng như đầu vào của kênh truyền. Nếu kênh khôngcó nhiễu, Hy(x) = 0. Định nghĩa do vậy sẽ tương đương với biểu thức cho kênh không nhiễu, vì entropy cựcđại với kênh truyền chính là dung lượng của nó.

13. ĐỊNH LÍ CƠ BẢN CHO KÊNH RỜI RẠC CÓ NHIỄU

Có vẻ khá bất ngờ nếu ta phải định nghĩa dung lượng kênh C cho một kênh có nhiễu khi ta có thể không baogiờ gửi được một thông tin nào đó trên kênh này. Tuy nhiên rõ ràng là bằng cách gửi thừa thông tin, xác suấtlỗi có thể giảm được phần nào. Ví dụ, bằng cách lặp đi lặp lại một bản tin nhiều lần, và nhờ vào nghiên cứuthống kê các phiên bản khác nhau của bản tin thu, xác suất lỗi có thể còn rất nhỏ. Nếu người ta muốn xácsuất lỗi giảm về 0, độ dư trong thông tin phải tăng đến mức không xác định, và tốc độ truyền do đó tiến tới0, điều này là hoàn toàn không thể. Nếu có, ta sẽ không thể xác định cụ thể dung lượng kênh, mà chỉ xácđịnh được dung lượng ứng với một tần số lỗi cho trước, hay độ mập mờ cho trước; dung lượng kênh sẽ giảmkhi mà các yêu cầu về lỗi trở nên nghiêm ngặt hơn. Thực tế dung lượng kênh C định nghĩa ở trên có tầmquan trọng rõ rệt. Ta có thể truyền thông tin với tốc độ C qua kênh với tần số lỗi hay độ mập mờ mong muốnnhờ vào một mã hóa hợp lí. Phát biểu này không đúng cho bất kỳ tốc độ nào lớn hơn C. Nếu ta cố thử phátđi với tốc độ lớn hơn C, giả dụ C +R1, thì sẽ cần thêm độ mập mờ lớn hơn hoặc bằng lượng vượt quá R1 đó.Giá phải trả khi đòi hỏi một độ mập mờ quá cao như thế là ta thực sự không nhận được thông tin chính xáccó tốc độ cao hơn C.

Tình huống được miêu tả trên hình 9. Tốc độ truyền tin trên kênh được biểu thị theo chiều ngang và độmập mờ theo chiều dọc. Bất kỳ điểm nào ở trên đường kẻ đậm trong vùng bóng là có thể đạt được còn nhữngđiểm ở phía dưới là không thể. Các điểm nằm ngay trên đường đậm, nói chung, là không thực hiện được,thông thường trừ hai điểm trên đó là có thể.

Các kết quả trên là các luận điểm chính cho định nghĩa dung lượng kênh C và sẽ được chứng minh ngaysau đây.

22 Dịch và biên soạn bởi VNTelecom

Page 23: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Định lí 11: Cho một kênh rời rạc có dung lượng C và nguồn rời rạc có lượng entropy trên giây là H.Nếu H ≤C, tồn tại một hệ mã hóa sao cho đầu ra của nguồn tin có thể được truyền trên kênh với tần số lỗinhỏ tùy ý (hay độ mập mờ nhỏ tùy ý). Nếu H > C, ta có thể mã hóa nguồn sao cho độ mập mờ nhỏ hơnH−C + ε, trong đó ε nhỏ tùy ý. Không có phương pháp mã hóa nào cho độ mập mờ nhỏ hơn H−C.

Phương pháp chứng minh phần thứ nhất của định lí không phải bằng việc chỉ ra một phương pháp mãhóa có các đặc tính mong muốn, mà phải chứng minh rằng tồn tại một mã như thế trong một nhóm mã nàođó. Trên thực tế, ta sẽ lấy trung bình tần số lỗi trên nhóm mã này và chỉ ra số trung bình đó có thể nhỏ hơn

VÙNGĐẠT ĐƯỢC

C H(x)

Hy(x)

ĐỘDỐC

= 1.0

Hình 9—Độ mập mờ có thể tương ứng với entropy đầu vào cho trước của một kênh truyền.

ε. Nếu trung bình cộng của một tập hợp nhỏ hơn ε, thì phải tồn tại ít nhất một thành phần nhỏ hơn ε. Điềunày sẽ thiết lập kết quả mong muốn.

Dung lượng C của một kênh truyền có nhiễu đã được định nghĩa như sau:

C = Max(H(x)−Hy(x)

)

trong đó x là đầu vào, còn y là đầu ra kênh. Cực đại được tính trên tất cả các nguồn mà có thể được sử dụngnhư đầu vào của kênh.

Cho S0 là một nguồn tin mà cho phép đạt dung lượng kênh cực đại C. Nếu không tồn tại nguồn tin nàothỏa mãn điều kiện này, khi đó S0 được giả thiết là nguồn tin cho tốc độ xấp xỉ tốc độ cực đại. Giả thiết S0được dùng như đầu vào kênh. Ta xét các chuỗi có thể được phát và thu trong khoảng thời gian T . Các luậnđiểm sau đây là đúng:

1. Các chuỗi phát này thuộc 2 nhóm, một nhóm có xác suất cao gồm khoảng 2T H(x) phần tử và nhómgồm các chuỗi còn lại có tổng xác suất nhỏ .

2. Tương tự, các chuỗi thu gồm tập hợp xác suất cao của khoảng 2T H(y) phần tử và tập hợp xác suất thấpcủa các chuỗi còn lại.

3. Mỗi chuỗi đầu ra có xác suất cao có thể được tạo ra từ khoảng 2T Hy(x) đầu vào. Xác suất của tất cả cáctrường hợp khác là nhỏ.

Các đại lượng ε và δ hàm chứa trong từ "nhỏ” và "khoảng" trong các phát biểu trên tiến tới 0 vì chúng tacho phép T đơn điệu tăng và S0 xấp xỉ nguồn cực đại.

Tình huống trên được đúc kết trong hình 10, trong đó các chuỗi đầu vào là các điểm bên trái và cácchuỗi đầu ra là các điểm bên phải. Ta thấy hình quạt tạo bởi các đường xiên đặc trưng cho các nguyên nhâncó thể (ở đây ý nói các chuỗi đầu vào) ứng với một đầu ra nào đó.

Bây giờ, giả thiết có một nguồn tin khác tạo ra thông tin ở tốc độ R với R < C. Trong khoảng thời gianT , nguồn này có 2T R bản tin xác suất cao. Ta mong muốn liên kết các bản tin này với một lựa chọn các đầuvào kênh có thể nhằm đạt được một tần số lỗi nhỏ. Chúng ta sẽ thiết lập mối liên kết này theo mọi cách cóthể (tuy nhiên, chỉ sử dụng các đầu vào thuộc nhóm xác suất cao được xác định bởi nguồn S0 ) và lấy trungbình tần số lỗi trên một lớp rộng các hệ thống mã hóa có thể. Điều này tương tự như tính tần số lỗi cho mộtliên kết ngẫu nhiên giữa các bản tin và các đầu vào kênh trong khoảng thời gian T . Giả thiết một đầu ra y1được quan sát thấy. Khi đó đâu là xác suất có nhiều hơn một bản tin trong tập các nguyên nhân có thể để tạora y1. Có 2T R bản tin được phân phối một cách ngẫu nhiên trên 2T H(x) điểm. Do đó, xác suất để một điểmnào đó là một bản tin bằng:

2T (R−H(x)).

23 Dịch và biên soạn bởi VNTelecom

Page 24: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

M

E

2H(x)T

BẢN TINXÁC SUẤT CAO

2H(y)TTÍN HIỆU NHẬNXÁC SUẤT CAO

2Hy(x)TNGUYÊN NHÂN HỢP LÝ

CHO MỖI E

2Hx(y)TKẾT QUẢ HỢP LÝ

CHO MỖI M

Hình 10—Lược đồ đặc trưng mối quan hệ giữa đầu vào và đầu ra trên một kênh truyền.

Xác suất không có điểm nào trong hình quạt giấy đóng vai trò bản tin phát (ngoại trừ bản tin gốc thực sự) là

P =[1−2T (R−H(x))]2T Hy(x)

.

Do R < H(x)−Hy(x) nên ta có R−H(x) =−Hy(x)−η với η dương. Do vậy,

P =[1−2−T Hy(x)−Tη

]2T Hy(x)

tiến tới (khi T → ∞)1−2−Tη.

Do vậy xác suất có một lỗi tiến tới 0 và phần đầu của định lí được chứng minh.Phần thứ hai của định lí dễ dàng được chứng minh bằng cách để ý rằng ta có thể đơn thuần gửi đi C bit

trong 1 giây từ một nguồn và hoàn toàn bỏ mặc phần còn lại của thông tin được tạo ra. Tại máy thu, phần bỏmặc đó cho một độ mập mờ H(x)−C còn phần đã phát chỉ cần cộng thêm vào ε. Giới hạn này có thể đạtđược theo nhiều cách khác nhau, và sẽ được chứng minh khi chúng ta xét đến trường hợp liên tục.

Phát biểu cuối của định lí chỉ là một hệ quả đơn giản của định nghĩa dung lượng kênh C. Giả thiết tacó thể mã hóa nguồn với H(x) = C + a sao cho thu được một độ mập mờ Hy(x) = a− ε với ε dương. VậyR = H(x) = C +a và

H(x)−Hy(x) = C + ε

với ε dương. Biểu thức này mâu thuẫn với định nghĩa của C như một cực đại của H(x)−Hy(x).Thực ra, ta đã chứng minh được nhiều hơn những gì phát biểu trong định lí. Nếu trung bình cộng của

một tập hợp nằm trong khoảng ε của giá trị cực đại của chúng, nhiều nhất là√

ε phần tử là có thể lớn hơn√ε dưới giá trị cực đại (có lẽ hiểu rằng số trung bình cộng nằm trong khoảng max −√ε và max - ND). Do

ε nhỏ tùy ý, ta có thể phát biểu rằng hầu hết mọi hệ thống đều gần một cách tùy ý với trường hợp lí tưởng.

24 Dịch và biên soạn bởi VNTelecom

Page 25: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

14. THẢO LUẬN

Phần luận chứng của định lí 11, tuy không phải là một chứng minh tồn tại thuần túy, lại chứa một số dạngkhuyết của các chứng minh như vậy. Một nỗ lực nhằm đạt xấp xỉ tốt với mã hóa lí tưởng theo phương thứcchỉ ra trong phần chứng minh nhìn chung là không thể thực hiện được. Thật ra, ngoài một số trường hợp kháhiển nhiên và vài tình huống tới hạn nào đó, không tìm thấy một mô tả tường minh nào về những xấp xỉ vớitrường hợp lí tưởng. Có thể đây không phải là sự khấp khểnh, nhưng nó lại liên quan tới sự khó khăn khi đưara một xây dựng rõ ràng cho một xấp xỉ tốt tới một chuỗi ngẫu nhiên.

Một xấp xỉ tới trường hợp lí tưởng có thể có đặc tính sau: nếu tín hiệu bị thay đổi theo một cách hợp líbởi nhiễu, tín hiệu gốc vẫn có khả năng được khôi phục lại. Nói cách khác, sự biến đổi này sẽ không khiếnnó gần giống so với một tín hiệu hợp lí khác hơn là so với tín hiệu gốc. Điều này được thực hiện với giá phảitrả là lượng dư thông tin trong mã hóa. Độ dư thông tin phải được tạo ra theo cách thích hợp nhằm chốnglại một cấu trúc nhiễu có liên quan. Tuy nhiên, bất kì độ dư nào của nguồn tin thường là có ích nếu nó đượclợi dụng tại điểm thu. Đặc biệt, nếu nguồn có sẵn một độ dư nào đó, và nếu không có nỗ lực nào nhằm loạibỏ nó để thích ứng với kênh truyền, thì độ dư này vẫn có thể giúp chống nhiễu. Chẳng hạn, trong kênh điệnbáo không nhiễu, một hệ thống có thể rút ngắn 50% thời gian truyền nếu mã hóa hợp lí các bản tin. Điềunày không được thực hiện và hầu hết độ dư thông tin trong ngôn ngữ tiếng anh lại giữ lại trong các kí hiệukênh. Tuy nhiên, điều này cũng có ưu điểm là cho phép nhiễu đáng kể trên kênh truyền. Một lượng lớn cácchữ cái thu được có lỗi vẫn có thể được khôi phục lại nhờ vào ngữ cảnh. Trên thực tế, điều này có lẽ khôngphải là xấp xỉ tồi so với trường hợp lý tưởng trong nhiều trường hợp, bởi cấu trúc thống kê của anh ngữ kháphức tạp và các chuỗi anh ngữ hợp lí cũng không quá xa (theo nghĩa đòi hỏi của định lí) so với sự lựa chọnngẫu nhiên.

Cũng như trong trường hợp không nhiễu, một độ trễ nói chung là cần thiết nhằm tiếp cận việc mã hóa lítưởng. Nó giờ đây có thêm chức năng phụ cho phép một mẫu nhiễu lớn ảnh hưởng lên tín hiệu trước khi cócác cơ chế khôi phục bản tin gốc thực hiện tại điểm thu. Tăng kích cỡ mẫu luôn làm tăng thêm các xác nhậnthống kê có thể.

Nội dung của định lí 11 và phần chứng minh của nó có thể được phát biểu một cách khác biệt, cho thấysự kết nối với trường hợp không nhiễu một cách rõ ràng hơn. Xét các tín hiệu thực có độ dài T và giả thiếtmột tập con của chúng được chọn để sử dụng. Coi rằng tất cả tín hiệu trong tập con được sử dụng với xácsuất bằng nhau, và giả sử máy thu được thiết kế để lựa chọn, giống như tín hiệu gốc, một nguyên nhân cókhả năng nhất trong tập con, khi nhận được một tín hiệu bị xáo trộn. Ta định nghĩa N(T,q) là con số tối đacác tín hiệu có thể chọn cho tập con sao cho xác suất của một phiên dịch không chính xác là nhỏ hơn hoặcbằng q.

Định lí 12: LimT→∞

logN(T,q)T

= C, với C là dung lượng kênh, với điều kiện q khác 0 hoặc 1.

Nói cách khác, không cần quan tâm cách thức đặt ra các giới hạn của độ tin cậy, ta có thể phân biệt mộtcách chắc chắn trong khoảng thời gian T đầy đủ các bản tin để tương đương với CT bit, khi T đủ lớn. Địnhlí 12 có thể so sánh với định nghĩa dung lượng kênh không nhiễu trong mục 1.

15. VÍ DỤ VỀ KÊNH RỜI RẠC VÀ DUNG LƯỢNG CỦA NÓ

Xét một ví dụ đơn giản về kênh truyền rời rạc trong hình 11. Có 3 ký hiệu có thể xảy ra. Ký hiệu thứ nhấtkhông bị ảnh hưởng bởi nhiễu. Ký hiệu thứ hai và thứ ba, mỗi cái có xác suất p không bị nhiễu, và xác suấtq bị chuyển thành kí hiệu còn lại.

Ta có: (đặt α =−[p log p+q logq] và P và Q là xác suất sử dụng ký hiệu thứ nhất hay ký hiệu thứ hai)

H(x) =−P logP−2Q logQ

Hy(x) = 2Qα.

Ta mong muốn chọn P và Q sao cho biểu thức H(x)−Hy(x) đạt giá trị cực đại với điều kiện P+2Q = 1. Dovậy, ta xét

U =−P logP−2Q logQ−2Qα+λ(P+2Q)

25 Dịch và biên soạn bởi VNTelecom

Page 26: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

p

p

q

q

KÝ HIỆUPHÁT

KÝ HIỆUNHẬN

Hình 11—Ví dụ kênh truyền rời rạc.

∂U∂P

=−1− logP+λ = 0

∂U∂Q

=−2−2logQ−2α+2λ = 0.

Loại bỏ λ, ta có

logP = logQ+α

P = Qeα = Qβ

P =β

β +2Q =

1β +2

.

Dung lượng kênh do vậy trở thành

C = logβ +2

β.

Bây giờ chú ý cách biểu thức này kiểm tra các giá trị hiển nhiên trong trường hợp p = 1 và p = 12 . Trong

trường hợp đầu tiên (p = 1), β = 1 và C = log3. Kết quả này là chính xác vì kênh là không nhiễu với 3 kýhiệu. Nếu p = 1

2 , β = 2 và C = log2. Ở đây, ký hiệu thứ hai và thứ ba không thể được phận biệt với nhau vàchúng đi cùng nhau như một ký hiệu. Ký hiệu thứ nhất được sử dụng với xác suất P = 1

2 và cặp 2 ký hiệu cònlại có xác suất 1

2 . Xác suất này có thể được phân phối tùy ý giữa chúng và vẫn đem đến dung lượng kênh tốiđa.

Với các giá trị trung gian của p, dung lượng kênh nằm giữa log2 và log3. Sự phân biệt giữa ký hiệu thứhai và thứ ba chứa một số thông tin nhưng không nhiều như trường hợp không nhiễu. Ký hiệu thứ nhất đượcsử dụng thường xuyên hơn ở một mức nào đó so với 2 ký hiệu còn lại chính nhờ vào khả năng miễn nhiễucủa nó.

16. DUNG LƯỢNG KÊNH TRONG MỘT SỐ TRƯỜNG HỢP ĐẶC BIỆT

Nếu nhiễu tác động lên các ký hiệu liên tiếp nhau một cách độc lập, thì điều có thể được mô tả bởi một tậpcác xác suất chuyển đổi pi j. Đó là xác suất ký hiệu j sẽ được thu nếu ký hiệu được truyền đi là i. Khi đó tốcđộ kênh truyền tối đa được cho bởi giá trị cực đại của biểu thức

−∑i, j

Pi pi j log∑i

Pi pi j +∑i, j

Pi pi j log pi j

trong đó ta biến thiên Pi với điều kiện ∑Pi = 1. Nhờ vào phương pháp Lagrange, điều này dẫn đến cácphương trình,

∑j

ps j logps j

∑i Pi pi j= µ s = 1,2, . . . .

Nhân hai vế với Ps và cộng trên s cho thấy µ = C. Đặt nghịch đảo của ps j (nếu tồn tại) là hst sao cho∑s hst ps j = δt j. Ta có:

∑s, j

hst ps j log ps j− log∑i

Pi pit = C∑s

hst .

26 Dịch và biên soạn bởi VNTelecom

Page 27: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Do vậy:

∑i

Pi pit = exp[−C∑

shst +∑

s, jhst ps j log ps j

]

hoặc,Pi = ∑

thit exp

[−C∑

shst +∑

s, jhst ps j log ps j

].

Đây là hệ phương trình dùng để xác định giá trị cực đại của Pi, với C được chọn sao cho ∑Pi = 1. Giải hệtrên ta có C sẽ là dung lượng kênh và Pi là các xác suất đúng cho các ký hiệu để đạt được dung lượng kênhnày.

Nếu mỗi ký hiệu đầu vào có cùng tập xác suất trên các đường thẳng xuất phát từ nó, và điều tương tựcũng đúng với các ký hiệu đầu ra, thì dung lượng có thể được tính một cách dễ dàng, như ví dụ cho tronghình 12. Trong trường hợp này Hx(y) độc lập với phân phối xác suất trên các ký hiệu đầu vào, và được cho

a b c

1/2

1/2

1/2

1/21/2

1/21/2

1/21/3

1/3

1/3

1/3

1/61/6

1/6

1/6

1/6

1/6

1/6

1/3

1/3

1/3

1/2

1/2

1/2

Hình 12—Ví dụ kênh truyền rời rạc với cùng xác suất chuyển đổi cho mỗi đầu vào và đầu ra.

bởi −∑ pi log pi, trong đó pi là các giá trị của các xác suất chuyển đổi từ bất kì ký hiệu đầu vào nào. Dunglượng kênh là

Max[H(y)−Hx(y)

]= MaxH(y)+∑ pi log pi.

Cực đại của H(y) rõ ràng bằng logm trong đó m là số ký hiệu đầu ra, bởi ta có khả năng làm cho chúng xảyvới cùng một xác suất bằng cách làm các kí hiệu đầu vào đồng xác suất. Dung lượng kênh do đó bằng

C = logm+∑ pi log pi.

Trong hình 12a nó sẽ làC = log4− log2 = log2.

Điều này đạt được bằng cách chỉ dùng ký hiệu thứ nhất và thứ ba. Trong hình 12b

C = log4− 23 log3− 1

3 log6

= log4− log3− 13 log2

= log 13 2

53 .

Trong hình 12c ta có

C = log3− 12 log2− 1

3 log3− 16 log6

= log3

212 3

13 6

16.

Giả thiết các ký hiệu thuộc một số nhóm thỏa mãn tính chất nhiễu không bao giờ làm cho một ký hiệutrong một nhóm bị nhầm lẫn với một ký hiệu của một nhóm khác. Cho dung lượng kênh ứng với nhóm thứ

27 Dịch và biên soạn bởi VNTelecom

Page 28: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

n là Cn (bit/giây) khi ta chỉ sử dụng các ký hiệu thuộc nhóm này. Lúc đó, dễ dàng chứng minh rằng, để sửdụng một cách hiệu quả nhất toàn bộ tập hợp, xác suất tổng Pn của tất cả các ký hiệu trong nhóm thứ n nênbằng:

Pn =2Cn

∑2Cn.

Trong một nhóm, xác suất được phân phối giống như chỉ các ký hiệu đó đang được sử dụng. Dung lượngkênh khi đó bằng

C = log∑2Cn .

17. MỘT VÍ DỤ VỀ MÃ HÓA HIỆU QUẢ

Ví dụ sau đây, mặc dù ở một góc độ nào đó là không thực tế, chỉ một trường hợp trong đó thích ứng chínhxác với kênh truyền có nhiễu là có thể. Có hai ký hiệu kênh là 0 và 1, nhiễu tác động lên chúng theo các khối7 ký hiệu. Một khối 7 ký hiệu này hoặc truyền không lỗi, hoặc chính xác một trong 7 ký hiệu bị lỗi. Támkhả năng này gần như là bằng nhau. Ta có

C = Max[H(y)−Hx(y)

]

= 17

[7+ 8

8 log 18

]

= 47 bit/ký hiệu.

Một mã hóa hiệu quả cho phép sửa hoàn toàn các lỗi và truyền đi với tốc độ C được cho như sau: (được tìmra nhờ vào một phương pháp của R.Hamming):

Cho một khối 7 ký hiệu X1,X2, . . . ,X7, trong đó X3, X5, X6 và X7 là những ký hiệu bản tin và được chọntùy ý từ nguồn tin. Ba ký hiệu còn lại dùng làm phần dư và được tín như sau:

X4 được chọn để cho α = X4 +X5 +X6 +X7 chẵnX2 “ “ “ “ β = X2 +X3 +X6 +X7 “X1 “ “ “ “ γ = X1 +X3 +X5 +X7 “

Một khi khối 7 ký hiệu này được thu, α,β và γ được tính toán và nếu chẵn gọi là 0, nếu lẻ gọi là 1. Số nhịphân αβγ chỉ ra chỉ số của ký hiệu Xi bị lỗi (nếu 0 thì không có lỗi nào).

PHỤ LỤC 1

SỰ TĂNG TIẾN SỐ LƯỢNG CỦA CÁC KHỐI TRONG CÁC KÝ HIỆU VỚI ĐIỀU KIỆN TRẠNG THÁI HỮU HẠN

Coi Ni(L) là số lượng của các khối trong các ký hiệu với chiều dài L được kết thúc ở trạng thái i. Ta có

N j(L) = ∑i,s

Ni(L−b(s)

i j)

với b1i j,b

2i j, . . . ,b

mi j là chiều dài của các ký hiệu được chọn ở trạng thái i và dẫn đến trạng thái j. Chúng là các

phương trình sai phân tuyến tính và khi L→ ∞ ta có

N j = A jW L.

Thay vào phương trình sai phân

A jW L = ∑i,s

AiWL−b(s)

i j

hoặc

A j = ∑i,s

AiW−b(s)

i j

∑i

(∑s

W−b(s)i j − δi j

)Ai = 0.

28 Dịch và biên soạn bởi VNTelecom

Page 29: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Để có được phương trình này, định thức sau phải triệt tiêu:

D(W ) = |ai j|=∣∣∣∑

sW−b(s)

i j − δi j

∣∣∣

và điều này xác định W , giá trị nghiệm thực lớn nhất khi D = 0.Do vậy đại lượng C được tính bằng

C = LimL→∞

log∑A jW L

L= logW

Và chúng ta cũng ghi nhận rằng các đặc tính tăng tiến sẽ giống nhau khi chúng ta yêu cầu các khối khởi đầutại cùng một trạng thái được chọn tùy ý.

PHỤ LỤC 2

ĐẠO HÀM CỦA H =−∑ pi log pi

Đặt H(1

n,

1n, . . . ,

1n

)= A(n). Từ điều kiện (3) chúng ta có thể phân tích một tùy chọn từ sm các khả năng có

thể tương đương thành một chuỗi của m giá trị tùy chọn từ s các khả năng có thể tương đương và nhận được

A(sm) = mA(s).

Tương tự ta cóA(tn) = nA(t).

Ta có thể chọn n lớn tùy ý và tìm ra một giá trị m thỏa mãn

sm ≤ tn < s(m+1).

Rồi lấy logarit và chia cho n logs,

mn≤ log t

log s≤ m

n+

1n

or∣∣∣m

n− log t

log s

∣∣∣ < ε

với ε nhỏ tùy ý. Giờ đây, từ tính đơn điệu của A(n),

A(sm)≤ A(tn)≤ A(sm+1)mA(s)≤ nA(t)≤ (m+1)A(s).

Vậy thì chia cho nA(s),mn≤ A(t)

A(s)≤ m

n+

1n

or∣∣∣m

n− A(t)

A(s)

∣∣∣ < ε

∣∣∣ A(t)A(s)

− log tlogs

∣∣∣ < 2ε A(t) = K log t

với K phải là số dương để thỏa mãn điều kiện (2).Bây giờ, giả thiết chúng ta có một tùy chọn từ n khả năng với xác suất tương xứng với pi =

ni

∑nitrong

đó ni là các số nguyên. Chúng ta có thể phân nhỏ một tùy chọn từ ∑ni khả năng thành một tùy chọn từ nkhả năng với xác suất p1, . . . , pn và rồi nếu tùy chọn thứ i được chọn, đó là tùy chọn từ ni với các xác xuấttương đương. Sử dụng điều kiện (3) ta có phương trình của sự lựa chọn tổng từ ∑ni như đã được tính bởi haiphương pháp

K log∑ni = H(p1, . . . , pn)+K ∑ pi logni.

29 Dịch và biên soạn bởi VNTelecom

Page 30: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Do vậy

H = K[∑ pi log∑ni−∑ pi logni

]

=−K ∑ pi logni

∑ni=−K ∑ pi log pi.

Nếu pi không tương xứng, chúng có thể được xấp xỉ bởi các số hữu tỷ và biểu thức giống như vậy phải giữnguyên bởi giả thiết liên tục của chúng ta. Do vậy biểu thức này nói chung là giữ nguyên. Sự lựa chọn hệ sốK tùy thuộc vào số lượng tùy chọn của một đơn vị đo.

PHỤ LỤC 3

CÁC ĐỊNH LÍ VỀ CÁC NGUỒN ERGODIC

Nếu có thể đi từ bất kỳ trạng thái nào với P > 0 tới trạng thái khác trên một nhánh với xác suất p > 0, thìhệ thống có tính ergodic và luật các số lớn được áp dụng. Do vậy số lần mà một nhánh pi j trong một mạngbị cắt ngang trong một dãy dài có độ dài N sẽ tỉ lệ với xác suất tại i, gọi là Pi, và xác suất chọn nhánh này,Pi pi jN. Nếu N đủ lớn, xác suất của phần trăm các lỗi ±δ nhỏ hơn ε. Do vậy đối với một nhóm xác suất nhỏ,các số thực sự nằm trong khoảng giới hạn

(Pi pi j± δ)N.

Vậy nên các dãy có xác suất p như saup = ∏ p

(Pi pi j±δ)Ni j

vàlog p

Ngiới hạn bởi

log pN

= ∑(Pi pi j± δ) log pi j

hoặc ∣∣∣ log pN

−∑Pi pi j log pi j

∣∣∣< η.

Điều này chứng minh định lí số 3.Định lí số 4 đưa ra ngay sau định lí 3 qua việc tính toán giới hạn trên và dưới của n(q) dựa trên khoảng

giá trị khả dĩ của p trong định lí 3.Trong trường hợp trộn lẫn (không ergodic), nếu

L = ∑ piLi

và các entropy của các thành phần là H1 ≥ H2 ≥ ·· · ≥ Hn, ta có

Định lí: LimN→∞

logn(q)N = ϕ(q) là một hàm bậc thang đơn điệu giảm,

ϕ(q) = Hs trong khoảngs−1

∑1

αi < q <s

∑1

αi.

Để chứng minh Định lí số 5 và số 6 trước tiên chú ý rằng FN giảm dần đều bởi vì giá trị N khi tăng sẽthêm một phần phụ vào entropy có điều kiện. Thay thế pBi(S j) trong FN cho thấy

FN = NGN − (N−1)GN−1

lấy tổng của chúng với mọi N ta có GN =1N ∑Fn. Vì thế GN ≥ FN và GN giảm dần đều. Chúng cũng phải

tiếp cận tới cùng giới hạn chung. Áp dụng định lí số 3, ta thấy rằng LimN→∞

GN = H.

30 Dịch và biên soạn bởi VNTelecom

Page 31: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

PHỤ LỤC 4

TỐI ĐA TỐC ĐỘ CHO HỆ THỐNG CÓ CÁC ĐIỀU KIỆN RÀNG BUỘC

Giả thiết rằng chúng ta có một nhóm các điều kiện ràng buộc trên các dãy ký hiệu. Nhóm này có trạng tháihữu hạn và có thể biểu thị bằng một mạch tuyến tính. Coi `

(s)i j là chiều dài của các ký hiệu khác nhau mà

chúng có thể xuất hiện khi chuyển từ trạng thái i tới trạng thái j. Phân bố xác suất Pi đối với các trạng tháikhác nhau và p(s)

i j đối với việc chọn ký hiệu s ở trạng thái i rồi chuyển sang trạng thái j cần có dạng phân bốnào để tối đa tốc độ thông tin phát ra theo các điều kiện ràng buộc này? Các điều kiện ràng buộc này định ramột kênh rời rạc và tốc độ lớn nhất phải nhỏ hơn hoặc bằng dung lương C của kênh này bởi vì nếu mọi khốicó chiều dài lớn là gần như đồng nhất thì tốc độ này sẽ đạt được và nếu có thể thì nó sẽ là tốc độ tốt nhất. Tasẽ chỉ ra rằng tốc độ này có thể đạt được bởi sự chọn lựa giá trị Pi và p(s)

i j phù hợp.Tốc độ này xác định như sau

−∑Pi p(s)i j log p(s)

i j

∑Pi p(s)i j `

(s)i j

=NM

.

Xét `i j = ∑s `(s)i j . Hiển nhiên là đối với một giá trị lớn nhất của p(s)

i j = k exp`(s)i j . Các điều kiện ràng buộc

cho cực đại là ∑Pi = 1, ∑ j pi j = 1, ∑Pi(pi j− δi j) = 0. Do vậy ta cực đại biểu thức

U =−∑Pi pi j log pi j

∑Pi pi j`i j+λ∑

iPi +∑µi pi j +∑η jPi(pi j− δi j)

∂U∂pi j

=−MPi(1+ log pi j)+NPi`i j

M2 +λ+µi +ηiPi = 0.

Tính ra giá trị pi j

pi j = AiB jD−`i j .

Bởi vì

∑j

pi j = 1, A−1i = ∑

jB jD−`i j

pi j =B jD−`i j

∑s BsD−`is.

Giá trị đúng của D là dung lượng C và giá trị B j là đáp án của

Bi = ∑B jC−`i j

đối với

pi j =B j

BiC−`i j

∑PiB j

BiC−`i j = Pj

Hoặc

∑ Pi

BiC−`i j =

Pj

B j.

Vậy nếu λi thỏa mãn

∑γiC−`i j = γ j

Pi = Biγi.

31 Dịch và biên soạn bởi VNTelecom

Page 32: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Cả hai nhóm phương trình cho Bi và γi có thể được thỏa mãn bởi vì C có giá trị là

|C−`i j − δi j|= 0.

Trong trường hợp này tốc độ này là

−∑Pi pi j log B jBi

C−`i j

∑Pi pi j`i j= C− ∑Pi pi j log B j

Bi

∑Pi pi j`i j

nhưng∑Pi pi j(logB j− logBi) = ∑

jPj logB j−∑Pi logBi = 0

Do vậy tốc độ này là C và đó là giá trị tối đa, chứng minh cho đáp án đã giả thiết.

32 Dịch và biên soạn bởi VNTelecom

Page 33: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

PHẦN III: CƠ SỞ TOÁN HỌC

Trong phần cuối của bài báo, chúng ta xét trường hợp các tín hiệu, bản tin, hoặc cả hai, là các biến liên tục,trái ngược với bản chất rời rạc được giả sử từ đầu đến đây. Như một mở rộng quan trọng, trường hợp liên tụccó thể thu được thông qua việc lấy giới hạn từ trường hợp rời rạc bằng cách chia tập hợp vô hạn các bản tinhay các tín hiệu thành một số lượng lớn, nhưng có giới hạn, các vùng nhỏ và tính các thông số khác nhauliên quan trên một cơ sở rời rạc. Khi kích thước của các vùng giảm đi, thông thường các thông số này tiếnđến các giá trị đích thực theo nghĩa giới hạn trong trường hợp liên tục. Tuy nhiên, có một vài hiệu ứng mớixuất hiện, cũng như có các thay đổi tổng quát theo hướng đặc trưng hóa các kết quả chung tới các trườnghợp đặc biệt.

Trong trường hợp liên tục, ta sẽ không cố gắng để có được các kết quả với tính tổng quát cao nhất, hayvới một yêu cầu nghiêm ngặt về toán học thuần túy, bởi điều này sẽ liên quan đến việc giải quyết vần đề vềlý thuyết độ đo trừu tượng và có thể khiến dòng phân tích trở nên khó hiểu. Tuy nhiên, một nghiên cứu sơbộ nhằm chỉ ra rằng các lý thuyết có thể trình bày bằng một cách hoàn toàn chặt chẽ và rõ ràng, bao gồm cảtrường hợp liên tục và rời rạc, cũng như nhiều trường hợp khác. Sự tự tiện bắt gặp thỉnh thoảng trong phântích này đối với quá trình lấy giới hạn có thể được biện hộ trong mọi trường hợp có lợi ích thực tiễn.

18. TẬP HỢP VÀ TẬP HỢP CÓ PHÂN BỐ XÁC SUẤT CÁC HÀM SỐ

Trong trường hợp liên tục, ta phải làm việc với các tập hợp (set) của các hàm số và các tập hợp có phân bốxác suất (ensemble) của các hàm số. Tập hợp của các hàm số, đúng như tên gọi của nó, chỉ đơn thuần là mộtlớp hay một bộ sưu tập của các hàm số thời gian, thông thường là một biến. Nó có thể được định rõ bằngviệc đưa ra một biểu diễn hiện của các hàm khác nhau trong tập hợp, hay biểu diễn một cách ẩn thông quacác tính chất mà các hàm trong tập hợp có mà những hàm khác không có. Một vài ví dụ:

1. Tập hợp các hàm:fθ(t) = sin(t +θ).

Mỗi giá trị riêng biệt của θ xác định một hàm riêng biệt trong tập hợp.

2. Tập hợp tất cả các hàm thời gian không chứa các tần số lớn hơn W vòng một giây.

3. Tập hợp tất cả các hàm giới hạn về băng tần bởi W và về biên độ bởi A.

4. Tập hợp tất cả các tín hiệu lời nói tiếng Anh như các hàm thời gian.

Một tập hợp có phân bố xác suất (ensemble) của các hàm là một tập hợp các hàm với một độ đo xác suất,nhờ đó ta có thể xác định xác suất của một hàm trong tập hợp có những tính chất nhất định.1 Ví dụ như vớitập hợp,

fθ(t) = sin(t +θ),

Ta có thể đưa ra một sự phân bố xác suất cho θ,P(θ). Khi đó tập hợp này trở thành một tập hợp có phân bốxác suất (viết tắt là "tập hợp pbxs").

Một vài ví dụ nữa về các tập hợp pbxs của các hàm là:

1. Một tập hợp hữu han các hàm fk(t) (k = 1,2, . . . ,n) với xác suất của fk là pk.

2. Một họ hữu hạn chiều các hàmf (α1,α2, . . . ,αn; t)

với một phân bố xác suất trên các tham số αi:

p(α1, . . . ,αn).

1Trong thuật ngữ toán học, những hàm này thuộc một không gian độ đo mà tổng độ đo của nó bằng đơn vị.

33 Dịch và biên soạn bởi VNTelecom

Page 34: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Ví dụ, ta có thể coi tập hợp pbxs được định nghĩa bởi

f (a1, . . . ,an,θ1, . . . ,θn; t) =n

∑i=1

ai sin i(ωt +θi)

với các biên độ ai độc lập và phân phối chuẩn, và các pha được phân bố độc lập và đều (từ 0 đến 2π).

3. Tập hợp có pbxs

f (ai, t) =+∞

∑n=−∞

ansinπ(2Wt−n)π(2Wt−n)

với các ai thuộc phân bố chuẩn và độc lập lẫn nhau với cùng một độ lệch chuẩn√

N. Đây là một biểudiễn của nhiễu “trắng”, với dải băng tần được giới hạn trong khoảng từ 0 đến W vòng trên giây và vớicông suất trung bình N. 2

4. Cho các điểm phân bố trên trục t theo một phân bố Poisson. Tại mỗi điểm đã lựa chọn, hàm f (t) đượcđưa vào và các hàm khác được bổ sung, tạo nên một tập hợp pbxs

∑k=−∞

f (t + tk)

ở đó tk là các điểm của phân bố Poisson. Tập hợp pbxs này có thể coi như một dạng xung hay nhiễungắn mà ở đó tất cả các xung đều đồng nhất.

5. Tập hợp các hàm tiếng nói Anh ngữ với sự độ đo xác suất được đưa ra bởi tần số xuất hiện trong việcsử dụng hằng ngày.

Một tập hợp pbxs các hàm fα(t) là tĩnh nếu ta vẫn thu được một tập hợp giống như thế khi dịch tất cả cáchàm bởi bất ký một khoảng thời gian nhất định. Tập hợp có pbxs

fθ(t) = sin(t +θ)

là tĩnh nếu θ được phân bố đều từ 0 đến 2π. Nếu ta trượt mỗi hàm bởi t1 ta có

fθ(t + t1) = sin(t + t1 +θ)= sin(t +ϕ)

với ϕ được phân bố đều từ 0 đến 2π. Mỗi hàm có thay đổi nhưng cả tập hợp pbxs là không đổi dưới sự tịnhtiến. Các ví vụ khác đưa ra ở trên cũng là các tập hợp pbxs tĩnh.

Một tập hợp pbxs là ergodic nếu nó là tĩnh và không có một tập con nào của các hàm trong tập hợp cóxác suất khác 0 và 1 là tĩnh. Tập hợp pbxs

sin(t +θ)

là ergodic. Không một tập con nào của các hàm này với xác suất 6= 0,1 được chuyển sang chính nó qua mọiphép tịnh tiến theo thời gian. Mặt khác, tập hợp pbxs

asin(t +θ)

với a phân bố chuẩn và θ phân bố đều, là tĩnh nhưng không phải ergodic. Ví dụ như tập con của các hàm nàyvới a nằm giữa 0 và 1 là tĩnh.

Trong những ví dụ đưa ra, 3 và 4 là ergodic, và 5 cũng có thể coi như vậy. Nếu một tập hợp pbxs làergodic, ta có thể nói đại thể rằng mỗi hàm trong tập hợp là đặc trưng cho tập hợp pbxs. Chính xác hơn, ta

2Sự biểu diễn này có thể sử dụng như một định nghĩa của nhiễu trắng với dải băng tần hữu hạn. Nó có những ưu điểm nhất định làliên quan đến ít các phép tính giới hạn hơn là các định nghĩa đã từng được sử dụng. Cái tên “nhiễu trắng”, đã được sử dụng rộng rãitrong nhiều tài liệu, có lẽ hơi đáng tiếc. Theo quang học ánh sáng trắng có nghĩa hoặc là bất kỳ một phổ liên tục khi tương phản tại mộtđiểm phổ, hay một phổ phẳng với bước sóng (nó không giống với phổ phẳng với tần số).

34 Dịch và biên soạn bởi VNTelecom

Page 35: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

biết rằng với một tập hợp pbxs ergodic, một giá trị trung bình của bất kỳ thống kê nào trên tập hợp đều bằng(với xác suất là 1) với một giá trị trung bình trên các tịnh tiến thời gian của 1 hàm nào đó trong tập hợp.3

Nói một cách nôm na, mỗi hàm có thể được kỳ vọng, khi thời gian tiếp diễn, với một tần số thích hợp, kinhqua tất cả các pháp chập của bất kỳ một hàm nào trong tập hợp.

Như thể chúng ta có thể thực hiện nhiều phép toán khác nhau trên các số hay các hàm số để thu đượcmột số mới hay hàm số mới, chúng ta cũng có thể tiến hành các phép toán trên các tập hợp pbxs để thu đượccác tập hợp pbxs mới. Ví dụ giả sử chúng ta có một tập hợp pbxs các hàm fα(t) và một toán tử T mà khi ápdụng trên mỗi hàm fα(t) sẽ tạo ra một hàm gα(t):

gα(t) = T fα(t).

Độ đo xác suất được định nghĩa cho một tập hợp gα(t) dựa trên độ đo trên tập hợp fα(t). Xác suất của mộttập con nào đó của các hàm gα(t) là bằng với xác suất của tập con của các hàm fα(t) mà tạo ra các phần tửcủa tập hợp các hàm g đã cho trước dưới phép toán T . Có thể hình dung điều này tương ứng với việc chuyểntập hợp pbxs qua mộ thiết bị, ví dụ như một bộ lọc, một máy chỉnh lưu, một bộ điều chế. Hàm thu được ởđầu ra của thiết bị tạo thành một pbxs gα(t).

Một thiết bị hay một toán tử T sẽ được xem như là không đổi nếu việc tịnh tiến hàm đầu vào chỉ đơnthuần làm tịnh tiến hàm đầu ra, cụ thể, nếu

gα(t) = T fα(t)

suy ragα(t + t1) = T fα(t + t1)

cho mọi fα(t) và mọi t1. Ta dễ dàng chứng minh được rằng (xem phụ lục 5) nếu T là không đổi và tập hợppbxs đầu vào là tĩnh, khi đó tập hợp pbxs đầu ra sẽ là tĩnh. Gần tương tự, nếu đầu vào là ergodic thì đầu racũng là ergodic.

Một bộ lọc hay một máy chỉnh lưu là không đổi dưới mọi tịnh tiến theo thời gian. Một phép toàn điềuchế thì không có tính chất đó vì pha sóng mang có một cấu trúc thời gian nhất định. Tuy nhiên, điều chế làkhông đổi dưới một tịnh tiến là bội số của chu kỳ của sóng mang.

Wiener đã chỉ ra mối quan hệ mật thiết giữa sự bất biến của những thiết bị vật lý dưới một dịch chuyểnthời gian và lý thuyết Fourier.4 Thực tế, ông ta đã chứng minh rằng nếu một thiết bị là tuyến tính và bất biến,phân tích Fourier khi đó là công cụ toán học thích hợp để giải quyết vấn đề.

Tập hợp có pbxs của các hàm là một sự biểu diễn toán học thích hợp của các bản tin được tạo ra bởi mộtnguồn liên tục (ví dụ tiếng nói), của các tín hiệu từ các máy phát hoặc của nhiễu xáo trộn. Lý thuyết truyềnthông thì liên quan thích đáng, như khẳng định của Wiener, không phải với các phép toán trên các hàm sốđặc biệt, mà là với các phép toán trên các tập hợp pbxs của các hàm. Một hệ thống truyền thông được thiếtkế không phải cho một hàm tiếng nói riêng biệt và càng không phải cho một sóng hình sin, mà cho một tậphợp pbxs của các hàm tiếng nói.

19. TẬP HỢP PBXS CỦA CÁC HÀM CÓ DẢI BĂNG HỮU HẠN

Nếu một hàm thời gian f (t) được giới hạn trong băng từ 0 đến W vòng trên giây, nó được xác định hoàn toànbởi các tọa độ của nó trên một chuỗi các điểm rời rạc cách nhau 1

2W giây ngoại trừ theo cách thức chỉ ra bởi

3Đây chính là định lí ergodic nổi tiếng hay đúng hơn là 1 phần của định lí này mà đã được chứng minh một chút thông qua các biếnđổi toán học khác nhau bởi Birkoff, von Neumann, và Koopman, và sau đó tiếp tục được tổng quát hóa bởi Wiener, Hopf, Hurewiczvà các tác giả khác. Tài liệu về lý thuyết ergodic khá là rộng và người đọc có thể tham khảo các bài báo của những tác giả này để biếtthêm chi tiết về các biến đổi chung, ví dụ E. Hopf, “Ergodentheorie,” Ergebnisse der Mathematik und ihrer Grenzgebiete, v. 5; “OnCausality Statistics and Probability,” Journal of Mathematics and Physics, v. XIII, No. 1, 1934; N. Wiener, “The Ergodic Theorem,”Duke Mathematical Journal, v. 5, 1939.

4Rất nhiều các lý thuyết và triết học cơ sở của lý thuyết truyền thông xuất phát từ các công trình của Wiener. Bản báo cáo NDRCcủa ông mang tên, The Interpolation, Extrapolation and Smoothing of Stationary Time Series (Wiley, 1949), chứa đựng những phátbiểu có hệ thống rõ ràng đầu tiên về nguyên lý truyền thông như một bài toán thống kê, nghiên cứu các phép toán trên chuỗi thời gian.Công trình này, mặc dù chủ yếu liên quan đến ước đoán tuyến tính và bài toán lọc, là một tài liệu tham khảo thêm quan trọng có sự kếtnối với bài báo này. Chúng ta cũng có thể nhắc đến ở đây bài đăng mang tên Cybernetics (Wiley, 1948) của Wiener, giải quyết bài toántổng quát về vấn đề truyền thông và điều khiển.

35 Dịch và biên soạn bởi VNTelecom

Page 36: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

kết quả dưới đây. 5

Định lí 13: Cho f (t) không chứa tần số nào trên W . Khi đó

f (t) =∞

∑−∞

Xnsinπ(2Wt−n)π(2Wt−n)

trong đóXn = f

( n2W

).

Trong phần mở rộng này, f (t) thể hiện như một tổng của các hàm trực giao. Các hệ số Xn trong các biểuthức khác nhau có thể được xem như tọa độ trong "không gian hàm" hữu hạn chiều. Trong không gian này,mỗi hàm tương ứng chính xác tới một điểm và mỗi điểm tương ứng với một hàm.

Một hàm số có thể xem như là thực sự giới hạn trên một khoảng thời gian T nếu tất cả các tọa độ Xn nằmngoài khoảng thời gian đó bằng không. Trong trường hợp này, tất cả ngoài trừ 2TW tọa độ sẽ bằng không.Do vậy, các hàm số giới hạn bởi băng W và khoảng thời gian T tương ứng với các điểm trên một không gian2TW chiều.

Một tập con của các hàm có băng W và thời gian T tương ứng với một vùng trên không gian này. Ví dụ,các hàm mà tổng năng lượng của chúng nhỏ hơn hoặc bằng E tương ứng với các điểm trong hình cầu 2TWchiều với bán kính r =

√2WE.

Một tập hợp pbxs của các hàm giới hạn thời gian và dải băng sẽ được biểu diễn bởi một phân bố xácsuất p(x1, . . . ,xn) trong một không gian tương ứng n chiều. Nếu tập hợp pbxs không bị giới hạn về thời gian,chúng ta có thể xem 2TW tọa độ trong khoảng thời gian T đặc trưng thực sự cho một phần của hàm trongđoạn T và phân bố xác suất p(x1, . . . ,xn) cho một cấu trúc thống kê của tập hợp pbxs trên các đoạn trongkhoảng thời gian này.

20. ENTROPY CỦA PHÂN BỐ LIÊN TỤC

Entropy của tập xác suất rời rạc p1, . . . , pn đã được định nghĩa như sau:

H =−∑ pi log pi.

Một cách tương tự, chúng ta định nghĩa entropy của một phân bố liên tục với hàm mật độ phân phối p(x)bởi:

H =−∫ ∞

−∞p(x) log p(x)dx.

Với một phân bố n chiều p(x1, . . . ,xn) ta có

H =−∫

. . .

∫p(x1, . . . ,xn) log p(x1, . . . ,xn)dx1 · · ·dxn.

Nếu ta có hai argumen x và y (chúng có thể đa chiều), entropy chung có điều kiện của p(x,y) được cho bởi

H(x,y) =−∫∫

p(x,y) log p(x,y)dxdy

Hx(y) =−∫∫

p(x,y) logp(x,y)p(x)

dxdy

Hy(x) =−∫∫

p(x,y) logp(x,y)p(y)

dxdy

5Về chứng minh của định lí này và thảo luận thêm, hãy xem bài báo của tác giả mang tên “Communication in the Presence of Noise”đăng tải trong Proceedings of the Institute of Radio Engineers, v. 37, No. 1, Jan., 1949, pp. 10–21.

36 Dịch và biên soạn bởi VNTelecom

Page 37: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

trong đó

p(x) =∫

p(x,y)dy

p(y) =∫

p(x,y)dx.

Entropy của phân bố liên tục có hầu hết (nhưng không phải là tất cả) các tính chất của trường hợp rờirạc. Cụ thể, ta có các tính chất sau:

1. Nếu x bị giới hạn trong một thể tích nhất định v trong không gian của nó, khi đó H(x) là một giá trịcực đại và bằng với logv khi p(x) là hằng số (1/v) trong khối thể tích đó.

2. Với bất kỳ hai biến x, y ta cóH(x,y)≤ H(x)+H(y)

dấu bằng xảy ra khi (và chỉ khi) x và y độc lập, nghĩa là p(x,y) = p(x)p(y) (ngoại trừ một tập cácđiểm có xác suất bằng không).

3. Xét một phép tính trung bình tổng quát hóa có dạng như sau:

p′(y) =∫

a(x,y)p(x)dx

với ∫a(x,y)dx =

∫a(x,y)dy = 1, a(x,y)≥ 0.

Khi đó entropy của phân bố trung bình p′(y) bằng hoặc lớn hơn entropy của phân bố gốc p(x).

4. Ta có

H(x,y) = H(x)+Hx(y) = H(y)+Hy(x)

Hx(y)≤ H(y).

5. Cho p(x) là một phân bố một chiều. Hàm p(x) mà cho một entropy cực đại dưới điều kiện độ lệchchuẩn của x cố định tại σ sẽ có dạng Gauss. Để chứng minh điều này, ta phải lấy cực đại biểu thức sau

H(x) =−∫

p(x) log p(x)dx

với ràng buộc

σ2 =∫

p(x)x2 dx and 1 =∫

p(x)dx

Điều này đòi hỏi, bằng nhiều phép tính biến thiên, cực đại biểu thức∫ [−p(x) log p(x)+λp(x)x2 +µp(x)

]dx.

Điều kiện cho nó là−1− log p(x)+λx2 +µ = 0

và do vậy (bằng việc điều chỉnh các hằng số để thỏa mãn các điều kiện ràng buộc)

p(x) =1√2πσ

e−(x2/2σ2).

37 Dịch và biên soạn bởi VNTelecom

Page 38: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Tương tự trong n chiều, giả sử mômen bậc hai của p(x1, . . . ,xn) là cố định tại Ai j:

Ai j =∫

. . .∫

xix j p(x1, . . . ,xn)dx1 · · · dxn.

Khi đó cực đại entropy xảy ra (bằng cách tính tương tự) khi p(x1, . . . ,xn) là phân bố Gauss n chiều vớimômen bậc hai Ai j.

6. Entropy của một phân bố Gauss một chiều với độ lệch chuẩn bằng σ được cho bởi

H(x) = log√

2πeσ.

Giá trị này được tính như sau:

p(x) =1√2πσ

e−(x2/2σ2)

− log p(x) = log√

2πσ +x2

2σ2

H(x) =−∫

p(x) log p(x)dx

=∫

p(x) log√

2πσ dx+∫

p(x)x2

2σ2 dx

= log√

2πσ +σ2

2σ2

= log√

2πσ + log√

e

= log√

2πeσ.

Tương tự phân bố Gauss n chiều có dạng toàn phương liên kết ai j được cho bởi:

p(x1, . . . ,xn) =|ai j| 1

2

(2π)n/2 exp(− 1

2 ∑ai jxix j

)

và entropy có thể được tính bằngH = log(2πe)n/2|ai j|−

12

trong đó |ai j| là định thức có các phần tử là ai j.

7. Nếu x bị giới hạn trên một nửa đường thẳng (p(x) = 0 khi x≤ 0) và mômen bậc một của x cố định làa:

a =∫ ∞

0p(x)xdx,

khi đó entropy cực đại xảy ra khi

p(x) =1a

e−(x/a)

và bằng với logea.

8. Có một sự khác nhau quan trọng giữa entropy liên tục và rời rạc. Trong trường hợp rời rạc, entropy đotheo cách tuyệt đối tính ngẫu nhiên của biến cơ hội. Trong trường hợp liên tục, sự đo lường mang tínhtương đối so với các hệ tọa độ. Nếu ta thay đổi các tọa độ, entropy nhìn chung sẽ thay đổi. Thực tế,nếu ta thay đổi tọa độ y1 · · ·yn, entropy mới được xác định bởi

H(y) =∫

. . .

∫p(x1, . . . ,xn)J

(xy

)log p(x1, . . . ,xn)J

(xy

)dy1 · · ·dyn

38 Dịch và biên soạn bởi VNTelecom

Page 39: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

trong đó J( x

y

)là Jacobian của biến đổi tọa độ. Bằng cách khai triển logarit và đổi biến x1 · · ·xn, ta có:

H(y) = H(x)−∫

. . .

∫p(x1, . . . ,xn) logJ

(xy

)dx1 . . .dxn.

Do vậy entropy mới chính là entropy cũ trừ đi logarit kỳ vọng của Jacobian. Trong trường hợp liêntục, entropy có thể được xem như là một độ đo của sự ngẫu nhiên tương đối với một chuẩn giả định,chính là một hệ tọa độ được chọn với mỗi phần tử khối nhỏ cho trước dx1 · · ·dxn có trọng lượng bằngnhau. Khi ta thay đổi hệ tọa độ, entropy trong hệ mới sẽ đo độ ngẫu nhiên khi các phần tử khối bằngnhau dy1 · · ·dyn trong hệ mới có cùng trọng lượng.

Bất chấp sự phụ thuộc vào hệ tọa độ, khái niệm entropy là quan trọng như nhau trong cả in trường hợpliên tục lẫn rời rạc. Điều này giải thích bởi việc các khái niệm về tốc độ thông tin và dung lượng kênhphụ thuộc vào sự khác nhau giữa hai entropy và sự khác nhau này không phụ thuộc vào khung tọa độ(vì mỗi entropy sẽ cùng bị thay đổi một lượng như nhau khi cùng bị chuyển đổi hệ tọa độ - ND).

Entropy của một phân bố liên tục có thể âm. Thang độ đo thiết lập một điểm không bất kỳ tương ứngvới một phân bố đều trên một đơn vị thể tích. Một phân bố mà bị giam hãm chặt chẽ hơn (ít hỗn độnhơn -ND) so với phân bố này sẽ có ít entropy hơn và sẽ mang dấu âm. Tuy nhiên, tốc độ và dung lượngsẽ luôn luôn không âm.

9. Một trường hợp đặc biệt của thay đổi tọa độ là một biến đổi tuyến tính

y j = ∑i

ai jxi.

Trong trường hợp này, Jacobian chỉ đơn giản là định thức |ai j|−1 và

H(y) = H(x)+ log |ai j|.

Trong trường hợp hệ tọa độ quay ( hoặc bất kỳ một độ đo duy trì phép biến đổi) J = 1 và H(y) = H(x).

21. ENTROPY CỦA TẬP HỢP PBXS CÁC HÀM

Xét một tập hợp pbxs ergodic của các hàm giới hạn ở mức băng thông nhất định W vòng trên giây. Cho

p(x1, . . . ,xn)

là hàm phân bố mật độ cho các biên độ x1, . . . ,xn tại n điểm mẫu liên tiếp. Ta định nghĩa entropy của tập hợppbxs cho mỗi bậc tự do bởi:

H ′ =−Limn→∞

1n

∫. . .

∫p(x1, . . . ,xn) log p(x1, . . . ,xn)dx1 . . .dxn.

Ta cũng có thể định nghĩa một entropy H cho mỗi giây bằng cách chia, không phải cho n, mà là chia bởi thờigian T theo giây cho n mẫu. Bởi vì n = 2TW , nên H = 2WH ′. Với nhiễu nhiệt trắng p là Gauss và ta có

H ′ = log√

2πeN,

H = W log2πeN.

Cho một công suất trung bình N cho trước, nhiễu trắng có entropy khả dĩ tối đa. Điều này tuân theo các tínhchất lấy cực đại của phân bố Gauss được chú thích ở bên trên.

Entropy cho một quá trình ngẫu nhiên liên tục có nhiều tính chất tương tự như quá trình rời rạc. Trongtrường hợp rời rạc entropy đã được liên hệ với hàm logarit xác suất của các chuỗi dài, và với số các chuỗidài có xác suất cao vừa phải. Trong trường hợp liên tục, nó liên hệ một cách tương tự với hàm logarit củamật độ xác suất cho dãy dài các mẫu, và khối (volume) các xác suất cao vừa phải trong không gian hàm.

39 Dịch và biên soạn bởi VNTelecom

Page 40: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Chính xác hơn nữa, nếu chúng ta giả thiết p(x1, . . . ,xn) liên tục trong tất cả xi cho tất cả n, khi đó với nđủ lớn ∣∣∣ log p

n−H ′

∣∣∣ < ε

cho tất cả các lựa chọn của (x1, . . . ,xn) ngoại trừ từ một tập mà tổng xác suất của nó nhỏ hơn δ, với δ và εnhỏ tùy ý. Điều này tuân theo tính chất ergodic nếu chúng ta chia không gian thành một số lượng lớn các ônhỏ.

Mối liên hệ của H tới thể tích có thể được phát biểu như sau: Dưới cùng một giả thiết, xét không gian nchiều tương ứng với p(x1, . . . ,xn). Cho Vn(q) là thể tích nhỏ nhất trong không gian này bao gồm bên trongnó một xác suất tổng cộng q. Khi đó

Limn→∞

logVn(q)n

= H ′

với điều kiên q khác 0 hoặc 1.Những kết quả này chỉ ra rằng với n lớn có một mức xác suất cao được xác định khá rõ (ít nhất là theo

nghĩa logarit), và rằng trong mức này mật độ xác suất tương đối đồng đều (lại một lần nữa theo nghĩa logarit).Trong trường hợp nhiễu trắng, hàm phân bố được cho bởi

p(x1, . . . ,xn) =1

(2πN)n/2 exp− 12N ∑x2

i .

Do nó chỉ phụ thuộc vào ∑x2i bề mặt của mật độ xác suất bằng nhau là hình cầu và toàn bộ phân bố có đối

xứng cầu. Miền xác suất cao là hình cầu bán kính√

nN. Khi n→ ∞, xác suất của phần ngoài hình cầu bánkính

√n(N + ε) tiến gần đến không và 1

n lần logarit của thể tích của hình cầu tiến gần đến log√

2πeN.Trong trường hợp liên tục, không tiện lợi để làm việc với entropy H của một tập hợp pbxs nhưng mà sẽ

tiện lợi với một đại lượng được suy ra từ nó mà ta sẽ gọi là công suất entropy. Điều này được định nghĩanhư là công suất trong nhiễu trắng giới hạn đối với cùng một băng tần như là tập hợp pbxs gốc và có cùngentropy. Nói cách khác, nếu H ′ là entropy của một tập hợp pbxs, công suất entropy của nó là:

N1 =1

2πeexp2H ′.

Trong bức tranh hình học, đại lượng này đo thể tích (mức) xác suất cao bằng bán kính bình phương của mộthình cầu có cùng thể tích. Do nhiễu trắng có entropy cực đại cho một công suất cho trước, công suất entropycủa bất kỳ nhiễu nào ít hơn hoặc bằng công suất thực sự của nó.

22. TỔN THẤT ENTROPY TRONG CÁC BỘ LỌC TUYẾN TÍNH

Định lí 14: Nếu một tập hợp pbxs có một entropy H1 cho mỗi bậc tự do trong băng W được cho qua mộtbộ lọc với đặc tính Y ( f ), tập hợp pbxs đầu ra có entropy

H2 = H1 +1

W

Wlog |Y ( f )|2 d f .

Hoạt động của bộ lọc về bản chất là biến đổi tuyến tính của hệ tọa độ. Nếu chúng ta coi các thành phầntần số như hệ tọa độ gốc, các thành phần tần số mới chỉ đơn thuần là thành phần cũ được nhân với các hệ số.Do vậy ma trận biến đổi tọa độ về bản chất được chéo hóa trong số hạng của các tọa độ này. Biến đổi Jacobilà (cho các thành phần n sin và n cos)

J =n

∏i=1|Y ( fi)|2

trong đó fi là các khoảng bằng nhau dọc theo băng W . Trong giới hạn, biểu thức này trở thành

exp1

W

Wlog |Y ( f )|2 d f .

40 Dịch và biên soạn bởi VNTelecom

Page 41: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Bảng I

HỆ SỐ ĐỘ LỢI CÔNG SUẤTĐỘ LỢI CÔNG SUẤT ENTROPY ĐÁP ỨNG XUNG

ENTROPY (DECIBELS)

0 1ω

1

1−ω 1e2 −8.69

sin2(t/2)t2/2

0 1ω

1

1−ω2 ( 2e

)4−5.33 2

[sin tt3 − cos t

t2

]

0 1ω

1

1−ω30.411 −3.87 6

[cos t−1

t4 − cos t2t2 +

sin tt3

]

0 1ω

1

√1−ω2 ( 2

e

)2−2.67

π

2J1(t)

t

0 1ω

1

α

1e2α

−8.69α1

αt2

[cos(1−α)t− cos t

]

Do J không đổi, giá trị trung bình của nó cùng đại lượng và ứng dụng định lí về sự thay đổi entropy với mộtthay đổi hệ tọa độ, ta thu được kết quả trên. Ta cũng có thể viết lại nó dưới dạng công suất entropy. Do vậynếu công suất entropy của tập hợp pbxs đầu tiên là N1, entropy của tập thứ hai là

N1 exp1

W

Wlog |Y ( f )|2 d f .

Công suất entropy cuối cùng là công suất entropy khởi tạo được nhân với độ lợi trung bình nhân của bộ lọc.Nếu độ lợi được đo theo dB, khi đó công suất entropy đầu ra sẽ được tăng bởi độ lợi dB trung bình cộng trênW .

Trong bảng I, tổn thất công suất entropy đã được tính toán (và cũng được biểu diễn theo db ) cho một sốđặc tính độ lợi lý tưởng. Đáp ứng xung kim của các bộ lọc này cũng được đưa ra cho W = 2π, với pha giảthiết bằng 0.

Tổn thất entropy cho nhiều trường hợp khác có thể tính được từ các kết quả này. Ví dụ hệ số công suấtentropy 1/e2 cho trường hợp đầu tiên cũng được áp dụng vào bất kỳ các đặc tính độ lợi nào đạt 1−ω bằngmột biến đổi lưu trữ số đo của trục ω. Đặc biệt độ lợi tăng tuyến tính G(ω) = ω hoặc một đặc tính “răng

41 Dịch và biên soạn bởi VNTelecom

Page 42: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

cưa” giữa 0 và 1 có cùng tổn thất entropy. Độ lợi nghịch đảo có hệ số nghịch đảo. Do vậy, 1/ω có hệ số e2.Việc tăng độ lợi của bất kỳ công suất nào làm tăng hệ số của công suất đó.

23. ENTROPY CỦA TỔNG HAI TẬP HỢP PBXS

Nếu ta có hai tập hợp pbxs hàm fα(t) và gβ(t), ta có thể tạo ra một tập hợp pbxs mới bằng “phép cộng”. Giảsử tập hợp pbxs đầu tiên có hàm mật độ xác suất p(x1, . . . ,xn) và tập hợp thứ hai có hàm mật độ xác suấtq(x1, . . . ,xn). Khi đó, hàm mật độ của tổng hai tập hợp được đưa ra bởi tích chập:

r(x1, . . . ,xn) =∫

. . .

∫p(y1, . . . ,yn)q(x1− y1, . . . ,xn− yn)dy1 · · ·dyn.

Cụ thể là nó tương ứng với phép cộng các nhiễu hay các tín hiệu đại diện bởi các tập hợp pbxs gốc của cáchàm. Kết quả dưới đây được dẫn ra từ phụ lục 6.

Định lí 15: Cho công suất trung bình của hai tập hợp pbxs là N1 và N2 và cho các công suất entropy củachúng lần lượt là N1 và N2. Khi đó, công suất entropy của tổng hai tập hợp, N3, được giới hạn bởi

N1 +N2 ≤ N3 ≤ N1 +N2.

Nhiễu Gauss trắng có tính chất riêng là nó có thể hấp thụ bất kỳ các tập hợp pbxs tín hiệu hay nhiễu khácmà có thể được đưa vào nó với một công suất entropy tổng hợp xấp xỉ bằng tổng của công suất nhiễu trắngvà công suất tín hiệu (được đo từ giá trị tín hiệu trung bình, thường là zero), với điều kiện công suất tín hiệunhỏ, theo một nghĩa nào đó, so sánh với nhiễu.

Xem xét không gian hàm được liên kết với các tập hợp pbxs có n chiều. Nhiễu trắng tương ứng với phânbố Gauss cầu trong không gian này. Tập hợp pbxs tín hiệu tương ứng với phân bố xác suất khác, không cầnthiết phải là Gauss hay cầu. Đặt mômen bậc hai của phân bố này về trọng tâm của nó là ai j. Điều này cónghĩa là, nếu p(x1, . . . ,xn) là hàm phân bố mật độ,

ai j =∫

. . .

∫p(xi−αi)(x j−α j)dx1 · · ·dxn

trong đó αi là hệ tọa độ của trọng tâm. Bây giờ ai j là dạng bậc hai xác định dương, và chúng ta có thể xoayhệ tọa độ của chúng ta thẳng hàng nó với các hướng chính của dạng này. Khi đó ai j được qui giảm về dạngchéo bii. Chúng ta đòi hỏi mỗi bii phải nhỏ so với N, bán kính bình phương của phân bố hình cầu.

Trong trường hợp này tích chập của nhiễu và tín hiệu bằng xấp xỉ với phân bố Gauss mà dạng bậc haitương ứng của nó là

N +bii.

Công suất entropy của phân bố này là [∏(N +bii)

]1/n

hoặc xấp xỉ bằng

=[(N)n +∑bii(N)n−1

]1/n

.= N +1n ∑bii.

Số hạng cuối cùng là công suất tín hiệu trong khi số hạng đầu tiên là công suất nhiễu

PHẦN IV: KÊNH TRUYỀN LIÊN TỤC

24. DUNG LƯỢNG KÊNH TRUYỀN LIÊN TỤC

Trên kênh truyền liên tục, tín hiệu đầu vào hay tín hiệu truyền sẽ là một hàm liên tục theo thời gian f (t) phụthuộc vào một tập nào đó, và tín hiệu đầu ra hay tín hiệu thu được sẽ là phiên bản bị làm nhiễu. Chúng ta chỉ

42 Dịch và biên soạn bởi VNTelecom

Page 43: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

xét trường hợp tín hiệu truyền và nhận được giới hạn trên một băng thông W nào đó. Khi đó, chúng có thểxác định, trong khoảng thời điểm T , bởi số 2TW , và cấu trúc thống kê của nó thông qua các hàm phân bốhữu hạn chiều. Như vậy, đặc tính thống kê của tín hiệu truyền sẽ được xác định bởi

P(x1, . . . ,xn) = P(x)

và đặc tính thống kê của nhiễu được xác định bởi phân bố thống kê có điều kiện

Px1,...,xn(y1, . . . ,yn) = Px(y).

Tốc độ truyền thông tin cho một kênh truyền liên tục được định nghĩa theo cách tương tự như kênh truyềnrời rạc như sau

R = H(x)−Hy(x)

với H(x) là entropy của dữ liệu đầu vào và Hy(x) là độ mập mờ (equivocation). Dung lượng kênh truyền Cđược định nghĩa là giá trị cực đại của R khi đầu vào biến thiên trên các tập pbxs khả dĩ. Có nghĩa rằng trongphép xấp xỉ hữu hạn chiều, chúng ta phải cho biến thiên hàm P(x) = P(x1, . . . ,xn) và lấy cực đại

−∫

P(x) logP(x)dx+∫∫

P(x,y) logP(x,y)P(y)

dxdy.

Biểu thức này được rút gọn thành ∫∫P(x,y) log

P(x,y)P(x)P(y)

dxdy

nhờ vào tính chất∫∫

P(x,y) logP(x)dxdy =∫

P(x) logP(x)dx. Do vậy, dung lượng kênh truyền có thể biểu

diễn như sau:

C = LimT→∞

MaxP(x)

1T

∫∫P(x,y) log

P(x,y)P(x)P(y)

dxdy.

Công thức trên chỉ ra rõ rằng R và C độc lập với hệ tọa độ bởi vì tử số và mẫu số của logP(x,y)

P(x)P(y)được

nhân cùng hệ số trong công thức biến đổi qua lại giữa x và y. Biểu thức tích phân cho C như trên tổng quáthơn công thức H(x)−Hy(x). Khi tính toán và khai triển kỹ hơn (xem phụ lục 7), ta thấy công thức tích phântrên luôn tồn tại còn H(x)−Hy(x) có thể không xác định tại một số vị trí từ ∞−∞. Ví dụ khi x bị giới hạntrên mặt phẳng có số bậc thấp hơn n trong xấp xỉ n chiều.

Nếu cơ số của hàm logarit dùng để tính H(x) và Hy(x) là 2 thì C sẽ là số lượng số nhị phân tối đa cóthể truyền trong một giây qua kênh truyền với độ mập mờ bất kỳ nhỏ, như trường hợp kênh truyền rời rạc.Điều này có thể nhìn thấy cụ thể bằng việc chia không gian tín hiệu thành một số lượng lớn các ô nhỏ, đủnhỏ để hàm mật độ xác suất Px(y) của tín hiệu x bị biến đổi thành y thực chất là hằng số trong một ô (củahoặc x hoặc y). Nếu các ô được xem như các điểm riêng biệt, thì kênh truyền trở thành mô hình không liêntục và luận cứ trên có thể áp dụng được. Nhưng, rõ ràng là phép lượng tử hóa một khối thành các điểm riêngbiệt trong mọi tình huống thực tiễn không thể làm thay đổi trầm trọng giải đáp cuối cùng, với điều kiện cácvùng được chia đủ nhỏ. Do đó dung lượng sẽ là giới hạn của các dung lượng trên các phần nhỏ rời rạc vàđây chính là dung lượng liên tục được định nghĩa bởi công thức ở trên.

Về mặt toán học, đầu tiên có thể chỉ ra rằng (xem phụ lục 7) nếu u là bản tin, x là tín hiệu, y là tín hiệuthu được (bị nhiễu) và v là bản tin được khôi phục thì

H(x)−Hy(x)≥ H(u)−Hv(u)

bất kể phép biến đổi nào được sử dụng trên u để đạt được x hay trên y để đạt được v. Do đó, bất chấp cáchthức mã hóa số nhị phân thành tín hiệu hay cách thức giải mã tín hiệu thu được và tái tạo lại bản tin, tốc độrời rạc cho các số nhị phân không thể vượt quá dung lượng kênh truyền như chúng ta định nghĩa. Mặt khác,trong một số trường hợp tổng quát có thể tìm được hệ thống mã hóa để truyền số nhị phân với tốc độ C vớiđộ mập mờ nhỏ và tần số lỗi như mong muốn. Điều đó là đúng, ví dụ như nếu khi chúng ta tạo một không

43 Dịch và biên soạn bởi VNTelecom

Page 44: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

gian xấp xỉ hữu hạn chiều cho các hàm tín hiệu, P(x,y) là liên tục với cả x và y trừ tập những điểm có xácsuất bằng không.

Một trường hợp đặc biệt quan trọng xuất hiện khi nhiễu cộng vào tín hiệu và độc lập với tín hiệu (theonghĩa xác suất). Khi đó Px(y) sẽ chỉ là hàm số của hiệu n = (y− x),

Px(y) = Q(y− x)

và chúng ta có thể gán một entropy xác định cho nhiễu (độc lập với thống kê của tín hiệu), gọi là entropycủa phân bố Q(n). Entropy này sẽ được ký hiệu bởi H(n).

Định lí 16: Nếu tín hiệu và nhiễu độc lập với nhau và tín hiệu thu là tổng của tín hiệu truyền đi và nhiễuthì tốc độ truyền đi là

R = H(y)−H(n),

nghĩa là entropy của tín hiệu trừ đi entropy của nhiễu. Dung lượng kênh truyền sẽ là

C = MaxP(x)

H(y)−H(n).

Do y = x+n, ta có:H(x,y) = H(x,n).

Khai triển vế trái và sử dụng tính chất x và n là độc lập

H(y)+Hy(x) = H(x)+H(n).

Từ đóR = H(x)−Hy(x) = H(y)−H(n).

Do H(n) là độc lập với P(x), cực đại R đòi hỏi phải cực đại H(y), entropy của tín hiệu thu, cũng phảicực đại. Nếu có ràng buộc nhất định trên tập hợp pbxs tín hiệu truyền đi, thì entropy của tín hiệu thu cũngphải là cực đại trong điều kiện ràng buộc đó.

25. DUNG LƯỢNG KÊNH TRUYỀN VỚI GIỚI HẠN CÔNG SUẤT TRUNG BÌNH

Một áp dụng đơn giản của Định lí 16 là trường hợp khi nhiễu là nhiễu nhiệt trắng và tín hiệu truyền đượcgiới hạn bởi mức công suất trung bình nhất định P. Khi đó tín hiệu nhận được có công suất trung bình giớihạn P+N với N là công suất nhiễu trung bình. Entropy cực đại của tín hiệu thu xảy ra khi chúng tạo ra đượcmột tập pbxs nhiễu trắng bởi vì đó là entropy khả dĩ lớn nhất cho mức công suất P+N và có thể nhận đượcbởi một sự lựa chọn thích hợp các tín hiệu truyền đi, tức là nếu chúng tạo ra tập pbxs nhiễu trắng có côngsuất P. Entropy (trên một giây) của tập hợp pbxs thu khi đó là

H(y) = W log2πe(P+N),

và entropy của nhiễu làH(n) = W log2πeN.

Dung lượng kênh truyền là

C = H(y)−H(n) = W logP+N

N.

Tóm tắt lại, chúng ta có các định lí sau:Định lí 17: Dung lượng của kênh truyền bị gây nhiễu bởi nhiễu nhiệt trắng công suất P khi công suất

trung bình của tín hiệu truyền đi giới hạn bằng P được xác định bởi

C = W logP+N

N.

44 Dịch và biên soạn bởi VNTelecom

Page 45: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Điều đó có nghĩa rằng bằng một hệ thống mã hóa đủ phức tạp thì chúng ta có thể truyền các số nhị phân

với tốc độ W log2P+N

Nbit trên giây, với một tần số lỗi nhỏ tùy ý. Không thể truyền với tốc độ cao hơn bằng

bất kỳ hệ thống mã hóa nào mà không phải chịu một tần số xuất hiện lỗi xác định dương.Để tiến được đến giới hạn truyền dữ liệu này, tín hiệu truyền đi phải xấp xỉ, theo tính chất thống kê, với

tín hiệu nhiễu trắng.6 Hệ thống tiến được đến tốc độ lý tưởng đó có thể được diễn tả như sau: giả sử choM = 2s mẫu tín hiệu nhiễu trắng với thời gian mỗi tín hiệu là T . Chúng được gán với những số nhị phân từ 0to M−1. Tại máy phát, chuỗi bản tin được chia thành nhiều nhóm s và cho mỗi nhóm mẫu nhiễu tương ứngsẽ được truyền đi như là tín hiệu. Tại máy thu, tín hiệu thu được thực sự (bị méo dạng bởi nhiễu) sẽ được sosánh M mẫu nhiễu đã được biết trước. Mẫu nào có giá trị giá trị hiệu dụng (rms - root mean square) bé nhấtso với tín hiệu thu sẽ được chọn là tín hiệu phát và các số nhị phân tương ứng sẽ được khôi phục. Quá trìnhnày chọn ra tín hiệu có khả năng cao nhất (hậu nghiệm). Số lượng M của mẫu nhiễu sử dụng sẽ phụ thuộcvào ngưỡng tần xuất lỗi cho phép ε, tuy vậy với hầu hết mọi lựa chọn mẫu chúng ta có:

Limε→0

LimT→∞

logM(ε,T )T

= W logP+N

N,

do vậy bất kể giá trị ε được chọn nhỏ như thế, chúng ta có thể, bằng cách chọn T đủ lớn, truyền đi như mong

muốn TW logP+N

Nsố nhị phân trong khoảng thời gian T .

Những công thức tương tự như C = W logP+N

Ncho trường hợp nhiễu trắng đã được phát triển độc lập

bởi vài tác giả khác, mặc dù cách diễn giải có khác nhau chút ít. Chúng ta có thể nhắc đến công trình có liênquan của N. Wiener,7 W. G. Tuller,8 và của H. Sullivan liên quan đến vấn đề này.

Trong trường hợp nhiễu loạn bất kỳ (không nhất thiết là nhiễu nhiệt trắng) có vẻ việc xác định dunglượng kênh truyền thông qua bài toán cực đại hóa khó có thể được giải quyết rõ ràng. Tuy nhiên, các chặntrên và dưới có thể giúp xác định C theo thông số công suất nhiễu trung bình N và công suất entropy nhiễuN1. Các chặn này đủ gần trong mọi trườg hợp thực tiễn để có thể cung cấp một đáp án thỏa mãn cho vấn đềnày.

Định lí 18: Dung lượng của kênh truyền băng thông W bị xáo trộn bởi một nhiễu bất kỳ bị chặn bởinhững bất đẳng thức sau

W logP+N1

N1≤C ≤W log

P+NN1

trong đó

P = công suất phát trung bìnhN = công suất nhiễu trung bình

N1 = công suất entropy của nhiễu

Và một lần nữa, công suất trung bình của tín nhiệu bị xáo trộn sẽ là P + N. Entropy cực đại cho côngsuất này sẽ xảy ra nếu tín hiệu thu là nhiễu trắng và sẽ có giá trị là W log2πe(P+N). Có thể không thể đạtđược điều này, tức có thể không có bất kỳ tập pbxs của tín hiệu truyền nào, bị cộng thêm nhiễu vào, mà tạora được tín hiệu nhiễu nhiệt trắng tại máy thu, nhưng ít nhất nó cũng cho ta chặn trên của H(y). Do vậy tacó,

C = MaxH(y)−H(n)≤W log2πe(P+N)−W log2πeN1.

6Điều này và những tính chất khác của nhiễu trắng được thảo luận dưới quan điểm hình học trong ”Communication in the Presenceof Noise,” loc. cit.

7Cybernetics, loc. cit.8”Theoretical Limitations on the Rate of Transmission of Information,” Proceedings of the Institute of Radio Engineers, v. 37, No. 5,

May, 1949, pp. 468–78.

45 Dịch và biên soạn bởi VNTelecom

Page 46: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Giới hạn trên được cho từ định lí ở trên. Giới hạn dưới có thể xác định được bằng cách xem xét tốc độ khichúng ta tạo tín hiệu truyền là nhiễu trắng với công suất P. Trong trường hợp này, công suất entropy của tínhiệu nhận tối thiểu phải bằng công suất của nhiễu trắng P+N1 vì chúng ta đã trình bày ở định lí trước rằngcông suất entropy của tổng hai tập hợp pbxs thì luôn lớn hơn hoặc bằng tổng của công suất entropy từng tậphợp riêng lẻ. Do vậy

MaxH(y)≥W log2πe(P+N1)

C ≥W log2πe(P+N1)−W log2πeN1

= W logP+N1

N1.

Khi P tăng, chặn trên và dưới tiến lại gần nhau, do vậy chúng ta có tốc độ tiệm cận

W logP+N

N1.

Nếu bản thân nhiễu là nhiễu trắng, N = N1 thì kết quả thu gọn thành công thức đã được chứng minh trongphần trước:

C = W log(

1+PN

).

Nếu nhiễu là Gauss nhưng với phổ không nhất thiết phẳng, N1 là trung bình nhân của công suất nhiễutrên nhiều tần số khác nhau của băng thông W . Thì

N1 = exp1

W

WlogN( f )d f

với N( f ) là công suất nhiễu tại tần số f .Định lí 19: Nếu chúng ta đặt dung lượng, với công suất truyền P cho trước, bằng

C = W logP+N−η

N1

thì η đơn điệu giảm khi P tăng và sẽ tiến đến giới hạn bằng 0.Giả sử rằng với một công suất P1 cho trước, dung lượng kênh truyền là

W logP1 +N−η1

N1.

Điều đó có nghĩa rằng phân bố tín hiệu tốt nhất, gọi là p(x), khi cộng với phân bố nhiễu q(x), sẽ cho ra phânbố thu được r(y) với công suất entropy là (P1 + N− η1). Hãy tăng công suất đến P1 +∆P bằng cách cộngthêm công suất của nhiễu trắng ∆P vào tín hiệu. Lúc này, entropy của tín hiệu thu ít nhất bằng

H(y) = W log2πe(P1 +N−η1 +∆P)

nhờ sử dụng định lí công suất entropy nhỏ nhất của một tổng. Từ đó, vì chúng ta có thể đạt được H như trên,entropy của việc làm cực đại phân bố ít nhất phải lớn và η phải giảm đơn điệu. Để chỉ ra rằng η → 0 khiP→ ∞, hay xét một tín hiệu là nhiễu trắng với P lớn. Với bất kỳ nhiễu loạn nào, tín hiệu thu cũng sẽ xấp xỉnhiễu trắng, nếu P đủ lớn, theo nghĩa công suất entropy tiến đến P+N.

46 Dịch và biên soạn bởi VNTelecom

Page 47: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

26. DUNG LƯỢNG KÊNH TRUYỀN VỚI GIỚI HẠN CÔNG SUẤT ĐỈNH

Trong một số ứng dụng, máy phát bị giới hạn không phải bởi công suất trung bình đầu ra mà bởi công suấtđỉnh tức thời. Vấn đề tính toán dung lượng kênh truyền khi đó trở thành việc cực đại hóa (bằng cách biếnthiên tập hợp pbxs của các ký hiệu truyền)

H(y)−H(n)

với giả thiết ràng buộc rằng tất cả các hàm f (t) trong tập hợp pbxs sẽ bé hơn hoặc bằng√

S, với mọi t. Ràngbuộc dạng này không thể diễn giải tốt về toán học như giới hạn công suất trung bình. Tất cả những gì ta nhận

được chính là chặn dưới hợp lệ cho mọiSN

, một chặn trên tiệm cận (hợp lệ choSN

lớn) và một giá trị tiệm

cận C choSN

nhỏ.

Định lí 20: Dung lượng kênh truyền C cho băng thông W bị gây nhiễu bởi nhiễu nhiệt trắng có côngsuất N bị chặn bởi

C ≥W log2

πe3SN

,

với S là công suất phát đỉnh cho phép. Với giá trị đủ lớn củaSN

C ≤W log2πe S +N

N(1+ ε)

với ε nhỏ tùy ý. KhiSN→ 0 (và với điều kiện băng thông W bắt đầu tại 0)

C/

W log(

1+SN

)→ 1.

Chúng ta muốn cực đại entropy của tín hiệu thu. NếuSN

là lớn, điều đó sẽ xảy ra rất gần khi ta cực đạientropy của tập hợp pbxs tín hiệu phát.

Chặn trên tiệm cận nhận được bằng cách giãn các điều kiện trên tập hợp pbxs. Chúng ta giả sử rằng côngsuất bị giới hạn S không phải tại tất cả mọi thời điểm mà chỉ tại điểm lấy mẫu. Entropy cực đại của tập pbxstín hiệu phát dưới điều kiện yếu như vậy thì nhất thiết lớn hơn hoặc bằng giá trị đó trong các điều kiện banđầu. Bài toán được biển đổi này có thể được giải dễ dàng. Entropy cực đại xảy ra nếu những mẫu khác nhaulà độc lập và có hàm phân bố là hằng số trong khoảng từ −√S đến +

√S. Entropy có thể tính như sau

W log4S.

Tín hiệu thu sẽ có entropy nhỏ hơnW log(4S +2πeN)(1+ ε)

với ε → 0 khiSN→ ∞ và dung lượng kênh truyền đạt được bằng cách trừ đi entropy của nhiễu trắng,

W log2πeN:

W log(4S +2πeN)(1+ ε)−W log(2πeN) = W log2πe S +N

N(1+ ε).

Đây là chặn trên mong muốn của dung lượng kênh truyền.Để thu được chặn dưới, xét cùng tập hợp pbxs của các hàm. Hãy cho các hàm này qua một bộ lọc lý

tưởng với đặc tính truyền tam giác. Độ lợi là đơn vị tại tần số bằng 0 và giảm dần tuyến tính về độ lợi 0 tạitần số W . Đầu tiên ta chỉ ra rằng hàm đầu ra của bộ lọc có giới hạn công suất đỉnh là S tại mọi thời điểm

(không chỉ tại điểm lấy mẫu). Trước tiên ta chú ý rằng một xungsin2πWt

2πWtđi qua một mạch lọc tạo ra

12

sin2 πWt(πWt)2

47 Dịch và biên soạn bởi VNTelecom

Page 48: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

tại đầu ra. Hàm này không bao giờ âm. Hàm đầu vào ( trong trường hợp tổng quát) có thể chính là tổng củamột dãy các hàm bị dịch chuyển

asin2πWt

2πWt

với a là biên độ mẫu không lớn hơn√

S. Do vậy, đầu ra sẽ là tổng của các hàm bị chuyển dịch có dạng khôngâm như trên với những hệ số giống nhau. Những hàm này là không âm, giá trị dương cực đại với mọi t nhậnđược khi mọi hệ số a đạt giá trị cực đại dượng của chúng, tức

√S. Trong trường hợp đó, hàm đầu vào là hằng

số với biên độ√

S và bởi vì bộ lọc có độ lợi đơn vị D.C., nên đầu ra là giống tương tự. Do vậy tập hợp pbxsđầu ra có công suất đỉnh S.

Entropy của tập hợp pbxs tại đầu ra có thể được tính từ entropy của đầu vào bằng cách sử dụng định líphù hợp với tình huống này. Entropy tại đầu ra bằng với entropy đầu vào cộng với độ lợi trung bình nhân củabộ lọc: ∫ W

0logG2 d f =

∫ W

0log

(W − fW

)2d f =−2W.

Do vậy entropy đầu ra là

W log4S−2W = W log4Se2

và dung lượng kênh truyền là lớn hơn

W log2

πe3SN

.

Bây giờ, ta muốn chỉ ra rằng, vớiSN

nhỏ (tỷ lệ công suất đỉnh tín hiệu trên công suất trong bình nhiễu

trắng) dung lượng kênh truyền được xấp xỉ bởi

C = W log(

1+SN

).

Chính xác hơn là C/

W log(

1+SN

)→ 1 khi

SN→ 0. Vì công suất tín hiệu trung bình P thì nhỏ hơn hoặc

bằng công suất đỉnh S, dẫn đến với mọiSN

C ≤W log(

1+PN

)≤W log

(1+

SN

).

Do đó, nếu chúng ta có thể tìm được một tập pbxs các hàm sao cho chúng tương ứng với tốc độ gần với

W log(

1+SN

)và giới hạn trong băng thông W và đỉnh là S, kết quả sẽ được chứng minh. Xét tập hợp pbxs

của hàm số có dạng sau. Một dãy gồm t mẫu có cùng giá trị, hoặc +√

S hoặc −√S, và sau đó t mẫu kế tiếpcũng có cùng giá trị, v.v. Giá trị của dãy là được chọn ngẫu nhiên, xác suất 1

2 cho +√

S và 12 cho −√S. Nếu

tập hợp pbxs này được cho qua bộ lọc với đặc tuyến độ lợi tam giác (độ lợi đơn vị tại D.C.), đầu ra bị giớihạn đỉnh bởi ±S. Hơn nữa, công suất trung bình gần như là S và có thể tiếp cận được điều này bằng cách lấyt đủ lớn. Entropy của tổng này và nhiễu nhiệt có thể tìm thấy bằng cách sử dụng định lí về tổng của nhiễu vàtín hiệu nhỏ. Định lí sẽ áp dụng được nếu √

tSN

đủ nhỏ. Điều này được bảo đảm bởi cách chọnSN

đủ nhỏ (sau khi t được chọn). Công suất entropy sẽ là

S +N rất gần với xấp xỉ như mong muốn, và do đó tốc độ truyền cũng gần với ta mong muốn

W log(

S +NN

).

48 Dịch và biên soạn bởi VNTelecom

Page 49: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

PHẦN V: TỐC ĐỘ NGUỒN LIÊN TỤC

27. CÁC HÀM ĐÁNH GIÁ ĐỘ TIN CẬY

Trong trường hợp nguồn tin rời rạc chúng ta có thể xác định được rõ ràng tốc độ tạo ra thông tin, chính làentropy của tiến trình ngẫu nhiên của nguồn tin. Với nguồn tin liên tục, vấn đề này phức tạp hơn. Đầu tiên,một đại lương thay đổi liên tục có thể coi như có vô hạn các giá trị và do đó đòi hỏi một số lượng vô hạnbit nhị phân để biểu diễn chính xác. Điều này có nghĩa là để phát đi đầu ra của một nguồn liên tục với khảnăng hồi phục chính xác tại đầu thu nhìn chung đòi hỏi phải có một kênh truyền có dung lượng vô hạn (theobit/giây). Vì thông thường các kênh truyền có một lượng nhiễu nhất định, nên dung lượng kênh chỉ là hữuhạn và do đó yêu cầu truyền dẫn hoàn toàn chính xác là không thể thực hiện được.

Tuy nhiên điều này lại trốn tránh một sự thật. Thực tế, chúng ta không mong muốn truyền dẫn hoàn toànchính xác khi chúng ta có nguồn liên tục, mà chúng ta chỉ mong muốn truyền dẫn với một khả năng chịuđựng lỗi nhất định. Câu hỏi đặt ra là liệu chúng ta có thể gán một tốc độ xác định cho một nguồn liên tục khichúng ta yêu cầu chỉ một mức độ tin cậy nhất định trong phục hồi, được đo lường theo một cách thích hợpnào đấy. Tất nhiên là nếu tăng yêu cầu về độ tin cậy, tốc độ cũng sẽ tăng lên. Chúng ta sẽ thấy rằng, trong cáctrường hợp tổng quát, với một tốc độ xác định, bằng cách mã hóa thích hợp thông tin, ta có thể phát thôngtin đi trên kênh truyền có dung lượng kênh bằng tốc độ theo yêu cầu và đảm bảo thỏa mãn các yêu cầu về độtin cậy. Kênh truyền có dung lượng nhỏ hơn thì không đủ.

Trước hết ta cần đưa ra phát biểu toán học tổng quát của khái niệm độ tin cậy của truyền dẫn. Xét mộttập các bản tin có độ dài là T giây. Nguồn tin được mô tả bởi hàm mật độ xác suất, trong không gian các bảntin đó nguồn sẽ chọn bản tin với xác suất P(x). Một hệ thống truyền thông được mô tả (nhìn từ bên ngoài)bởi xác suất có điều kiện Px(y), là xác suất nếu bản tin x được tạo ra bởi nguồn, thì phía thu sẽ nhận được bảntin y. Tổng thể cả hệ thống (bao gồm cả nguồn và hệ thống truyền) được biểu diễn bởi hàm xác suất P(x,y),là xác suất có bản tin x và bản tin cuối cùng ở đầu ra là y. Nếu biết được hàm này, là biết được toàn bộ đặctính của hệ thống, nhìn từ quan điểm độ tin cậy. Bất kỳ một đánh giá nào về độ tin cậy phải tương ứng vềmặt toán học với một phép toán áp dụng cho P(x,y). Phép toán này phải có ít nhất các đặc điểm về thứ tựcủa một hệ thống, nghĩa là ta phải có thể phát biểu với hai hệ thống được biểu diễn bởi P1(x,y) và P2(x,y)rằng, theo tiêu chí về độ tin cậy, hoặc (1) hệ thống đầu tiên có độ tin cậy cao hơn (2) hệ thống thứ hai có độtin cậy cao hơn hoặc (3) chúng có độ tin cậy bằng nhau. Điều này có nghĩa là một tiêu chí về độ tin cậy cóthể được biểu diễn bởi một hàm có giá trị bằng số

v(P(x,y)

)

có đối số thay đổi trên tất cả các giá trị hàm xác suất P(x,y) có thể có.Bây giờ chúng ta sẽ thấy rằng với các giả thiết hợp lý và rất tổng quát, hàm v

(P(x,y)

)có thể được viết

dưới dạng đặc biệt hơn, đó là trung bình của hàm ρ(x,y) trên tập hợp các giá trị khả dĩ của x và y:

v(P(x,y)

)=

∫∫P(x,y)ρ(x,y)dxdy.

Để có được kết quả trên ta chỉ cần giả thiết rằng (1) nguồn tin và hệ thống là ergodic để một mẫu rất dài sẽlà điển hình của tập hợp, với xác suất gần bằng 1 và (2) đánh giá là “hợp lý”, theo nghĩa là nó có thể đưa ramột đánh giá sơ bộ trên cơ sở các mẫu này bằng cách quan sát một đầu vào và một đầu ra điển hình x1 vày1; Nếu các mẫu này có độ dài tăng lên thì đánh giá sơ bộ đó cũng (với xác suất bằng 1) tiệm cận tới giá trịđánh giá chính xác dựa trên hiểu biết đầy đủ về P(x,y). Cho giá trị đánh giá sơ bộ là ρ(x,y), thì hàm ρ(x,y)sẽ tiệm cận với (khi T → ∞) một hằng số với hầu hết (x,y) trong vùng xác suất cao tương ứng với hệ thống.

ρ(x,y)→ v(P(x,y)

)

và chúng ta cũng có thể viết

ρ(x,y)→∫∫

P(x,y)ρ(x,y)dxdy

vì ∫∫P(x,y)dxdy = 1.

49 Dịch và biên soạn bởi VNTelecom

Page 50: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Đây chính là kết quả mong muốn.Hàm ρ(x,y) có đặc trưng tổng quát của “khoảng cách ” giữa x và y.9 Nó đo lường mức độ không mong

muốn (theo tiêu chuẩn độ tin cậy của chúng ta) để nhận được y khi phát đi x. Kết quả tổng quát được đưara ở trên có thể phát biểu lại như sau: Bất kỳ một đánh giá hợp lý nào cũng có thể được biểu diễn là trungbình của hàm khoảng cách trên tập hợp các bản tin và bản tin hồi phục x và y với trọng số là xác suất P(x,y),miễn là độ dài T của bản tin được lấy đủ lớn.

Sau đây là các ví dụ đơn giản về hàm đánh giá:

1. Tiêu chí RMS (giá trị hiệu dụng).

v =(x(t)− y(t)

)2.

Trong phương pháp đo lường độ tin cậy rất hay được dùng này thì hàm khoảng cách ρ(x,y) (ngoại trừhệ số không đổi) là bình phương của khoảng cách Euclide thông thường giữa các điểm x và y trongkhông gian của chúng.

ρ(x,y) =1T

∫ T

0

[x(t)− y(t)

]2 dt.

2. Theo tiêu chí giá trị hiệu dụng với trọng số tần số. Tổng quát hơn ta có thể áp dụng các trọng số khácnhau cho các thành phần tần số khác nhau trước khi sử dụng RMS để đo độ tin cậy. Nó tương đươngvới cho phần sai khác x(t)˘y(t) đi qua một bộ lọc tạo dạng và sau đó xác định công suất trung bình ởđầu ra. Do vậy, cho

e(t) = x(t)− y(t)

vàf (t) =

∫ ∞

−∞e(τ)k(t− τ)dτ

khi đó

ρ(x,y) =1T

∫ T

0f (t)2 dt.

3. Theo tiêu chí sai số tuyệt đối

ρ(x,y) =1T

∫ T

0

∣∣x(t)− y(t)∣∣dt.

4. Cấu trúc của tai và não người xác định ngầm định một đánh giá, hay thậm chí là nhiều đánh giá thíchhợp trong truyền dẫn thoại hoặc âm nhạc. Ví dụ, có một tiêu chí đánh giá là “tính thông minh”, trongđó ρ(x,y) bằng tần số tương đối của các từ bị biên dịch sai khi bản tin phát là x(t) và bản tin nhận lày(t). Mặc dù chúng ta không thể đưa ra một biểu diễn rõ ràng của ρ(x,y) trong các trường hợp này, vềnguyên lý có thể được xác định bằng các thử nghiệm đủ nhiều. Một số đặc tính của nó tuân theo cáckết quả thí nghiệm nổi tiếng về nghe, ví dụ như tai hầu như không nhạy cảm với pha, tuy nhiên vớibiên độ và tần số thì lại nhạy gần tuân theo hàm logarit.

5. Trường hợp rời rạc có thể coi như một trường hợp đặc biệt trong đó chúng ta ngầm giả thiết một đánhgiá dựa trên tần suất sai số. Hàm ρ(x,y) được định nghĩa là số ký hiệu trong chuỗi y khác với các kýhiệu tương ứng của x chia cho tổng số ký hiệu trong x.

28. TỐC ĐỘ CỦA NGUỒN ĐỐI VỚI VIỆC ĐÁNH GIÁ ĐỘ TIN CẬY

Bây giờ chúng ta định nghĩa tốc độ phát thông tin của một nguồn liên tục. Chúng ta đã biết P(x) của nguồntin và một đánh giá v được tính bằng hàm khoảng cách ρ(x,y), với giả thiết là hàm này liên tục với cả x và y.Với một hệ thống cụ thể P(x,y), chất lượng được đo bởi

v =∫∫

ρ(x,y)P(x,y)dxdy.

9Tuy nhiên, nó không phải là "metric" theo nghĩa chặt, vì nói chung nó không thỏa mãn ρ(x,y) = ρ(y,x) hoặc ρ(x,y)+ρ(y,z) ≥ρ(x,z).

50 Dịch và biên soạn bởi VNTelecom

Page 51: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Hơn nữa, tốc độ của luồng bít nhị phân tương ứng với P(x,y) là

R =∫∫

P(x,y) logP(x,y)

P(x)P(y)dxdy.

Chúng ta định nghĩa tốc độ R1 của thông tin được phát với một mức chất lượng v1 sau khi tạo lại ở phía thulà giá trị nhỏ nhất của R khi ta giữ cho v cố định tại v1 và thay đổi Px(y). R1 được tính như sau:

R1 = MinPx(y)

∫∫P(x,y) log

P(x,y)P(x)P(y)

dxdy

với điều kiện ràng buộc là:

v1 =∫∫

P(x,y)ρ(x,y)dxdy.

Điều này có nghĩa là chúng ta xem xét tất cả hệ thống truyền dẫn và truyền dẫn thông tin với độ tin cậytheo yêu cầu trên các hệ thống đó. Tốc độ của truyền dẫn theo bit/giây được tính toán và ta sẽ chọn hệ thốngcó tốc độ nhỏ nhất. Tốc độ nhỏ nhất này được gán cho nguồn với độ tin cậy mà ta yêu cầu.

Chứng minh của định nghĩa này nằm trong kết quả sauĐịnh lí 21: Nếu một nguồn có tốc độ R1 với mức giá trị là v1, ta có thể mã hóa đầu ra của nguồn và

truyền dẫn nó trên một kênh có dung lượng C với độ tin cậy gần với v1 theo mong muốn, miễn là giá trị R1nhỏ hơn hoặc bằng C (R1 ≤C). Nếu R1 lớn hơn C thì không thể thực hiện được.

Phát biểu cuối của định lí có được từ định nghĩa của R1 và các kết quả trước đó. Nếu điều đó là khôngđúng, chúng ta có thể truyền dẫn nhiều hơn C bit/giây trên kênh truyền có dung lượng C. Phần đầu tiên củađịnh lí được chứng minh bằng phương pháp tương tự như đối với Định lí 11. Đầu tiên chúng ta chia khônggian (x,y) thành một số lớn các ô và biểu diễn chúng như là trường hợp rời rạc. Điều này không làm thay đổihàm đánh giá một giá trị nhỏ bất kỳ (khi các ô là rất nhỏ) bởi vì chúng ta giả sử ρ(x,y) là liên tục. Giả thiếtrằng P1(x,y) là một hệ thống đặc biệt, cho phép giảm tốc độ đến mức nhỏ nhất là R1. Chúng ta chọn ngẫunhiên từ xác suất cao của y một tập hợp có chứa

2(R1+ε)T

phần tử trong đó ε→ 0 khi T → ∞. Với T lớn, mỗi điểm được chọn sẽ được kết nối bởi một đường xác suấtcao (như trên hình 10) với một tập các giá trị x. Tính toán tương tự như trong chứng minh của định lí 11 chota thấy rằng với T lớn thì hầu như tất cả x đều bị bao phủ bởi các hình quạt từ các điểm y đã chọn với hầu nhưtất cả các lựa chọn của y. Hệ thống truyền thông được sử dụng hoạt động như sau: Các điểm lựa chọn đượcgán các số nhị phân. Khi một bản tin x được tạo ra, nó sẽ (với xác suất tiến đến 1 khi T → ∞) nằm trong ítnhất một trong các hình quạt. Con số nhị phân tương ứng được phát (hay một trong số chúng được chọn mộtcách bất kỳ nếu có nhiều) trên kênh truyền bằng phương pháp mã hóa phù hợp để đạt được một xác suất lỗinhỏ. Vì R1 ≤C nên điều này là có thể. Tại điểm thu bản tin tương ứng y được hồi phục.

Đánh giá v′1 của hệ thống này có thể thực hiện gần tùy ý với v1 bằng cách lấy T đủ lớn. Đó là bởi vì sựthực là với mỗi bản tin mẫu dài x(t) và bản tin hồi phục y(t), đánh giá tiệm cận tới v1 (với xác suất bằng 1)

Một điều thú vị cần chú ý là trong hệ thống này, nhiễu trong bản tin hồi phục thực sự được tạo ra bởi mộtloại lượng tử tổng quát tại phía phát chứ không phải được tạo bởi nhiễu trên kênh truyền. Nó cũng ít nhiềugiống với nhiễu lượng tử trong PCM.

29. TÍNH TOÁN TỐC ĐỘ

Định nghĩa về tốc độ tương tự như định nghĩa về dung lượng kênh trên nhiều khía cạnh. Tốc độ được địnhnghĩa là

R = MinPx(y)

∫∫P(x,y) log

P(x,y)P(x)P(y)

dxdy

với P(x) và v1 =∫∫

P(x,y)ρ(x,y)dxdy cố định. Dung lượng kênh là

C = MaxP(x)

∫∫P(x,y) log

P(x,y)P(x)P(y)

dxdy

51 Dịch và biên soạn bởi VNTelecom

Page 52: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

với Px(y) cố định và có thể có thêm một hoặc nhiều điều kiện ràng buộc khác (ví dụ như giới hạn về côngsuất trung bình) dưới dạng K =

∫∫P(x,y)λ(x,y)dxdy.

Giải pháp từng phần của bài toán tối đa hóa tổng quát để xác định tốc độ của một nguồn có thể được sửdụng. Sử dụng phương pháp Lagrange ta xét

∫∫ [P(x,y) log

P(x,y)P(x)P(y)

+µP(x,y)ρ(x,y)+ν(x)P(x,y)]

dxdy.

Phương trình thay đổi (khi ta lấy thay đổi đầu tiên trên P(x,y)) dẫn đến

Py(x) = B(x)e−λρ(x,y)

với λ được tính toán để cung cấp độ tin cây yêu cầu và B(x) được chọn để thỏa mãn∫

B(x)e−λρ(x,y) dx = 1.

Điều này cho thấy rằng, với cách mã hóa tốt nhất, xác suất có điều kiện của một nguyên nhân nhất địnhcho các y thu được khác nhau, Py(x) sẽ giảm theo hàm mũ với hàm khoảng cách ρ(x,y) giữa x và y.

Trong trường hợp đặc biệt khi hàm khoảng cách ρ(x,y) chỉ phụ thuộc (vec-tơ) vào sự khác nhau giữa xvà y.

ρ(x,y) = ρ(x− y)

Ta có ∫B(x)e−λρ(x−y) dx = 1.

Do vậy B(x) là hằng số, gọi là α, vàPy(x) = αe−λρ(x−y).

Thật không may là các cách giải chính quy này rất khó để đánh giá trong các trường hợp riêng và có giá trịnhỏ.Thực tế, cách tính toán thực sự tốc độ được thực hiện chỉ trong một số ít trường hợp rất đơn giản.

Nếu hàm khoảng cách ρ(x,y) là trung bình bình phương sai khác giữa x và y và tập hợp các bản tin lànhiễu trắng thì tốc độ có thể xác định được. Trong trường hợp đó ta có

R = Min[H(x)−Hy(x)

]= H(x)−MaxHy(x)

với N = (x− y)2. Nhưng MaxHy(x) xảy ra khi y− x là nhiễu trắng, và bằng W1 log2πeN với W1 là băngthông của tập hợp phân bố xác suất các bản tin. Vì vậy

R = W1 log2πeQ−W1 log2πeN

= W1 logQN

trong đó Q là công suất bản tin trung bình. Nó chứng minh định lí sau đây:Định lí 22: Tốc độ của một nguồn nhiễu trắng có công suất Q và băng thông W1 có liên quan với đo

lường độ tin cậy theo giá trị hiệu dụng (RMS) là

R = W1 logQN

trong đó N là sai số bình phương trung bình cho phép giữa tín hiệu gốc và tín hiệu hồi phục.Tổng quát hơn với bất kỳ một nguồn bản tin nào chúng ta có thể có các bất đẳng thức giới hạn tốc độ có

liên quan đến tiêu chí lỗi trung bình bình phương.

52 Dịch và biên soạn bởi VNTelecom

Page 53: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Định lí 23: Tốc độ của bất kỳ nguồn nào có độ rộng băng tần W1 đều bị chặn bởi

W1 logQ1

N≤ R≤W1 log

QN

với Q là công suất trung bình của nguồn, Q1 là công suất entropy và N là sai số trung bình bình phương chophép.

Cận dưới là do MaxHy(x) với (x− y)2 = N cho trước xảy ra trong trường hợp nhiễu trắng. Cận trên đạtđược nếu ta đặt các điểm (được sử dụng trong chứng minh của định lí 21) không theo cách tốt nhất mà theongẫu nhiên trên hình cầu có bán kính

√Q−N.

LỜI CẢM ƠN

Tác giả xin bày tỏ sự cảm ơn tới các đồng nghiệp của mình ở các phòng nghiên cứu và đặc biệt dành sự cảmơn tới tiến sĩ H. W. Bode, tiến sĩ J. R. Pierce, Dr. B. McMillan, và tiến sĩ B. M. Oliver bởi những lời gợiý và phản biện có ích trong quá trình thực hiện công việc này. Tôi cũng xin ghi nhận công lao của giáo sưN. Wiener, bởi vì lời giải xuất sắc của ông cho các vấn đề về quá trình lọc tín hiệu và sự dự đoán các tập hợpcó phân bố xác suất tĩnh đã ảnh hưởng đáng kể tới các suy nghĩ của tôi trong lĩnh vực này.

Lời cảm ơn của nhóm biên dịch bài báo này sang tiếng Việt.Chúng tôi xin chân thành gửi lời cám ơn đến:

• PGS. TS. Nguyễn Quốc Bình

• ThS. Lê Hải Bình

• Nguyễn Trung Dũng

• KS. Vũ Bá Dũng

• ThS. Nguyễn Tuấn Đức

• TS. Nguyễn Nam Hoàng

• ThS. Nguyễn Xuân Hoàng

• TS. Lê Thanh Hà

• ThS. Nguyễn Hải Nam

• TS. Nguyễn Vương Quốc Thịnh

đã cùng tham gia dịch và biên soạn tài liệu này. Chúng tôi cũng xin chân thành cảm ơn bạn Nguyễn NgọcLan đã đọc và giúp chúng tôi hiệu chỉnh các lỗi của bản dịch đầu tiên. Tài liệu này được hoàn thành trongkhuôn khổ các dự án mở của cộng đồng VNTelecom. Mọi phản hồi hay góp ý liên quan đến bài dịch này,xin vui lòng liên hệ [email protected].

PHỤ LỤC 5

Cho S1 là một tập con đo đạc được bất kỳ của tập hợp pbxs g và S2 là một tập con của tập hợp pbxs f màsinh ra S1 theo phép toán T . Do vậy

S1 = T S2.

Cho Hλ là toán tử biến đổi mọi hàm số trong một tập hợp vào thời điểm λ. Ta có

HλS1 = HλT S2 = T HλS2

53 Dịch và biên soạn bởi VNTelecom

Page 54: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

vì T bất biến và giao hoán với Hλ. Do đó nếu m[S] là phép thử xác suất của tập hợp S

m[HλS1] = m[T HλS2] = m[HλS2]= m[S2] = m[S1]

trong đó phép bằng thứ hai là do ý nghĩa của độ đo trong không gian g, phép bằng thứ ba là do tập hợp pbxsf là tập tĩnh, phép bằng cuối cùng do ý nghĩa của độ đo g.

Để chứng minh rằng thuộc tính ergodic được bảo toàn với các phép toán bất biến, hãy coi S1 là một tậpcon của tập hợp pbxs g bất biến với Hλ, và coi S2 là tập hợp của tất cả các hàm f biến đổi tới S1. Ta có

HλS1 = HλT S2 = T HλS2 = S1

Vậy là HλS2 được chứa trong S2 với mọi λ. Giờ đây, bởi vì

m[HλS2] = m[S1]

có nghĩa làHλS2 = S2

cho mọi λ với m[S2] 6= 0,1. Sự mâu thuẫn này chỉ ra rằng S1 không tồn tại.

PHỤ LỤC 6

Chặn trên, N3 ≤ N1 + N2, là do giá trị entropy cực đại khả dĩ cho một công suất N1 + N2 xảy ra khi ta cónhiễu trắng của công suất này. Trong trường hợp này, công suất entropy là N1 +N2.

Để có được một chặn thấp hơn, giả sử chúng ta có hai phân bố trong không gian n chiều p(xi) và q(xi)với công suất entropy là N1 và N2. p và q cần có dạng thức gì để tối thiểu công suất entropy N3 của tích chậpr(xi) của chúng?

r(xi) =∫

p(yi)q(xi− yi)dyi.

Entropy H3 của r là

H3 =−∫

r(xi) logr(xi)dxi.

Ta muốn tối thiểu giá trị này với các điều kiện ràng buộc sau

H1 =−∫

p(xi) log p(xi)dxi

H2 =−∫

q(xi) logq(xi)dxi.

Sau đó, ta xét tới:

U =−∫ [

r(x) logr(x)+λp(x) log p(x)+µq(x) logq(x)]

dx

δU =−∫ [

[1+ logr(x)]δr(x)+λ[1+ log p(x)]δp(x)+µ[1+ logq(x)]δq(x)]

dx.

Nếu p(x) biến đổi tại một argument, xi = si, sự thay đổi ở r(x) là

δr(x) = q(xi− si)

vàδU =−

∫q(xi− si) logr(xi)dxi−λ log p(si) = 0

54 Dịch và biên soạn bởi VNTelecom

Page 55: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

và tương tự khi q thay đổi. Do vậy những điều kiện cho giá trị tối thiểu là∫

q(xi− si) logr(xi)dxi =−λ log p(si)∫

p(xi− si) logr(xi)dxi =−µ logq(si).

Nếu ta nhân điều kiện thứ nhất với p(si) và điều kiện thứ hai với q(si) và rồi lấy tích phân với si ta có

H3 =−λH1

H3 =−µH2

hoặc tính ra λ và µ và thay thế trong các phương trình sau

H1

∫q(xi− si) logr(xi)dxi =−H3 log p(si)

H2

∫p(xi− si) logr(xi)dxi =−H3 logq(si).

Giả thiết p(xi) và q(xi) là phân bố chuẩn

p(xi) =|Ai j|n/2

(2π)n/2 exp− 12 ∑Ai jxix j

q(xi) =|Bi j|n/2

(2π)n/2 exp− 12 ∑Bi jxix j.

Vậy thì r(xi) cũng sẽ là phân bố chuẩn với hàm bậc hai Ci j. Nếu các hàm nghịch đảo của chúng là ai j, bi j,ci j thì ta có

ci j = ai j +bi j.

Ta muốn chỉ ra rằng những hàm này thỏa mãn các điều kiện tối thiểu khi và chỉ khi ai j = Kbi j và do vậy cóđược giá trị H3 nhỏ nhất theo các điều kiện ràng buộc này. Đầu tiên ta có

logr(xi) =n2

log1

2π|Ci j|− 1

2 ∑Ci jxix j∫

q(xi− si) logr(xi)dxi =n2

log1

2π|Ci j|− 1

2 ∑Ci jsis j− 12 ∑Ci jbi j.

Tương đương vớiH3

H1

[n2

log1

2π|Ai j|− 1

2 ∑Ai jsis j

]

với Ai j =H1

H3Ci j. Trong trường hợp này Ai j =

H1

H2Bi j và cả hai phương trình trở về đồng nhất thức

PHỤ LỤC 7

Phần sau đây sẽ chỉ ra một hướng tiếp cận tổng quan hơn và chính xác hơn về các định nghĩa chính của lýthuyết truyền tin. Hãy xét một không gian các độ đo xác suất có các phần tử là các cặp (x,y) có thứ tự. Cácbiến x, y được xác định như các tín hiệu phát và tín hiệu thu có thể có của một khoảng thời gian dài T nàođó. Chúng ta gọi tập hợp của tất cả mọi điểm mà x thuộc về một tập con S1 là miền giá trị trên S1, và tươngtự tập hợp này của y thuộc về S2 là miền giá trị trên S2. Ta chia x và y thành một bộ các tập con đo được vàkhông chồng chéo Xi và Yi gần đúng với tốc độ truyền dẫn R như sau

R1 =1T ∑

iP(Xi,Yi) log

P(Xi,Yi)P(Xi)P(Yi)

55 Dịch và biên soạn bởi VNTelecom

Page 56: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

với

P(Xi) là độ đo xác suất của miền giá trị trên Xi

P(Yi) là độ đo xác suất của miền giá trị trên Yi

P(Xi,Yi) là độ đo xác suất của phần giao nhau của các miền giá trị.

Phần chia nhỏ ra R1 không thể giảm hơn nữa. Tách X1 thành X1 = X ′1 +X ′′1 và gán cho

P(Y1) = a P(X1) = b+ c

P(X ′1) = b P(X ′1,Y1) = d

P(X ′′1 ) = c P(X ′′1 ,Y1) = e

P(X1,Y1) = d + e.

Thì cuối cùng ta đã thay thế (cho X1, Y1 giao nhau)

(d + e) logd + e

a(b+ c)by d log

dab

+ e logeac

.

Dễ dàng chỉ ra rằng với giới hạn này, chúng ta có b, c, d, e,

[d + eb+ c

]d+e

≤ ddee

bdce

Và kết quả là giá trị tổng này tăng lên. Do vậy những phần chia nhỏ có thể có sẽ tạo nên một tập hợp mộtchiều với R đơn điệu tăng với sự cô đọng của phần chia nhỏ này. Chúng ta có thể định nghĩa R một cáchkhông lẫn lộn như là chặn trên nhỏ nhất của R1 như sau:

R =1T

∫∫P(x,y) log

P(x,y)P(x)P(y)

dxdy.

Phép tích phân này theo ý nghĩa trên bao gồm cả hai trường hợp liên tục và rời rạc và tất nhiên gồm cả cáctrường hợp khác khi không thể trình bày ở một trong hai trường hợp này. Rõ ràng trong phương trình này,nếu x và u là tương ứng một-và-một, tỷ lệ u trên y tương đương với tỷ lệ x trên y. Nếu v là một hàm bất kỳcủa y (không nhất thiết là hàm nghịch đảo) thì tỷ lệ x trên y lớn hơn hoặc bằng tỷ lệ x trên v bởi vì ở khi tínhtoán gần đúng, các phần chia nhỏ của y là phần chia nhỏ cô đọng hơn của chúng cho v. Tổng quát hơn, nếu yvà v có liên hệ thống kê nghĩa là chúng ta có một không gian độ đo xác suất (y,v), và R(x,v)≤ R(x,y). Điềunày có nghĩa là bất kỳ phép toán nào áp dụng vào tín hiệu thu, ngay cả khi nó bao gồm các thành phần cótính thống kê, nó không làm tăng R.

Một khái niệm khác cần được định nghĩa cụ thể trong bản thảo của lý thuyết này là "tỷ lệ thứ nguyên"(dimension rate). Đó là số trung bình của các thứ nguyên cần có trong mỗi giây để xác định một thành phầncủa một tập hợp pbxs. Trong trường hợp băng thông bị giới hạn, 2W/s là thỏa mãn việc này. Định nghĩa tổngquát như sau. Cho fα(t) là một tập hợp pbxs của các hàm và ρT [ fα(t), fβ(t)] là đơn vị đo “khoảng cách” từfα tới fβ trong thời gian T (ví dụ như sự khác nhau của giá trị hiệu dụng trong khoảng thời gian này.) ChoN(ε,δ,T ) là số tối thiểu của các phần tử f có thể chọn sao cho mọi phần tử của tập hợp pbxs này ngoại trừtập hợp các độ đo δ nằm trong khoảng ε của ít nhất một phần tử đã chọn. Do vậy chúng ta đang phủ khônggian trong khoảng ε ngoài tập hợp đo đạc nhỏ δ. Chúng ta định nghĩa tỷ lệ thứ nguyên λ cho tập hợp pbxsbởi ba lần lấy giới hạn như sau

λ = Limδ→0

Limε→0

LimT→∞

logN(ε,δ,T )T logε

.

Đây là sự suy rộng của các định nghĩa độ đo của thứ nguyên trong tôpô và phù hợp với tỷ lệ thứ nguyên trựcgiác đối với các tập hợp pbxs đơn giản nơi mà kết quả mong muốn là hiển nhiên.

56 Dịch và biên soạn bởi VNTelecom

Page 57: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

GIAI THOẠI VỀ C.E. SHANNON10

Cuộc đời là một trò đỏ đen. Trên thế giới này có rất ít những điều chắc chắn, và trong việc tuyển mộ mangtính chuyên môn và cạnh tranh cao thì còn hiếm hoi hơn nữa. Claude Shannon là một người đáp ứng đượcnhững yêu cầu khắt khe cần thiết trong môi trường đó. Đây là lý do vì sao Viện công nghệ Massachusetts(Massachusttes Institute of Technology – MIT) đang chuẩn bị mọi thứ cần thiết để lôi kéo bằng được Shannontừ Phòng thí nghiệm Bell (Bell Labs) của AT& T và vì sao họ rất vui mừng khi Shannon bắt đầu công việccủa một giáo sư thỉnh giảng tại MIT vào năm 1956.

Shannon đã làm những việc mà trên thực tế chưa một ai từng nghĩ đến kể từ sau thời kỳ Phục Hưng. Mộtmình ông đã phát minh ra môn khoa học mới rất quan trọng. Lý thuyết về thông tin của Shannon là một mônkhoa học trừu tượng về sự giao tiếp qua máy tính, mạng Internet và tất cả các phương tiện truyền thông kỹthuật số khác. Toby Berger thuộc trường Đại học Cornell đã nhận xét về phát minh này như sau: “Người tanói đó là một trong số ít lần trong lịch sử mà cùng lúc một người vừa tìm ra lĩnh vực mới, đặt ra những câuhỏi cần thiết, tìm ra cách chứng minh và trả lời được tất cả những câu hỏi đó.”

“Ngay khi gặp Shannon, tôi đã biết ông ấy là chuẩn mực của những gì mà một nhà khoa học cần có.”Marvin Minsky của Viện công nghệ MIT nói. “Bất kể có chuyện gì xảy ra, ông ấy cũng vui vẻ đón nhận vàđương đầu với nó bằng sự khéo léo đáng kinh ngạc – phẩm chất có thể được coi là một khái niệm chuyênmôn mới – hoặc bằng một cái búa rồi đứng nhìn những mảnh gỗ của nó.”

Có rất nhiều người ở Bell Labs và MIT so sánh trí tuệ của Shannon với Enstein. Một số người khác còncho rằng so sánh như vậy là bất công – bất công với Shannon. Những phát minh của Enstein hầu như chẳngcó tác dụng gì đối với cuộc sống của những con người bình thường. Còn những phát minh của Shannon thìđược ứng dụng từ những năm 1950. Trong thời đại kỹ thuật số của chúng ta, ý nghĩa của những thành tựumà Shannon đạt được đôi khi không thể diễn đạt bằng lời. “Nó cũng giống như khi nói bảng chữ cái có tácdụng như thế nào đối với văn chương vậy” – Giáo sư Solomon W.Golomb thuộc trường Đại học SouthernCalifornia quả quyết.

Shannon đã đưa ra ý tưởng rằng các máy tính nên sử dụng các con số nhị phân quen thuộc 0 và 1. Ôngmiêu tả cách thức những số nhị phân này có thể được biểu diễn trong các mạch điện. Dòng điện mức caobiểu diễn số 1, dòng điện mức thấp biểu diễn số 0. Bộ mã nhỏ nhất này có thể chuyển tải được từ ngữ, hìnhảnh, tiếng động, đoạn phim hay bất kỳ dạng thông tin nào khác. Shannon là một trong số hai hay ba nhà phátminh đầu tiên nghĩ ra máy tính số điện tử. Nhưng đây chưa phải là thành tựu lớn nhất của Shannon.

Thành công lớn nhất của Shannon là lý thuyết thông tin. Đây là lý thuyết hoàn chỉnh nhất, tổng hợp tấtcả những vấn đề mà những người đi trước đã đưa ra. Trong suốt những năm 1960, 1970 và 1980, hiếm cónăm nào trôi qua mà không bị ảnh hưởng bởi bởi “xu hướng” kỹ thuật số khiến tầm ảnh hưởng của ClaudeShannon trở nên rộng hơn bao giờ hết. Máy thu thanh bán dẫn, mạch tích hợp, các máy tính trung ương, hệthống liên lạc vệ tinh, máy tính cá nhân, sợi quang, truyền hình có độ phân giải cao (HDTV), điện thoại diđộng, thực tế ảo, chuỗi DNA. . . Về chi tiết thì Shannon hầu như không đóng góp gì vào việc tạo nên nhữngphát minh này. Nhưng nếu nói trên một phạm vi rộng hơn thì toàn bộ thế giới điện tử hữu tuyến và vô tuyếnđều kế thừa những thành tựu của Shannon.

Rất nhiều nhà báo và chuyên gia lúc bấy giờ đang cố gắng tạo nên thời đại của kỹ thuật số. Tên tuổi củaShannon cứ thế tăng lên. Trong công trình nghiên cứu lý thuyết thông tin được đăng năm 1948, Shannon đãliệt kê những học vị danh dự cho phần còn lại của cuộc đời. Tuy thế ông vẫn giữ thói quen treo áo khoáctôga lên cái giá để máy giặt khô ở nhà. Shannon là vị anh hùng trong thời đại vũ trụ cũng như thế giới củanhững câu chuyện viễn tưởng về máy tính. Cuộc cách mạng kỹ thuật số đã đưa “bit” và “byte” – những đơnvị đo lường khó hiểu trong lĩnh vực điện tử của Shannon – trở nên quen thuộc và phổ biến hơn với mọi giađình như “watt” và “calori” vậy.

Nhưng nếu như có một nhà báo hay một vị khách hỏi gần đây Shannon đang làm gì thì câu trả lời thườngmang tính lảng tránh. Robert Fano, một người bạn lâu năm của Shannon đang làm cho MIT giải thích: “Khicầm bút, anh ấy viết những bài báo thật hay. Khi nói, anh ấy có những bài phát biểu thú vị. Nhưng Shannonghét những việc ấy”.

Năm 1958, Shannon đồng ý làm việc lâu dài cho MIT trên cương vị một giáo sư chuyên ngành khoa họcviễn thông và toán học. Hầu như ngay khi đến đây làm việc, “Shannon ít xuất hiện hơn. Ông cũng ít đưa

10Phần này không có trong văn bản tiếng Anh gốc của bài báo.

57 Dịch và biên soạn bởi VNTelecom

Page 58: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

ra những kết quả nghiên cứu mới”, nhà kinh tế học nổi tiếng Paul Samuelson của MIT nhớ lại. Trên thựctế, Shannon chỉ làm việc cho MIT trong một vài kỳ mà thôi. Theo nhà nghiên cứu lý thuyết thông tin PeterElias cũng thuộc MIT thì “nhiệm vụ của Claude là đưa ra một chuỗi bài giảng nghiên cứu về những lĩnhvực mà chẳng ai biết về chúng. Thế nhưng, công việc này đòi hỏi rất khắt khe về tốc độ, trên thực tế, mỗituần ông ấy phải hoàn thành một bài nghiên cứu.”

Vì thế, chỉ sau một vài kỳ, Shannon đã cho MIT biết rằng ông không muốn tiếp tục giảng dạy ở viện nàynữa. Và đối với MIT thì điều đó cũng không thành vấn đề. MIT chỉ là một trong số nhiều viện nghiên cứulớn trên thế giới mà thôi.

Tuy nhiên, Shannon cũng không cho công bố nhiều bài nghiên cứu nữa. Trong khi đồng nghiệp của ôngở Bell Labs là John Nash có một trí tuệ khá tuyệt vời thì Shannon lại “có một lối suy nghĩ khá kì dị”, DavidSlepian nói. Tài năng thiên bẩm của Shannon cũng tựa như của Leonardo, thường “nhảy cóc” từ đề tài nayqua đề tài khác, kết quả là có rất ít những đề tài hoàn chỉnh. Shannon là một người cầu toàn, ông không thíchcông bố bất kỳ vấn đề gì khi mà tất cả những khúc mắc còn chưa được trả lời, ngay cả câu văn cũng phảithật hoàn thiện.

Trước khi chuyển đến MIT, Shannon đã xuất bản được 78 bài báo nghiên cứu khoa học. Thế nhưng từnăm 1958 đến 1974, ông chỉ xuất bản được 9 bài. Trong thập kỷ tiếp theo, trước khi căn bệnh Alzhmeimerđặt dấu chấm hết cho sự nghiệp của Claude Shannon, tổng số tác phẩm nghiên cứu khoa mà ông cho xuấtbản chỉ là một bài báo về trò tung hứng. Shannon cũng có một bài nghiên cứu nữa về khối Rubic nhưngkhông bao giờ được xuất bản.

Có một bí mật mà ở MIT ai cũng biết, đó là sau khi ngừng công việc nghiên cứu, một trong những bộóc vĩ đại nhất thế kỷ 20 ấy dành tất cả thời gian để chơi đồ chơi. Paul Samuelson nói: “Một vài người tự hỏikhông biết có phải ông ấy bị suy nhược thần kinh hay không. Vài người khác thì cho rằng đó chỉ là một phầntrong tính cách bị ảnh hưởng bởi căn bệnh thích lánh mình.”

Shannon là một người khá dè dặt và nhã nhặn, dường như không biết đến đố kỵ, thù hận hay tham vọng.Hầu hết những ai biết Shannon đều thấy quý mến con người này. Ông cao gần 1m6, dáng người mảnh khảnh,thư sinh, ăn mặc gọn gàng. Ở tuổi trung niên, ông bắt đầu để râu quai nón và chăm sóc nó khá cẩn thận,khiến ông trông càng đạo mạo hơn.

Shannon thích nghe nhạc của vùng phía Nam nước Mỹ. Ông có thể tung hứng với 4 quả bóng một lúc vàtiếc là bàn tay mình hơi nhỏ hơn bình thường, nếu không ông đã có thể tung 5 quả một lúc. Shannon tự miêutả mình là một người vô thần và phi chính trị. Bằng chứng duy nhất về thái độ của ông đối với chính trị màtôi tìm thấy trong những bài báo của ông là một bài thơ hài hước mà ông viết về vụ Watergate.

Phần lớn thời gian trong cuộc đời Shannon gắn với cây bút chì. Ông viết lên giấy những phương trìnhtoán học, sơ đồ mạch điện, bản nháp những bài phát biểu mà ông sắp diễn thuyết hay những bài viết khôngbao giờ được xuất bản, phổ nhạc cho những bài thơ vui nhộn và những điều ghi nhớ kì quặc cho mình. Mộttrong những ghi chú đó là danh sách “Những niềm đam mê một thời”, bao gồm cờ vua, xe đạp một bánh,tung hứng, thị trường chứng khoán, phả hệ học, chạy bộ, các nhạc cụ, nhạc jazz, và “Tham gia vào giới gianghồ”. Sở thích cuối cùng này quả là một sự khó hiểu đầy khiêu khích. Trong một cuộc phỏng vấn, Shannonđã kể một cách “đầy trìu mến” về lần đi xem những vũ công ở một sân khấu kịch tục tĩu như một gã trai trẻ.

Ở Bell Labs, Shannon nổi tiếng với trò đi xe đạp một bánh dọc các hành lang. Với tính cách của mình,chỉ lái chiếc xe đó thôi là chưa đủ, ông phải tìm mọi cách “giải phẫu” nó để tìm ra nguyên lý hoạt động vàđiều khiển nó. Ông tự hỏi chiếc xe đạp một bánh có thể nhỏ đến mức nào mà vẫn có thể lái được. Để giảiđáp thắc mắc của mình, ông dựng một chuỗi những chiếc xe đạp một bánh theo thứ tự nhỏ dần. Chiếc nhỏnhất cao 45,72 cm. Không ai có thể điều khiển được nó. Ông dựng tiếp một chiếc khác, bánh xe của nó đượcông cố ý chế tạo không cân đối nhằm gây thêm khó khăn cho người lái. Cuối cùng, Shannon nói với một vẻhài lòng về thành tích của mình, đó là vừa lái một chiếc xe một bánh xuống phòng họp của Bell Labs vừatung hứng.

Shannon sinh ngày 30-4-1916 ở Petoskey, bang Michigan. Ông lớn lên ở Gaylord, một thị trấn với 3000dân thuộc phía trên Michigan, có diện tích nhỏ đến mức chỉ cần đi bộ qua vài khu nhà là hết thị trấn. Chacủa Shannon, cũng tên là Claude Elwood Shannon, đã từng làm nhân viên bán hàng, nhà cung cấp đồ nộithất, nhân viên mai táng trước khi trở thành thẩm phán phụ trách những vụ liên quan đến di chúc. Ông cũngkinh doanh bất động sản, xây tòa nhà “Shannon Block” để cho thuê làm văn phòng trên phố Gaylord’s Main.Năm 1909, ông kết hôn cùng Mabel Wolf, hiệu trưởng trường trung học của thị trấn. Con trai của thẩm phán

58 Dịch và biên soạn bởi VNTelecom

Page 59: Nguyen Ly Toan Hoc Ve Truyen Tin -Vntelecom

Shannon ra đời khi ông đã bước sang tuổi 54. Ông là một người cha khá thờ ơ, thường để con trai ngồi chơivới mấy bộ lắp ráp và mô hình đài radio.

Trong dòng máu của gia đình Shannon có sẵn truyền thống sáng tạo. Thomas Edison là bà con họ xa vớigia đình. Ông của Shannon là người đã tự thiết kế một chiếc máy giặt tự động. Từ nhỏ đến lớn, Claude đềutự mày mò ra mọi thứ, mà hầu hết là do hoàn cảnh bắt buộc.

Ví dụ một lần, khi còn bé, Shannon đã tự tạo ra một cái máy điện báo để nhắn tin cho một cậu bạn. Nhàcậu bé này cách nhà Shannon nửa dặm, Shannon không đủ tiền để mua dây điện. Một hôm Shannon nhậnthấy hàng rào ngăn cách giữa các nhà được làm từ dây thép gai. Và thế là cậu gắn những manip vào cuối mỗihàng rào. Ý tưởng này đã đem lại kết quả. Tìm ra những giải pháp mạch lạc và ổn thỏa cho những vấn đềphức tạp là một khả năng đặc biệt của Shannon.

Shannon kiếm tiền bằng cách làm chân giao nhận cho Western Union. Năm 1936, ông hoàn thành bằngCử nhân khoa học tại trường Đại học Michigan. Lúc này, ông hầu như không có chút khái niệm gì về việcmuốn làm gì tiếp theo. Một lần ông bất chợt nhìn thấy một tấm bưu ảnh đính trên tường nói về việc Việncông nghệ Massachusetts đang cần một người làm công việc bảo dưỡng những chiếc máy phân tích vi phânmới. Shannon đã nộp đơn xin việc.

–oOo–

59 Dịch và biên soạn bởi VNTelecom