47
ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNH Phần 1 : Lý thuyết Câu I : Các đặc trưng cơ bản của âm thanh 1.1 Khái niệm về âm thanh và các tham số đánh giá Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định. Âm thanh có các tham số đánh giá đặc trưng sau dây: 1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn thì âm thanh càng cao và ngược lại. Ðơn vị để đo là Hertz (Hz). Tai con ngưừi chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiêu loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm). Ứng với mỗi tần số dao động f , có chu kỳ dao động T một bước sóng λ của âm thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyên của âm thanh trong không khí = 340m/s). Do dó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 0.017m. 2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyần lan

đề Cương xử lý âm thanh hình ảnh

Embed Size (px)

Citation preview

Page 1: đề Cương xử lý âm thanh hình ảnh

ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNH

Phần 1 : Lý thuyết

Câu I : Các đặc trưng cơ bản của âm thanh1.1 Khái niệm về âm thanh và các tham số đánh giáÂm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định.Âm thanh có các tham số đánh giá đặc trưng sau dây:1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong mộtđơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớnthì âm thanh càng cao và ngược lại. Ðơn vị để đo là Hertz (Hz). Tai con ngưừi chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đếnkhoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hayâm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn nhữngâm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận đượccác sóng âm này nhưng có khá nhiêu loài vật có thể cảm nhận được (ví dụ loài dơi có thểnghe được sóng siêu âm). Ứng với mỗi tần số dao động f , có chu kỳ dao động T là một bước sóng λ của âmthanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyên của âm thanh trongkhông khí = 340m/s). Do dó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến0.017m.2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyần lanđến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở mộtđiểm gọi là thanh áp ở điểm dó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác độnglên một diện tích 1cm2 mot lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người tathường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gianmột giây. Công suất âm thanh P có thể tính bằng biểu thức: P = p.S.v Trong dó p là thanh áp, v là tôc do dao động của một phân tử không khí tại đó và S là diện tích. Công suất âm thanh tính theo đơn vị oát (W).4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vịdiện tích là 1cm2. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo nên âmlượng của âm và trong âm của từ.

Page 2: đề Cương xử lý âm thanh hình ảnh

6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanhtạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nêncác nguyên âm đối lập nhau vê độ dài. Hai từ "tang" và "tăng" trong tiêng Viet có sự đốilập âm a dài (trong "tang") và âm a ngắn (trong "tăng").7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào cácthành phần kết cấu của âm. Ðây là vẻ riêng biet của một âm. Âm sắc được quyết địnhbởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âmthanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độdài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác vớitừ một ống sáo nhỏ, ngắn; từ việc gẩy se khác với việc gõ, búng, cọ xát hoặc thổi. Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau. Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng(enhancement) và hồi phục tiếng nói (restoration). Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tindi động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật néncho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sửdụng tài nguyên hệ thống có hiệu quả hơn. Để có thể xử lý âm thanh thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếng nói và đặc trưng hệ thống thính giác con người.1.2. Các đặc điểm của hệ thống thính giác con người

Cấu trúc tai người: Hệ thống thính giác của con - Tai người là một cơ quan cực kỳ phức tạp. Hình 1.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn " trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ (tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào màng nhĩ và làm cho nó rung động. Hình 1.1: Sơ đồ chức năng của tai người

Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của màng nhĩ tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ có chứa dung dịch chât lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu được minh họa ở dạng duỗi thẳng ở hình 1.1, trên thực tế, tai trong được cuộn lại và trông giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạpcó nghĩa là ốc sên (snail) – hình 1.2.Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chât lỏng, chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở kháng cơ

Page 3: đề Cương xử lý âm thanh hình ảnh

học thấp (áp suât âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí. Chính sự khác nhau vê trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trr lại tại giao tiếp không khí/chất lỏng.Cùng với ốc tai là màng nền, cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó họat động như là một bộ phân tích phổ tần số (frequency spectrum analyzer).Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt. Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường dẫn âm tới bộ não.

Sự cảm thụ của tai người đối với âm thanh:1. Ngưỡng ngheTai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mứcáp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiệnđược. Ngưỡng nghe này được minh họa trong hình 1.3 dưới đây. Ngưỡng này là một hàmcủa tần số âm thanh. Lưu ý là trong hình 1.3 này, có các thành phần tần số thấp ở dưới mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhấttrong phạm vi tần số từ 2 – 4KHz. Hình 1.3: Ngưỡng nghe

2. Mặt nạ tần số (frequency masking)Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị chekhuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng”qua các thành phần bên cạnh. Nấu như thành phần tần số bên cạnh bị che phủ bởi “phầnbóng” này thì các thành phần tín hiệu tần số này sã không nghe được. Kêt quả là có mộtthành phần – thành phần che khuât làm dịch ngưỡng nghe. Hình 1.4 minh họa hiện tượngnày. Hình 1.4: Mặt nạ tần số

3. Mặt nạ thời gianChỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phân bên cạnh trong miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất. Hình 1.5 minh họa hiện tượng mặt nạ thời gian điển hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau.

Hình 1.5: Mặt nạ thời gian diện tí di diện tích là 1cm2.

Page 4: đề Cương xử lý âm thanh hình ảnh

I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ện tích là 1cm2. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ch là 1cm2. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liềnvới nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớnthì công suất, cường độ và áp suât của âm thanh càng lớn.5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao độnglà trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắtlà dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo

4. Các dải băng tần tới hạnDải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đên 5000Hz.Do dó, tai hoạt động giống như các bộ lọc thông dưới, mỗi bộ lọc cho phép một dải tần số nhất định đi qua và khóa tât cả các tần sô khác (hình 1.6). Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và cácdải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Ngườita đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ biến nhất trong các chuẩn nén âm thanh MPEG.

Câu II: Mô hình chung của hệ thống mã hóa thoại Hình 2.1 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa

Page 5: đề Cương xử lý âm thanh hình ảnh

thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biên đổi thành tín hiệu rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá (nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh. Tại đầu thu, một bộ giải mã kênh sẽ tách và sửa những lỗi trong quá trình truyền dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến theo một vài cách nào dó (nén có tổn thất). Hình 2: Sơ đồ khối hệ thống mã hóa thoạiThông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn cho tiếng nói. Nêu sự dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s.Như ta đã biết, tín hiệu số ưu diểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thông để biến đổi tín hiệu tương tự thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi thành một kênh PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoại truyền thông đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn. Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tôc độ của một cuộc gọi càng thấp thì càng cung câp được thêm các dịch vụ khác - d ữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16 Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet.Câu III: Các phương pháp mã hóa thoại (mã hóa dạng sóng, mã hóa tham số, mã hóa lai).

1. Mã hóa dạng sóng: Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại nguồn tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng nói. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá thành tín hiệu số trước khi phát di. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để khôi phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục được sẽ rất giống với dạng sóng của tiếng nói gốc. Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chấtlượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạngsóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỉ số tín hiệu trên nhiễu – SNR(Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM. Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số. Có rất nhiều kiểu mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân tích trong miền

Page 6: đề Cương xử lý âm thanh hình ảnh

thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do dó nó không có nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất lượng tốt và có thể chịu được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con người. Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu.Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương đối cao (trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa sóng đầu vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727).a. Mã hóa 64 Kbít PCM (ITU G. 711)Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất. Thoại băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng tử hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa cho một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính.Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt được so với thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thê kỷ 20.Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị của mẫu tiếp theo từ những mẫu trước đó. Nêu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của những mô hình điều chế xung mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác biet giữa những tín hiệu gốc và tín hiệu dự đoán.Kêt quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại được mã hoá. Điều này dẫn tới kỹ thuật điêu chế xung mã vi sai thích ứng – ADPCM (Adaptive Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương đương với phương pháp điêu chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt động ở các tôc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải mã ADPCM được minh họa ở hình 3.1 dưới đây.

Hình 3.1: Bộ mã hóa và giải mã ADPCM

Page 7: đề Cương xử lý âm thanh hình ảnh

b. Mã hóa ADPCM (ITUG.721, G.726, G.727)Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự doán.Nêu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu thoại gốc.Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu dự đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá.

2. Mã hóa tham sốMã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps. Để tiếp tục giảm tốc độ bit, cân phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình. Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham sô của mô hình và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hieu thoại còn được gọi là Vocoder (Voice + Coder).Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với tôc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn dễ hiểu nhưng chúng lại khác khá nhiêu so với giọng nói tự nhiên của con người.

a. Mô hình LPC Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây:

Hình 3.2: Mô hình toán học của LPC

Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy cácxung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biênđổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đọan thoạivô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh. Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (nonstationary)của tín hiệu thoại.Hàm truyên đạt của bộ lọc được xác định theo biểu thức

Page 8: đề Cương xử lý âm thanh hình ảnh

Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình vi phân tuyến tính:

Mô hình LPC có thể được biểu diễn lại dưới dạng vector như sau:

A thay đổi theo chu kỳ 20 ms, tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20 ms hay có 50 khung/sec. Mô hình A theo bieu thức trên tương đương với

b. LPC Vocoder 2,4Kbps LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 3.3 dưới đây. Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo ra thoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại con người. LPC Vocoder chủ yếu được áp dụng trong lĩnh vực quân sự, ở đó các âm thanh tự nhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điênn thoại an toàn.Hình 3.3: Sơ đồ khối chức năng LPC Vocoder 2,4Kbps3. Mã hóa lai Mã hóa lai cố gắng lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóa nguồn. Mã hóa dạng sóng như được mô tả ở trên là có khả năng cung cấp được thoại với chất lượng khá tốt với tốc độ bít xuống đến 16Kbps nhưng bị giới hạn về sử dụng tới tốc độ thấp hơn. Bộ mã nguồn có thể hoạt động ở tốc độ khoảng 2,4 Kbps và thấp hơn, nhưng không thể tạo ra âm thanh trung thực ở bất kỳ tốc độ nào. Mặc dù có nhiều dạng mã hóa lai, nhưng thành công và thường được sử dụng nhiều nhất là các bộ mã hóa trong miền thời gian “thực hiện các phép phân tích thông qua việc tổng hợp” - AbS (Analysic - by - Synthesis). Những bộ mã hóa này sử dụng mô hình bộ lọc dự đoán tuyến tính cho cơ quan phát âm như trong các bộ mã thoại LPC. Tuy nhiên, để thay thế cho việc ứng dụng mô hình ở trạng thái đơn giản – hữu thanh/vô thanh, mô hình này cô gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào và dạng sóng tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích thích lý tưởng. Các bộ mã hóa AbS lần đầu tiên được giới thiệu bởi Atal và Remde và mô hình đầy đủ của hệ thống mã hóa và giải mã AbS được miêu tả ở trong hình 3.4 dưới đây:

Hình 3.4: Cấu trúc bộ mã hóa và giải mã lai AbS

Page 9: đề Cương xử lý âm thanh hình ảnh

Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn có độ dài 20 ms. Các tham số của một khung sẽ xác định một bộ lọc tổng hợp tương ứng với khung đó và tín hiệu kích thích tương ứng cho mỗi bộ lọc này sẽ được xác định thôngqua một vòng lặp. Tín hiệu kích thích phải đảm bảo rằng sai lệch giữa tín hiệu đầu vào vàtín hiệu được tái tạo lại là nhỏ nhất. Cuối cùng bộ mã hóa sẽ truyền đi những thông tinliên quan đến các bộ lọc bao gồm các tham số và tín hiệu kích thích tương ứng với mỗibộ lọc gửi cho bộ giải mã. Ở bộ giải mã, tín hiệu kích thích sẽ được đưa qua bộ lọc tổnghợp để xây dựng lại tín hiệu thoại ban đầu. Bộ lọc tổng hợp thường là một bộ lọc tuyếntính, ngắn hạn nhưng nó cũng có thể bao gồm một bộ lọc độ cao âm thanh (pitch filter)liên quan đến mô hình tuần hoàn dài hạn của tín hiệu thoại. Phương pháp này cung cấptín hiệu thoại có chất lượng cao tại tốc độ bit thấp. Tuy nhiên độ phức tạp của phươngpháp này là khá lớn bởi vì tất cả các tín hiệu kích thích có thể có đều phải được đưa quabộ lọc tổng hợp để tìm ra tín hiệu kích thích thích hợp nhất.Câu IV : Mã hóa âm thanh (ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian, các dải băng tần tới hạn, perceptual coding…) (đã làm ở câu I) Tín hiệu âm thanh có thể được số hóa bởi một thiết bị ADC (Bộ chuyển đổi tương tự/số). ADC nhận tín hiệu đầu vào là điện áp của tín hiệu và đầu ra là các số nhị phân. Xem một ví dụ về một tín hiệu âm thanh ở dạng sóng hình sin (Hình 4.1a). Để biểu diễn tín hiệu này ở dạng số, trước tiên chúng ta lấy mẫu tín hiệu này theo chu ky T (Hình. 4.1b). Nếu 1 tín hiệu âm thanh không phải là một sóng sin chuẩn mà là một sóng sin tổ hợp tuyến tính của nhiều sóng sin khác, và có tần số lớn nhất là f, thì theo định lý Nyquist, tần số lấy mẫu là 2f.

Hình 4.1: (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa Nén âm thanh có thể được thực hiện theo một trong hai cách. Cách thứ nhất là mã hóa dạng sóng, các tín hiệu được biến đổi toán học bằng phép biến đổi Fourier thành các thành phần tần số. Các biến độ của mỗi thành phần sau đó được mã hóa. Mục tiêu là đểtái tạo lại dạng sóng một cách chính xác với số lượng bit mã hóa thấp nhất có thể. Cách thứ hai là mã hóa dựa trên cảm nhận của các giác quan của con người. Ở đây, người ta khai thác một số điểm yếu trong hệ thông thính giác của con người để mã hoá một tín hiệu, đó là mã hóa dựa trên khoa học tâm sinh lý nghe (Psychoacoustics) – cách thức con người cảm nhận âm thanh. Chuẩn nén MP3 dựa trên mã hóa cảm nhận này (perceptual coding). Đặc tính chính của mã hóa cảm nhận là một số âm thanh có thể che các âm thanh khác. Hãy tưởng tượng bạn thổi sáo trong một ngày mùa hè ấm áp. Sau đó, đột ngột có một nhóm thợ gần đó bật búa khoan và bắt đầu phá mặt đường. Khi đó không ai có thểnghe được sáo nữa. Âm thanh của tiếng sáo đã bị che bởi âm thanh của tiếng búa. Do vậyđể mã hoá chỉ cần tần số bằng tần sô của búa bởi vì không thể nghe được tiếng sáo. Đây gọi là che tần số (frequency masking) – khả năng một âm thanh lớn trong một băng tầnsố sẽ che những âm thanh có tần số thấp hơn và do vậy chỉ có thể nghe những âm thanhcó tần số lớn. Trong thực tế, ngay cả sau khi âm thanh của tiếng búa ngừng, cũng không

Page 10: đề Cương xử lý âm thanh hình ảnh

thể nghe thấy các âm thanh của tiếng sáo trong một khoảng thời gian ngắn. Hiện tượng này được gọi là che thời gian (temporal masking).So sánh giữa nén thoại và nén âm thanh được mô tả vắn tắt ở bảng dưới đây

Câu V: Các khái niệm cơ bản về âm thanh, xử lý ảnh, video Đứng trên góc độ cảm nhận của thị giác, ảnh là một sự vật đại diện cho người, sinh vật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biết thông qua hệ thống thị giác hai chiều. Ảnh động (video) như đã thấy trên truyền hình, phim ảnh là tập hợp của nhiều ảnh liên tiếp. Khi một ảnh được số hoá thì nó trở thành ảnh số và ảnh số này lại là tập hợp của các phân tử ảnh nhỏ được gọi là điểm ảnh “pixel”. Mỗi điểm ảnh lại được biểu diễn dưới dạng một số hữu hạn các bit. Ta có thể chia thành 3 loại ảnh khác nhau:

• Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bởi 1 bit, các ảnh này đôi khi còn được gọi là Bi-level hoac Bi-tonal images.

• Ảnh Gray-scale: mỗi điểm ảnh được biểu diễn bằng các mức chói khác nhau, thường thì được biểu diễn bằng 256 mức chói hay 8 bit cho mỗi điểm ảnh.

• Ảnh màu: mỗi điểm ảnh màu được chia ra gồm 1 tín hiệu chói và các tín hiệu màu.Lĩnh vực xử lý ảnh đề cập đến việc xử lý ảnh bằng máy tính số. Trong thực tế, người ta phân chia thành ba loại xử lý của máy tính trong quá trình liên tục từ: mức thấp, mức trung, đến mức cao.- Quá trình xử lý mức thấp liên quan đến những hoạt động như là tiền xử lý ảnh để giảm nhiễu, tăng độ sáng. Một quá trình xử lý thấp có đặc điểm là có đầu vào và đầu ra của nó đều là hình ảnh.- Xử lý ảnh mức trung liên quan đến công việc như phân đọan ảnh (segmentation), mô

Page 11: đề Cương xử lý âm thanh hình ảnh

tả những đối tượng và đưa chúng vào một mẫu thích hợp cho các máy tính xử lý, và phân loại từng đối tượng. Mức trung có đặc điểm đâu vào của nó thường là hình ảnh, nhưng kêt quả đâu ra của nó là thuộc tính trích ra từ những hình ảnh (ví dụ như các cạnh, đường viền của ảnh, và nhận dạng của các đối tượng cá nhân).- Xử lý ảnh mức cao liên quan đến việc "tạo cảm nhận" của một tập các đối tượng nhận dạng, như trong phân tích ảnh, và xa hơn là quá trình thực hiện các chức năng nhận dạng thông thường gần với hệ thống thị giác của con người.

Câu VI: Các bước xử lý ảnh sốCác bước xử lý ảnh số được mô tả ở hình vẽ 6.1 dưới đây.Hình 6.1: Các bước xử lý ảnh số

Các giai đọan chính trong xử lý ảnh:1. Thu nhận hình ảnh: Đây là giai đọan đầu tiên và quan trọng nhất trong toàn bộ quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai đọan sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽbị giảm. Thiêt bị thu nhận có thể là các ống ghi hình chân không (vidicon, plumbicon...)hoac CCD (Charge-Coupled Device).2. Tiền xử lý ảnh: Giai đọan xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường biên, khử nhiễu …3. Phân đọan: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là một trong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nêu thực hiện tách quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức tạp, còn ngược lại nếu quá trình phân đọan được thực hiện quá thô hoặc phân đọan sai thì kết quả nhận được cuôi cùng sẽ không chính xác.4. Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đọan hình ảnh. Các vật thể sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh to nên ranh giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài của chi tiêt ảnh như độ cong, các góc cạnh… Biểu diễn vùng thường được sử dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường vân (texture) hay hình dạng (skeletal).5. Nén ảnh: bao gôm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiêt để lưu trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.6. Nhận dạng: là quá trình phân lọai vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó (ví dụ các phương tiện giao thông có trong ảnh).Câu VII: Các thành phần của hệ thống xử lý ảnh sốThiết bị thu nhận hình ảnh: là thiêt bị biến đổii quang-điên, cho phép biến đổi hình ảnhquang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng só. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai lọai thiếtbị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và CCD.Bo nhớ trong và ngoài: các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để

Page 12: đề Cương xử lý âm thanh hình ảnh

lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu mot ảnhmàu không nén, dung lượng bố nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lýảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý.Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngoài có tốcĐộ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash... 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần(ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ratrong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác nhưgiấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặcbiệt bằng công nghệ nung nóng …Câu trúc của một hệ thống xử lý ảnh số được mô tả ở hình vẽ 7.1 dưới đây.Hình 7.1: Các thành phần chính của hệ thống xử lý ảnh sốBộ xử lý ảnh chuyên dụng: Sử dụng chip xử lý ảnh chuyên dụng, có khả năng th ực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường bao, nén và giải nén video số…Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ cao.Màn hình hiển thị: Hệ thống biên đổi điện - quang hay đèn hình (đen trắng cũng nhưmàu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thànhhình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT(Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hìnhCRT thường có khả năng hiện thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp.Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tấtcả các bộ phận chức năng trong hệ thống xử lý ảnh số.

Câu VIII: Lấy mẫu và lượng tử hóa tín hiệu ảnh, video1. Lấy mẫu và lượng tử hóa tín hiệu ảnh

Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 8.1. Tín hiệu ảnh ứng với một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ biến đổi liên tục (hình 8.1b). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều đọan bằng nhau. Giá trị tín hiệu tới các điểm lấy mẵu được đánh dấu ô vuông trên đồ thị. Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn nhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rải rác nhận được hoàn toàn xác định tín hiệu đó. Để biến đổi tiếp tín hieu thành dạng số, chúng ta phải thực hiện giai đọan lượng tử hóa các mẫu vừa nhận được. Đây là quá trình rời rạc tín hiệu theo biên độ. Trên hình 8.1d thang xám được chia thành 8 mức rời rạc từ mức trắng tới mức đen. Lượng tử hóa được thực hiện đơn giản bằng cách tìm giá trị mức lượng tử gần giống nhất với giá trị th ực của mẫu và gán giá trị này cho mẫu ảnh.

Page 13: đề Cương xử lý âm thanh hình ảnh

Kết quả nhận được sau khi lấy mẫu và lượng tử hóa là chuỗi số rời rạc mô tả biến đổi độ chói trong một dòng ảnh. Nêu thực hiện quá trình số hóa cho tât cả các dòng ảnh từ trên xuống dưới, chúng ta sẽ nhận được ảnh số trong không gian hai chiều.

Hình 8.1: Quá trình số hóa tín hiệu ảnh2. Lấy mẫu và lượng tử hóa tín hiệu Video

Trong những năm gần đây công nghệ phần cứng và những hoạt động chuẩn hóa đã phát triển tới mức có tính khả thi trong việc truyền tải, lưu trữ, xử lý, và xem những tín hiệu video được lưu ở dạng số, và trong việc chia sẻ tín hiệu video giữa các ứng dụng khác nhau. Đó là sự phát triển tự nhiên vì thay đổi tạm thời thường có liên quan đến chuyển động của vài kiểu là thuộc tính quan trọng nhất của một tín hiệu trực quan. Theo lý thuyết, một tín hiệu video tương tự I(x, y, t) trong đó (x, y) là tọa độ không gian liên tục và t là thời gian liên tục thì liên tục trong cả hai chiều thời gian và không gian, vì thông lượng bức xạ vốn có ở độ cảm biến video là liên tục ở mức quan sát bìnhthường. Video số là hiển thị của một hiện tượng tự nhiên trự c quan (thế giới thực), được lấy mẫu theo không gian và thời gian. Một hiện tượng được lấy mẫu ở một điểm thời gianđể tạo ra khung (là hiển thị của hiện tượng trực quan một cách đầy đủ tại thời điểm đó)hoặc một trường (bao gồm các dãy các mẫu về không gian được đánh số chẵn lẻ). Lấymẫu được lặp lại theo chu kì (ví dụ, chu kì 1/25 hoặc 1/30 giây) để tạo ra tín hiệu videođộng. Có 3 bộ mẫu (các thành phần) được yêu câu chủ yếu để hiển thị một hiện tượngtheo màu sắc. Như vậy mỗi một mẫu không gian – thời gian (yêu tô hình ảnh hay pixel)được hiển thị như là một số hay một bộ các số mô tả độ chói và màu sắc của mẫu.

Hình 8.2: Lấy mẫu theo không gian và thời gian của một chuỗi videoLấy mẫu không gian

Đâu ra của một mảng CCD là một tín hiệu tương tự, một tín hiệu điện biến đổihiển thị hình ảnh video. Lấy mẫu tín hiệu tại một thời điểm tạo ra một hình ảnh haykhung hình được lấy mẫu xác định giá trị trong tập các điểm lấy mẫu. Định dạng phổbiến nhất cho một ảnh lấy mẫu là một hình chữ nhật với điểm lấy mẫu nằm trên một hìnhvuông hay lưới chữ nhật. Việc lấy mẫu xảy ra tại một trong các điểm giao nhau trênlưới và hình ảnh được lấy mẫu có thể được tái tạo lại bởi việc hiển thị từng mẫu như là một yếu tố hình ảnh vuông (pixel).Lấy mẫu thời gian

Một hình ảnh video chuyển động được chụp bởi việc chụp theo điểm chữ nhật củatín hiệu theo các chu kì thời gian. Chiếu lại một loạt các khung tạo ra sự chuyển động.Tốc độ lấy mẫu cao hơn (tốc độ khung) cho ta sự chuyển động mượt mà hơn trong cảnhvideo nhưng yêu cầu nhiều mẫu được chụp và lưu nhiều hơn. Tốc độ khung dưới 10 khung trên giây thường được sử dụng cho thông tin video tốc độ bit thấp (vì số lượng thông tin tương đối nhỏ) nhưng sự chuyển động thì khá giật và không tự nhiên ở tốc độnày. Từ 10 đến 20 khung trên giây thì thông dụng hơn cho thông tin video tốc độ bit thấp;hình ảnh trơn tru hơn nhưng chuyển động bị giật có thể xảy ra trong các phần hình ảnhchuyển động nhanh. Lấy mẫu ở 25 đến 30 hình trên giây là chuẩn cho hình ảnh truyền

Page 14: đề Cương xử lý âm thanh hình ảnh

hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60khung trên giây sự chuyển động mượt mà (tuy nhiên chi phí cao cho tôc độ rất cao này)

Câu IX: Tổng quan về nén ảnh Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu câu để tái hiện lại một ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toán học, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quan về mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyền hình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạ o lại hình ảnh gốc hoặc gần đúng của nó.

Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đaphương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏhơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nénảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên màcó trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết đượcphần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượngbit ít hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh, xâp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoả mãn chất lượng yêu cầu, đảm bảo được thông tin cần thiết.

1. Nguyên tắc cơ bản Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giảm lượng số liệu dư thừa số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước. Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Đánh giá cho quá trình thực hiện giải thuật nén là tỉ lệ nén (CN ) được xác định như sau: Nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biểu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối RD của tập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau:RD = 1 – 1/ CN

trong đó:CN = N1 / N2

Trong trường hợp N1 = N2 thì CN = 1 và có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa. Khi N2 << N1 thì CN tiến tới vô cùng và RD

tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn hay tập số liệu thứ hai đã được nén khá nhỏ. Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ làm giảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đề nghị tính số bit cho một điểm trong ảnh nén (Nb). Nó được xác định là tổng sô bit ở ảnh nén chia cho tổng số điểm:Nb = Số bit nén/Số điểmTrong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạ ng và phân biệt.

• Dư thừa mã (Coding Redundancy) Nêu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết(tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thường

Page 15: đề Cương xử lý âm thanh hình ảnh

Sử dụng các mã VLC như mã Huffman, mã RLC v.v... Lượng thông tin vê hình ảnh cóxác suất thấp hơn.

• Dư thừa trong pixel (Interpixel Redundancy) Vì giá trị của bất kỳ một pixel nào đó, cũng có thể được dự báo từ giá trị của cáclân cận của nó, nên thông tin từ các pixels riêng là tương đối nhỏ. Sự tham gia của mộtpixel riêng vào một ảnh là dư thừa. Để giảm độ dư thừa trong pixel của một ảnh, dãy pixel hai chiều dùng cho việc nhìn và nội suy, phải được biến đổi thành một dạng có hiệu quả hơn. Trong các phương pháp nén ảnh được trình bày, ta dùng phép biến đổi cosin rời rạc (DCT) biến đổi pixel từ miền không gian sang miền tần số, bằng cách này se giảm được độ dư thừa số liệu trong pixel ở miền tần số cao.

• Dư thừa tâm sinh lý Bằng trực quan ta thấy, sự thu nhận cường độ sáng thay đổi chỉ giới hạn trong mộtphạm vi nhất định. Hiện tượng này xuât phát từ sự thật là mắt không đáp ứng với cùng độnhạy của tất cả các thông tin nhìn thấy. Thông tin đơn giản có tầm quan trọng ít hơn thông tin khác trong vùng nhìn thấy. Thông tin này được gọi là độ dư thừa tâm lý nhìn.Nó có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh. KhácVới độ dư thừa mã và dư thừa trong pixel, độ dư thừa tâm sinh lý có liên quan đến thôngtin theo định lượng, nó có quan hệ tới việc lượng tử hóa. Điều đó có nghĩa là ánh xạ mộtkhoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đầu ra. Đó là toán tử khôngđảo ngược (mất thông tin) cho kêt quả nén số liệu có tổn hao.

2. Mô hình nénMột hệ thống nén video tiêu biểu (hay bộ mã hoá nguồn) bao gồm: bộ chuyển đổi,Bộ lượng tử hoá, bộ mã hoá (hình 9.1).Hình 9.1: Sơ đồ khối hệ thống nén ảnh tiêu biểu- Bộ chuyển đổi: thường dùng phép biến đổi Cosin rời rạc để tập trung năng lượng tín hiệu vào một số lượng nhỏ các hệ số khai triển để thực hiện phép nén hiệu quả hơn là dùng tín hiệu nguyên thủy.- Bộ lượng tử hoá: tạo ra một lượng kí hiệu giới hạn cho ảnh nén với hai kỹ thuật: lượngtử vô hướng (thực hiện lượng tử hoá cho từng phần dữ liệu) và lượng tử vectơ (thực hiệnlượng tử hoá một lần một khối dữ liệu). Quá trình này không thuận nghịch.- Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi kí hiệu.Các hệ thống nén được phân biệt dựa trên sự kết hợp khác nhau giữa 3 bộ xử lý trên vàđược phân loại như sau:- Hệ thống nén không mất thông tin (lossless data reduction): thực hiện tối thiểu tốc độbit mà không làm méo ảnh, hệ thống còn gọi là nén toàn bit hay có tính chất thuận nghịch.- Hệ thống nén có mất thông tin (loss data reduction): đạt được do trung thực tốt nhất đốivới tốc độ bit cho trước, hệ thống phù hợp áp dụng cho tín hiệu âm thanh và hình ảnh vìcó hệ số nén cao.Trong sơ đồ hình 9.1, tầng chuyển đổi và tầng mã hoá là nơi tín hiệu xử lý không bị tổn thất, tầng lượng tử là có tổn thất. Ngoài ra, dựa trên quan điểm về tổn thất chúng ta có thể phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã hoá nguồn (mã hoá có tổn thất).

Page 16: đề Cương xử lý âm thanh hình ảnh

Câu X: Phân loại các phương pháp nén ảnhCó nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào nguyên lý nén. Cách này phân các phương pháp nén thành hai loại chính:• Nén không mất thông tin: bao gôm các phương pháp nén mà sau khi giải nén ta thu được chính xác dữ liệu gốc.• Nén có mất thông tin: bao gồm các phương pháp mà sau khi giải nén ta không thu được dữ liệu như bản gốc, trong nén ảnh, người ta gọi là các phương pháp “tâm lý thị giác”. Các phương pháp này lợi dụng tính chât của mắt người, chấp nhận một số sai số trong ảnh khi khôi phục lại. Tất nhiên, các phương pháp này chỉ có hiệu quả khi mà độ sai lệch là chấp nhận được bằng mắt thường hay với dung sai nào đó.Cách phân lo i thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta cũng phân thành hai phương pháp:• P2 không gian: thực hiện nén bằng cách tác động trực tiếp lên việc lấy mẫu của ảnh gốc.• Phương pháp sử dụng biến đổi (Transform Coding): tác động lên sự biến đổi của ảnh gốc mà không tác động trực tiếp.Quá trình nén và giải nén có thể được mô tả tóm tắt theo hình vẽ dưới đây:Hình 10: Quá trình nén

Câu XI: Các ppháp mã hóa dùng trong kỹ thuật nén ảnh không tổn thất Trong một vài ứng dụng nén không tổn thất nghĩa là chỉ có thể chấp nhận được sự giảm bớt dữ liệu. Trong một vài trườg hợp khác, nhu cầu việc nén không tổn thất được thúc đẩy bởi việc xem xét hoàn cảnh sử dụng hoặc tính tự nhiên của ảnh sau khi nén. Chúng ta sẽ tập trung vào những kế hoạch của việc nén không tổn thất hiện thời đang được sử dụng. Thông thường chúng cung cấp hệ số nén từ 2-10. Hơn nữa, chúng cũng thích hợp với cả ảnh nhị phân và mức độ xám. Kỹ thuật nén error-free thường bao gồm 2 thao tác tương đối độc lập: (1) việc sắp xếp một biểu diễn ảnh thay thế ảnh cũ trong đó sử dư thừa interpixel của nó được giảm bớt và (2) mã hoá lại biểu diễn ảnh đó để loại trừ tối đa sự dư thừa. Những bước này tương ứng với việc ánh xạ và mã hoá ký tự của kiểu mã hoá nguồn.

1. Mã hoá với độ dài từ mã thay đổi: Để đạt được tốc độ bít thấp hơn, các hệ số biến đổi và các tọa độ của các véc tơ chuyển động được mã với độ dài thay đổi (VLC). Trong VLC, các từ mã ngắn được gán tương ứng các giá trị xác suất cao và các từ mã dài ứng với các giá trị xác suất thấp. Độ dài của các mã nên biên đổi nghịch đảo với xác suất xuất hiện của các kí hiệu trong VLC. Tốc độ bít cần để mã hóa các kí hiệu này là nghịch đảo của logarit của xác suất, tức là log2p. Do dó, entropy của các kí hiệu là sô bít trung bình tối thiểu cần để biểu diễn các kí hiệu:

Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman và mã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC)

Page 17: đề Cương xử lý âm thanh hình ảnh

chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng như giải mã các vec tơ chuyển động.

2. Mã hoá dự đoán không tổn hao: Bây giờ chúng ta quay lại với một phương pháp nén mà nó không yêu cầu việc phân tích một ảnh thành một loạt các mặt phẳng bit. Với cách này quy chung lại là mã hoá dự đoán không tổn hao, được dựa trên cơ sở sự rút gọn đa điểm dư thừa của các điểm trong không gian gần nhau bằng cách rút ra và mã hoá chỉ với các thông tin mới trong mỗi điểm ảnh. Thông tin mới của một điểm ảnh mô tả sự khác nhau giữa các giá trị dự đoán và thực tế của điểm ảnh đó. Hình 1 chỉ ra các thành phàn cơ bản của một hệ thống mã hoá dự đoán không tổn hao. Hệ thống này bao gồm một bộ mã hoá và một bộ giải mã, mỗi khối chứa một bộ dự đoán đồng nhất. Với mỗi điểm ảnh lần lượt của ảnh đầu vào, biểu thị bằng f n , được đưa vào trước tiên trong bộ mã hoá, bộ dự đoán t ạo ra một giá trị dự đoán tước của điểm ảnh trên cơ sở số các đầu vào cũ. Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu thị bởi fn, và được sử dụng để tạo ra sự khác biệt hoặc lỗi dự đoán.

Hình 11: Mã hoá dự đoán không tổn hao: (a) Bộ mã hoá (b) Bộ giải mã Sự khác biệt được mã hoá sử dụng mã hoá loạt dài thay đổi (bằng bộ mã hoá biểu tượng) để tạo ra thành phần tiếp theo của dòng dữ liệu đã nén. Bộ giải mã trong hình 1 (b) tái tạo từ các từ mã loạt dài thay đổi nhận được và thực hiện quá trình đảo:

Câu XI: Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn thất Không như phương pháp nén không tổn thất được đưa ra ở phân trước, nén tổn thất được xây dựng trên cơ sở độ chính xác của việc khôi phục lạ i ảnh trong lúc trao đổi nhằm tăng hiệu quả nén. Nếu kết quả không chính xác (có thể được hiển thị rõ ràng hoặc không) có thể chấp nhận được, sự tăng dần trong việc nén là đáng kể.

1. Mã hoá dự, đoán có tổn thất Như hình 1 chỉ ra, bộ lượng tử, bộ thu toàn bộ chức năng của bộ mã hoá lỗi tự nhiên, được chèn vào giữa bộ mã hoá biểu tượng và điểm mà lỗi dự đoán được tạo ra. Nó ánh xạ lỗi dự đoán tại khoảng giới hạn đầu ra, biểu thị là en, điều thiết lập sự liên đới giữa nén vàkết hợp méo với mã hoá dự đoán tổn hao.Mã hóa DPCM (Differential Pulse Code Modulation) Đây là phương pháp mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát hiện sự giống nhau và khác nhau giữa các điểm ảnh (pixels) gần nhau để tìm cách loại bỏ các thông tin thừa. Phương pháp DPCM còn sử dụng đặc điểm của mắt người (kém nhạy với mức lượng tử có chênh lệch về độ chói giữa điểm ảnh gần nhau, so

Page 18: đề Cương xử lý âm thanh hình ảnh

với mức lượng tử hóa chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về lượng tử hóa. Hình vẽ 2 mô tả sơ đồ khối của bộ mã hóa và giải mã DPCM

Hình 11.1: Mô hình mã hóa dự đoán có tổn thất (a): bộ mã hoá, (b): bộ giải mã

2. Mã hoá biến đổi (transform coding) Trong mã hoá biến đổi, một dòng đảoo ngược chuyển đổi (như biến đổi Fourier) được sử dụng để ánh xạ một ảnh vào một hệ số biến đổi, phân mà sau đó sẽ được lượng tử hoá và mã hoá. Cho hầu hết các ảnh tự nhiên, một số lớn đáng kể các hệ số cường độ nhỏ và được lượng tử thô (hoặc loại bỏ hoàn toàn) với ảnh méo nhỏ. Sự đa dạng trong biến đổi, bao gồm biến đổi rời rạc Fourier (DFT) có thể được sử dụng để biến đổi dữ liệu ảnh. Hình 3 chỉ ra hệ thống mã hoá chuyển đổi đặc trưng. Bộ giải mã thi hành bước đảo chuỗi (với sự loại bỏ thuật toán lượng tử) của bộ giải mã, bộ này thực hiện bốn hoạt động cân xứng đơn giản: Phân tích ảnh nhỏ, biến đổi, lượng tử hoá và mã hóa.Một ảnh đầu vào kích cỡ N×N đầu tiên được chia nhỏ ra thành các ảnh nhỏ cỡ n× n, sau đó được chuyển đổi để tạo ra mạng chuyển đổi ảnh nhỏ, mỗi phần có kích cỡ n× n. Mục đích của quá trình chuyển đổi là để sắp đặt mối tương quan của các điểm ảnh của mỗi ảnh nhỏ, hoặc để gói nhiều thông tin nhất có thể vào một số nhỏ nhất hệ số chuyển đổi. Cuối quá trình mã hoá là việc mã hoá (thường sử dụng mã hoá loạt dài) các hệ số lượng tử. Bất kỳ hay toàn bộ các bước mã hoá chuyển đổi có thể thích ứng với nội dung vùng ảnh gọi là mã hoá chuyển đổi thích ứng hoặc sửa đổi toàn bộ ảnh nhỏ gọi là mã hoá chuyển đổi không thích ứng.

Hình 11.2: Hệ thống mã hóa biến đổi 3.Mã hoá Wavelet Mã hóa Wavelet dựa trên ý tưởng của mã hóa biến đổi, thay vì nén trực tiếp các điểm ảnh (pixel) thì nén các hệ số sau khi biến đổi. Điểm khác nhau cơ bản là Wavelet không chia ra các ảnh con trước khi biến đổi. Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian. Để khắc phục những hạn chế của biến đổi Fourier (FT), phép biến đổi Fourier thời gian ngắn (STFT) được đề xuất. Chỉ có một khác biệt nhỏ giữa STFT và FT là trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ và trong khoảng đó tín hiệu được giả định là tín hiệu ổn định. Để thực hiện kỹ thuật này cần chọn một hàm cửa sổ w sao cho độ dài của cửa sổ đúng bằng các khoảng tín hiệu phân chia. Với phép biến đổi STFT, chúng ta có thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với phép biến đổi FT ta không thực hiện được. Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:X ( f , t ) =∫ [x (t )w (t –τ)] . e-2jᴨf dt

Page 19: đề Cương xử lý âm thanh hình ảnh

Trong dó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác nhau của đọan tín hiệu ta thay đổi giá trị τ. Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giải quyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vãn còn hạnchế. Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet(tương tự như nhân với hàm của số trong biến đổi STFT), rồi thực hiện biến đổi riêng rẽcho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau. Cáchtiếp cận như vậy còn được gọi là: phân tích đ phân giải MRA (Multi Resolution Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau.MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số kém ở các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp.Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuấthiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thờigian dài chẳng hạn như ảnh và khung ảnh video.Hình 3 minh hoạ một hệ thống mã hoá Wavelet

Câu 12: Nén trong ảnh1. Nguyên lý Nén trong ảnh nhằm giảm bớt thông tin dư thừa trong miên không gian. Sử dụng cả hai quá trình nén có tổn hao và nén không tổn hao. Không sử dụng thông tin của các ảnh trước và sau ảnh đang xét.Hình 12.1: Nén trong ảnh (Intra Frame Compression)2. Tiền xử lý

Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khôi lớn riêng biệtkhông chồng lên nhau (MB – Macro Block). Mỗi MB bao gôm 4 block các mẫu tín hiệuchói UY và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB). Số các block của tín hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video. Các block có cùng kích thước, mỗi block là một ma trận điểm ảnh 8x8 được lấy mẫu từ màn hình từ trái sang phải, từ trên xuống dưới. Câu trúc MB phụ thuộc vào loại quét ảnh. Nếu quét liên tục thì các block bao gồmcác mẫu từ các dòng liên tục (nén theo ảnh – frame). Ngược lại trong trường hợp quét xen kẽ, trong 1 block chỉ có các mẫu của một nửa ảnh trên (nén theo mành – field).3.Quá trình biến đổi Cosin rời rạc Biến đổi Cosin rời rạc (DCT) xử lý các giá trị của khối các diểm ảnh dưới một khối các hệ số trong miền tần số. Quá trình mã hoá DCT một chiều gồm 8 điểm ảnh biểu diễn tín hiệu chói trong tiêu chuẩn lấy mẫu 4:2:2. Sự thay đổi đố dọc theo 8 bit trong phạm vi dải tần số từ 0 đến f/2=6.75 MHz. Mã hoá DCT chia phổ này thành 8 dải băng nhỏ hơn. Tương ứng với mọigiải băng tần có một số đặc trưng cho năng lựơng tín hiệu trong dải băng tần đó. Giá trị đầu tiên bên trái đặc trưng cho mức giá trị thành phần một chiều của tín hiệu gọi là hệ số DC. Từ trái sang phải, các hệ số lần lượt biểu diễn các thành phần tần số cao hơn trong tín hiệu ban đầu gọi là hệ số AC.

Page 20: đề Cương xử lý âm thanh hình ảnh

Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phép biến đổi cho khối 8x8 giá trị các điểm chói.Quá trình mã hoá thuận cho khối 8x8 được xác định.

Trong dó: f( i,j ) là các hàm mẫu ban đầu trong khối 8x8 điểm chóiF( u,v ) là các hệ số biến đổi DCT khối 8x8.u là tần số chuẩn hoá theo chiều ngang ( 0<u<7 )v là tần số chuẩn hoá theo chiều đứng ( 0<v<7 )

Quá trình biến đổi DCT không giảm tốc độ dòng số liệu và tính chất đảo ngược (Inverse DCT) tái tạo lại chính xác giá trị điểm ảnh ban đầu nếu các hệ số DCT giữ nguyên.4. Lượng tử hoá khối DCT Quá trình lượng tử hoá khối DCT đóng vai trò quan trọng trong việc thiết kế hệ thống nén video vì việc nó ảnh hưởng trực tiếp đến việc tái tạo lại hình ảnh. Thành phần DC và tần số thấp là các thông số có ý nghĩa nhất của khối điểm ảnh ban đầu. Hệ số DC được lượng tử với độ chính xác 12 bit để tránh các nhiễu xuất hiện giữa các khối điểm ảnh. Trong khi hệ số tương ứng với thành phần tần số cao được lượng tử với độ chính xác 2 bit (do khả năng cảm nhận ở mắt người giảm). Ảnh càng chi tiết thì hệ số thành phần tần số càng lớn, có thể tràn bộ nhớ đệm nếu hệ số trong bảng lượng tử quá thấp.5. Mã hoá Entropy Mã hoá entropy làm tăng độ phức tạp, yêu cầu bộ nhớ lớn hơn so với mã có độ dài cố định và tốc độ bít thay đổi theo thời gian. Khi phân bố xác suất càng lệch khỏi phân bố đều thì xuất hiện càng tăng nhờ mã hoá entropy.6. Bộ nhớ đệmCác từ mã RLC tạo ra dòng số liệu với tốc độ biến đổi, phụ thuộc vào độ phức tạp của ảnh được mã hoá. Số liệu này được ghi vào bộ nhớ đệm, các bit số liệu sẽ được đọc ra từ bộ nhớ đệm này với một tốc độ cố định theo bộ mã hoá. Bộ nhớ đệm không được tràn, rỗng. Quá trình điều khiển được thực hiện bằng trọng số. Nếu bộ nhớ đệm đầy, quá trình lượng tử hoá được thực hiẹn với mức biểu diễn bit ít hơn nhằm tạo ra tốc độ dòng bit nhỏ lại bằng cách tăng hệ số cân bằng của bộ lượng tử.7. Giải mã DCTQuá trình lượng tử hoá ngược được tiến hành theo biểu thức:

Các hệ số sẽ được biến đổi ngược (IDCT) bằng quá trình f( j,k ) để tạo lại khối giá trị các điểm ban đầu theo biểu thức:

Page 21: đề Cương xử lý âm thanh hình ảnh

Hình 12.2: Giải mã DCT

Câu 13: Nén liên ảnh1. Mô hình

Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồn tại trong một khung ảnh (frame); bản chất của sự chuyển động của một đối tượng trong xâu: đó là sự thay đổi vị trí tương đối (toạ độ ngang và dọc) của nó trong từng frame.

Hình 13.1: Mô hình nén liên ảnh Vì một chuỗi ảnh liên tục, lượng thông tin chứa trong mỗi ảnh rất ít từ ảnh này đến ảnh khác. Do đó việc tính toán dự định chuyển vị trí của nội dung ảnh là yếu tố quan trọng của kỹ thuật nén ảnh. Đặc điểm của nén liên ảnh là làm xâp xỉ, bù chuyển động vànén trong ảnh, ý tưởng đó được xây dựng như trong hình 1.

2. Kỹ thuật dự đoán bù chuyển độngNgoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từ

frane này tới frame khác cũng tạo nên ảnh chuyển động. Trong kỹ thuật bù chuyển động,ảnh của frame hiện hành được dự báo từ ảnh của frame kề trước bằng cách làm xâp xỉ chuyển động giữa hai frame và bù chuyển động đó: sự khác nhau giữa frame hiện hànhvà frame dự báo được gọi là phân dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chínhlà dựa vào việc mã hoá phân dư thừa bù chuyển động này. Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnh động, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều so với ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đã giúp tránh được phân dư thừa này bị mã hoá lặp nhiều lần. Sự đánh giá chuyển động của ảnh có thể thực hiện trên toàn khung: người ta chia mỗi khung thành các ô màu nhỏ (thường lấy 8x8 pixel/1ô), sau đó đánh giá chuyển động của từng ô. Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu câu: (1) là Phải xác định biên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung. (2) là Phải xác định cái gì được điền vào không gian trống do vùng ảnh đã chuyển động. trong hệ thống mã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu ảnh trước trong khi tạo lại ảnh tiếp theo; khi bộ mã hoá thực hiện mã hoá khung 2 thì đồng thời phải tạo lại mỗi ảnh (sau khi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này vì bộ giải mã không có chức năng tạo lại các ô màu bù chuyển động. Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung hình (frame) liền kề và tạo ra một vector chuyển động, vector chuyển động sẽ phối hợp với các ô ở trong biên biểu diễn vùng chuyển động được mã hoá trước đó để lập lại các ô này tại vị trí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnh trước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lập trước đó: thành phần dự đoán này được lấy từ đầu vào của khung trước để tạo ra một

Page 22: đề Cương xử lý âm thanh hình ảnh

khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tạ i và ô dự đoán của nó trongkhung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động.3. Ảnh dự đoán trướcPhương pháp mã hoá nhờảnh dự đoán trước sử dụng xác suất các ảnh liên tục trong chuỗi ảnh. Nhờ xác suât này, phần lớn các ảnh trong chuỗi có thể nhận biết gần giống nhau trên cơ sở thông tin chứa trong ảnh. Phương pháp này rất hiệu quả khi chuỗi ảnh là ảnh tĩnh hoàn toàn, trong trường hợp này chỉ cần truyền ảnh đầu tiên là đủ. Khi xuất hiện vật thể chuyển động nào đó phải xác định vật thể này và biểu diễn đặc trưng về sự thay đổi vị trí của nó.Các chuyển động ngoài vùng tìm kiếm không thể thực hiện dự đoán bù chuyển động từ khung hình trước. Trường hợp này sẽ được mã hoá bằng phương pháp nén trong ảnh.Trong khối xác định vecto chuyển động. Vecto chuyển động tính toán sao cho ảnh hiện thi và ảnh dự báo cho ra ảnh khác biệt ở đầu ra. Sô liệu về vecto chuyển động và ảnh khác biệt sẽ được truyền đi. Hạn chế của mô hình này là không biểu diễn phần lớn các chuyển động có thể coi như các chuyển động quay, giảm hoặc tăng lên và các chuyểnđộng phức tạp khác.

Hình13.2: Nén liên ảnh (ảnh dự đoán trước)4. Ảnh dự đoán hai chiềuDự đoán hai chiều theo thời gian, còn gọi là nội suy bù chuyển động sử dụng thông tin trong một khung hình cho trước và một khung hình hiển thị để dự đoán.Mô hình này cho khả năng nén số liệu cao hơn. Hiệu ứng nhiều trong khung hình hiện thị giảm bằng mức nhiễu trung bình của khung hình trước và khung hình sau, có khă năng dự đoán ngoài phạm vi của vùng tìm kiếm nhờ các khung hình tiếp theo.Ảnh dự đoán hai chiêu là kêt quả nội suy giữa hai ảnh để xác định chuản cảa nó, nên sẽ làm thay đổi thứ tự truyền ảnh. Bộ mã hoá ảnh đầu tiên phải truyền cả hai ảnh chuẩn, sau đó mới truyền đến ảnh dự đoán hai chiều.Mã hoá dự đoán giữa các khung hình áp dụng cho các chương trình có ít chuyển động hoặc chuyển động quá chậm.

Hình 13.3: Nén liên ảnh (ảnh dự đoán 2 chiều)Câu 14: Các chuẩn mã hóa thoại.Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông tin liên lạc và cho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và các dịch vụ dựa trên cùng một tham chiếu. Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại :

Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU (ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đên mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định.

Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Ky (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện

Page 23: đề Cương xử lý âm thanh hình ảnh

thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA.

Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới.

Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự.

Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR.

Câu 14: Các chuẩn mã hóa âm thanh1. Các chuẩn mã hóa âm thanh ISO/MPEG

Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén âm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh và hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ MO và ổ cứng máy tính. MPEG, viêt tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên n.cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC JTC1 SC29 WG11. MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít) của bộ mã hóa. Ba bộ mã hóa này tương thích vứi nhau theo cách có thứ tự, có nghĩa là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tất cả các Layer thấp hơn N. Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tât cả các LayerSử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận thức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phầnPhổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhậnĐể xác định mức nhiễu có thể nghe thấy. Trong giai đọan lượng tử hóa và mã hóa, bộ mãhóa sễ cố gắng để chỉ rõ sô bít dữ liệu cần để đáp ứng cả yêu câu dòng bít và hiện tượngche lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ cácthành phần phổ được mã hóa.4.2.2. Doby AC-3Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyên hình chất lượng cao HDTV ở nước Mỹ. AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai đọan đầu tiên của bộ giải mã hoá AC-3 là lây 512 mẫu đầu vào và áp dụng biến đổi MDCT. Để tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các hàm loga và

Page 24: đề Cương xử lý âm thanh hình ảnh

hàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các kênh khác và được đóng thành các khung để truyền đi.4.2.3. AES-3 (Audio Engineering Society-3)Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là định dạng truyên nôi tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ đơn giản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung của Hiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng quảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cânBằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đên 100 mét. Ba tốc độlấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz.

Câu 15: Các chuẩn nén ảnh JPEG1. Chuẩn JPEGJPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG được khẳng định với tiêu chuẩn ISO 10918-1.JPEG là định dạng nén ảnh có tổn thất. Hệ số nén càng cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ không đạt hoàn toàn như hình ảnh gốc. Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá tốt và ít tính toán hơn so với nén MPEG.Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa để làm cho ảnh có nhiều đọan giống nhau hơn thực tế. Bước tiêp theo là lấy mẫu cho các kênh màu (gọi là “downsampling” hoặc “chroma subsampling”). Đây là 1 trong 2 công đọan làm mất thông tin và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệ thống các thông tin màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước. Bước tiếp theo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8 không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khối ảnh sẽ được trừ đi 128. Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã hoá Huffman cho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén cũng như giảm thiểu lỗi.Ở phía giải nén, luông bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử.Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:

Hình 15.1: Sđồ qt nén ảnh theo chuẩn JPEG

Hình 15.2: Sđồ qt giải nén theo chuẩn JPEG2. Chuẩn JPEG-2000Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ JPEG truyên thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được phát

Page 25: đề Cương xử lý âm thanh hình ảnh

triển từ các tiêu chuẩn đã có. Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các miền quan tâm, các thành phần và hơn nữa, tât cả chúng được đưa vào một dòng bit nén đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cần thiết cho bất kỳ một thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩn JPEG-2000. Tính tương thích này là một trong những ưu điểm nổi trổi mà các kỹ thuật xử lý JPEG truyên thống gặp rất nhiều khó khăn.Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến đổi cosin rời rạc dùng mã Huffman, JPEG-2000 sử dụng kỹ thuật mã hóa dạng sóng rời rạc dùng mã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian trong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩn JPEG-2000 mô tả ở hình 3 dưới đây:

Hình 15.3: Sđồ qt nén và giải nén theo chuẩn JPEG-2000Bước 1: Xử lý trước biến đổiDo sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối xứng qua 0. Xử lý trước biến đổi chính là giai đọan đảm bảo dữ liệu đưa vào nén ảnh có dạng trên. Ở phía giải mã, giai đọan xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho dữ liệu ảnh.Bước 2: Biến đổi liên thành phânGiai đọan này sễ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000 sử dụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (RCT) và biên đổi màu không thuận nghịch (ICT) trong đó biên đổi thuận nghịch làm việc với các giá trị nguyên, còn biến đổi không thuận nghịch làm việc với các giá trị thực. ICT và RCT chuyển dữ liệu ảnh từ không gian màu RGB sang YCrCb. RCT được áp dụng trong cả hai dạng thức nén có tổn thất và không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất. Việc áp dụng các biển đổi này trước khi nén ảnh không nằm ngoài mục đích làm tăng hiệu quả nén. Các thành phân Cr, Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y có ảnh hưởng rất lớn tới ảnh.Bước 3: Biến đổi riêng thành phầnBiên đổi riêng thành phân được áp dụng trong JPEG-2000 chính là biên đổi Wavelet.Bước 4: Lượng tử hoá – Giải lượng tử hoáCác hệ số của phép biến đổi sễ được tiến hành lượng tử hoá. Quá trình lượng tử hoá cho phép đạt tỉ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính xác tương ứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được lượng tử hoá theo phép lượng tử hoá vô hướng.Bước 5: Mã hoáCó thể sử dụng nhiều phương pháp mã hoá khác nhau cũng như nhiều cách biên đổi Wavelet khác nhau để có thể thuđược chất lượng ảnh tương ứng với ứng dụng cần xửlý.

JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so với JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất là 2 lần so với JPEG. Với tần số nén cao, chât lượng của hình ảnh giảm ít hơn. Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu câu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có the tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị.

Page 26: đề Cương xử lý âm thanh hình ảnh

Câu 16: Các chuẩn nén video MPEG1. MPEG-1Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết kế để cung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM. Chuẩn MPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm cả ghép kênh video và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về audio nén.Các đặc tính của MPEG-1Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0 (Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels.Mỗi khung video được mã hóa để tạo ra một bước ảnh mã hóa. Có 3 loại chính: các ảnh I, các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D nhưng loại này hiếm khi sử dụng trong các ứng dụng thực tế).Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm thamkhảo cho những ảnh dự đoán xa hơn.Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo. Do đó một ảnh loại P được dự đoán sử dụng dự đoán chuyển tiếp và bản thân một ảnh P có thể được sử dụng làm tham khảo cho các ảnh dự đoán xa hơn.Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc ảnh I trước và sau ảnh B hiện tại. Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán (chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trong macroblock sai phân. Bản thân các ảnh loại B không được sử dụng như các tham khảo dự đoán cho bất kỳ khung dự đoán xa hơn nào.Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó, chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thựctế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chianhững chức năng nhất định.

2. MPEG-2Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là truyền hình số. Để cung cấp một số lựa chọn cải tiến cho truyên hình tương tự, một vài đặc tính chủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu quả các kích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân giải của ITU-R 601) và mã hóa video kêt hợp. Với những độ phân giải chất lượng truyền hình, video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng những yêu câu này.MPEG-2 bao gồm 3 phân chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) và Systems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồng audio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:

Mã hóa hiệu quả video với chất lượng truyền hình Hỗ trợ mã hóa video kết hợp Khả năng phân cấp : Phân cấp theo không gian, phân cấp theo thời gian, phân

cấp SNR, phân vùng dữ liệu.

Page 27: đề Cương xử lý âm thanh hình ảnh

3. MPEG-4Chuẩn MPEG-4 được phát triển với mục đích mở rộng khả năng của những chuẩn trước đó theo một số hướng. Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-1 và MPEG-2 có hiệu quả chấp nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps. Tuy nhiên, nhiều ứng dụng nổi bật (đặc biệt là các ứng dụng dựa trên Internet) yêu cầu tốc độ bit truyền rất thấp hơnNhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp.Hỗ trợ mã hóa dựa trên đối tượng: một cảnh video có thể được xử lý như một tập các đối tượng nền và đối tượng cận cảnh hơn là chỉ như một chuỗi các khung hcn. Loại mã hóa này mở ra một dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một cảnh, dùng lại các thành phần cảnh, ghép lại (các vật thể từ một số nguồn được kết hợp trong một cảnh) và độ tương tác cao.Mã hóa dựa trên bộ công cụ: MPEG-1 có độ linh động rât hạn chế, MPEG-2 đưa ra khái niệm về ‘bộ công cụ’ gồm các profile và level mà có thể kết hợp theo nhiều cách cho các ứng dụng khác nhau. MPEG-4 mở rộng đặc điểm này thành một tập hợp các công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một khung chuẩn hóa cho phép các công cụ mới được thêm vào ‘bộ công cụ’.Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thể được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các công cụ cũng tiêp tục tăng lên.4. MPEG-7Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để mô tả nhiều loại thông tin đa phương tiện với các codec chuẩn, cũng như những cơ sở dữ liệu khác và thậm chí cả thông tin nghe nhìn tương tự. Các bộ mô tả cùng với các cơ chế mô tả sẽ được kết hợp với bản thân nội dung để tạo ra một phương pháp tìm kiếm tài liệu nhanh và có hiệu quả của người dùng.Cùng với việc mô tả nội dung, có thể cần thêm một số loại thông tin khác về dữ liệu đa phương tiện, như: dạng, Những điều kiện để truy cập tài liệu, sự phân loại, Liên kết đến dữ liệu liên quan khác, bối cảnh.Các phân tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng. Hiện nay MPEG-7 cũng tạo ra mảng lưới có khả năng tìm kiếm nội dung đa phương tiện như khảnăng tìm kiếm văn bản. Điều này có thể áp dụng cho việc thu được nội dung lớn cũng như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhằm mụcđích mua sắm. Thông tin sử dụng cho việc khôi phục nội dung có thể được sử dụng bởicác thực thể, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân.4.4.4.5. MPEG-21Việc phát triển một khung đa phương tiện chung sẽ làm cho sự liên kết giữa những bộ phận như những người cung câp nội dung, tài chính, truyền thông, máy tính và các bộ phận điển tử của người sử dụng và các khách hàng trở nên thuận tiện và hỗ trợ sợ hoạt động và tích hợp hiệu quả hơn cho những mô hình, nguyên tắc, lợi nhuận và các khuôn dạng ndung. Đây là nhiệm vụ của dự án về khung đa phương tiện dưới cái tên MPEG 21.

Page 28: đề Cương xử lý âm thanh hình ảnh

MPEG-21 là một chuẩn được mong đợi với mục tiêu mô tả một ‘bức tranh lớn’ cho việc làm thế nào để các phân tử khác nhau có thể xây dựng một cơ sử hạ tầng cho việc phân phối và sử dụng nội dung đa phương tiện – đang tồn tại hoặc đang được phát triển – có thể làm việc cùng nhau. MPEG-21 bao gôm 1 phát biểu chung về dung đa phương tiện, 1 ngôn ngữ làm đơn giản hóa sự tương thích động của nội dung vào mạng phân phối và các thiết bị sử dụng, và nhiều công cụ khác nhau để làm cho sự quản lý các quyền số có khả năng liên kết.