Kĩ thuật mã hóa Video của chuẩn MPEG4

1. Kĩ thuật mã hóa Video của chuẩn MPEG4

Sự tổ hợp khung hình trong MPEG 4

Trên hình thể hiện một trường hợp điển hình của tổ hợp khuôn hình MPEG-4, cho thấy nhiều đối tượng (bàn, quả cầu, bảng đen, người hướng dẫn và audio) được đặt vào một hệ thống toạ độ không gian 3 chiều (3-D) đối với vị trí người xem giả định. Các thiết bị mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mỗi đối tượng video VO (Video Object) riêng biệt (hình 2), nhờ vậy người sử dụng có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã hoá.

Hình 1 Sự tổ hợp khung hình trong MPEG-4

Các bộ phận chức năng chính trong các thiết bị MPEG-4 bao gồm:

Bộ mã hoá hình dạng ngoài Shape Coder dùng để nén đoạn thông tin, giúp xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene;Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.Bộ mã kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các dữ liệu còn lại sau khi đã bù chuyển động.

Để có thể thực hiện việc tổ hợp khung hình, MPEG-4 sử dụng một ngôn ngữ mô tả khung hình riêng, được gọi là Định dạng nhị phân cho các khung hình BiFS (Binary Format for Scenes). BiFS không chỉ mô tả ở đâu và khi nào các đối tượng xuất hiện trong khung hình, nó cũng mô tả cách thức hoạt động của đối tượng (làm cho một đối tượng xoay tròn hay chồng mờ hai đối tượng lên nhau) và cả điều kiện hoạt động đối tượng và tạo cho MPEG-4 có khả năng tương tác. Trong MPEG-4, tất cả các đối tượng có thể được mã hoá với sơ đồ mã hoá tối ưu riêng của nó – video được mã hoá theo kiểu video, text được mã hoá theo kiểu text, các đồ hoạ được mã hoá theo kiểu đồ hoạ - thay vì việc xử lý tất cả các phần tử ảnh pixels như là mã hoá video ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho từng loại dữ liệu thích hợp, nên chuẩn MPEG-4 sẽ cho phép mã hoá với hiệu quả cao tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình.

Cấu trúc bộ mã hóa và giải mã của MPEG 4

Hình 2 Cấu trúc của bộ mã hoá và giải mã video MPEG-4

là cấu trúc của bộ mã hoá và giải mã Video MPEG - 4, các thiết bị

mã hoá và giải mã video đều áp dụng sơ đồ mã hoá như nhau cho mỗi đối tượng video

(video-object) riêng biệt.Ví dụ khi ta mã hoá và tổng hợp một khung hình, nhiều đối

tượng đầu vào như: ôtô, nhà, người… được tách ra khỏi video đầu vào. Mỗi đối tượng

video sau đó được mã hoá riêng rẽ bởi bộ mã hoá đối tượng video VO (video object)

và được truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ

nhờ bộ giải mã VO decoder và gửi đến bộ tổng hợp Compositor .Vì vậy người sử dụng

có thể thực hiện các hoạt động tương tác riêng với từng đối tượng (thay đổi tỷ lệ, di

chuyển, kết nối, loại bỏ, bổ xung các đối tượng…) ngay tại vị trí giải mã hay mã hoá.

Ngoài ra, người dùng có thể download các đối tượng khác từ thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào

hay thay thế các đối tượng có trong khuôn hình gốc.

Các bộ phận chức năng chính trong các thiết bị MPEG -4 bao gồm:

Bộ mã hoá hình dạng ngoài Shape coder dùng để nén đoạn thông tin, giúp

xác định khu vực và đường viền bao quanh đối tượng trong khung hình scene.

Bộ dự đoán và tổng hợp động để giảm thông tin dư thừa theo thời gian.

Bộ kết cấu mặt ngoài Texture coder dùng để xử lý dữ liệu bên trong và các

dữ liệu còn lại sau khi đã bù chuyển động.

Trong MPEG -4, tất cả các đối tượng có thể có thể được mã hoá với sơ đồ mã hoá

tối ưu riêng của nó: videođược mã hoá theo kiểu video, text được mã hoá theo kiểu

text, các đồ hoạ được mã hoá theo kiểu đồ hoạ… thay vì việc xử lý tất cả các phần tử

ảnh pixels như là mã hoá ảnh động. Do các quá trình mã hoá đã được tối ưu hoá cho

từng loại dữ liệu thích hợp, nên chuẩn MPEG -4 sẽ cho phép mã hoá với hiệu quả cao

tín hiệu ảnh video, audio và cả các nội dung tổng hợp như các bộ mặt và cơ thể hoạt hình.

Hình 3 Sơ đồ cấu trúc giải mã video MPEG-4

Nhiều đối tượng như người, bản đồ, bản tin, được tách ra khỏi video đầu vào. Mỗi đối tượng video sau đó được mã hóa bởi bộ mã hoá đối tượng video VO (Video Object) và sau đó được truyền đi trên mạng. Tại vị trí thu, những đối tượng này được giải mã riêng rẽ nhờ bộ giải mã riêng VO và gửi tới bộ compositor. Người sử dụng có thể tương tác với thiết bị để cấu trúc lại khung hình gốc, hay để xử lý các đối tượng tạo ra một khung hình khác. Ngoài ra, người sử dụng có thể download các đối tượng khác từ các thư viện cơ sở dữ liệu (có sẵn trên thiết bị hay từ xa thông qua mạng LAN, WAN hay Internet) để chèn thêm vào hay thay thế các đối tượng có trong khuôn hình gốc.

1. MPEG 4 video

Các công cụ để đại diện cho video tự nhiên trong tiêu chuẩn hình ảnh MPEG-4 cung cấp công nghệ cốt lõi tiêu chuẩn cho phép hiệu quả lưu trữ, truyền tải và xử lý các kết cấu, hình ảnh và dữ liệu video cho các môi trường đa phương tiện. Những công cụ này cho phép giải mã và đại diện các đơn vị nguyên tử của hình ảnh và nội dung video, được gọi là "đối tượng video" (VOS). Một ví dụ về một VOS có thể là một người nói (không có nền), sau đó có thể được sáng tác với AVO khác (âm thanh, hình ảnh các đối tượng) để tạo ra một cảnh. Hình chữ nhật hình ảnh thông thường được xử lý như một trường hợp đặc biệt của các đối tượng như vậy.

Để đạt được mục tiêu rộng lớn hơn là một giải pháp cho một phạm vi hẹp của các ứng dụng, chức năng phổ biến cho nhiều ứng dụng được nhóm. Do đó, phần hình ảnh của tiêu chuẩn MPEG-4 cung cấp giải pháp theo hình thức các công cụ và các thuật toán cho:

Hiệu quả nén hình ảnh và video. Hiệu quả nén của kết cấu để lập bản đồ kết cấu trên 2-D và mắt lưới 3-D Hiệu quả nén của vật ngầm 2-D Hiệu quả nén của thời gian hình học khác nhau suối động mắt lưới Hiệu quả ngẫu nhiên truy cập vào tất cả các loại của các đối tượng trực quan Thao tác mở rộng chức năng cho hình ảnh và chuỗi video Nội dung dựa trên mã hóa hình ảnh và video Nội dung dựa trên khả năng mở rộng của kết cấu, hình ảnh và video Không gian, thời gian và chất lượng khả năng mở rộng Lỗi vững mạnh và khả năng phục hồi trong môi trường dễ bị lỗi

Như đã đề cập trước, MPEG-4 Vid eo hỗ trợ hình ảnh thông thường hình chữ nhật và video cũng như hình ảnh và video của các hình dạng tùy ý. Khái niệm này được minh họa trong hình 45 dưới đây.

Hình 4 The VLBV Core and the Generic MPEG-4 Coder

http://mpeg.chiariglione.org/standards/mpeg-4/mpeg-419.gif

Các mã hóa hình ảnh thông thường và video cũng tương tự như mã hóa thông thường MPEG-1 / 2. Nó liên quan đến chuyển động dự báo / bồi thường theo sau bởi kết cấu mã hóa. Đối với các chức năng dựa trên nội dung, nơi mà các đầu vào trình chiếu hình ảnh có thể có hình dạng bất kỳ và địa điểm, phương pháp này là kéo dài cũng có mã hóa hình dạng và tính minh bạch thông tin. Hình dạng có thể là đại diện bởi một thành phần trong suốt 8 bit - cho phép các mô tả về tính minh bạch, nếu VO là một trong những sáng tác với các đối tượng khác - hoặc bởi một mặt nạ nhị phân.

Việc mở rộng MPEG-4 phương pháp tiếp cận dựa trên nội dung có thể được xem như là một phần mở rộng hợp lý của MPEG-4 thông thường VLBV Core hoặc tốc độ bit cao đối với các công cụ đầu vào của hình dạng bất kỳ.

1.1. Khả năng mở rộng mã hóa các đối tượng Video

MPEG-4 hỗ trợ việc mã hóa các hình ảnh và video với khả năng mở rộng không gian và thời, cả hai hình chữ nhật với thông thường cũng như với các hình dạng tùy ý. Khả năng mở rộng đề cập đến khả năng giải mã chỉ là một phần của một bitstream và tái tạo lại hình ảnh hoặc các chuỗi hình ảnh với:

giảm độ phức tạp giải mã và do đó làm giảm chất lượng giảm độ phân giải không gian giảm độ phân giải thời với độ phân giải thời gia4n và không gian ngang nhau, nhưng với chất lượng giảm.

Chức năng này là mong muốn cho tiến bộ mã hóa hình ảnh và video gửi qua mạng không đồng nhất, cũng như cho các ứng dụng mà người nhận không có khả năng hiển thị độ phân giải đầy đủ hoặc chất lượng hình ảnh đầy đủ hoặc chuỗi video. Điều này chẳng hạn có thể xảy ra khi chế biến điện hoặc độ phân giải màn hình hiển thị có giới hạn.

Có một số phương án có thể mở rộng mã hóa trong MPEG-4 Visual: khả năng mở rộng không gian, khả năng mở rộng thời gian, khả năng mở rộng độ chi tiết tốt và đối tượng dựa trên khả năng mở rộng không gian.

1.2. Khả năng khắc phn/ục lỗi mạnh mẽ.MPEG-4 cung cấp khả năng phục hồi mạnh mẽ lỗi và cho phép truy cập hoặc các

thông tin hình ảnh video qua một loạt các phương tiện lưu trữ và truyền tải điện. Đặc biệt, do sự tăng trưởng nhanh chóng của truyền thông di động, nó là vô cùng quan trọng là truy cập có sẵn để thông tin âm thanh và video qua mạng không dây. Điều này có nghĩa là cần thiết cho hoạt động hữu ích của các thuật toán nén âm thanh và video trong môi trường dễ bị lỗi ở mức bit thấp (tức là ít hơn 64 kbit / s). Các khả năng phục hồi lỗi công cụ phát triển cho MPEG-4 có thể được chia thành ba khu vực chính: resynchronization, phục hồi dữ liệu, và che giấu lỗi.

1.2.1. Resynchronization Công cụ Resynchronization cố gắng để kích hoạt resynchronization giữa các bộ giải

mã và bitstream sau khi một lỗi còn sót lại hoặc lỗi đã được phát hiện. Nói chung, các dữ liệu giữa các điểm đồng bộ hóa trước khi thông báo lỗi và điểm đầu tiên mà đồng bộ hóa được tái lập, là bỏ đi.

Cách tiếp cận resynchronization được thông qua bởi MPEG-4, được gọi là một cách tiếp cận gói. Nhóm các khối sử dụng bởi các tiêu chuẩn ITU-T H.261 và H.263. Trong các tiêu chuẩn này một gob được định nghĩa là một hoặc nhiều hàng macroblocks (MBs). Vào lúc bắt đầu của một gob mới, thông tin gọi là tiêu đề gob được đặt trong luồng bit này. Thông tin này có tiêu đề chứa mã bắt đầu gob, đó là khác nhau từ một mã số bắt đầu hình ảnh, và cho phép các bộ giải mã để xác định vị trí này gob. Hơn nữa, tiêu đề gob chứa thông tin đó cho phép quá trình giải mã được khởi động lại (tức là, đồng bộ hoá lại các bộ giải mã cho các bitstream và đặt lại tất cả dữ liệu predictively mã hóa).

Các gói dữ liệu video tiếp cận được thông qua bởi MPEG-4 là dựa vào việc cung cấp dấu resynchronization định kỳ trong suốt bitstream này. Nói cách khác, độ dài của các gói dữ liệu video không dựa trên số lượng macroblocks, nhưng thay vào đó số bit có trong gói đó. Nếu số bit chứa trong các gói dữ liệu video hiện tại vượt quá một ngưỡng định trước, sau đó một gói tin video mới được tạo ra ở đầu của các macroblock tiếp theo.

Một điểm đánh dấu resynchronization được sử dụng để phân biệt sự bắt đầu của một gói tin video mới. điểm đánh dấu này là phân biệt được tất cả các từ mã VLC có thể cũng như các mã bắt đầu VOP. Tiêu đề thông tin cũng được cung cấp vào lúc bắt đầu của một gói tin video. Có trong tiêu đề này là các thông tin cần thiết để khởi động lại quá trình giải mã và bao gồm: số macroblock của macroblock đầu tiên có trong gói tin này và tham số lượng tử hóa cần thiết để giải mã mà macroblock đầu tiên. Số macroblock cung cấp các resynchronization cần thiết không gian trong khi các tham số lượng tử cho phép các quá trình phân giải mã được resynchronized.

Cũng bao gồm trong tiêu đề gói tin video là phần mở rộng tiêu đề mã. HEC là một chút rằng, khi kích hoạt, cho thấy sự hiện diện của resynchronization thông tin bổ sung, bao gồm cả cơ sở thời gian đun, VOP tăng thời gian, loại dự đoán VOP, và mã F VOP. Thông tin này bổ sung được làm sẵn có trong trường hợp tiêu đề VOP đã bị hỏng.

Cần lưu ý rằng khi sử dụng các công cụ khả năng phục hồi lỗi trong vòng MPEG-4, một số công cụ hiệu quả nén được sửa đổi. Ví dụ, tất cả các thông tin predictively mã hóa phải được giới hạn trong một gói tin video để ngăn chặn sự lan truyền của các lỗi.

Kết hợp với cách tiếp cận gói video để resynchronization, một phương pháp thứ hai gọi là cố định đồng bộ hóa khoảng cũng đã được thông qua bởi MPEG-4. Phương pháp này đòi hỏi VOP số bắt đầu và đánh dấu resynchronization (tức là khởi đầu của một gói dữ liệu video) chỉ xuất hiện ở vị trí cố định khoảng pháp lý trong bitstream này. Điều này giúp tránh các vấn đề liên quan bắt đầu mô phỏng mã. Đó là, khi lỗi được hiện diện trong một bitstream, có thể cho các lỗi này để giả lập một mã bắt đầu VOP. Trong trường hợp này, khi cố định khoảng cách đồng bộ hóa được sử dụng bộ giải mã chỉ cần thiết để tìm kiếm một mã bắt đầu VOP vào đầu mỗi khoảng cách cố định. Các phương pháp cố định đồng bộ mở rộng khoảng cách tiếp cận này là bất kỳ khoảng thời gian định trước.

1.2.2. Phục hồi dữ liệu Sau khi đồng bộ hóa đã được tái lập, công cụ phục hồi dữ liệu cố gắng để khôi phục

dữ liệu nói chung sẽ bị mất. Những công cụ này không chỉ đơn giản là các mã lỗi sửa chữa, nhưng thay vì kỹ thuật mã hóa dữ liệu một cách kiên cường lỗi. Ví dụ, một công cụ đặc biệt đã được xác nhận bởi Tập đoàn Video là nghịch biến dài Codes (RVLC). Trong phương pháp này, các từ mã có độ dài biến được thiết kế sao cho chúng có thể được đọc cả ở phía trước cũng như hướng ngược lại.

Nói chung, trong một tình huống như thế này, nơi một vụ nổ của các lỗi đã bị hỏng một phần của dữ liệu, tất cả các dữ liệu giữa các điểm đồng bộ hóa hai sẽ bị mất. Tuy nhiên, như trong hình này, RVLC một cho phép một số trong đó dữ liệu được phục hồi. Cần lưu ý rằng các thông số, QP và HEC thể hiện trong hình sự, đại diện cho các lĩnh vực dành riêng trong tiêu đề gói video cho tham số lượng tử hóa và mở rộng đầu mã, tương ứng.

1.2.3. Che giấu lỗi

Lỗi che giấu là một thành phần cực kỳ quan trọng của lỗi codec mạnh mẽ bất kỳ video. Tương tự như các công cụ khả năng phục hồi lỗi nói ở trên, hiệu quả của một chiến lược che giấu lỗi phụ thuộc nhiều vào việc thực hiện các đề án resynchronization. Về cơ bản, nếu phương pháp hiệu quả resynchronization có thể khoanh vùng các lỗi thì vấn đề trở nên che giấu lỗi dể làm hơn nhiều. Đối với các ứng dụng bitrate thấp, các ứng dụng chậm trễ thấp resynchronization hiện Đề án cung cấp kết quả rất chấp nhận được với một chiến lược che giấu đơn giản, chẳng hạn như sao chép các khối từ các khung hình trước đó.

Trong công nhận sự cần thiết để cung cấp khả năng che giấu nâng cao, các đoàn Video đã phát triển một chế độ đàn hồi lỗi bổ sung cải thiện hơn nữa khả năng của bộ giải mã các địa phương hóa một lỗi.

Cụ thể, phương pháp này sử dụng dữ liệu phân vùng bằng cách tách biệt các chuyển động và kết cấu. Cách tiếp cận này yêu cầu một dấu resynchronization thứ hai được chèn vào giữa chuyển động và thông tin kết cấu. Nếu thông tin bị mất kết cấu, phương pháp này sử dụng các thông tin chuyển động để che giấu các lỗi này. Đó là, do sự sai sót thông tin kết cấu được bỏ đi, trong khi chuyển động được sử dụng để chuyển động bồi thường cho người được giải mã trước VOP.

1.2.4. Nhanh chóng phục hồi trong thời gian thực mã hóa Một kỹ thuật mới được phát triển trong MPEG, gọi là NEWPRED, cung cấp một sự

phục hồi lỗi nhanh trong thời gian thực các ứng dụng mã hóa. Nó sử dụng một kênh đầu nguồn từ bộ giải mã để mã hóa các. Bộ mã hóa Các thiết bị chuyển mạch khung tham chiếu adaptively theo các điều kiện lỗi của mạng. NEWPRED không sử dụng làm mới trong nội bộ và nó cung cấp hiệu quả mã hóa cao. Kỹ thuật này đã được chứng minh để làm việc trong điều kiện lỗi căng thẳng:

Burst lỗi trên các mạng không dây (trung bình tỷ lệ lỗi bit là 10e-3, 1ms burst chiều dài).

Packet Loss trên internet (tỷ lệ mất gói là 5%)

1.3. Cải thiện sự ổn định với độ phân giải thời gian trễ thấp Một kỹ thuật đặc biệt sử dụng trong các tình huống mã hóa thời gian thực hiện chuyển đổi độ phân giải động (DRC), một cách để ổn định t ông truyền tải chậm đệm bằng cách giảm thiểu các jitter của số lượng các bit đầu ra được mã hóa trên mỗi VOP. bỏ qua khung hình lớn cũng được ngăn chặn và các bộ mã hóa có thể điều khiển độ phân giải thời ngay cả trong những cảnh đánh giá cao hoạt động. kỹ thuật này đòi hỏi thông tin backchannel được gửi đến các bộ mã hóa, điều này giải thích tại sao nó chỉ hữu dụng trong các tình huống thời gian thực.

Các MPEG-4 hình ảnh và video mã hóa các thuật toán cho một đại diện hiệu quả của các đối tượng trực quan của hình dạng bất kỳ, cũng hỗ trợ cái được gọi là chức năng dựa trên nội dung. Họ hỗ trợ hầu hết các chức năng đã được cung cấp bởi MPEG-1 và MPEG-2, bao gồm nén hiệu quả của các chuỗi hình ảnh chuẩn hình chữ nhật có kích thước ở cấp độ khác nhau của các định dạng đầu vào, tỷ lệ khung hình, độ sâu pixel, tỷ lệ bit, và mức độ khác nhau của không gian, thời gian và chất lượng khả năng mở rộng.

Một phân loại cơ bản của các tỷ lệ bit và chức năng hiện đang được cung cấp bởi các tiêu chuẩn MPEG-4 Visual cho hình ảnh tự nhiên và video được mô tả trong hình 46 bên dưới, mà các cụm tốc độ bit mức so với các bộ chức năng.

Hình 5 Phân loại các hình ảnh MPEG-4 và Video Coding thuật toán và công cụ

Ở cuối một "VLBV Core" (VLBV: Rất thấp tỷ lệ Bit-Video) cung cấp các thuật toán và các công cụ cho các ứng dụng hoạt động ở mức bit-thường từ 5 ... 64 kbits / s, hỗ trợ các trình tự không gian hình ảnh với độ phân giải thấp (thường là lên đến độ phân giải CIF) và tỷ lệ khung hình thấp (thường lên đến 15 Hz). Các ứng dụng cơ bản các chức năng cụ thể được hỗ trợ bởi Core VLBV bao gồm:

Mã hóa các trình tự thông thường hình chữ nhật kích thước hình ảnh với hiệu quả cao và mã hóa mạnh mẽ lỗi cao khả năng phục hồi /, độ trễ thấp và phức tạp thấp cho thời gian thực các ứng dụng đa phương tiện truyền thông.

"Truy cập ngẫu nhiên" và "chuyển tiếp" và "nhanh chóng đảo ngược" hoạt động cho VLB, cơ sở lưu trữ dữ liệu đa phương tiện và các ứng dụng truy cập.

Các chức năng cơ bản giống nhau nêu trên cũng được hỗ trợ ở mức bit cao hơn với tầm cao hơn của các thông số đầu vào không gian và thời lên đến ITU-R Rec. 601 nghị quyết và lớn hơn - sử dụng các thuật toán giống nhau hoặc tương tự và các công cụ như là Core VLBV. Các bit tỷ lệ hình dung phạm vi thông thường từ 64 kbits / s lên tới 10 Mb / s và các ứng dụng hình dung bao gồm đa phương tiện phát sóng, thu hồi tương tác của các tín hiệu với một chất lượng tương đương với truyền hình kỹ thuật số. Đối với các ứng dụng này tại bit cao hơn tỷ giá, còn xen kẽ có thể được đại diện bởi MPEG-4 công cụ mã hóa.

Nội dung dựa trên các chức năng hỗ trợ việc mã hóa riêng biệt và giải mã nội dung (tức là các đối tượng vật lý trong một cảnh, VOS). Đây MPEG-4 tính năng cung cấp cơ chế cơ bản nhất cho tương tác, linh hoạt, đại diện và thao tác với / của Võ nội dung của hình ảnh hoặc video trong lĩnh vực nén, mà không cần phân khúc thêm hoặc chuyển mã ở người nhận.

Đối với hybrid mã hóa của tự nhiên cũng như dữ liệu hình ảnh tổng hợp (ví dụ cho sự hiện diện ảo hoặc môi trường ảo) là mã hóa nội dung dựa trên chức năng cho phép pha trộn một số Võ từ các nguồn khác nhau với các đối tượng tổng hợp, chẳng hạn như là một nền ảo.

Việc mở rộng MPEG-4 thuật toán và các công cụ cho các chức năng dựa trên nội dung có thể được xem như là một tập cha của lõi VLBV và tốc độ bit công cụ cao - có nghĩa là những công cụ được cung cấp bởi các VLBV và cao hơn lõi bitrate được bổ sung bởi các yếu tố bổ sung.

1.4. Thuật toán nén của MPEG 4

Hình 6 Sơ đồ khối cơ bản của MPEG-4 Video coder

Cấu trúc mã hóa cơ bản liên quan đến hình dạng mã hóa bồi thường chuyển động (cho tự ý VOS hình) và cũng như kết cấu dựa trên mã DCT (sử dụng tiêu chuẩn 8x8 DCT hoặc hình dạng thích ứng DCT).

Một lợi thế quan trọng của phương pháp mã hóa nội dung dựa trên MPEG-4 là hiệu suất nén có thể được cải thiện đáng kể đối với một số trình tự video bằng cách sử dụng thích hợp và dành riêng cho đối tượng chuyển động dựa trên dự báo "công cụ" cho từng đối tượng trong một cảnh. Một số kỹ thuật dự đoán chuyển động có thể được sử dụng để mã hóa cho phép trình bày hiệu quả và linh hoạt của các đối tượng:

Tiêu chuẩn 8x8 hoặc 16x16 pixel dựa trên khối chuyển động và dự toán bồi thường, với độ chính xác lên đến ¼ PE.

Chuyển động toàn cầu bồi thường (GMC) cho các đối tượng video: mã hóa của chuyển động toàn cầu cho một đối tượng sử dụng một số lượng nhỏ các thông số. GMC được dựa trên ước lượng chuyển động toàn cầu, cong hình ảnh, quỹ đạo chuyển động mã hóa, và kết cấu mã hóa cho các lỗi dự báo.

Toàn cầu bồi thường dựa trên chuyển động cho các tĩnh "sprites". Một nhân vật tĩnh là một hình ảnh vẫn còn có thể lớn, mô tả toàn cảnh nền. Đối với mỗi hình ảnh liên tiếp trong một chuỗi, chỉ có 8 thông số chuyển động trên toàn cầu mô tả chuyển động của máy ảnh được mã hoá để tái tạo lại các đối tượng. Những thông số này đại diện cho chuyển đổi thích hợp afin của các nhân vật truyền trong khung đầu tiên.

Quý PEL Motion tăng cường độ chính xác của đề án đền bù chuyển động, với chi phí chỉ có cú pháp và tính toán chi phí nhỏ. Một mô tả chuyển động chính xác dẫn đến một lỗi nhỏ hơn và dự báo, do đó, để chất lượng hình ảnh tốt hơn.

Hình dạng, thích ứng DCT: Trong lĩnh vực kết cấu mã hóa, các hình dạng, thích ứng DCT (SA-DCT) cải thiện hiệu suất mã hóa của các đối tượng hình tùy ý. Các thuật toán SA-DCT dựa trên định nghĩa trước bộ cơ sở trực giao của các chức năng một chiều DCT.

Video theo chuỗi bằng cách sử dụng một hình ảnh toàn cảnh nhân vật. Người ta cho rằng các đối tượng nền trước (quần vợt, hình ảnh trên cùng bên phải) có thể được phân đoạn từ nền và hình ảnh toàn cảnh nhân vật có thể được chiết xuất từ tự trước khi mã hóa. (Một bức tranh toàn cảnh nhân vật là một hình ảnh vẫn còn mô tả như là một hình ảnh tĩnh nội dung của nền trên tất cả các khung hình theo thứ tự). Các bức tranh toàn cảnh lớn hình ảnh nhân vật được chuyển đến người nhận chỉ một lần như khung đầu tiên của dãy số để mô tả nền - nhân vật này vẫn còn được lưu trữ trong một bộ đệm ma. Trong mỗi khung hình liên tục chỉ có các thông số máy ảnh có liên quan cho nền được chuyển đến người nhận. Điều này cho phép người nhận để tái tạo lại hình ảnh nền cho mỗi khung hình trong trình tự dựa vào Sprite. Các đối tượng nền trước di chuyển được truyền đi một cách riêng biệt như là một đối tượng video tùy ý, hình dạng. Người nhận soạn cả những hình ảnh nền trước và nền tảng để xây dựng lại một khung hình (dưới hình ảnh trong hình dưới đây). Đối với các ứng dụng chậm trễ thấp có thể truyền tải các nhân vật trong nhiều phần nhỏ hơn khung hình liên tiếp hoặc xây dựng các nhân vật trong bộ giải mã dần dần.

Hình 7 Ví dụ về Sprite mã của chuỗi Video

Mã của Texture và hình ảnh tĩnh:Coding hiệu quả của kết cấu hình ảnh và hình ảnh tĩnh (ví dụ như để được ánh xạ

vào mắt lưới hoạt hình) được hỗ trợ theo phương thức kết cấu hình ảnh của MPEG4. Hình thức này được dựa trên một thuật toán wavelet zerotree cung cấp rất cao hiệu quả mã hóa trong một phạm vi rất rộng các bitrate. Cùng với hiệu suất nén cao, nó cũng cung cấp scalabilities không gian và chất lượng (lên đến 11 cấp độ của khả năng mở rộng không gian và khả năng mở rộng chất lượng liên tục) và đối tượng cũng tùy hình mã hóa. Việc xây dựng cung cấp cho bitstream wavelet có thể mở rộng mã hóa trong các hình thức phân giải hình ảnh của một kim tự tháp để truyền tiến bộ và nâng cao thời gian của hình ảnh tĩnh. Các luồng bit mã hóa cũng dành cho tải của hệ thống phân cấp độ phân giải hình ảnh vào thiết bị đầu cuối được định dạng là "kết cấu MIPmap 'như được sử dụng trong các hệ thống dựng hình 3-D. Công nghệ này cung cấp khả năng mở rộng độ phân giải để đối phó với một loạt các điều kiện xem chi tiết điển hình của các ứng dụng tương tác và lập bản đồ hình ảnh vào 2-D và 3-D thế giới ảo.

Wavelet ốp lát cho phép hình ảnh được chia thành một số gạch ngói từng được mã hóa độc lập. Điều này có nghĩa là hình ảnh lớn được mã hóa / giải mã với yêu cầu bộ nhớ rất thấp, và truy cập ngẫu nhiên tại giải mã được tăng cường đáng kể.

Khả năng mở rộng hình dạng mã hóa cho phép mã hóa của kết cấu hình tùy ý và vẫn còn hình ảnh trong một thời trang có thể mở rộng. Sử dụng công cụ này, một bộ giải mã có thể giải mã một hình ảnh bất kỳ hình ở bất kỳ độ phân giải mong muốn. Công cụ này cho phép các ứng dụng để sử dụng scalabilities đối tượng dựa trên, không gian và chất lượng cùng một lúc.

Để giải mã vẫn còn hình ảnh, MPEG-4 tiêu chuẩn cung cấp khả năng mở rộng không gian với lên đến 11 mức độ chi tiết và cũng có khả năng mở rộng chất lượng đến mức bit.

Tổng hợp các đối tượng hình thành một tập hợp con của lớp lớn hơn của đồ họa máy tính. MPEG-4 hỗ trợ các hình ảnh các đối tượng sau đây tổng hợp:

Tham số mô tả o Một tổng hợp các mặt và cơ thể (cơ thể hoạt hình trong phiên bản 2) o Tĩnh và động Mesh mã với bản đồ kết cấu

Kết cấu mã hóa cho các ứng dụng phụ thuộc.

Documents

Kĩ thuật mã hóa Video của chuẩn MPEG4