16
간기술동향 2019. 8. 14. 2 www.iitp.kr * I. 서론 시스코에서는 매년 비주얼 네트워크 인덱스(Visual Networking Index)를 발표하고 * 본 내용은 최진수 책임연구원(☎ 042-860-5185, [email protected])에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다. ***이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임[No. 2017-0-00072, 초실감 테라미디어를 위한 AV부호화 및 LF미디어 원천기술 개발] 오늘날 인터넷 트래픽의 70% 이상을 비디오가 차지하고 있고, 이 비중은 앞으로 더욱 더 증가할 것이라는 것은 주지의 사실이다. 이는 기본적으로 네트워크의 대역폭을 늘리기 위한 고효율 전송 기술과 화질을 유지하면서 데이 터를 줄이기 위한 고압축 부호화 기술의 발전에 기인한 것이다. 이러한 기술의 발전은 단순히 비디오의 양적인 증가에만 영향을 미칠 뿐만 아니라 4K/8K UHDTV(Ultra High Definition TV) 방송이나 VR(Virtual Reality)/AR (Augmented Reality) 등 몰입형 미디어의 출현과 같이 질적인 향상에도 영향을 미치고 있으며, 궁극적으로는 사람들이 듣고 보고 느끼는 것과 동일한 수준의 실감미디어로 발전될 것으로 예상된다. 이러한 추세는 전세계 미디어 전문가들이 모이는 MPEG(Moving Picture Experts Group) 표준화 회의에서 진행하고 있는 MPEG-I (Immersive) 프로젝트에서도 확인할 수 있다. 본 고에서는 MPEG-I에서 논의되는 실감미디어 부호화 기술 및 표준화 현황에 대해 살펴보고자 하며, 이에 앞서 MPEG-I가 시작된 배경을 실감미디어의 개념 및 발전 전망을 통해 짚어본다. chapter 1 실감미디어 부호화 기술 동향 최진수 강정원 조승현 정세윤 이태진 김휘용 한국전자통신연구원 책임연구원 한국전자통신연구원 책임연구원 한국전자통신연구원 책임연구원 한국전자통신연구원 책임연구원 한국전자통신연구원 책임연구원 한국전자통신연구원 책임연구원 한국전자통신연구원 책임연구원 기획시리즈

실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

2 www.iitp.kr

*

I. 서론

시스코에서는 매년 비주얼 네트워크 인덱스(Visual Networking Index)를 발표하고

* 본 내용은 최진수 책임연구원(☎ 042-860-5185, [email protected])에게 문의하시기 바랍니다.** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.***이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임[No.

2017-0-00072, 초실감 테라미디어를 위한 AV부호화 및 LF미디어 원천기술 개발]

오늘날 인터넷 트래픽의 70% 이상을 비디오가 차지하고 있고, 이 비중은 앞으로 더욱 더 증가할 것이라는 것은 주지의 사실이다. 이는 기본적으로 네트워크의 대역폭을 늘리기 위한 고효율 전송 기술과 화질을 유지하면서 데이터를 줄이기 위한 고압축 부호화 기술의 발전에 기인한 것이다. 이러한 기술의 발전은 단순히 비디오의 양적인 증가에만 영향을 미칠 뿐만 아니라 4K/8K UHDTV(Ultra High Definition TV) 방송이나 VR(Virtual Reality)/AR (Augmented Reality) 등 몰입형 미디어의 출현과 같이 질적인 향상에도 영향을 미치고 있으며, 궁극적으로는 사람들이 듣고 보고 느끼는 것과 동일한 수준의 실감미디어로 발전될 것으로 예상된다. 이러한 추세는 전세계 미디어 전문가들이 모이는 MPEG(Moving Picture Experts Group) 표준화 회의에서 진행하고 있는 MPEG-I (Immersive) 프로젝트에서도 확인할 수 있다. 본 고에서는 MPEG-I에서 논의되는 실감미디어 부호화 기술 및 표준화 현황에 대해 살펴보고자 하며, 이에 앞서 MPEG-I가 시작된 배경을 실감미디어의 개념 및 발전 전망을 통해 짚어본다.

chapter 1

실감미디어 부호화 기술 동향

•••최진수 ‖ 강정원 ‖ 방 건 ‖ 조승현 ‖ 정세윤 ‖이태진 ‖ 김휘용 ‖

한국전자통신연구원 책임연구원한국전자통신연구원 책임연구원한국전자통신연구원 책임연구원한국전자통신연구원 책임연구원한국전자통신연구원 책임연구원한국전자통신연구원 책임연구원한국전자통신연구원 책임연구원

기획시리즈

Page 2: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 3

있는데, 비주얼 네트워크 인덱스를 통해 향후 5~6년간 인터넷을 통해 흘러 다니는 각종 데이터의 규모가 어느 정도가 될지를 가늠해 볼 수 있다. 시스코는 최근 발표한 “2017- 2022 비주얼 네트워크 인덱스(VNI)” 보고서에서 2017년부터 2022년까지 6년간 발생하는 IP(Internet Protocol) 트래픽이 인터넷 네트워킹이 시작된 이후 2016년 말까지 누적된 IP 트래픽을 초과할 것으로 전망하였다[1]. 연간 IP 트래픽이 2017년 1.5제타바이트(1.5×1021바이트)에서 2022년 4.8제타바이트로 3.2배 증가할 전망이다. 이처럼 엄청난 규모로 IP 트래픽이 증가하는 것은 [표 1]과 같이 2022년까지 세계적으로 280억 개 이상의 기기가 네트워크에 연결되고, 전 세계 인구의 60%(48억 명)가 인터넷을 사용하게 되며, 광대역 네트워크 속도도 지속적으로 증가하여 75.4Mbps에 이르게 되기 때문이다. 그리고 무엇보다 비디오 시청이 증가하여 IP 트래픽의 82%를 비디오가 차지할 것이라는 전망에 근거한 때문이다.

[표 1] 전세계 인터넷 성장 및 트렌드

이처럼 비디오가 데이터의 많은 부분을 차지하게 되는 이유는 인터넷 사용자의 증가, 스마트기기의 확산, 유튜브 등과 같은 영상 공유 플랫폼의 등장으로 언제, 어디서나, 누구나 쉽게 영상을 획득하고 공유하기 쉬워졌을 뿐만 아니라 영상 자체의 특성상 정보와 엔터테인먼트 요소를 동시에 갖고 있기 때문일 것이다. 통상 비디오 서비스는 영상을 획득하기 위한 이미징 센싱 기술과 영상을 화면에 재현하기 위한 디스플레이 기술이 꾸준히 발전함에 따라 저화질 비디오 서비스에서 고화질 비디오 서비스로 발전되어 왔다. 특히, 최근 들어 나타나는 폭발적인 성장세는 기술적인 측면에서 일면 네트워크의 대역폭을 높이기 위한 전송 기술과 비디오 압축률을 높이기 위한 부호화 기술의 발전에 힘입은 바 크다. 속성상 비디오는 음성, 문자, 사진 등의 미디어에 비해 데이터 량을 월등히 많이 발생시키기 때문에 네트워크의 대역폭에 따라 서비스 형태나 품질이 제약받게 된다. 예를 들면,

구분 2017 2022

인터넷 사용자 증가 34억 명 48억 명

기기 및 연결 증가 180억 개 285억 개

광대역 속도 증가 39.0Mbps 75.4Mbps

비디오 시청 증가 트래픽의 75% 트래픽의 82%

<자료> CISCO, CISCO VIsual Networking Index: Forecast and Trends, 2017-2022, 2019[1]

Page 3: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

4 www.iitp.kr

2G, 3G 이동통신망 시대에서는 DMB(Digital Multimedia Broadcasting), 표준 디지털TV 등 SD(Standard Definition) 화질의 서비스를 제공하였으며, 3G, 4G 시대에는 유튜브, 넷플릭스, 모바일 IPTV(Internet Protocol TV) 등 HD(High Definition) 화질의 서비스를 제공하였으며, 4G, 5G 시대에는 증강현실/가상현실 등 4K 화질 이상의 UHD (Ultra High Definition) 서비스가 가능하게 된 것에서 확인해 볼 수 있다. 따라서 네트워크 용량에 따른 서비스 제약을 극복하기 위해 2G, 3G, 4G, 5G와 같이 세대가 거듭되면서 네트워크의 전송 효율을 지속적으로 높이는 기술 개발이 이루어져 왔고, 앞으로도 6G라는 이름으로 기술 개발이 이루어질 것으로 예상된다. 더불어, 영상 신호의 화질 손상을 최소화하면서 데이터를 압축하는 비디오 부호화 기술의 경우에는 2003년 MPEG-4 AVC (Advanced Video Coding) 압축 표준 제정이 완료된 이후, IPTV(Internet Protocol TV), OTT(Over The Top) 서비스를 비롯하여 각종 멀티미디어 기기에 널리 채택됨에 따라 누구나 쉽게 비디오를 획득, 저장, 처리, 제작할 수 있는 상황이 되었다. 또한, 2013년에는 UHD 방송이나 모바일 비디오 서비스를 목표로 AVC 대비 2배 압축 성능을 제공하는 HEVC(High Efficiency Video Coding) 압축 표준이 제정됨에 따라 더욱 많은 비디오 응용 분야에 적용되고 있고, 최근에는 HEVC 대비 2배 압축 성능을 제공하는 VVC (Versatile Video Coding) 압축 표준을 2020년에 제정하는 것을 목표로 표준화가 활발히 이루어지고 있는 상황이다[2]. 이처럼 비디오 부호화 기술은 동일한 네트워크 대역폭에서는 더욱 좋은 품질의 서비스를 제공하거나, 또는 동일 품질이라면 더욱 많은 수의 서비스를 제공할 수 있기 때문에 네트워크의 효용 가치를 더욱 높인다는 측면에서 향후에도 지속적으로 기술 진화가 이루어질 것으로 판단된다.

한편, 유튜브, 넷플릭스 등을 통한 온라인 비디오와 디지털 시네마와 같은 오프라인 비디오가 어디에나 넘쳐나는 비디오의 홍수 속에서 사람들이 어떤 콘텐츠를 선호할 것인가에 대한 궁금증이 생긴다. 이에 대한 답변은 하버드 경영대학원 앨버스 교수가 증명한 연구결과인 블록버스터 전략으로 대신할 수 있을 듯하다. 블록버스터 전략은 제품이나 콘텐츠 생산자들이 자원과 예산 중 상당수를 포트폴리오상 몇 개 소규모 그룹에 투자함으로써 성공 가능성을 높일 수 있음을 증명한 이론이다[3]. 이를테면, 콘텐츠를 소비하는 사람들은 본인들에게 주어진 시간이 하루 24시간으로 제한되어 있기 때문에, 한정된 시간을 기왕이면 대규모의 예산과 자원이 투입된 고품질의 콘텐츠에 소비하게 된다는 것이다. 방송의 경우를 보면, 아날로그 흑백TV에서 시작해서 표준디지털TV, HDTV, 3DTV,

Page 4: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 5

4K/8K UHDTV 방송에 이르기까지 사람들이 한번 좋은 콘텐츠를 소비하게 되면 좀처럼 예전 콘텐츠로 돌아가지 않는다고 할 수 있다. 달리 말하면 일상생활에서 듣고 보는 것과 동일한 수준의 서비스가 기술적으로 제공 가능하다고 하면, 사람들은 본능적으로 그러한 고품질 서비스를 원한다는 것이다. 일반적으로 실생활에서 듣고 보는 것과 같은 느낌을 받는 것을 실감난다고 하고, 이러한 콘텐츠나 미디어를 실감콘텐츠 또는 실감미디어라고 일컫는다[4],[5].

본 고에서는 데이터의 대부분을 이루는 것이 비디오/오디오 콘텐츠이며, 비디오/오디오

콘텐츠 중에서도 고부가가치를 지니는 콘텐츠가 실감콘텐츠 또는 실감미디어임을 감안해

볼 때, 향후 실감미디어의 발전 방향이 어떠할지, 그리고 실감미디어 서비스를 위해 요구

되는 필수 기술 중의 하나인 미디어 부호화 기술의 개발 동향은 어떠한지에 대해 살펴보고

자 한다. 이를 위해, II장에서는 실감미디어의 개념 및 발전 전망에 대해 살펴보고, III장에

서는 ISO/IEC JCT1 SC29 WG11(MPEG)에서 진행 중인 실감미디어 부호화 기술 표준

화 동향 및 향후 전망을 살펴본다. 끝으로 IV장에서는 미디어 기술의 발전을 위해 생각해

보아야 할 점을 언급하는 것으로 결론을 맺는다.

II. 실감미디어의 개념 및 발전 전망

‘실감미디어’에서 ‘실감’의 사전적 의미는 실제로 체험하는 느낌을 말하고, ‘미디어’의

사전적 의미는 문자, 음성, 영상 등의 정보를 전달하고 표현하는 수단을 말한다. 따라서

실감미디어는 사전에 약속된 표현 방식으로 문자, 음성, 영상, 비디오 등의 정보를 획득,

생성, 압축, 저장, 전송, 재현 및 재생성하여 이용자에게 새로운 가치와 지식을 실감있게

제공할 수 있는 가치사슬 전체, 즉 콘텐츠(C), 플랫폼(P), 네트워크(N), 디바이스(D)를 포

괄하는 수단으로 정의할 수 있다. 이때 미디어의 가치사슬 중 이용자에게 있어서 무엇보다

중요한 것은 콘텐츠이고, 나머지는 콘텐츠 이용을 위한 수단 또는 도구로서의 역할이 크다

고 할 수 있다. 실제 비디오, 오디오로 대별되는 콘텐츠는 기술의 발전에 따라 사람들이

현실 세상에서 듣고 보고 느끼는 수준 이상의 품질을 제공하는 방향으로 꾸준히 발전해

오고 있다. 예로서, 방송의 경우 아날로그 흑백TV 방송에서 시작해서 디지털 HDTV 방송,

3DTV 방송, 4K/8K UHD 방송, UWV(Ultra Wide Vision), 360비디오 서비스에 이르

Page 5: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

6 www.iitp.kr

고 있고, 향후에는 라이트필드, 포인트 클라우드, 홀로그램과 같이 완전입체를 제공하는

방향으로 발전할 것으로 예상된다.

‘실감’을 좀 더 구체적으로 표현하면 [그림 1]과 같이 사실감, 현장감, 몰입감, 입체감을

극대화함으로써 체험하게 되는 느낌을 말한다. 여기서 사실감은 실제의 현상과 부합하는,

거짓이 아닌 참의 느낌으로서, 화면상의 사물과 현실 속의 사물을 동일하게 느끼는 것을

말하며, 현장감은 어떤 일이 이루어지고 있는 현장에서 느낄 수 있는 느낌으로서, 이용자

는 화면 앞에 있지만 현장에 있는 듯한 느낌을 말한다. 몰입감은 깊이 파고들거나 빠지는

느낌을, 입체감은 삼차원의 공간적 부피를 가진 물체를 보는 것과 같은 느낌을 말한다.

이러한 각각의 느낌은 비디오와 오디오를 정의하는 신호 품질 요소에 따라 영향을 받게

된다. 비디오의 품질 요소는 공간해상도(화소수), 시간해상도, 명암비, 색영역, 비트심도,

시야각(화면크기/시청거리), 움직임 자유도, 입체요인(깊이, 운동시차, 원근, 그림자, 가려

짐) 등으로 정의할 수 있고, 오디오의 품질 요소는 시간해상도, 비트심도, 공간해상도(객체

수, 채널 수)로 정의할 수 있다. 실제 사실감에 영향을 미치는 비디오의 품질 요소는 공간

해상도, 시간해상도, 명암비, 색영역, 비트심도이고, 현장감에 영향을 미치는 비디오의 품

질요소는 시야각이며, 몰입감은 시야각과 움직임 자유도가 크게 영향을 주는 품질 요소이

다. 그리고 입체감의 경우에는 깊이, 운동시차, 원근, 그림자, 가려짐과 같은 입체요인이

영향을 주는 품질 요소이다. 특히, 몰입감의 경우에는 비디오와 오디오 품질 요소뿐만 아

니라 제스처, 인터랙션, 촉각, 후각 등의 품질 요소도 영향을 미친다고 할 수 있다. 그리고

<자료> 한국전자통신연구원 자체 작성

[그림 1] 비디오, 오디오 품질 요소와 사람이 인지하는 느낌과의 상관관계

Page 6: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 7

오디오의 경우에는 사실감에 영향을 주는 품질 요소는 시간해상도와 비트심도이고, 현장

감, 몰입감, 입체감에 영향을 주는 품질 요소는 공간해상도(객체 수, 채널 수)이다. 서비스

를 예로 들어 보면 사실감을 극대화하려는 서비스는 UHD 서비스, 현장감을 극대화하는

서비스는 화면 종횡비가 넓은 UWV 서비스, 몰입감을 극대화하는 서비스는 AR/VR 서비

스, 입체감을 극대화하는 서비스는 라이트필드, 포인트 클라우드, 홀로그램이 있을 수 있

다. 궁극적으로는 이러한 미디어 서비스들이 시공간적으로 어우러져 가상과 현실을 구분

할 수 없을 정도의 초실감 서비스를 제공하는 방향으로 발전할 것으로 전망되며, 본 고에

서는 이러한 초실감 미디어 서비스를 테라미디어 서비스라고 명명한다.

일반적으로 사실감, 현장감, 몰입감, 입체

감을 극대화하기 위해서는 [그림 2]와 같이

더 많은 화소수, 더 빠른 시간해상도, 더 많

은 비트심도, 더 넓은 색영역, 더 높은 명암

비, 더 넓은 시야각(화면비), 더 높은 움직임

자유도, 더 좁은 시점 간격을 지니는 비디오

와 더 빠른 시간해상도, 더 많은 비트심도,

더 많은 채널과 객체의 공간해상도를 지니는

오디오에 의해 실현될 수 있다.

그런데 비디오와 오디오의 품질을 높이기

위해 각각의 품질 요소 값을 무한정 키우면

좋겠지만, 비디오와 오디오의 데이터 량은

각각의 품질 요소의 곱으로 계산되기 때문에

개별 품질 요소의 값을 향상하면 할수록 이

로 인해 생성되는 데이터 량은 기하급수적으

로 늘어나는 문제가 발생한다. 따라서 ISO/

IEC JCT1 SC29 WG11(MPEG)과 같은 표준화 기구에서는 산업계가 요구하는 미디어의

목표 서비스를 파악하고 이를 제공할 수 있는 서비스 요구사항 및 기술 요구사항 등을

수렴하고, 이를 기술적으로 해결하기 위한 표준 개발을 진행하고 있다.

<자료> 한국전자통신연구원 자체 작성

[그림 2] 비디오, 오디오 품질요소의 발전 방향

Page 7: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

8 www.iitp.kr

III. 실감미디어 부호화 기술 동향

2016년 2월 스페인 바르셀로나에서 개최된 모바일 월드 콩그레스(MWC) 2016의 주

요 키워드는 5G와 VR이었다. 2016년을 기점으로 페이스북, 구글, 삼성, 소니 등에서 각

종 VR 기기를 선보이며, VR/AR 산업의 성장 가능성에 주목하게 된 해였다. VR 기기는

세상을 향한 창으로서의 역할을 그간 책상위의 데스크탑PC, 무릎위의 랩탑PC, 손바닥위

의 스마트패드/스마트폰으로부터 이어 받아 이제 바로 눈앞에서 실현하게 된 것이다. VR

기기의 가장 큰 장점은 몰입감을 제공하는 데 있다. 그간 미디어의 발전이 2차원 비디오의

화질과 오디오의 음질을 높이는 방향으로 이루어지다가, 3차원 공간에 비디오와 오디오를

재현함으로써 몰입감을 배가하는 방향으로 발전하게 된 것이다. 몰입감은 사람이 바라보

는 시야각에 비례해서 높아지는데, 정면을 바라보았을 때 인지할 수 있는 사람의 시야각은

좌우로 평균 120도, 상하로는 135도로 알려져 있다. VR기기는 360도 전방위 영상을 준

비하고 있다가 사람이 눈을 돌린다던지, [그림 3]과 같이 머리의 움직임을 통해 바라보는

위치가 변경되었을 때 해당 위치의 영상을 보여줌으로써 시야각을 최대화할 수 있기 때문

에 몰입감을 높일 수 있는 것이다. [그림 3]에서 머리가 고정된 위치에서 x, y, z축을 중심

으로 회전할 수 있으면 3 움직임 자유도(Degree of Freedom: DoF)라고 하고, 3DoF에

<자료> MPEG[9],[10]

[그림 3] 움직임 자유도(Degree of Freedom)

Page 8: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 9

전후, 좌우, 상하 방향으로 시점 이동을 추가하게 되면 6DoF가 지원된다고 정의한다.

6DoF는 VR 기기를 착용한 상태에서 가상공간을 실생활과 유사하게 자유롭게 이동할

수 있는 의미를 포함하기 때문에 몰입감을 극대화할 수 있다. 한편, 오디오의 경우에는

공간상에 펼치지는 비디오와 시공간적으로 동기가 맞지 않게 되면 몰입감을 저해하기 때

문에 청점의 위치도 시점에 맞게 움직임 자유도에 따라 연동되는 것이 중요하다.

[그림 4]는 미디어 서비스의 발전 추세에 따라 적용되는 오디오 및 비디오 부호화 표준

현황을 나타낸 것으로서, 가운데 수직 점선부터는 현재 진행 중이거나 향후 진행 예정인

표준화 현황을 나타낸다. MPEG에서는 UHD 방송과 모바일 HD 비디오 서비스를 지원할

수 있도록 2013년에 HEVC 비디오 표준을 제정하였고, 3차원 입체 음향 서비스를 지원할

수 있도록 2017년에 MPEG-H 3DA 표준을 제정한 바 있다[6]. 2017년 1월부터는

3DoF, 3DoF+, 6DoF 비디오, 라이트필드, 포인트 클라우드, 몰입형 오디오 등의 몰입형

미디어 서비스에 대한 획득, 부호화, 전송, 재현 등 일련의 표준을 제공하기 위해 MPEG-I

(Immersive) 프로젝트를 시작하여 2022년 완료를 목표로 표준화를 진행 중에 있다[7].

3DA: 3D Audio Coding AAC: Advanced Audio Coding AVC: Advanced Video CodingDOF: Degree of Freedom HEVC: High Efficiency Video Coding LF VC: Light Field Video CodingVVC: Versatile Video Coding V-PCC: Video-based Point Cloud CompressionG-PCC: Geometry-based Point Cloud Compression<자료> 한국전자통신연구원 자체 작성[6],[7]

[그림 4] 실감미디어 발전 전망과 미디어 부호화 표준 현황

Page 9: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

10 www.iitp.kr

다음 절에서는 MPEG-I에서 다루고 있는 비디오, 오디오 등 미디어에 대한 표준화 및

기술 동향에 대해 좀 더 살펴보도록 한다.

1. 고해상도 실감형 비디오 부호화 표준화 현황 - Versatile Video Coding

VVC는 비디오 부호화 관련 양대 국제 표준화 그룹인 ISO/IEC MPEG(Moving Picture

Experts Group)과 ITU-T VCEG(Video Coding Experts Group)이 구성한 공동표준

개발팀(Joint Video Experts Team: JVET)에서 HEVC 대비 2배 압축 성능 향상을 목표

로 개발 중인 비디오 부호화 표준으로 MPEG-I의 Part 3, ITU-T의 H.266에 해당한다.

점차 증가하고 있는 실감형 비디오 서비스 요구에 대응하기 위해 VVC는 기존 비디오

부호화 표준들(AVC, HEVC 등)과 달리 HD 및 UHD와 같은 고해상도 비디오뿐만 아니라

고명암비 및 넓은 색영역(DCI P3 이상의 색영역)을 지원하는 HDR(High Dynamic

Range) 비디오와 3DoF를 지원하는 360비디오도 주요 표준 기술 적용 대상으로 고려하

고 있다.

VVC의 표준화 진행 상황을 살펴보면, 121차 MPEG 회의(2018.01.)에서 제안요청서

(Call for Proposal)를 최종 발표하였으며[8], 122차 MPEG 회의(2018.04.)에서 CfP에

대한 23개 제안 기술들의 주관적 화질 평가 결과 및 제안 기술 검토를 진행하여 WD

(Working Draft) 1.0 및 시험모델인 VTM(VVC Test Model) 1.0을 발간하는 것으로

공식적인 표준화를 시작하였다. VTM 1.0은 다수의 기관들이 공통으로 제안한 블록 분할

구조인 사분할 방식에 이분할 및 삼분할이 추가로 가능한 [그림 5]의 블록 분할 구조

(Quad/Binary/Ternary 블록 분할 방식)를 HEVC에 적용하고 HEVC의 일부 툴을 제거

한 형태였으며, 이로 인해 HEVC 대비 비트량 감축률이 8.42% 정도에 그쳤다. 그러나

이후 거듭된 표준화 회의를 통해 CfP에서 최초 제안된 기술들 가운데 높은 부호화 효율을

<자료> JVET

[그림 5] VTM 블록 분할 구조

Page 10: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 11

보인 툴들의 복잡도가 꾸준히 개선됨에 따라 VTM의 부호화 효율이 개선되어 126차

MPEG 회의 결과인 VTM 5.0은 [그림 6]과 같이 HEVC 대비 인코더 복잡도(인코딩 시간)

는 약 10배, 디코더 복잡도(디코딩 시간)는 약 1.7배 수준에서 비트량 감축률 33.14%를

달성하였다[9].

VVC의 주요 채택 기술들로는 가장 높은 부호화 효율을 제공하는 Wiener 필터 기반의

적응적인 루프 필터 기술인 ALF(Adaptive Loop Filter), 카메라나 객체의 평행이동 이외

에 회전, 확대, 축소와 같은 움직임을 보상할 수 있는 어파인 변환 기반 움직임 예측 기술

(Affine Motion Prediction), 인코더에서 전송한 움직임 정보에 기반하여 디코더에서

추가로 움직임을 보정하는 기술(Decoder-side Motion Vector Refinement), DCT

(Discrete Cosine Transform)-2 이외에 DST(Discrete Sine Transform)-7과 DCT-

8을 변환 커널로 사용하는 다중 변환 기술(Multiple Transform Set) 등이 있다.

VVC 표준화에는 국내기관 가운데 ETRI, 삼성전자, LG전자 등이 참여하고 있으며, 외

국기관으로는 퀄컴, 화웨이, HHI, 에릭슨, 파나소닉, 테크니컬러, 텐센트, 미디어텍, 바이

트댄스, 샤프, 소니, 브로드컴, 노키아가 활발하게 참여하고 있다. 향후 표준화 일정으로

127차 MPEG 회의(2019.7.)에서 CD(Committee Draft), 129차 MPEG 회의(2020.1.)

에서 DIS(Draft International Standard), 132차 MPEG 회의(2020. 10.)에서 최종 표

준안인 FDIS(Final DIS)를 발간하는 것으로 표준화가 완료될 예정이다.

(a) HEVC 대비 VTM 부호화 효율 (b) HEVC 대비 VTM 인코딩/디코딩 시간 비율

<자료> JVET

[그림 6] HEVC 대비 VTM의 성능 비교

Page 11: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

12 www.iitp.kr

2. 몰입형 비디오(3DoF+, 6DoF, Light Field) 부호화 표준화 현황

MPEG-I(ISO/IEC 23090 Coded Representation of Immersive Media)는 몰입형 미디어에 대한 MPEG의 차세대 표준화 프로젝트를 의미한다. MPEG-I는 비디오, 오디오에서 시스템 요소에 이르기까지 몰입형 미디어를 위한 전체 에코시스템을 대상으로 하는 표준 기술로 구성되어 있으며, 특히 비디오 측면에서는 360 VR(Virtual Reality) 비디오와 MR(Mixed Reality) 및 6DoF 관련 비디오를 포함한 몰입형 비디오에 대한 효율적인 부호화 방식에 대한 표준화를 진행하고 있는데, 몰입감 단계를 3DoF, 3DoF+, 6DoF로 나누어 2022년까지 점진적으로 표준화를 진행할 예정이다[10].

가. 3DoF+ 비디오 부호화 기술

3DoF+ 비디오는 사용자가 앉아 있는 상태에서 XYZ-축의 회전 및 제한된 범위 내에서의 이동을 허용하는 서비스를 목표로 삼고 있으며, 3DoF+ 부호화 표준화에서는 HEVC를 사용하여 다시점 360도 비디오와 깊이 영상을 부호화하여 효과적으로 전송할 때 필요한 메타데이터 표준화를 진행하고 있다. 최근 124차 MPEG 회의에서 CfR(Call for Response)에 대해 총 5편의 기고서가 인텔, 노키아, 테크니컬러, ETRI, 포즈난대학교, 필립스 등에서 제출되었으며, 2020년 7월까지 표준 완료 예정이다[11].

나. 6DoF 및 Dense Light Field 비디오 부호화 기술

MPEG-I의 6DoF 비디오 서비스는 2차원 배열 형태로 배치된 카메라들로부터 획득된 비디오와 깊이 영상을 이용해서 사용자의 자유로운 움직임에 따라 바뀌는 시점 영상을 제공하는 것을 의미한다. 이를 위해 필요한 다시점 비디오와 깊이 영상의 효율적인 부·복호화 기술을 표준화하는 것을 목표로 하고 있다. 현재는 표준화 전단계인 탐색 실험 단계로서 프랑스의 오렌지랩을 중심으로 다시점 비디오의 시점간 예측 시 다양한 인접 시점 참조 구조 방식에 대한 실험이 진행 중이다. 또한, 조밀하게 배치된 마이크로 렌즈로 구성된 단일 카메라로부터 획득된 Dense Light Field 비디오를 위한 부호화 기술 역시 탐색 실험 단계로서 일본 나고야 대학을 중심으로 단일 부호화 방식인 HEVC와 다시점 비디오 부호화 방식인 MV-HEVC에서 각각 IBC(Intra Block Copy) 기술과 시점간 예측 기술에 대한 비교 실험 및 관련 향상 기술 탐색이 진행 중이다. 6DoF 비디오와 Dense Light Field 비디오 부호화 기술에 대해서는 2020년부터 본격적인 표준화가 진행될 것으로 예

Page 12: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 13

상되며, 2022년 말까지 표준을 완료할 예정이다.

3. 포인트 클라우드 부호화 표준화 현황

포인트 클라우드(Point Cloud)는 3D 모델의 획득 과정에서 추출된 샘플들의 모임을

의미한다. 최근까지는 포인트 클라우드의 데이터 용량을 줄이는 방법으로 메시(Mesh) 형

태로 변환하여 이를 압축하는 메시 압축 방법이 일반적이었으나, 포인트 클라우드 자체의

사용범위가 넓어짐에 따라 포인트 클라우드 데이터 압축에 대한 관심이 높아지고 있다.

이에 MPEG에서도 2017년 120차 MPEG 회의부터 본격적인 포인트 클라우드 부호화

표준화를 시작하게 되었다. 이때 CfR에 대해 테크니컬러, 노키아, 삼성, 소니, 애플 등이

포함된 8개 회사가 기술 제안서를 제출하였으며, 데이터 특성에 따라 객체 중심인 동적

포인트 클라우드 부호화를 위한 V-PCC(Video based Point Cloud Compression) 기

술과 지형 배경 중심의 정적 포인트 클라우드 부호화를 위한 G-PCC(Geometry based

Point Cloud Compression) 기술로 표준화가 각각 진행되고 있다. 2019년 124차

MPEG회의에서 V-PCC는 WD 문서가 만들어졌으며, V-PCC 표준은 2020년, G-PCC

표준은 2021년에 완료 예정으로 표준화가 진행 중이다[12]-[14].

가. 동적 포인트 클라우드 부호화 기술

동적 포인트 클라우드 부호화 기술인 V-PCC는 포인트 클라우드 데이터를 2차원 비디

오 시퀀스로 변환하여 이를 HEVC로 압축하는 기술이 사용된다. 비디오 시퀀스 이외에도

Patch generation

Packing

Geometry image

generation

Texture image

generation

Occupancy map compression

Image padding

Com

pressed

bitstream

Input point cloudframe

Occupancymap

Auxiliary patch‐info compression

Patch info

Textureimages

Geometry images

Paddedgeometry images

Paddedtextureimages

Compressedgeometry video

CompressedTexturevideo

multip

lexer

Compressed occupancy

map

Compressed auxiliary patch information

Reconstructed geometry imagesSmoothing

Video Compression

Smoothed geometry

<자료> MPEG[12]-[14]

[그림 7] V-PCC 부호화기의 구조

Page 13: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

14 www.iitp.kr

다양한 표현 정보를 메타 데이터로 만들어 추가적으로 비트스트림에 포함시켜 포인트 클

라우드 복원 시에 사용할 수 있도록 하는 구조로 되어 있다. [그림 7]과 같이 부호화 구조

는 포인트 클라우드의 각 면을 매 프레임마다 2D 평면에 투영시켜 여러 조각으로 구성된

패치영상과 관련된 패치정보와 거리정보 맵을 생성하고 이를 비디오 부호화기로 압축하는

구조를 갖고 있다.

나. 정적 포인트 클라우드 부호화 기술

자율주행 등에 활용될 수 있는 대규모 지형정보를 담을 수 있는 포인트 클라우드는 정적

형태로 저장되어야 하는데 MPEG에서는 이를 위해 G-PCC 부호화 기술에 대한 표준화도

진행 중에 있다. 포인트 클라우드는 위치정보와 칼라 등의 속성정보로 나누어 압축하며,

[그림 8]과 같이 위치정보의 압축은 옥트리(Octree) 기반의 압축 방식을 사용하며, 옥트리

분할은 포인트 클라우드 세분화 정도에 따라 분할이 이루어지며, 옥트리 구조에서 동일

레벨의 노드들간 상관관계로 생성된 정보(Level of Detail Generation)를 기반으로 보

간 기반 예측과 양자화 기술을 사용하여 컬러정보를 부호화하고 있다.

4. 몰입형 오디오 기술 현황

MPEG 오디오 서브그룹에서는 가상공간에서 청취자의 자유로운 6DoF 움직임에 따른

자연스러운 몰입형 오디오 서비스 제공을 위한 MPEG-I 오디오 표준화를 진행하고 있다.

MPEG-I 오디오는 가상공간을 자유롭게 이동하는 청취자의 위치에 따라 변화하는 음원의

Level of detail generation

Arith

met

ic c

odin

g

Oct

ree

enco

din

g

Interpolation‐based prediction

Quan

tiza

tion

Qua

ntizat

ion

Dup

licat

ed p

oin

ts

rem

ovalPositions

Quantize

d po

sitions

Filtere

d positions

AttributesAttributes transfer

Occupancy symbols

Transferred attributes

Re‐ordered positionsLevel of detail

Pre

diction

residual

s

Quant

ized

pre

dict

ion

residuals

Compressed bitstream

Input point cloud

<자료> MPEG[12]-[14]

[그림 8] G-PCC 부호화기의 구조

Page 14: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 15

방향성과 가상공간의 반사음 및 잔향음을 제공하기 위한 메타데이터와 렌더링 기술을 표

준화 대상으로 하고 있다.

MPEG-I 오디오는 [그림 9]와 같은 구조를 가지고 있으며, 오디오 신호의 압축은

MPEG-H 3D Audio[15]를 활용하고 몰입형 오디오 서비스를 위한 오디오 메타데이터와

메타데이터에 대한 압축기술을 포함하고 있다. 단말에서는 청취자의 6DoF 움직임을 지원

하기 위해 외부에서 청취자의 위치와 방향 정보를 받을 수 있고 인터랙션을 위한 VR 장비

의 컨트롤과 몰입감 향상을 위해 청취자 개인의 HRTF(Head Related Transfer Function)

정보를 입력 받을 수 있다.

MPEG 오디오 서브그룹에서는 125차 MPEG 회의(2019.1.)에서 MPEG-I 오디오를

위해 필요한 일반적인 요구사항과 렌더링, 인터페이스, 호환성 등 27개의 요구사항을 승

인하였고[17], 현재 MPEG-I 오디오를 위한 평가방법과 평가 아이템 준비를 진행하고

있으며 127차 MPEG 회의(2019.10.)에서 평가방법을 확정할 예정이다.

MPEG-I 오디오 표준화는 한국의 ETRI, 가우디오, 미국의 퀄컴, 돌비, 독일의 프라운호

퍼, 핀란드의 노키아, 네덜란드의 필립스 등에서 활발하게 참여하고 있으며, 129차 MPEG

회의(2020.1.)에서 CfP, 134차 MPEG 회의(2021.4.)에서 CD가 예정되어 있다.

IV. 결론

미디어를 소비하는 대표적인 기기 중의 하나는 TV이다. 아날로그TV 시장의 절대 강자

<자료> MPEG[16]

[그림 9] MPEG-I 오디오 구조

Page 15: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

주간기술동향 2019. 8. 14.

16 www.iitp.kr

였던 일본의 소니, 샤프, 파나소닉 등이 디지털TV 시장에서 우리나라의 삼성전자, LG전자

에 밀려난 해가 2009년이었다. 세계 선진각국에서 디지털TV 방송을 도입하기 시작하던

해가 2000년경이었으니, 개발 시점부터 역산해 보면 10여년 이상이 걸린 것이다. 하지만

LG전자가 인수한 제니스사가 보유하고 있던 지상파 전송 관련 원천 기술을 제외하고는

국내 기업이 오디오, 비디오 부호화 등과 관련된 원천 기술을 보유하고 있지 않은 상황을

생각해 보면 진정한 1위라고 하기에는 한참 부족하였다고 할 수 있다. 한참의 세월이 흘

러, 2017년 5월에 세계 최초로 실시한 4K UHDTV 방송의 경우를 살펴보면 많은 변화가

있었음을 알 수 있다. 4K LCD/OLED TV와 같은 기기 시장에서는 여전히 세계 1위를

놓치지 않고 있을 뿐만 아니라 4K UHDTV 방송이 채택하고 있는 ATSC 3.0 전송 기술,

MPEG-H HEVC 비디오 부호화 기술, MPEG-H 3DA 오디오 부호화 기술 등 핵심 원천

기술에 대해서도 우리나라의 산·학·연에서 많은 지식재산권을 보유하게 된 것이다. 이는

디지털TV에서의 학습효과로 인해 2000년대부터 MPEG 표준화에 우리나라 산·학·연이

적극 참여하였고, 또한 정부에서도 적극 투자한 결과라고 할 수 있겠다. 특히, 상기 기술들

은 TV시장보다 규모가 훨씬 큰 스마트폰 시장을 비롯해서 비디오와 오디오가 요구되는

모든 기기에 활용될 수 있다는 측면에서 그 파급효과는 매우 크다고 할 수 있다. 물론

미디어를 다룬다는 측면에서 보면, 콘텐츠의 획득, 제작, 저장, 부호화, 전송, 재현에 이르

는 미디어 가치사슬 전체를 놓고 볼 때 여전히 일부분의 기술만을 보유하게 되는 상황이기

때문에 만족하기에는 아직 이르다고 할 수 있다.

그러면 앞으로 10년 후에는 어떻게 될 것인가? 본 저자는 앞서 살펴본 MPEG-I 프로젝트를 통해 표준화 중인 여러 형태의 실감미디어 부호화 기술이 새로운 서비스와 새로운 기기에 널리 활용될 것으로 예상한다. 제4차 산업혁명의 핵심은 데이터이고, 데이터의 핵심은 미디어라고 할 수 있기 때문에, 미디어 기술 확보 경쟁에서 뒤처진다는 것은 국가 경쟁력을 상실하는 것이라고 감히 말할 수 있다. 따라서 10년 후에도 여전히 미디어 산업에서 기술 주도권을 갖기 위해서는 기업은 기업대로, 연구소와 대학교는 기관의 특성 맞는 역할을 제대로 할 수 있도록 집중적이고 과감한 투자와 관심이 있어야 할 것이다.

[ 참고문헌 ]

[1] “Cisco Visual Networking Index: Forecast and Trends, 2017-2022,” Cisco, Feb. 2019.[2] https://mpeg.chiariglione.org/standards/mpeg-i/versatile-video-coding

Page 16: 실감미디어 부호화 기술 동향 - ITFIND · 주간기술동향 2019. 8. 14. 8 III. 실감미디어 부호화 기술 동향 2016년 2월 스페인 바르셀로나에서 개최된

방송·스마트미디어콘텐츠

정보통신기획평가원 17

[3] 애니타 앨버스, “블록버스터 법칙: 슈퍼스타 탄생과 엔터테인먼트 산업의 성공비결”, 세종서적, 2014. 1.

[4] “ICT R&D 기술로드맵 2023 - 방송·콘텐츠”, 정보통신기획평가원, 2018. 12.[5] “ICT표준화전략맵 Ver.2019, 실감방송·미디어”, 한국정보통신기술협회, 2018. 10.[6] https://mpeg.chiariglione.org/standards/mpeg-h[7] https://mpeg.chiariglione.org/standards/mpeg-i[8] “Clarification guidance for responses to the CfP on Video Compression with Capability

beyond HEVC,” ISO/IEC JTC1/SC29/WG11, N17438, January 2018.[9] “Test Model 5 of Versatile Video Coding(VTM 5),” ISO/IEC JTC1/SC29/WG11, w18371,

March 2019.[10] “MPEG-I Use Cases for Omnidirectional 6DoF, Windowed 6DoF, and 6DoF,” ISO/IEC

JTC1/SC29/WG11, N16767, April 2017.[11] “Common Test Conditions on 3DoF+ and Windowed 6DoF,” ISO/IEC JTC1/SC29/WG11,

N18089, October 2018.[12] “Use Cases for Point Cloud Compression(PCC),” ISO/IEC JTC1/SC29/WG11 N16331, June

2016.[13] “Call for Proposals for Point Cloud Compression,” ISO/IEC JTC1/SC29/WG11 N16763,

April 2017.[14] “Common test conditions for point cloud compression,” ISO/IEC JTC1/SC29/WG11

N17229, October 2017.[15] “MPEG-H 3D Audio, ISO/IEC 23008-3(MPEG-H Part 3),”ISO/IEC JTC1/SC29/WG11

February 2015.[16] “MPEG-I Audio Architecture and Evaluation for 6DoF,” ISO/IEC JTC1/SC29/WG11

N17177, October 2017.[17] “MPEG-I Audio Architecture and Requirements,” ISO/IEC JTC1/SC29/WG11 N18158,

January 2019.