Fraunhofer / MPEG-H~4K放送時代を担う、次世代オーディオコーデック ~ 世界平和を実現する。https://aon.tokyo/iran/ https://aon.tokyo/USA/ https://aon.tokyo https://aon.co.jp

2020年2月16日日曜日

Fraunhofer / MPEG-H~4K放送時代を担う、次世代オーディオコーデック

https://pro.miroc.co.jp/headline/fraunhofer-mpeg-h/
シェアしました。

2018年09月04日

昨年春、韓国ではATSC 3.0を採用した4K地上波でMPEG-H採用の音声がオンエア開始された。対応テレビも発売され、オリンピックという節目と歩調を合わすように4K放送時代の新しいフェーズが始まった格好だ。最大16trackのオーディオデータをパッケージするMPEG-H LC profile Level 3だが、世界各国で始まろうとしているその活用はどのような状況にあるのだろうか。本記事ではパーソナライズ、イマーシブというキーワードを携えてコンテンツに多様な柔軟性を与えるであろうMPEG-Hのいまを取り上げる。

ヨーロッパ最大の応用研究機関Fraunhofer

本記事のメインテーマとなるMPEG-Hを取り上げるにあたり、まずはその開発元であるFraunhoferについてを紹介していきたい。Fraunhoferはドイツに拠点を置くヨーロッパ最大の研究機関であり、ドイツ連邦政府からの資金を受けて社会に役立てるための実用的な応用研究開発を行っている。研究対象が実用技術の開発に特化しているため、民間企業から依頼される委託研究の比率が高く、一般的に考えられる研究所とは趣きが異なるようだ。Fraunhoferには、およそ25000名以上のスタッフが在籍していて、そのほとんどが研究者。その総研究開発費は23億ユーロにも及び、そのうち19億ユーロが先のように企業からの研究依頼費によってまかなわれている。この事実からもFraunhoferの技術開発がいかに民間企業を通じて実際の社会で活用されているか、端的に言えばビジネスとしても成立する応用技術を生み出しているか、ということがわかる。また、ドイツではFraunhoferとは別に要素技術の開発を専門とする機関も存在している。昨今盛んに産学連携ということが言われているが、Fraunhoferはその先鞭を付けた先駆者であり成功者でもある。

Fraunhoferはドイツ国内に72もの研究所を持つ。これらの研究所は基本的にはそれぞれが独自の研究を行なっている。研究分野は多岐にわたり、ライフサイエンスから、ナノテク、材料、防衛技術までほぼすべての分野を網羅していると言ってもよい内容だ。もともとの起こりは別々にあった研究所がFraunhoferの旗のもとに集まって現在72拠点という巨大研究機関に成長していった。そして今回ご紹介するMPEG-Hの研究を行なっているのがFraunhofer IIS（集積回路研究所）であり、そのAudio Businessグループがこの研究にあたっている。

パーソナライズとイマーシブ、MPEG-Hのキーワード

このFraunhofer IISの成果として一番身近なものは、なんといってもmp3であろう。すでに配信用のオーディオコーデックとしては定番中の定番。使ったことのない方はいないのではないかというコーデックとなる。それ以外にAACもこの研究所発信の技術。そして次世代のオーディオコーデックとして登場したのがMPEG-Hとなる。すでにmp3、AACを搭載した機器は100億台以上が出荷されているということだ。この技術の系譜を持つMPEG-Hも高い汎用性を持ち、次世代を担うコーデックとして開発が行われている。プレゼン資料の冒頭にある「The New Standard for Parsonalized and Immerrsive Audio」という言葉が、MPEG-Hの全貌を表している。パーソナライズ、そしてイマーシブ。今後ユーザーの要望が高まると考えられる2つのキーワードをフォローした新しいコーデックであるからだ。

MPEG-Hはパーソナライズと、イマーシブという２つの特徴を併せ持つ。ここではそれぞれに対して個別に話を進めていく。この2つの要素は、密接な関係を持ちながら、ソース、ニーズなど様々な要素により柔軟に形を変えて運用が可能となるように考えられ作り上げられている。その2つの要素を実現するため、現状のMPEG-H LC profile Level 3では最大16trackのオーディオデータをパッケージとして準備する。そのうち1つのトラックはメタデータとなり、実使用可能なオーディオは15trackとなる。そこに入れることのできるデータは従来と同様のチャンネルベース・オーディオ（ステレオ、5.1ch等）、オブジェクト・オーディオ、シーンベース・オーディオ（HOA）を収めることができる。その組合せは自由であり今後チャンネル数の拡張も予定されている。これは、インフラに併せて変化することになるということだ。

チャンネル、オブジェクト、シーンすべてを取り扱えるということでインタラクティブな活用＝パーソナライズも、イマーシブな活用(オブジェクト、HOA)も、さらにどの様なデバイスであっても、視聴環境に何本のスピーカーがあるかといった環境の違いにも柔軟に対応が可能なように作られている。やはりこれまで、市場の中心となるコーデックを開発してきたR&D能力の高さをここに感じずにはいられない。出来うる限り汎用性を高く確保し、どのようなケースにおいてもユーザーが楽しむことを前提にした技術。これこそがFraunhoferの真骨頂と言えるだろう。

パーソナライズされたMPEG-Hの活用法

それでは、実例に沿ってこのMPEG-Hの活用例を確認していきたい。パーソナライズという面では、すでに韓国でATSC 3.0を採用した4K地上波で運用が始まっている。放送におけるパーソナライズはどのようなものかというと、例えばスポーツ中継でアナウンサーの声を大きく聴く(Dialogue Enhancement)、消す、多言語で試聴をする、といったことを実現する。TVの視聴者が電波で送られてきたオーディオのバランスを調整できるということだ。

これを実現するのがオブジェクト・オーディオとなる。これまでにご紹介してきたオブジェクト・オーデイオは、位置情報を持ったオーディオでしたが、MPEG-Hではこれに加えて、例えば多言語放送であれば、オブジェクト・オーディオそれぞれに「何の言語か」という情報をメタとして持たせ、ユーザーがそれを選択できるようにしている。オブジェクト・オーディオへ位置情報を付加する代わりに、どの様なコンテンツが格納されているか？というメタデータを持たせるわけだ。ベースとなるチャンネルベースの音声に対しても、バランスの変更やチャンネルの排他選択、またデフォルトのバランスはどのようなものかをプリセットとして送出する。さらに例をあげれば、別プリセットとして言葉の聴こえやすいバランスをDialogue Enhancementとしてプリセット作成するなど、多様な活用方法が行えるようになっている。

これらの選択画面は、TV側でメタデータトラックから得た情報により表示を行なっている。そして拡張メニューで個別のオブジェクトトラックを自由にバランスすることも出来るような仕様になっている。一般のユーザーが普通に使う分にはプリセットを切り替えるだけの簡易な操作で、こだわっての音声を楽しみたいユーザーはオブジェクト・トラックごとのバランスを自由に取ることができる。まさにインタラクティブであり、パーソナライズされた次世代のTV音声技術であるということが分かる。

柔軟性を高く持たせたイマーシブ対応

そして、もう一つのキーワードとなるイマーシブ対応だが、MPEG-Hのオブジェクトトラックは位置情報を持ち、3D空間に自由に定位させることのできるオブジェクト・オーディオとして設定することも可能である。HOA=Higher Order Ambisonicsとの組合せも、チャンネルベースのベッド・トラックとの組合せも自由。現時点では16track(実質15track)というチャンネル制限はあるが、今後拡張されることで柔軟な運用、そして制作フォーマットにとらわれない汎用性の高いコーデックとなるだろう。スピーカー配置も多くのプリセットを持つということで、この部分に関しても柔軟性を高く持たせており汎用性の確保に苦心がみられる。

NAB2018ではFraunhoferブースにサウンドバーのリファレンスモデルが展示され、イマーシブ・オーディオ再生の最大の障壁となるスピーカー配置に対しての回答も用意されていた。テレビの手前にサウンドバーを設置することでイマーシブ・オーディオの再現が行えるシステムはこれまでにもあったが、さすがはFraunhoferと唸らせる非常にきれいな広がりを持つサラウンド空間が再現され、しかも視聴エリアの拡張に注力したというコメント通りスイートスポットを離れた際でも十分なサラウンド方向からのサウンドを体感することができた。Fraunhoferでは製品としてのサウンドバーを製造するつもりはなく、あくまでもリファレンス・デザインを提示してメーカーにその技術を利用した製品を設計製造をしてもらいたいということ。残念ながらサウンドを聴くことは出来なかったが、NAB2018の会場にはSENNHEISERが作ったサウンドバーのプロトタイプも持ち込まれていた。

各社でも製品化対応が進んでいる

このようにMPEG-Hは非常に多岐にわたる次世代のコンテンツを網羅した技術である。それでは、そのMPEG-Hの制作方法はどのようになっているのだろうか？パーソナライズをターゲットとしたBroadcast Systemではリアルタイムにメタデータを生成する必要がある。すでにSDI Embeded Audio信号に対してリアルタイムにメタデータを付加する製品が数社から登場している。その代表がFraunhoferと同じドイツメーカーで、シグナルプロセッサーを多数製品化するJunger Audioの製品。ここでメタデータを付加したSDI信号は、送出段でMPEG-TSへと変換され電波として送り出される。そのメタデータはGUI上で分かりやすく設定が行なうことができ、すでに運用の始まっている規格であるということを感じさせるものだ。

もう一つのイマーシブ対応に関しては、プロダクションを前提としたシステムとなる。さすがにライブプロダクションでのイマーシブサウンドは固定したフォーマットであれば可能だが、作り込みを前提とすればプロダクションシステムということになる。すでにPro Tools上で動作するNEW AUDIO TECHNOLOGY社のSPATIAL AUDIO DESIGNER=SADというプラグインからMPEG-Hのメタデータが出力可能というデモンストレーションが行われている。現時点ではHP上にMPEG-H対応の文字が見られないためベータ版と思われるが、着実にプロダクションシステムも完成に近づいていることがわかる。SAD上にOffline Export Toolが用意されメタデータ込みのMulti-Channel WAV、もしくはメタデータのみの書き出しが可能となっている。このようにして書き出したWAVとVideo Fileをマージすることで完パケデータが作成できる。ファイルの動画コンテナとしては.mp4が使われ、送出段としてはMPEG-TSとなる。これらも、現状のシステムファシリティーを有効活用できるように変更を最低限とした結果と考えられる。

マルチリンガルコンテンツのMPEG-Hのメタデータ設定の一例、このようにオブジェクトを活用する。

ATSC 3.0そしてDVBという放送規格を策定する団体での採用も決まり、韓国では2017年5月31日よりMPEG-H採用の音声が地上波でオンエアされている。2018年Winter Olympic Gameでも韓国国内ではMPEG-Hでの放送が行われたということ。市販のTVもLG、SAMSUNGの２社からMPEG-H対応TVもすでにリリースされている。ATSC諸国（北米及び韓国）DVB諸国（ヨーロッパ、中東、アジア）の各国がMPEG-Hを採用していくのか今後の動向は注目となる。すでに実運用を開始した国があるということは、その普及に向けた大きなステップになっているはず、4K放送にまつわるニュースでも今後MPEG-Hという文字が盛んに取り上げられるに違いない。

この記事を執筆にあたりお話を伺った、フラウンホーファーIIS, 日本代表ナワビ・ファヒム (Fahim Nawabi)氏

＊ProceedMagazine2018Spring号より転載

＊記事中に掲載されている情報は2018年09月04日時点のものです。

世界平和を実現する。https://aon.tokyo/iran/ https://aon.tokyo/USA/ https://aon.tokyo https://aon.co.jp

2020年2月16日日曜日