空間音声入門:360度VR動画時代の音響とは(イベントレポート)

空間音声入門:360度VR動画時代の音響とは
  • このエントリーをはてなブックマークに追加
にんにちわ。DVERSE Inc.のマツオカです。
去る4月7日にソニー株式会社 本社内で行われた「空間音声入門:360度VR動画時代の音響とは」に行ってまいりました。非常に勉強になったのですが、この分野はWeb上に纏まった情報を見つける事が出来なかったので、今回復習を兼ねて記事にしてみました。

そもそも「空間音声」とは?

ここでは「空間音声」という言葉を使ってしましたが「空間音響」「立体音響」とかとも言われています。英語だと「Spatial Audio(スペーシャル・オーディオ)」とか言われていますね。簡単に言うと「自分が見ている方向に応じて、音の聞こえる位置が変わる音声」です。

最近だとYoutubeやFacebookが対応しているので下手に説明するよりも見て聴いてもらったほうが早いと思います。(注:イヤホン、ヘッドフォン推奨)

立体音響 3つの方式

立体音響と一言で言っても現在3つの方式があります。所謂「サラウンド」と呼ばれるものが「チャンネルベース方式」、Unity等でゲームを制作する際に各オブジェクトに音を配置して再生させるのが「オブジェクトベース方式」、360度マイクやバイノーラルで録音したものが「シーンベース方式」という事になります。

チャンネルベース方式 例:サラウンド 22.2ch

スピーカーの数を増やし、その数だけ音声データを記録、録音。

オブジェクトベース方式 例:ビデオゲーム VR

音源を位置情報と共に記録・伝達し、再生時に動的制御。

シーンベース方式 例:360°再生 バイノーラル

音場全体の物理的な情報を記録・伝達する。

サラウンドとは?

サラウンドシステム

よく聞く用語なのでご存知の方も多いと思いますが、まずは上記の「チャンネルベース方式」に分類されている「サラウンド」について。

サラウンド(英語:surround)は、音声の記録再生方法のひとつである。モノラル(1.0ch)、ステレオ(2.0ch)音声よりも多くのチャンネル(3ch以上)を有する。
一般的には単にサラウンド、あるいはサラウンド音声という言い方がされる。
wikipediaより

仕組みは凄く単純で、LRのステレオスピーカーシステムに加えて更にスピーカーを追加し体験者を囲むように設置することによって臨場感を再現する方式の事です。

Binaural(バイノーラル)とは?

Dummyhead

最近聞くようになったからか会場のスライドでは説明がありませんでしたが、基本的な用語としてバイノーラルについて。

バイノーラル録音(バイノーラルろくおん、 英語: Binaural recording)とはステレオ録音方式の一つで、人間の頭部の音響効果を再現するダミー・ヘッドやシミュレータなどを利用して、鼓膜に届く状態で音を記録することで、ステレオ・ヘッドフォンやステレオ・イヤフォン等で聴取すると、あたかもその場に居合わせたかのような臨場感を再現できる、という方式である。
wikipediaより

要は人間の頭部を再現してその響きごと録音することでより高い臨場感を得るための方式です。
ニコニコ界隈ではASMR動画として話題になりました。

耳が気持ち良すぎる!音フェチな人がハマりまくってるASMR動画って何?

VRでの音声は現状2種類

VRでの音声は現状2種類
オブジェクトベースとシーンベースの違い

上の2枚の画像を見ていただければ違いが分かると思いますが、VRで今現在使われている音声方式は2つで「オブジェクトベース」と「シーンベース」です。違いはシーンベースは頭の回転のみに追従し、オブジェクトベースは頭の回転に加えて位置にも追従する事です。
上記の例を元に凄く雑な説明をすると「VRゲーム」か「360度動画の音声」かという事です。これは個人のオーディオ再生環境(ヘッドフォンやイヤホン)を前提としている話で、もしかしたらアミューズメントパークでVR施設を作るような場合は上記でいう「チャンネルベース方式」つまりサラウンド等も考えられるでしょう。

オブジェクトベースとシーンベースの違いについての詳細

オブジェクトベースとシーンベースの違いについての詳細

これも画像を見ていただければ分かると思います。フォーマットとしてはオブジェクトベースが特になく、例として「Dolby Atmos(ドルビーアトモス)」があげられていました。対してシーンベースはAmbisonics(アンビソニックス)があげられていました。

Dolby Atmos(ドルビーアトモス)について

Dolby Atmos

数年前からDolby Atmos(ドルビーアトモス)という用語を聞くようになりました。映画好きの方だとご存じかも知れません。Dolby Atmosとは、従来の5.1chや7.1cnといったサラウンドシステムに加えて、頭上付近の天井にもスピーカーを追加することで、上下方向の広がりや移動感までも表現可能になった方式の事です。
会場では「オブジェクトベースとチャンネルベースのあわせ技」と表現されていました。どういう事かと言うと、オブジェクトベースで音源を製作して、再生時にチャンネルベースで映画館等の環境、スピーカー配置に合わせてレンダリングするからです。

Dolby Atmosについての参考記事

天井から音が降ってくる?話題のドルビーアトモスとは

Ambisonics(アンビソニックス)とは?

Ambisonics(アンビソニックス)

会場で撮った写真がブレまくってたのでテキストに起こしました。

  • 1970年代にイギリスで発案。全周360°で空間の音全体を録音し、それを再現する技術・音声フォーマット。
  • 従来のステレオで得られる左右の音だけでなく、上下、前後までをも含むサラウンドを提供する事ができる。
  • 360°映像コンテンツに音声を埋め込むことも可能。VRヘッドマウントディスプレイの普及やYoutubeやFacebookでの360°動画でのサラウンド音声の再生が可能になったためコンテンツ制作の幅が広がりつつある。

Ambisonicsについての参考記事(pdf)

SPECIAL ISSUE VOL.68 NO.08 2014 特集:立体音響技術 5章アンビソニックス

FOA(ファーストオーダーアンビソニックス)について

アンビソニックスを表す単語としてたまにFOAと表現されます。これは「アンビソニックスの技術はまだまだ発展途上であり、これからセカンド、サードとこの技術を進化させていきたい」という思いをこめてFOA(ファーストオーダーアンビソニックス)と呼ばれています。

ゼンハイザーさんが行った360°映像の制作方法動画

ゼンハイザーさんが自社の製品である「AMBEO VR MIC」を使って実際に360°映像を作ったときの動画です。

制作方法

完成した成果物

製品リンク:SENNHEISER AMBEO VR MIC

共有された「3Dオーディオのこれからの展望」

こちらも写真がブレまくってたのでテキストに起こしました。
どの意見も非常に参考になると思いました。

  1. Dolby Atmosでは、Dolby PannerというAtmosフォーマットに対応してプラグインを使ってPro Tools / Nuendoの機能に直接アクセスしてAtmosの編集が最近可能になった。
  2. オブジェクトベースとシーンベースとでそれぞれメリット、デメリットがある。両方の音源を扱うことが出来るアプリケーションも普及し始めている。今後はVR/AR/Game/Cinematic/Simurationなどの媒体形式の負荷バランスをみて、ハイブリッドに使っていく用途が普及していくと思われる。
  3. ミドルウェアのWwiseが自動車内むけの立体音響への対応を2017年度に入り発表。車内は限られた空間なので立体音響の効果を実感しやすく、今後高いポテンシャルが見込まれる。
  4. 音声の録音の時点で、立体音響での収録がメインになり、ユーザーが再生する環境に合わせてリアルタイムに変換できるようになるのではないか。

各種フォーマット比較

各種フォーマットの比較も分かりやすかったので載せておきます。

モノラル 1ch ステレオ 2ch バイノーラル 2ch FOA 4ch
大きさ
音色
響き
方向
インタラクティブ

さらにマニアックな内容もあったのですが今回はアジェンダだけ・・・。

  • マイクの指向性について
  • A-Format→B-Format変換とは何をしているのか
  • Binauralを図で表現すると
  • Binaural Renderringについての詳細

等々等々。

私もまだまだ勉強中ですので間違いがあった場合指摘して頂ければと思います。

  • このエントリーをはてなブックマークに追加

SNSでもご購読できます。

コメントを残す

*