バイノーラル再生とSOFAがもたらす未来

バイノーラル再生におけるソフトウェア処理

岡安啓幸

どのような音でもバイノーラル化することができる

近年のスマートフォンやHMD（ヘッドマウントディスプレイ）の普及によってVRや360°動画はもはや珍しいものではなくなりました。そうした映像技術の発展と市場拡大に伴って「イマーシブ・オーディオ（3D音響）」のニーズもまた高まっています。

たとえば映画館のような音響システムであれば多数のスピーカーを用いて立体音場を作りますが、ヘッドホン/イヤホンが想定されるVRや360°動画ではバイノーラル再生を用いて立体音場を作ります。バイノーラル化した音源を製作するためのVSTプラグイン等は存在しますが、実際にバイノーラル音源を製作した方からは「定位が分かりづらい」、「音が悪い」などの不満も聞きます。

本記事では、人はどのようにして音源位置を把握しているのか等、バイノーラル再生の基礎を解説し、より良いバイノーラル・リスニングのための技術として昨今普及の兆しを見せてきているSOFAファイルフォーマットについても解説します。

またバイノーラルというとダミーヘッドマイクを想像する方も多いですが、本記事ではソフトウェア処理のバイノーラルプロセッシングについて解説します。

ダミーヘッドは立体音場の収録/再現方法としては優れた方法ですが、同時にこれは「現実的に収録可能な音しか扱えない」という制約でもあります。極端な例ですが、銃弾が耳元をかすめていく音が必要な場合、ダミーヘッドの耳元へ発砲しなければなりません。

また、ダミーヘッド収録音声の再生は収録時の音場再現ですので、録音後や再生時に定位を変更することはできません。つまり、ゲームやVRなどのユーザーの操作で定位が変わりうるケースには対応困難です。対してバイノーラルプロセッシングはソフトウェア上でバイノーラル化する処理であり、どのような音でも任意の定位を実現できます。再生時のリアルタイム処理も可能なので、ユーザーの操作による定位変化にも対応できます。

岡安啓幸
プログラマー／楽器デザイナー
（有）山本製作所　研究開発部　副主任
国立音楽大学にてコンピュータ音楽、作曲を学ぶ。自身の創作で培ったデジタル信号処理技術を活かして、インスタレーション作品のサウンドプログラミングや音を用いた演出システム製作を行う。ハードウェア製造も行なっており、これまでに特注の電子楽器や博物館の展示用デバイスなどを手がける。
https://scrapbox.io/akiyukiokayasu/

HRTF概説

私たちはどのように音の位置情報を感じ取っているでしょうか？

キーワードとなるのは『HRTF（頭部伝達関数）』です。私たちの周囲で鳴った音は身体的形状により反射、回折が生じ、また音源位置に相当した時間差、音量差をもって耳に到達します。このような「周囲の音がどのようにして左右の耳に届くのか」を表したものがHRTFと呼ばれます。

私たちは音に含まれているHRTF情報を基に音源の位置を感じ取っているとされています。
つまりヘッドホン/イヤホンによるリスニングであっても、適切なHRTF情報を付加すれば任意の音源位置を感じさせることができます。このソフトウェア上でHRTF情報を付加する処理をバイノーラル・プロセッシングと呼びます。

HRTF情報を付加するためにはHRTFの測定データが必要です。

一般的にHRTFの測定は、無響室で小型マイクロフォンを両耳に装着して行ないます。無響室で行うのは部屋の響き等のHRTF以外の情報を排して行うためです。

そして被験者周囲の様々な箇所のインパルス応答を測定をします。そのインパルス応答が各座標に対応したものが『HRIR（頭部インパルス応答）』になります。そしてHRIRを周波数解析したものがHRTF（頭部伝達関数）にあたります。

以下に音源位置によるHRTFの変化を示します。
左図はリスナーと音源位置を俯瞰したものです。緑色の丸が音源位置を表し、図の中心はリスナーを表します。音源位置の高さは常時耳の高さとします。

このように音源位置によって特性が大きく変わることが分かります。また音源位置が線対称の場合を比較すると、左右の耳の特性さえ大きく異なることが分かります。

これが音源位置を推測するための手がかりとなっており、私たちは普段それを聞き取って位置を把握していると考えられます。

そしてバイノーラルプロセッシングが行なっている主な処理は座標に対応したHRIRの畳み込みです。原理的にはコンボリューションリバーブ（IRリバーブ、サンプリングリバーブ）と同様です。

HRTFの個人性

私たちは指紋や瞳孔と同じように一人ひとり異なった頭部、上半身などの身体的形状を有しています。両耳間の距離が異なれば音が到達するまでの時間差が変化し、頭部形状が異なれば反射、回折によって周波数特性が変化します。

ダミーヘッドマイクのHRTFを用いてバイノーラルプロセッシング行なっているものもありますが、よく使われるダミーヘッドマイクは欧米の成人男性がモデルとして反映されていることが想像され、女性や子どもの頭部形状とは異なっていると思われます。成人男性であってもアジア人の典型的な頭部形状とは異なっているかもしれません。

次に、下図にて、日本人の異なる成人男性2名のHRTFを左耳・右耳間でそれぞれ比較してみたいと思います。身長や体格などがある程度似通った人物で比較しています。

周波数特性のノッチやピークの傾向は似ていますが、深さ、幅、周波数の全てに違いがあるのが認識いただけたと思います。

このように体格が大差ないように見える人物同士であってもHRTFには無視できないほどの差が存在します。20dB以上異なっている周波数も多くあり、完璧に一致するHRTFを持つ人物は存在しないのではないかと思えます。

HRTFの持つ高い個人性は音にどのような影響をあたえるでしょうか？

これは筆者の所感ですが、不適応のHRTFを用いたバイノーラルプロセッシングで問題になるのは、頭外前方定位のしづらさです。頭部後方への定位は多少自分のHRTFと異なっていても表現できることがままありますが、前方定位はHRTFの適応具合に大きく左右されます。また高さの表現も同様にHRTFに大きく左右されます。

また不適応のHRTFを用いたバイノーラルプロセッシングは正しく音が定位しないだけでなく、周波数特性の大きな変化や意図しない残響感など音質面でも悪影響を与えます。HRTFの周波数特性は大きなピークとノッチがあり、それが音質に与える影響というのは小さくありません。また原理的にはコンボリューションリバーブと同様なので、少なからず響きが付加されます。

では個人に適応したHRTFはどのように用意するのでしょうか？

前述したように、HRTFの測定は無響室など相応の設備が必要になるのはもちろん測定には長時間必要で手間もかかります。

近年ではCTやMRIなどを使用し作成した頭部の3Dモデルデータからコンピュータ上でHRTFを求める手法も使われますが、そちらも相応の設備が必要になることは変わりません。
残念ながら筆者もHRTF測定の経験はありません。しかしながら私に適応したHRTFファイルを所持しています。個人に適応したHRTFを得るソリューションについては後ほどご紹介します。

SOFA概説

HRTFについての研究は古くから行われてますが、研究者たちは測定したHRTFデータをどのように保存していたのでしょうか？

HRTF用の統一的なファイルフォーマットは数年前まで存在せず、独自の方法でそれぞれ記録していました。それではファイルのやり取り等に問題があることから、HRTF等の空間指向音響データのための標準的なファイルフォーマット『SOFA』の策定が数年かけて行われました。

2015年にSOFAはオーディオに関する国際組織Audio Engineering Society（以下AES）によってAES69として標準化され、HRTFを保存するフォーマットとして国際的に認められました。拡張子には「.sofa」が使用されます。

厳密にはSOFAはHRTFのためだけのファイルフォーマットではなく、空間情報を持った音響データ全般を記録することができます。しかしながらSOFAがHRTF記録のためのフォーマットとして普及しはじめている現状を鑑み、本記事ではSOFAのHRTF用ファイルフォーマットとしての側面について述べます。

それ以外の用途について詳しく知りたい方は、AESが発行しているSOFAの仕様書「AES69-2015: AES standard for file exchange – Spatial acoustic data file format」、もしくはSOFA関連情報を提供しているWebサイト「sofaconventions.org」をご覧ください。

SOFAは「伝達関数」と「メタデータ」を保存します。
バイノーラル用途の場合、SOFAはHRIRと対応した座標やサンプルレート、ライセンスなどのメタデータを1ファイルに記録するものとして考えます。

HRIRを利用してバイノーラルプロセッシングを行う場合、少なくとも、

HRIR
HRIRの座標情報
サンプルレート

の情報が必要です。これらは全て1つのSOFAファイルから取得することができます。

SOFAは気象系や宇宙系の研究者が扱うファイルフォーマットの資産を利用しており、大量のデータでも効率的に扱う仕組みができています。SOFA用のライブラリもC/C++, Python, MATLAB, Cycling’74 Max8などのプログラミング言語で準備されており、SOFAを利用するソフトウェアを作るのも比較的容易です。

また複数の機関がSOFAデータセットを公開しており、代表的なものは sofaconventions.org の Filesページにまとめられています。その中でも特に有益と思われるデータセットを以下に示します。使用にあたっては各データセットのライセンスをご確認ください。

東北大学電気通信研究所（RIEC） / The RIEC HRTF Dataset
ARI / ARI HRTF Database

どちらのデータセットも100人以上のHRTFが収録されています。The RIEC HRTF Datasetは頭部3Dモデルも一部公開されており、頭部形状とHRTFの関係性を知るための優れた資料です。ARI HRTF Databaseは測定点が細かく設定されているのが特徴です。

SOFAが音楽制作、VR/ゲーム開発にもたらすメリット

SOFAが標準化されたことで研究者のみならず、音楽制作者やゲーム開発者にとっても扱いやすくなりました。

たとえばサラウンド作品のミックスを行なっているとします。必要なチャンネル数のスピーカーをセッティングしてミックスするのがベストですが、いつでもそのような環境が用意できるわけではないと思います。そうした場合、バイノーラル再生を用いたヘッドホンモニタリングが便利です。しかし既存のバイノーラル再生ツールの質に満足できなかった人もいると思います。そうしたツールでは内部で使用するHRTFが固定のものもありますが、SOFAファイル読み込みでHRTFを切り替えられるものも存在します。

そうしたHRTF切り替え可能なバイノーラル再生ツールと自分に適応したSOFAファイルがあれば、ヘッドホンを用いたサラウンドミックスがよりやり易くなります。
以下に代表的なSOFA読み込み可能なプラグインを示します。

SPARTA / AmbiBIN, AmbiDEC, Binauraliser
Noisemakers / Binauralizer
SSA Plugins / aXMonitor
Harpex / Harpex
IEM Plug-in Suite / AdaptiveBinauralDecoder

ゲーム開発の場合はどうでしょうか。

全てのプレイヤーに適応したHRTFをそれぞれ準備するのは難しく、プレイヤーは固定のHRTFで処理されたバイノーラル音声を聞くことになるでしょう。しかしながら音の定位がゲーム上のインフォメーションになっている場合があり、どれだけ定位を強調するべきかはそれぞれ検討する必要があります。

そうしたHRTFのチューニングともいえる作業にあたっても、SOFAファイルのHRTFを切り替えを利用すると素早く検討を進めることができるでしょう。sofaconventions.org もUnity用のネイティブプラグイン、SOFAlizer for Unityを開発しています。

将来的な展望

以上は製作者にむけたメリットでしたが、ユーザー視点では今後どんな展開が考えられるでしょうか。

スマートフォンの高性能化やWebブラウザ上でオーディオアプリケーションを動かす環境が整いつつあるため、スマートフォンやブラウザ上でのバイノーラル再生も遠くない未来に広く普及するのではないかと考えています。バッテリー内蔵のワイヤレスヘッドホンが広く普及した今、モーションセンサーも内蔵することでヘッドトラッキングも含めたバイノーラル再生が誰でもできるようになることを期待しています。

そのためには個々人に適応したSOFAファイルは必要になりますが、個人に適応したSOFAファイルを入手するソリューションが出てきています。それが、次に紹介する「Aural ID」です。

Aural ID

「Aural ID」はスマートフォンで上半身、頭部、耳を撮影すると個人に最適化されたHRTFが記録されたSOFAファイルが入手できる、Genelecがオンラインで提供するサービスです。

Aural ID 詳細

これまで無響室で行なっていたHRTF測定がどこでもスマートフォンのカメラ撮影だけで可能になります。
撮影はこのように頭部、肩周り全体が映るように行います。

＊Aural IDは、音の到着方向に関する情報を扱う全ての人にとって必要なものです。潜在的なユーザの例としては、仮想現実（VR）および拡張現実システム、ゲーム・プロセスの一部としてオーディオ表現を動的に計算するゲーム・エンジン、および3Dオーディオを扱う研究者が挙げられます。

スマートフォンで頭部を撮影し、アップロードするとサーバー上で頭部の3Dモデルが作成され、シミュレーションを用いてHRTFを算出します。ユーザーはそのHRTFが記録されたSOFAファイルを利用できます。
このように、これまでハードルの高かったHRTFデータの入手がとても簡単に行えるようになりました。

筆者もAural IDで作ったSOFAファイルを用いたヘッドホンモニタリングを行なっています。実際これまで使ってきたHRTFよりも綺麗に頭外前方定位をしています。前後に空間をもって定位してくれるお陰で、歪みの少ない球状の立体音場が作れています。

まとめ

HRTF、SOFAの概要とAural IDをご紹介してきました。
バイノーラルの古くからの研究は近年急激に結実してきたように感じています。ですが、まだバイノーラルを上手く活用できていないとも同時に感じています。基礎的な知識を身につけることはもちろん重要ですが、バイノーラルを上手く活用するため製作者が経験を積むこと、よく聴く姿勢がなによりも重要です。
本記事がバイノーラルへの理解、よりよく聴くためのきっかけになることを望んでいます。