声優はみんな失業？　清華大学とバイトダンスが共同開発したアフレコ、アテレコAIの実力

清華大学とバイトダンスの合同チームが、映画などで精密なリップシンクを行うアフレコ、アテレコをするディーラーニングモデルを開発したと機器之心が報じた。この成果は、論文「Neural Dubber: Dubbing for Videos According to Scripts」（https://arxiv.org/abs/2110.08243）として公開され、AIの国際的な学会であるNeurlPS 2021に採択されている。

声優の技術に頼っていたリップシンク

映画などで役者の音声は現場でも録音されるが、周辺ノイズなどの関係から、後からスタジオで録音され直すことが多い（アフレコ）。また、言語の異なる海外向け吹き替え版を制作するために役者とは異なる声優が異なる言語で録音をすることもある（アテレコ）。このような音声に関するポストプロダクションは、音声トラックと映像トラックを合成することから「ダビング」（Dubbing）と呼ばれる。

このようなダビングでは、主に役者、声優の技術に頼ってリップシンクを行うため限界が生じる。特に外国語の吹き替え版をつくる時は、リンプシンクはほぼあきらめられている。

唇の動きに合わせてリップシンクするAI

この問題を解決するために、さまざまなアプローチの研究がされているが、考え方は２つある。ひとつが現場での同時録音の音声波形を参考に、アフレコ音声を修正していくというもの。もうひとつは映像の唇の動きに合わせて、アフレコ音声を修正するというものだ。

研究チームは、後者の映像の唇の動きに合わせて、音声を修正し、リップシンクを実現するディープラーニングモデルを生成する方法を採用した。なぜなら、同時録音の音声が存在しない場合もあるからだ。映像制作の都合で現場録音がされないという場合も多い。さらには、近年では、テキストから音声を生成するTTS（Text to Speech）も使われるようになっている。研究チームが開発したAIモデルNeral Dubberを使用すると、このようなケースでもリップシンクを実現し、自然な音声付き映像を制作することができるようになる。

f:id:tamakino:20211228094833p:plain — ▲原音（GT）、Neural Dubber（ND）とTTS2種類による生成したセリフの音声波形。TTSでは、原音からかなりのずれがあることがわかる。Neural Dubberは原音とほぼ同じタイミングで音が割り振られている。

役者の音声の特徴を抽出し、セリフを生成する

Neural Dubberは、音声を唇の動きに合わせて前後させるというアナログ編集的な手法は使っていない。いったん、原音声の特徴を抽出し、そこからMelGANを使い音声波形を生成し、さらにParallel WaveGAN（PWG）を使い、音声を生成していく。GANは、敵対的生成ネットワーク（Generative Adversarial Network）のことで、生成器と判定器の２つのAIを用意し、生成器が生成した音声を判定器が評価し、互いに学習し合うことで、生成器はよりリアルな音声を生成するようになり、判定器はより厳しくリアルさを判定するようになり、最終的にリアルな音声を生成できる生成器を得るというものだ。２つのAIを敵対させることで、高速で学習を進めることができるネットワークという意味だ。

つまり、Neural Dubberは、原音から特徴だけを抽出し、それで原音そっくりの音声を生成し、リップシンクを行う。原音そのものは捨ててしまい、ゼロから声質がそっくりの音声をつくっていることになる。

人間が自然に感じるレベルに到達したNeural Dubber

研究チームは、このNeural Dubberで生成した音声と、原音（GT）、さらにTTSで生成した合成音声（Fast Speech 2、Tacotron）などと比較をした。LSE-DとはLip Sync Error-Distanceであり、リンプシンクのずれを表し、小さいほどリップシンクができていることになる。LSE-CはLip Sync Error-Confidenceであり、リップシンクの信頼度を表し大きいほどリップシンクができていることになる。

比較をすると、原音（GT）には及ばないものの、TTSと比べると遥かに原音に近いリップシンクが実現できていることになる。

Neural Dubberの紹介ページ（https://tsinghua-mars-lab.github.io/NeuralDubber/）の下方に具体的なデモが掲示をされている。Fast Speech 2、TacotronなどのTTSでは、見てわかるほどリップシンクがずれている。しかし、Neural Dubberではほぼ自然に感じるほどのリップシンクが実現できていることがわかる。

f:id:tamakino:20211228094839p:plain — ▲リップシンクのずれ具合を測定した結果。LSE-Dは低いほど優秀、LSE-Cは高いほど優秀。上は話者が1人の場合。下は話者が複数人の場合。

f:id:tamakino:20211228094841p:plain — ▲リップシンクのずれ具合を測定した結果。LSE-Dは低いほど優秀、LSE-Cは高いほど優秀。上は話者が1人の場合。下は話者が複数人の場合。

f:id:tamakino:20211228094844p:plain — ▲Neural Dubberの紹介ページに掲載されているサンプル。Neural Dubberは原音（GT）と人間の耳では区別がつかないほど自然な音声トラックが生成できている。

外国語吹き替えでも、役者の声で外国語セリフを生成

このNeural Dubberは、話者の原音声の特徴を抽出して、音声波形を生成し、それを画面の唇の動きに合わせてリップシンクされた音声を生成するというものだ。このため、画面の中に複数の話者がいても問題がない。映画やドラマであたり前に出てくる会話シーンでも、役者ごとにリップシンクした音声を生成することができる。

また、外国語の吹き替えを行うときも、原音の役者の音声特徴を利用して、外国語のセリフを生成することも可能になってくる。映像の中の役者のイメージに近い、外国語音声が生成できることになる。

このようなことから、映画、ドラマのポストプロダクションの効率化に大きな貢献をする技術として注目されている。