倒映有声のTTS技術が、中央電視台の音声クラウドに採用され注目されている。AI学習により、正確さだけでなく、情感も生成できるようになった。ニュースだけでなく、ラジオドラマやアニメ、映画の吹き替えにも可能性が広がると尋常観が報じた。
ニーズが大きい音声生成AI
AIによるコンテンツ生成というと、どうしても静止画や動画の生成に目が行きがちだが、社会ニーズが大きいのは音声だ。通勤時や車の運転時に音声だけで情報を得たいという人は多く、また、障害者のためにテキストを掲載するウェブでは、音声読み上げの機能を備えるようになっているところが増えている。
このようなTTS(Text to Speech)技術は、正確に読み上げるという点ではすでに成熟をしている。しかし、正確さだけでは人は耳を傾けない。声質であるとか、読み上げ方の情感であるとか、そういう要素に惹かれて聴き続ける。
感情表現も可能な音声読み上げAI
創業からわずか半年。TTS技術を開発している浙江省杭州の「倒映有声」(ダオインヨーシェン、https://www.daoying.tech)のTTS技術が、中央電子台の音声プラットフォーム「雲聴」に採用され、毎日大量のニュースを読み上げている。倒映有声のTTSは、1日で500万字の読上げ合成音声を生成することができ、録音コストを90%減少させることができる。明るいニュースは明るい声で、重大なニュースは深刻な声で読み上げ、言われなければAIによる合成だとは気づかないレベルになっている。TTSの日常的な応用が始まっている。
音声AIのエキスパートたちが集まった「倒映有声」
倒映有声の強みは中核メンバーが優秀であり、多様性に富んでいるということだ。多くが、百度(バイドゥ)、マイクロソフト、アリババなどの出身で、小愛同学、小度スマートスピーカー、百度音声ナビなどの音声AIプロダクトに関わってきた。専門知識があり、なおかつさまざまな音声AIのノウハウが集まり、従来とは異なるレベルの音声AIの開発が可能になった。
特に、正確な読上げだけではなく、倒映有声は声色、情感、自動化、多言語化の4つに力を入れ、応用の幅が広がった。
情感生成を追求した創業者
倒映有声を起業した肖朔(シャオ・シュオ)は、2013年に北京航空航天大学のクラウド計算専攻の修士課程を修了し、百度の音声技術部に入社した。その時、同時に入社したのが、英国インペリアル・カレッジ・ロンドンの人工知能専攻の修士課程を修了し、帰国をして百度に入社した李驍(リ・シャオ)だった。李驍は後に、倒映有声の共同創業者CTOとなる。
2人は同じチームで、百度の音声AIの情感生成の開発を行なった。さらに、2人は百度に在籍をしながら、AI開発企業「猟戸星空」を創業し、シャオミの小愛同学に関わる開発も請け負っている。
2019年になると、百度の小度スマートスピーカーが普及をし始め、開発の焦点は音声合成からデバイス機能にシフトをしていった。特に会話を成立させる対話AIに力が入られられるようになり、2人としてはもっと音声合成技術を深く追求したいという気持ちが強くなった。
そこで、2019年3月、百度を辞職して、倒映有声を起業した。
情感生成と自動化の2つが成長空間になる
TTS技術は、テキストを正確に読み上げるという点ではすでに成熟をしている。倒映有声はどこに成長空間を見出そうとしているのだろうか。
李驍CTOによると、情感であるという。TTSが応用されるのは、ニュースの読み上げだけでなく、ラジオドラマ、小説の読み上げ、ゲーム内のセリフなどさまざまある。そのような応用をするには、無機的な読み上げではなく、声質や情感がどうしても必要になる。
もうひとつは自動化だ。このような音声をTTSで生成したとしても、結局は編集をしなければならない。声優が読み上げるところをTTSに置き換えても、制作コストは声優の人件費程度しか削減できない。この録音から編集までを自動化することで、制作コストを大きく削減することができる。
肖朔CEOは、このような問題をクリアすることで、TTSの応用範囲は大きく広がり、市場を拡大することができるという。
音声生成の2つの方法。波形接続型と統計的パラメトリック型
TTSには主に2つの考え方がある。波形接続型と統計的パラメトリック型だ。波形接続型は、人間の声を録音し、要素に分解をし、これを組み合わせることで音声を合成するもの。人間に近い自然な音声を生成することができるが、どの要素を採用するかなど計算は複雑になりやすい。シャオミの小愛同学がこの方法を使っている。小愛同学の開発にも関わった李驍CTOによると「当時、声優の録音は半年間にわたり、100時間以上の音声データを収集しました。これを使ってようやく小愛同学は自然な音声になったのです」。
一方、統計的パラメトリック型は波形そのものをゼロから生成するという考え方のもので、当然AIを利用し、人間の声の波形を学習させる必要がある。このAIモデルの構築や学習には大きな手間がかかるが、そこがうまくいけば、波形接続型よりもさらに自然な音声が生成できるだけでなく、情感のようなものも学習させることが可能になる。
倒映有声は、この統計的パラメトリック型TTSを追求している。
200単語を聞けば、声質を学習できる
倒映有声のTTS技術の強みは3つある。
ひとつは、統計的パラメトリック型による質の高さと応用範囲の広さだ。声質もこども、青年、老人、男女などさまざまに変えることが可能だ。さらには、動物、怪物が人間の声で話すということにも挑戦をしている。
さらに情感を加えることができる。楽しいセリフは楽しそうに、悲しいセリフは悲しそうに話すことができ、演技ができるようになる。
2つ目は、学習能力だ。ある人の声を学習したい場合、200単語(約30分)の録音があれば、ほぼそっくりの声質にすることが可能だ。15単語程度でも90%程度の類似度にまで上げることができる。
3つ目は、自動化だ。特に小説の読み上げでは、テキストからどのような情感で読むべきかを判断し、情感を変えながら読み上げることができる。また、ラジオドラマの脚本などでは、声優ごとに声質を変えた音声を生成することができる。
言語に依存しない技術で、海外市場も視野に
倒映有声では、まずはニュースと書籍の読み上げの分野で、トップシェアを握ることを目標とし、その次に応用範囲を拡大していきたいとしている。
また、このような声質、情感、自動化といった倒映有声の技術目標は、言語に依存しないことが特長だ。逆に言うと、中国語で一定水準の声質、情感、自動化が可能になれば、他の言語への応用はさほど難しくない。これにより東南アジアへの進出を視野に入れ、日本、韓国という非アルファベット言語圏への進出も可能になるという。
これまでのTTSというと、ニュースや広報の読み上げという用途が一般的だった。それはTTSが無機的な音声しか生成できないため、無機的な音声でも通用する市場しか開拓できなかったからだ。しかし、TTSが情感を持つことで、市場は無限に広がる。アナウンサーだけでなく、声優もAIになる日がこようとしている。