中華IT最新事情

中国を中心にしたアジアのテック最新事情

抖音の人気を爆発させた特殊効果「狗頭貼紙」と「漫画顔」。背後にあるのはディープラーニング技術

中国版TikTok「抖音」(ドウイン)は、当初はダンス映像を投稿することが人気の中心だったが、現在では特殊効果を多用したショートムービーを投稿することが楽しみの中心になっている。その背景には、ディープラーニング技術があると機器之心が報じた。

 

ダンスから特殊効果が人気になる「抖音」

中国版TikTok「抖音」(ドウイン)は、2016年11月に登場し、当初は音楽に合わせて口パクで歌い、自分が音楽プロモーションビデオの主人公になったような映像を投稿するプラットフォームだった。これがダンス映像につながり、若い女性を中心に利用者数を大きく伸ばした。

そして、ショートムービーのトラフィックが莫大になると、それを利用したEC、プロモーションなどのビジネスが成立し始めた。そして、今、抖音は、AIを利用した特殊効果の面白さで、再び利用者を惹きつけ始めている。

現在、1日に平均して100以上の特殊効果が発表され続けている。

f:id:tamakino:20211227093436j:plain

▲抖音の特殊効果の変遷をセミナーで解説する開発チームの楊輝氏。ディープラーニングに着目したことで、さまざまな特殊効果が生まれることになった。

 

美顔効果で、誰でもイケメン、美女になれる

抖音で、誰もが使うのが「美顔」効果だ。肌の色をきれいにしてくれるだけでなく、目を大きくし、顎を細くし、誰でも美男美女に変身させてくれる。現実の自分はパッとしなくても、抖音の中ではイケメン、美女として活躍できる。外見にコンプレックスを持ちやすい10代、20代にとって、抖音の中こそリアルであって、現実は嘘とまで感じている人も多い。

f:id:tamakino:20211227093434j:plain

▲美顔効果の一例。ネットでは、美しいという評判の網紅(人気者)の素顔と抖音での美顔後の写真を並べて拡散させることが一部で流行している。

 

負荷の大きな演算をスマホで可能にする技術力

この美顔効果には、顔認識技術が使われている。顔の特徴点を抽出して、それを結び、メッシュ状の顔モデルを生成する。これに合わせて、CGを合成すれば、帽子や仮面を被せることができる。

逆にメッシュ状の顔モデルの特徴点間の距離を平均値に近づける。人は、平均顔を美しいと感じる。顔モデルを美しくなるように調整し、実際の顔映像の方を顔モデルに合わせて変形する。これで美顔効果が生まれる。

驚くべきことは、このような演算量の多い処理を、スマートフォンでリアルタイムに行なっているということだ。抖音で使われている多くの特殊効果は、一定レベル以上のエンジニアが、GPUを何枚も搭載した高性能PCを使えば実現できる。しかし、それをスマートフォンという限られたリソースで演算をさせているところにバイトダンスの技術力の高さがある。

 

特殊効果に人気が出たのは2017年の「狗頭貼紙」から

2016年に抖音が登場した時からこのような特殊効果機能は搭載されていた。しかし、それは素朴なもので、顔スタンプといった程度のものだった。顔を検出し、その上にドット絵風のサングラスや漫画の特殊効果のようなスタンプを合成する。それだけでも面白かったが、技術的には特別レベルが高いというまでのものではなかった。

それが大きく変わったのは、2017年に「狗頭貼紙」という特殊効果が非常に受けたことだった。顔に犬のイラストを重ねることができる。自分の顔を動かしたり、笑ったりすると、それに合わせて犬のイラストも変わる。当時は、まだ自分の顔を不特定多数の人に露出をすることに抵抗感もあった。そう感じている人が、この特殊効果を使うことで、顔を隠しながら、ショートムービーを投稿することができる。また、抖音の中で犬に変身できることに楽しさを感じる人もいた。

この「狗頭貼紙」特殊効果が登場したことで、利用者数、投稿数ともに大きく増加した。

f:id:tamakino:20211227093439j:plain

▲特殊効果が人気になるきっかけとなった「狗頭貼紙」。実際の顔の表情に合わせて犬の表情が変わる。このヒットで、特殊効果専門の開発チームが設置された。

 

ディープラーニングに注目する開発チーム

特殊効果が抖音の利用を促すことができる。この特殊効果の「効果」に気がついたバイトダンスは、特殊効果専門の研究チームを設置した。

当初はCGを活用する特殊効果が多かったが、すぐにディープラーニングを研究するようになる。その中で、研究チームが熱中をしたのがGAN(Generative Adversarial Network、敵対性生成ネットワーク)だった。抖音デザインセンターの責任者、王運恢は言う。「GANに初めて触れたのは、内部で最初に行われた勉強会でした。このGANにはみんなが惹かれましたが、大きな問題が発生しました。生成される映像の質が悪く、とても使いものにならなかったのです。リアルな人の顔を生成したいと思っても、抽象画のような顔しか生成できなかったのです」。

 

生成画像の品質の悪さを逆手に取った「漫画顔」

生成される映像の質が低いのは、当時はまだGANの研究開発が始まったばかりであり、じゅうぶん実用的なディープラーニングモデルを構築できなかったからだ。しかし、研究チームはそのことを逆手に取った。リアルな人の顔を生成するのではなく、リアルではない漫画風の顔を生成することにした。

それでも、開発は難航し、2ヶ月余りの間に1000以上のディープラーニングモデルが開発され、開発チームの開発室では、いつも数百枚のGPUが動いている状態だった。

これが「漫画顔」特殊効果となった。自分の顔を漫画風の顔に変換をし、自分が表情を変えると、漫画の顔もそれに合わせて表情を変えるというものだ。2020年6月に登場したこの特殊効果は、わずか3日で1000万以上の投稿で利用され、特殊効果の使用記録を塗り替えた。

f:id:tamakino:20211227093442g:plain

▲精密な画像が生成できないことを逆手に取った「漫画顔」。これ以降、GANを使ったさまざまな特殊効果が生まれてくる。

 

計算量の圧縮技術を開発する研究チーム

火山エンジンの特殊効果技術専門家の楊輝は、特殊効果の負荷をこう説明する。「映画の世界では、AIによる特殊効果を使うのが当たり前になっています。しかし、精緻になればなるほど制作コストも上がっていきます。ハリウッドのSFXを多用した映画では、製作費の60%が特殊効果の開発費用です。もし、1台のコンピューターで特殊効果をかけようとすると、1秒の映像をつくるのに50日間は演算を続けなければなりません」。

抖音で使われる特殊効果はここまで負荷の大きなものではなくても、ディープラーニング演算をスマホに計算させているというのは驚くべきことだ。しかも、5年前の古いスマホでも特殊効果がかけられる。

これには計算量の圧縮が必要で、バイトダンスの場合は、蒸留と呼ばれる手法が多用される。あらかじめ高性能のコンピューターで、ディープラーニングモデルを学習させておき、その学習結果だけを、スマホで動作する小さなディープラーニングモデルに移し替えるというものだ。

 

経験の積み重ねが先行者有利にしているAIの世界

GANと蒸留は、考え方は理解しやすいが、実際にディープラーニングモデルを構築して画像を生成させることはきわめて難しい。ディープラーニングは、いまだに「なぜそうなるのか」というロジックが解明し切れてなく、「これでだめなら別の方法を試す」という膨大な試行錯誤が必要になる。

試行錯誤が多い開発で、モノを言うのは経験だ。過去の経験の積み重ねだけが、正しい方向を指し示してくれる。バイトダンスの特殊効果開発チームは、AIのエンターテイメント領域での応用に関しては、二歩も三歩も先を歩んでいる。