「まぐまぐ!」でメルマガ「知らなかった!中国ITを深く理解するためのキーワード」を発行しています。
明日、vol. 120が発行になります。
登録はこちらから。
https://www.mag2.com/m/0001690218.html
今回は、ディープフェイク技術の産業応用についてご紹介します。
まずは、次のウェブページを開いてみてください。
https://thispersondoesnotexist.com
ご存知の方も多いかとは思いますが、誰かの顔写真が表示されるウェブページです。ところが、この人は世界のどこにも存在しないのです。AIが生み出した架空の人物写真です。
注意していただきたいのは、既存の顔写真のパーツなどを寄せ集めて、モンタージュ写真を作るように合成したというのではなく、AIが大量の顔写真を学習して、ゼロからつくった映像なのです。ですから、目の部分はブラジルの○○さん、鼻の部分は台湾の◯◯さんというのではなく、顔のパーツひとつだけ取り出しても、世界のどこにも存在しないのです。まるで、亡くなった方の遺影を見ているような気分にさせられながら、同時に生きているとしか思えない生々しさがあって、不思議な気持ちにさせられます。
これが俗にディープフェイク技術と呼ばれるものですが、これはマスコミの命名で、産業界ではまだ定着している呼び方がないもののディープシンセサイズ(深層合成)という言葉が有力になりつつあります。
https://www.youtube.com/watch?v=zYiuYqYwTeI
▲話題となったディープフェイク映像を集めた動画。
この動画を見ていただければ多くの方が感じるのではないかと思いますが、驚くのは映像の自然さです。言われなければ、普通の実写映像だと思い込んでしまうほど自然です。ですから、もう映像は疑ってかかる時代になっています。実際に、ロシアのウクライナ侵攻について、ウクライナのゼレンスキー大統領が国民に降伏を呼びかけるフェイク映像がフェイスブックに投稿され、削除されるという事件も起きています。
ディープフェイク映像というと、このようないたずら、お騒がせ目的のものが話題になりますが、この技術ーーディープシンセサイズ技術ーーは有用な方向に使うことももちろんできます。そのようなポジティブな応用が中国で始まっています。
今回は、そのような応用事例をご紹介していきたいと考えいます。
「vol.108:主要バーチャルキャラクター大集合。実用用途に使われ始めたバーチャルキャラクター」でもご紹介しましたが、百度が開発した北京冬季五輪用の手話通訳バーチャルキャラクターは北京冬季五輪では大活躍でした。中央電子台(CCTV)の中継で、フリースタイルスキーで金メダルを獲得して大活躍した中国人選手、谷愛凌(グー・アイリン)のインタビューで、手話通訳ロボットが使われていました。
▲中央電子台の記事で、谷愛凌のインタビュー動画が掲載されている。バーチャルキャラクターの手話通訳がリアルタイムでの同時通訳を行った。
これは簡単そうに見えて、開発はかなり大変だったと思います。まずリアルタイムで話をする谷愛凌の言葉をテキスト化する必要があります。そして、そのテキストを手話に翻訳をしていきますが、単語の逐語訳というわけにはいきません。
なぜなら、手話通訳は基本的に意訳だからです。話者の言葉を逐語訳してしまうと、単語数が多くなりすぎて、手話の手の動きが間に合わなくなったり、読み取る方も情報が多すぎて疲れてしまいます。そのため、無駄な単語、時には無駄な文節、話を省略する必要があるのです。もちろん、適当にやることはできず、ここが手話通訳者のテクニックになります。
また、顔の表情というのも手話にとっては重要な情報で、ポジティブな単語では笑顔で、ネガティブな単語では困った表情などをすることで、コミュニケーションに誤解が生まれることを防ぎます。唇の形を発音に合わせた形にすることも重要な要素なのだそうです。
開発を担当した百度と天津理工大学の合同チームによると、この人間の手話通訳者がもっているテクニックをいかにバーチャルキャラクターで再現するかの開発に時間がかかったということです。
この問題を解決するために、中国語を圧縮するAIモデルが別に開発されました。一般の中国語文章の単語を削っていき、意味が変わらなくならないギリギリのところまで削り込む学習をさせたのです。これにより、正確さと簡潔さを両立させませした。
また、手、唇、顔の動きも滑らかに自然にするために、10万件の手話動作、1万件の顔の表情動作、240件の唇の動きを3Dスキャンし、それをなめらかにつなぐためにディープシンセサイズ技術を使い、自然な手話通訳を実現しています。
五輪期間中、モニターの調査では、インタビュー内容の85%は理解できたという結果が出ています。今後も、CCTVの中の番組で活躍をしてくれるはずです。
ところで、なぜこのような自然な映像がつくれるのでしょうか。最初にご紹介した「This Person does not exit」の顔写真はなぜあそこまでリアルにできるのでしょうか。ディープシンセサイズ技術が短期間で急速に進化をしたため、人間の目にはホンモノなのかフェイクなのか見分けがつかない映像が生成できるようになりました。いったいどんな仕組みになっているのでしょうか。
画像系AIの基本は、判定器です。例えば、犬の写真を入力すると、出力として「犬」と答えてくれる判定器です。厳密には「犬0.87、猫0.12、その他0.01」のような確率を出力してくれます。
このような判定器は、畳み込み演算と呼ばれる特殊な計算方法を使って、画像の特徴を抽出していく仕組みになっています。抽出された特徴が犬特有の特徴であれば犬と判定し、猫に特有な特徴であれば猫と判断しています。
この畳み込み演算は、何かとても難しいことであるかのように教科書には書かれていますが、実はそんなに難しいことはしていません。むしろ、こんな簡単なことで、画像の特徴を調べることができるのだと感動するほどです。
畳み込み演算とは、画像の1ドットに注目した時、その周辺のドットの情報までを含めて、1ドットに集約をさせる計算です。周りのドット情報までを1つのドットにまとめていくため、まるで周囲の情報を畳み込んでいくような操作をすることから「畳み込み演算」と呼ばれます。
▲左上4マス(赤枠)の数値を一定の方法で演算して答えを新しい画像の左上に書き込む。次に4マスを1マス分ずらして(緑枠)演算を行い、次のマスに書き込む。複数のマスの情報を1マスに畳み込むような演算をすることから畳み込み演算と呼ばれる。
例えば、周りのドットまで含めて色の濃度の平均値を計算(足して4で割る)して、1ドットにまとめれば、画像全体としては色の変化が滑らかになり、ぼやけた感じになります。また、計算するときにフィルターを使ってやると、フィルターを工夫することによって、特定の特徴を抽出することができます。
次の例では、縦のエッジ抽出をおこなっています。実際に、手作業で畳み込み演算を行なってみると、次のような結果になります。縦のエッジ(境界線)がうまく抽出でき、横のエッジは抽出をしていません。
▲縦エッジ抽出フィルター(中央の4マスの数字)を使って畳み込み演算を行うとエッジ抽出ができる。左上の4マスの数値にフィルターの数値を掛け算して、その結果を右側のマスに書き込んでいく。すると、縦エッジのある部分の数値が高くなる。これで「画像の縦エッジという特徴が抽出」できたことになる。
この畳み込み演算は、Photoshopなどの画像加工ソフトでは、昔から多用されているものです。フィルターの中身を工夫することで、エッジを抽出したり、特定の色だけを抽出する、ノイズを抽出するなどさまざまなことが可能になり、画像加工ができるようになります。
画像系AIの判定器は、この畳み込み演算を何段階も行なっていきます。つまり、特徴を抽出して、さらにその特徴分布画像の特徴を抽出するということを何回も繰り返していきます。最終的には「特徴の特徴の特徴の…特徴」というような画像ができあがり、この特徴が犬特有のものに近ければ犬だと判定しますし、猫特有のものに近ければ猫だと判定します。
もちろん、何段階の演算を組み合わせるか、各段階でどのようなフィルターを使うかなど、モデルの設計には無限の組み合わせがあり、この部分はほとんど理論化されてなく、試行錯誤でやっていくしかありません。多くの場合、AIエンジニアはつくろうとしているAIモデルと目的が似た過去の事例を探し、論文を取り寄せ、そこで使われているAIモデルを真似することから出発をします。
このような試行錯誤の世界では、経験に基づく勘が大きくものを言います。ですから、テック企業はAIの理論的研究よりも研究開発を志向します。頭で考えるより、手を動かして経験を積んだ方が強いからです。特に中国のテック企業は、元々が考えるよりも手を動かす体質であることもあって、この姿勢が身について、それが現在の中国テック企業のAIの強みになっています。
今、犬の画像を入力すると、「犬」という答えを出力してくれる判定器があるとします。この判定器の入力と出力を入れ替えて、逆転させるとどんなことが起きるでしょうか。「犬」という言葉を入力すると、犬の画像を出力する生成器ができあがります。
もちろん、現実はこんなに簡単な話ではありません。AIモデルをただ反転しただけでこんな都合のいいAIモデルはつくれません。しかし、このような発想で、画像生成をするAIモデルの構築に挑戦する人たちが現れました。
しかし、問題になったのは、AIの学習には大量の教師データが必要になるということです。判定器をつくるには、大量の犬の画像が必要になりますが、今では、質はともかく、ネットから大量に取得することが可能です。しかし、生成器の場合はこの教師データがないのです。「犬」という単語と種になる乱数を入力すると、生成器は何らかの画像を出力します。しかし、それを犬として認めるかどうかを1枚1枚人間が判定していかなければなりません。何万枚、何十万枚というデータを使って学習をさせなければならず、それを人間が1枚1枚判定していくことなどは無理な話です。
そこで、次に出てくるアイディアが、人間が判定するのではなく、AIに判定させようというものです。生成器が生み出した画像を、判定器に入力して犬かどうかを判定させ、この判定器が犬と判定するように、生成器を学習させていきます。
このような2つのAIモデルを組み合わせたものがGAN(Generative Adversarial Networks、敵対性生成ネットワーク)です。読み方は「ガン」と読む人もいれば「ギャン」と読む人もいます。
このGANは生成器と判定器を対決させるようにして、学習を進めていくもので、よく贋金づくりと警察に例えられます。生成器が贋金をつくると、警察はそれを贋金か本物かを見分けます。生成器はその結果を受けてより精巧な贋金をつくるように学習が進んでいきます。
生成器と判定器という2つのAIモデルが互いに互いを高め合いながら学習が進んでいきます。このプロセスに人間が介在する必要はなく、いくらでも高速に大量に学習が行えるため、最終的には判定器の真贋判定が1:1に落ち着き、もはや本物と偽物を見分けることができないレベルの画像が生成できるようになるのです。
This Person does note Existの顔写真もこのようにしてつくられたものです。
では、このGANによるディープシンセサイズ技術はどのような分野でどのような応用がされているのでしょうか。今回は、ディープフェイク(シンセサイズ)技術の産業応用についてご紹介します。
続きはメルマガでお読みいただけます。
毎週月曜日発行で、月額は税込み550円となりますが、最初の月は無料です。月の途中で購読登録をしても、その月のメルマガすべてが届きます。無料期間だけでもお試しください。
今月発行したのは、以下のメルマガです。
vol.118:北京冬季五輪で使われたテクノロジー。デジタル人民元から駐車違反まで
vol.119:主要テック企業はリストラの冬。安定成長へのシフトと香港上場問題