中華IT最新事情

中国を中心にしたアジアのテック最新事情

北京冬季五輪でデビューをしたAI手話通訳。簡単ではなかった開発ストーリー

北京冬季五輪に合わせて、AI手話通訳が中央電視台に登場した。アナウンサーが話した内容をリアルタイムで手話に翻訳をしてくれる。百度と天津理工大学の合同チームが開発をした。しかし、手話で必要とされるのは手の動きだけではない。開発は簡単なことではなかったと量子位が報じた。

 

話者の話をリアルタイムで翻訳をするAI手話通訳

北京冬季五輪に合わせて、AI手話通訳が中央電視台(CCTV)に登場した。アナウンサーの話す言葉をその場でリアルタイム認識し、手話に翻訳をし、手話通訳を行うと言うものだ。

CCTVの著名アナウンサー、朱広権は、実験としてアナウンサーが話せる最高速度で話してみたが、手話通訳は追従をしてみごとに翻訳をした。

現在、この手話通訳は話者の話の85%程度を通訳できるという。

f:id:tamakino:20220207112542g:plain

f:id:tamakino:20220207112557p:plain

▲五輪関係のニュースでは、アナウンサーが話した内容をリアルタイムでAI手話通訳が翻訳をする。

 

単なる逐語翻訳ではすまない3つの課題

しかし、話者の話を自然言語認識し、テキストに変換、これを手話動作に変換するという単純な手法では実現ができなかったという。手話は思ったより複雑な構造をしている。

ひとつは言葉から手話へ逐語翻訳ができないケースが多々あるということだ。例えば、中国語で「家に帰りたい」は、「我想回家」(我:私は、想:~したい、回:帰る、家:家)という語順になるが、手話では「家、回、我想」という語順になる。

また、手話通訳では言葉の省略が行われる。話者の話した言葉をすべて逐語翻訳するのではなく、伝えたい意志と無関係な単語、文節を意図的に翻訳しないことがある。これは通訳者のテクニックのひとつで、すべての言葉、文節を手話通訳をすると、理解するのが難しくなりがちであるためうまく伝わらなくなってしまう。そこで、省略や言葉の置き換えを行う。しかし、これは非常に高度な判断が要求される。あらかじめ話す内容が決まっているスピーチなどであれば、事前に検討することもできるが、同時通訳ではその場での判断が求められる。手話通訳者の間でも経験が必要とされる技術のひとつだ。

さらに、手話通訳には顔の表情も重要になる。ポジティブな単語の時は明るい笑顔で、ネガティブな単語の時は困った表情をすることで、コミュニケーションを補い、誤解が生じることを防ぐ。さらには、唇を音に合わせた形にすることで、伝えやすくする。

AI手話通訳は、単に単語を手の振りに翻訳するというだけでなく、このような人間の通話者が行なっているテクニックも再現する必要があった。

f:id:tamakino:20220207112602g:plain

https://weibo.com/2656274875/LdSotzLQh?refer_flag=1001030103_

▲中央電子台では、AI手話通訳の紹介として、アナウンサーによる面接試験が行われたという設定のコーナーが用意された。アナウンサーが最高速で話す内容を、AI手話通訳はみごとにリアルタイム翻訳した。

 

百度と天津理工大学の合同チームに多くの人が協力をした

このAI手話通訳を開発したのは、百度バイドゥ)のスマートクラウドチームと天津理工大学の合同チーム。実際に手話を使っている100名以上の協力と、手話の専門家、障害教育の専門家などの協力を仰いだ。

技術的な目標として、「正確に聞く」「翻訳をする」「表現する」の3つの領域が設定されて開発が進められた。

f:id:tamakino:20220207112554j:plain

▲実際の開発には、多くの障害者の協力があった。リモートで使ってもらい、リモート会議で意見を聞くということを繰り返していった。

 

6回の設計変更を経て完成した翻訳モデル

「正確に聞く」に関しては、百度がすでに10年以上の実績を持つ自然言語認識モデルを持っているため、大きな問題にはならなかった。認識率は98%以上で、中文英文が混在している話も認識ができる。俗語、方言についても対応している。

「翻訳をする」がこの開発の最も核心的な部分で、開発チームは、言語から手話に翻訳をするAIモデルを構築した。正確さと簡素さの2つの指標が設定され、正確に手話に翻訳をするのはもちろん、不要な単語、文節は省略をして、文の意味が正確に伝わる度合いを重視する。

このために、中国語を圧縮するAIモデルが別個に開発された。中国語の文章の単語を削っていき、文の意味が変わらなくなるところまで削り込むという学習を行わせた。こうして、話者の話した内容を、意味が変わらない範囲で短くし、これを手話に翻訳をしていく。こうして、正確さと簡素さを両立させた。

開発に要した2ヶ月の間、6回も大規模な設計変更が行われた。これにより、実際の障害者の協力を得た試用試験では、85%以上の理解率が得られ、実用に耐えうると判断された。


www.youtube.com

▲中央電子台によるAI手話通訳の紹介映像。手の動きだけではなく、顔の表情、唇の形も人間の通訳者を模倣できている。

 

人の自然な顔の表情、唇の形、手の動きを学習

最後の「表現する」では、手を使った手話の動作だけではなく、唇の形、顔の表情も話の内容に応じて生成する仕組みを構築した。手話だけでなく、唇の形、顔の表情と合わせた手話データベースは1万件近くなったという。

さらに手、唇、顔の動きも、プログラムで動かすのではなく、10万件の手話動作、1万件の表情動作、240件の唇の動作を3Dスキャンし、自然な動きになるように学習をさせた。

f:id:tamakino:20220207112551p:plain

f:id:tamakino:20220207112616p:plain

▲手の形だけでなく、顔の表情もコミュニケーションの重要な要素になっている。

 

五輪以降、さまざまなシーンでの利用が期待されるAI手話通訳

単語を手話に置き換えただけに見えるかもしれないが、実際には手話は人間の通訳が練り上げてきたテクニックの塊であり、これをAIで再現するのは簡単なことではなかった。しかし、北京冬季五輪、そして何よりパラリンピックで、このAI手話通訳が広く知られることにより、あらゆる場所で使われていることが期待されている。AI手話通訳は、何人分でもコピーすることができ、24時間働くことができる。民間のカスタマーセンターやインフォメーションなどでも利用されることが期待されている。