優れたAIシステムを構築するには、大量で広範囲の教師データが必須。良質の教師データを提供する愛数智慧

優れたAIシステムを構築するには、そのAIモデルも重要だが、大量で広範囲の教師データも必要になる。この教師データに偏りがあると、AIバイアスが生まれてしまう。音声学の研究者だった張晴晴は、その経験から、音声領域の教師データを提供する企業「愛数智慧」を設立して順調に成長していると創業邦が報じた。

広がるAIの大きな課題ーー教師データ不足

中国で人工知能（AI）を使った製品が広がりを持ち始めている。自動運転技術では、画像解析や音声操作の理解などAIテクノロジーがふんだんに使われている。また、オンラインや対面でも、音声チャットボットによる顧客対応も進み始めている。スマートフォンで、マイクを使えばノイズ除去、写真を撮れば美しく見せるフィルターがかかるなど、AIはすでに日常のさまざまなところで利用されるようになっている。

ところが、今、問題になっているのは、AIを訓練させるためのデータ不足だ。AIは膨大な教師データで学習をさせて育てなければならない。このデータを用意するのが簡単ではない。

例えば、顔認証のシステムで、特定の人種の認識率が著しく悪く、レイシズムとも結びつけられるという問題が起きている。しかし、開発者側にはレイシズム的な発想はなく、単に集めやすい教師データを集めたら、特定の人種に偏っていたということが原因だ。

AIバイアスを避けるには大量、広範囲の教師データが必要

このような問題は、AIバイアスと呼ばれる。

例えば、顔認証システムを開発するには、大量の顔データで学習をさせる必要がある。現在は、オープン化された顔データも無数にあるため、データを集めることができる。しかし、コロナ禍により、マスクをつけたまま顔認証ができるシステムの開発が求められている。このマスク付き顔認証システムの開発が遅れているのは、アルゴリズムやAIモデルの問題よりも、「マスクをつけた状態の顔データ」の収集に苦労をしているからだ。誰も想定していなかったデータであるため、1枚1枚撮影をして、自分で用意しなければならない。

そこで、AIを使って、普通の顔にマスクを合成する試みも行われている。これでマスク付きデータを大量に生成して、それでAIを学習させる。しかし、高い精度を出すことに苦労をしているようだ。

f:id:tamakino:20211207101633j:plain — ▲愛数智慧を創業した張晴晴。学生時代に研究のための音声サンプルを集めるのに苦労した経験から、教師データを提供するビジネスを始めた。

データ収集に300日、解析は1日

現在では、AIの開発には、優れたAIモデル、アルゴリズムの他に、適切で大量の教師データも重要だと考えられるようになっている。この教師データのうち、音声領域のデータを提供するビジネスを行なっているのが、愛数智慧（アイシュー）だ。

愛数智慧の創業者、張晴晴は、北京郵電大学で音声学を学ぶ学生だった。音声をデジタル化し、デジタル信号として処理する分野の研究をし、大学院に進学をした。卒業後は中国科学院音声学研究所の研究者となり、フランスに留学をし博士号を取得したという優れた研究者だった。

その張晴晴が、研究テーマとして選んだのが、中国人の英語学習だった。中国人が話す英語は当然ながら中国訛りになる。その中国訛りがネイティブにはうまく理解できない発音となることがあり、大量の英語を話す中国人の音声を収集し、中国人の英語の発音のどこに問題があるかを分析しようと考えた。

そのために、英語を話す中国人の音声を200人分集める必要に迫られた。友人、知人に協力を依頼しても必要数には達せず、最後には街頭に立って道行く人に声をかけて協力者を探すことまでやった。結局、200人の音声データを集めるのに300日間かかってしまった。

データが揃った301日目、張晴晴はデータの解析を行なった。その日の夕方には、求める実験結果が得られた。300日かけて集めたデータの処理がたった1日で済んでしまったのだ。

f:id:tamakino:20211207101631j:plain — ▲現在の愛数智慧。音声AI用の教師データを提供するというビジネスで、5年で100人規模の企業に成長をしている。他のAI領域でも、教師データを提供する企業が生まれている。

教師データを提供する会社を起業

張晴晴は、この経験から、データの収集に大きな手間がかかる問題を意識するようになった。データは集めるだけでなく、クリーニングをし、分類をし、タグづけをし、検査をし、篩にかける必要がある。

音声データ領域で、このデータを収集し、AIの学習に使える状態にすることが、AIの発展に寄与できると考え、わずか10人の小さな会社「愛数智慧」を2016年11月に創業した。

対話型音声の教師データを大量に提供するのがミッション

愛数智慧が意識をしているのは、対話型のAIチャットボットの訓練データだ。しかし、対話型の訓練データの提供は簡単ではない。対話というのは、語順の乱れ、口ごもり、発音の間違い、複数人が同時に話すという事態が日常的に起こり、対話型AIはこのような事態であっても、音声を認識し、自然言語理解をし、合成音声を適切なタイミングで再生する必要がある。

さらに、中国語だけでなく、方言や外国語も訓練をする必要があり、中国語の会話の中に英単語が使われるという例もあたりまえのことになっている。

このような人間と変わらないレベルの音声チャットボットを開発するために必要とされる訓練データを提供していくのが愛数智慧のミッションだ。Magic.Hub.com（https://magichub.com/jp）では、オープンソースとなっている教師データを20万時間以上収集し、約14万時間分の教師データを利用できるようにしている。言語は60以上に及び、それぞれに性別、年齢、感情、対話環境が異なっている。

また、SaaS「Annotator 5.0」では、ユーザーが独自に音声データを収集して、教師データとして利用できるようにするツールを提供している。

AIの開発は、優れたAIモデルを構築できる高度人材も必要になるが、このように大量の教師データを提供する企業も必要になる。特に大量の教師データが得られるかどうかは、AIを産業化する上で大きな鍵になる。AIにとって教師データは「原油」とも呼ばれ、この「原油」を提供する企業が、愛数智慧以外にも登場してきている。