中華IT最新事情

中国を中心にしたアジアのテック最新事情

バイトダンスが古文書図書館を設立へ。AI、自然言語処理、知識マップなどのテクノロジーを使ったオンライン図書館

バイトダンスが古文書の修復、デジタル化に取り組んでいる。20万種類以上あるという中国の古文書をデジタル化、テキスト化をして、ネットで公開するのが目的だ。しかし、高いAI技術などが必要とされる遠大な計画になる。それが今、スタートしたと字節跳動公益が報じた。

 

20万種類の古文書をネット公開することを目指す

字節跳動(バイトダンス)の公益プラットフォーム「字節跳動公益」(バイトダンスCSR)は、北京大学と共同して「北京大学バイトダンスデジタル人文開放実験室」を設立したと発表した。

この研究室では、古文書のデジタル化を行う。中国には重要古文書が20万種類あると言われているが、そのうち、デジタル写真化されているものは約8万種類。さらに、OCRでテキストまでデジタル化されているのは3万種類から4万種類だと言われている。つまり、半分以上の古文書はネットに公開することができない。さらに、テキスト化されていない古文書は検索もできない。

この研究室では、古文書の撮影、OCRによるテキストのデジタル化を進め、すべての古文書をネットで無料公開することを目指している。つまり、ネットに古文書デジタル図書館をつくるのが目的だ。

 

簡単ではない古文書のデジタル化

テキストのデジタル化は簡単ではない。古文書の多くが手書きであるため、書かれた文字が何という文字であるかを機械学習させて判断しなければならない。しかも、古文書ごとに筆跡が異なる。

さらに、古文書は一般的に句読点が使われていないため、文脈を理解して句読点を補う必要もある。

さらに、知識マップも作成する必要がある。古文書に登場する時代、人物名、地名などを抽出して、他の古文書の関連付けを行う。時代の呼び名、地名の名称などは変化をするため、ここも高度な判断が必要になる。

▲修復の様子を公開したショートムービー。多くの人にとって初めて見る映像で、大きな反響があった。

https://v.douyin.com/NvPTdVP/

 

誰でも古文書を研究できる環境を整える

整理が終わった古文書は、社会に向けて無料開放をしていくという。研究者やアマチュア史家、教師、学生だけでなく、普通の人も利用できるコンテンツになる。これにより、古文書研究のレベルの底上げをしようとしている。

バイトダンスAIラボの李航総監督は言う。「私たちは、バイトダンスの公益活動を通じて、北京大学の古文書デジタル化事業を社会サービスとして提供するお手伝いをしたいと考えています。また、OCR自然言語処理、知識マップなどの技術を高め、古文書デジタル化にAIテクノロジーにより整理、研究、利用できるようにし、多くの研究者、愛好家のみなさんが古文書から多くの知見を効率的に得られるようにしたいと考えています」。

▲バイトダンスの廉成春氏。抖音の開発にも参加をしたが、プライベートでは古文書修復師として長年活躍している。修復技術をショートムービーで発信している。

 

多くの人の参加を求めるオープンなプロジェクト

研究室の目標は、3年以内に1万種類の古文書のデジタル化を完了することだ。当面は、儒教道教、仏教関係の古文書のデジタル化を中心に行う。また、協力者の参加を拒まず、多くの人の手と知恵を借りてプロジェクトを進めていきたいという。

2021年、バイトダンスは中国文物保護基金会、国家図書館と共同して「古文書守護者発見プロジェクト」を始めている。専門家や文化人、抖音の創作者などを集めて、抖音のショートムービーを通じて多くの人に古文書に親しんでもらうプロジェクトだ。

このプロジェクトに参加をしているバイトダンス社員の廉成春氏は、抖音の開発にも参加したメンバーの一人だが、古文書の修復の専門家でもあり、修復の仕事も13年にわたっておこなってきた。その修復技術をショートムービーで紹介をし、大きな反響を得ている。

バイトダンスは1000万元を拠出し、中国文物保護基金を設立した。この基金を使って実際の図書館に所蔵されている実際の古文書の修復を行い、同時に100名の修復師を育成する。

北京大学との共同実験室は、このようなバイトダンスの公益活動のリソースも投入されることになる。

▲著名人が集まって結成された「古文書守護者発見プロジェクト」。古文書の重要性、楽しさなどを広めていく活動をしている。