中華IT最新事情

中国を中心にしたアジアのテック最新事情

Tik Tokが、インフルエンサーの介在なしに爆発的拡散力を生むテクノロジーの秘密

Tik Tokはなぜインフルエンサーの介在なしに爆発的な拡散力を生むのか。多くのエンジニアたちがその秘密を知りたがり、バイトダンスのブログやインタビュー記事などから推測を行い、情報交換をしている。それによると、鍵は人工知能と配信サイクルにあるとChenVastが報じた。

 

インフルエンサー不要の爆発的な拡散力を持つTik Tok

ショートムービー共有「Tik Tok」(抖音、ドウイン)の核心テクノロジーは、人工知能によるリコメンドエンジンだ。これにより、爆発的な拡散力が生まれた。

リコメンドを人とソーシャルマップに頼っているSNSでは、コンテンツがバズるかどうかは、結局は、影響力の大きなインフルエンサーがリツートするかどうかにかかっている。

SNSでは、名もない女の子がダンス映像を公開して、一夜にしてバズるということは原則的に起こらない。バズるには、インフルエンサーが目を止めるという偶然か、あるいはそもそもインフルエンサーに近い位置にいることが必要になる。

しかし、Tik Tokでは、ダンス映像が爆発的に拡散し、名もない女の子が一夜にして人気者になるという現象がたびたび起きている。この爆発力はどうして生まれるのか。

f:id:tamakino:20210205110946j:plain

f:id:tamakino:20210205110942j:plain

▲Tik Tokは国際版の名前で、中国国内では「抖音」(ドウイン)という名前で知られる。ライブ配信機能、ライブコマース機能もあり、もはや若い女性のダンス映像だけではなくなり、老若男女が使う国民的アプリになっている。

 

多くのエンジニアが知りたがっているTik Tokのリコメンドアルゴリズム

Tik Tokの開発元であるバイトダンスは、そのアリゴリズムについては公開をしていない。しかし、多くのエンジニアは、その秘密を知りたがり、バイトダンスのエンジニアのメディアでの発言、公式ブログなどから、そのアルゴリズムを推測しようとしている。

そして、エンジニアたちは、そのような推測情報を集めて、こうではないかという情報をまとめ、その情報がエンジニア系のSNSグループで転載されまくっている。この推測情報が正しいかどうかはわからないものの、次のような内容になっている。

f:id:tamakino:20210205110951j:plain

▲Tik Tokが学習する主な特徴量。実際の反応を見て、機械学習を進め、最適な利用者を探して配信をしていく。

 

映像内容を人工知能でタグづけし内容審査

それによると、5つのステップで、Tik Tokのコンテンツは拡散をしていくという。

ステップ0は、内容の審査だ。ここではアダルト、暴力など、規約違反にあたる映像でないかどうかが審査される。

この審査は人工知能と人手の2つで行われる。まず、人工知能が新しく投稿されたムービーを画像解析し、タグづけを行っていく。このタグには2つの用途がある。ひとつは、タグの中に、規約違反にあたるワードがあった場合は、問題映像として警告を出し、人が内容を確認することになる。もうひとつは、Tik Tokの映像タグデータベースとの比較が行われ、推薦度が設定される。すでにTik Tokに大量に存在する映像の場合、推薦度が低く設定される。

つまり、Tik Tokでは、誰かの真似は拡散しづらい。新奇性の高いユニークな映像が拡散をする。これにより、Tik Tokはサービスとしての鮮度を維持している。

人手による審査は、人工知能規約違反のアラートを出した映像を人の目で審査を行う。場合によっては、映像を削除し、アカウントの停止処理などを行う。

 

数百人のコールドスタートで反応を機械学習

ステップ1は、コールドスタートだ。ランダムで選ばれた200人から300人に映像が配信され、その反応が測定される。ある人は繰り返し見るかもしれないし、ある人は飛ばしてしまうかもしれない。

ステップ2は、このコールドスタートによる反応をデータ化して、機械学習をし、映像の評価をすることだ。使われるパラメーターは、見た人のアカウント情報(ファン数、年齢などの属性)と反応行動(最後まで視聴したか、繰り返し視聴したか、いいね、共有の数など)。

このうち、反応のいい映像は、1000人規模の利用者に配信され、同様の機械学習がされる。

f:id:tamakino:20210205110954j:plain

▲Tik Tokの配信サイクル。300人のコールドスタートから始まり、機械学習を進め、最適な利用者を選び出し、配信規模を大きくしていく。このプロセスは数時間で進むため、爆発的な拡散力が生まれる。

 

約10%の映像が、マッチングする1万人に配信される

ステップ3は、1万人規模の配信が行われるが、このユーザーはランダムではなく、そのコンテンツごとのマッチングを考えて配信される。この1万人規模の配信までたどり着くのは、だいたい投稿された映像の上位10%程度であるという。

ここでは、ユーザーの過去のデータから、どのような映像を好むかなどの情報を見て、その映像が受け入れられやすいかどうかが判断され、配信をされる。

当然ながら、この時の反応も機械学習され、映像の持つ評価特性は洗練をされていく。また、どのような特徴を持つユーザーに反応がいいかも学習され、次はより精度の高い配信が行われるようになる。

そして、次はより適合度が高い10万人が選ばれ配信が行われる。そこでも機械学習が行われ、100万人、1000万人と配信規模が増えていく。最終的には3000万人規模の配信が行われ、そこでの反応がいいと、ほぼ全員に対して配信が行われることになる。ここまでくると、いわゆる「爆発的に拡散する」状況になる。

 

機械学習プロセスのサイクルは短時間で進行する

このプロセスはきわめて短時間に行われることに注意をしていただきたい。ユーザーに映像を配信すれば、そのユーザーはすぐに映像を見て、反応データを生成する。1つのサイクルは30分以内に完了すると見られており、三百人規模の配信から3000万人の配信にたどり着くまで数時間しかかからない。これにより「一夜にして爆発的に拡散する」現象が起きるのだ。

 

マニアックな映像を掘り起こす「墓掘り」

さらに、Tik Tokでは、通称「墓掘り」という仕組みも存在している。それは大量配信には至らないが、少数のユーザーの間での反応がいい映像だ。いわゆる一般受けはしないけど、特定のユーザーには深く刺さるマニアックな映像。マイナー作品に特化したオタク映像などがその例だ。このような少数受けの映像は、次の配信プロセスに進みづらいが、特定のユーザー群に深く受け入れられていると評価されると、次の配信プロセスに進むことがある。この場合、一夜にしてではないが、1週間、1ヶ月経って、突然映像が爆発的に拡散することが起こり得る。

また、特定の映像が大規模配信されると、その映像の配信主の過去の映像の評価もあげられる。これにより、1つの映像が拡散すると、過去に投稿した他の映像も拡散し始めるという現象が起きる。

f:id:tamakino:20210205110936p:plain

▲バイトダンスの最初のヒットプロダクト「今日頭条」。ニュースキュレーションアプリだが、編集者は一人もいない。すべては人工知能が自動でその人に最適な配信を行なっている。中国では最もよく使われているニュースアプリになっている。

 

見たい映像が無限に出てくるTik Tok

バイトダンスは、このようなアルゴリズムを、Tik Tokの前のプロダクトであるニュースキュレーションアプリ「今日頭条」で洗練をさせてきた。それをショートムービーに応用することで、インフルエンサーの介在なしに爆発的に拡散する仕組みを実現し、ユーザー側にとっては「見たいと思っていた映像が無限に出てくる」高揚感を提供することに成功した。

バイトダンスは、今、このアルゴリズムを別に分野にも応用しようとして開発を進めている。それが何であるかはわからないが、メディアは、オンライン教育とライブコマースに応用していると報道している。