中華IT最新事情

中国を中心にしたアジアのテック最新事情

機械学習によるリコメンドがトレンド。EC「京東」、音楽サービス、TikTokのリコメンドシステム(上)

まぐまぐ!」でメルマガ「知らなかった!中国ITを深く理解するためのキーワード」を発行しています。

明日、vol. 093が発行になります。

 

今回は、リコメンドシステムについてご紹介します。

リコメンド(日本ではレコメンドと言い方もよく使われます)とは、推薦の意味で、特定の人に最適な商品、サービス、コンテンツを紹介してくれる仕組みのことです。

多くの人になじみがあるのが、EC「アマゾン」の「この商品を買った人はこんな商品も買っています」ではないでしょうか。また、書籍などでは「あなたへのおすすめタイトル」、「読書履歴に基づくおすすめ」など、たくさんのリコメンドが表示されます。現代人は、膨大な商品、サービス、情報に囲まれているため、もはや自分で調査をして適切な対象を見つけることが難しくなっています。そのため、ネットサービスでは、いかに適切なリコメンドをするかが、売上をあげる大きな鍵となってきています。

 

中国のECではアプリを開くと、おすすめ商品がいきなり表示されます。多くの人が、このおすすめ商品を見て、その中から気に入ったものを買うようになっています。また、音楽やムービーのストリーミングサービスでは、どれだけ利用者の好みに合うコンテンツをリコメンドできるかが、そのサービスの品質に直結するため、リコメンドシステムの競争が激化をしています。

このリコメンドシステムは、エンジニアだけでなく、小売業者も強い関心を持っています。例えば、アリババの淘宝網タオバオ)で、どのような商品であれば、多くの人のおすすめに表示されるのか、中国版TikTok「抖音」(ドウイン)では、どのようなショートムービーであればリコメンドされて大量に配信されるのかを知りたがっています。利益に直結をするからです。

ちょうどグーグルの検索順位を上げるSEO対策(Search Engine Optimization、検索エンジン最適化)のようにリコメンドエンジンSEOのようなことが行われています。

 

グーグルの検索エンジンの検索順位は「たくさんのサイトからリンクを張られているサイトは有用」という考え方からスタートしたため、被リンク数が多いほど検索上位に表示されていました。そのため、初歩のSEO対策は、ダミーサイトをつくって、そこから対象のサイトに大量のリンクを張るというものでした。

これはある意味、グーグルの検索エンジンの隙をつく、ずる賢い方法です。そこで、グーグルは「SEO対策」対策を行い、検索順位を決めるアルゴリズムを日夜改善しています。グーグルが目指しているのは、検索エンジンの利用者に対して、最適のリコメンドをすることなのです。

中国の各テック企業のリコメンドシステムでも同じことが起きています。業者は自分の利益を上げるために、ずる賢い方法を含めて、次から次へとさまざまな手段を使ってリコメンドシステムを騙そうとします。提供側はそれを阻止する改善を行うことで、より精度の高いリコメンドシステムになっていくという企業と業者の競争も起きています。

 

リコメンドシステムの最もシンプルなアルゴリズムは、協調フィルタリングと呼ばれるものです。

例えば、ECを考えてみます。多くの利用者がたくさんの商品を買いますが、買った商品別にグループをつくることができます。この中で、A、B、C、D、Eの5つの商品を購入した人が多数いて、クラスター集団を形成していたとします。そこにある利用者がA、B、C、Dの4つの商品を買っていたとします。この利用者は先程のグループの周辺にマッピングされることになります。もし、Eの商品を買ってくれれば、大きな集団に属することができるわけです。この利用者にはEの商品をリコメンドすれば購入してもらえる確率が高くなると考えられます。

f:id:tamakino:20211009094524p:plain

協調フィルタリングは、購入履歴が近い集団と比較して、欠けているアイテムをリコメンドするというもの。

 

このように複数の消費者の購入履歴を比べフィルタリングして、リコメンド商品を炙り出すというのが協調フィルタリングです。イメージとしては、利用者を購入履歴に基づいてマッピングし、クラスター集団の周辺に位置する利用者に対して、購入すればクラスター内に入るような商品をリコメンドするというものです。

f:id:tamakino:20211009094527p:plain

▲利用者の購入履歴をマッピングし、周辺の利用者が購入をすればクラスター集団の中心(重心)方向に移動するようなアイテムがリコメンドの対象となる。

 

ところが、この協調フィルタリングは考え方はシンプルですが、実際の運用上はいろいろと問題があります。

最も大きな問題は、このようなシンプルな手法ではリコメンドの精度が出ないことです。問題は「買った」と言っても、それが必ずしも利用者の好みを反映しているとは限らないことです。

書籍のECを考えてみるとわかりやすくなります。書籍を購入したと言っても、「会社で業務上必要だから買った。感想は特になし」「面白いと思って買ったが、期待外れだった」「買っただけで読んでない」「ものすごく面白かった」と反応はさまざまです。これをすべて一緒くたにして、「買った=好み」という前提でリコメンドをしても、精度が出ないのは当たり前のことです。

そこで、多くのECでは、商品購入後に5段階評価することを求めるようになっています。この評価は、平均点などを商品の横に掲示をして、他の購入者の目安にすることにも使われますが、実は自分自身に対するリコメンドの精度を上げることにも使われているのです。

そのやり方は、協調フィルタリングで「買った商品」の部分を、「高評価の商品」に置き換えて利用者をグループ分けし、比較をして、そのグループに属するような商品をリコメンドするというものです。

さらに、「商品ページの閲覧履歴」「類似商品の購入」「リピート購入率」などさまざまな観点で、利用者をグルーピングしていくことにより、より高い精度のリコメンドが行われるようになっていきます。

 

しかし、どうしても解決ができない問題が計算コストです。利用者は常に買い物をしたり、商品ページを見るという行動をします。そのたびに、利用者のマッピングをやり直す必要があるのです。しかも、多くの場合、特に中国では月に数億人規模の消費者がECサイトを利用します。精度を上げようとすると、さまざまなパラメーターを利用する必要があり、それでまた計算量が増えてしまいます。結局、利用者が増えてくると、どこかで精度をあきらめるしかなくなってしまいます。

 

協調フィルタリングの計算量が大きいのは、利用者の行動を基礎データとしているため、利用者が行動してから計算をし、しかも新たな行動をすると再計算をしなければならないからです。

そこで、商品側の分析モデルを先に作っておいて、協調フィルタリングの計算量を減らす工夫などもされています。ただし、あまりにも商品分析モデルに軸足を置きすぎると、「カメラを購入した人に、他社のカメラがリコメンドされる」という意味のない、時には皮肉なリコメンドになってしまいます。

しかし、例えば、音楽ストリーミングサービスでは「聞いている曲に、似た曲を次にかける」ということができ、うまくハマるためによく用いられています。

 

いずれにせよ、多くのサービスサイトでは、協調フィルタリングという考え方を基礎にして、それを自社のサービスへの適合、運用などを考え、さまざまな工夫をし、独特のシステムを構築しています。

中国のテック企業では、この協調フィルタリングという手法の次に進み、機械学習を取り入れたリコメンドシステムの導入が主流になってきています。パラメーターを増やすことで精度をあげるのではなく、機械学習をさせることで精度をあげようという考え方です。

そこで、今回は、「EC京東の機械学習リコメンド」「網易雲音楽のラジオサービス」「抖音のコンテンツリコメンド」の3つについて、どのように機械学習が使われているのかをご紹介します。

 

続きはメルマガでお読みいただけます。

 

毎週月曜日発行で、月額は税込み550円となりますが、最初の月は無料です。月の途中で購読登録をしても、その月のメルマガすべてが届きます。無料期間だけでもお試しください。

 

今月発行したのは、以下のメルマガです。

vol.092:「テンセントの壁」が崩れ、ネットのオープン化で何が変わる?異なる流量戦略を持っているWeChatとアリペイのミニプログラム

 

登録はこちらから。

https://www.mag2.com/m/0001690218.html