中華IT最新事情

中国を中心にしたアジアのテック最新事情

AIに大学入試問題を解かせてみたら。意外なことにAIは数学が苦手

対話型AIをの評価を行っているOpenCompassでは、主要なAIに大学共通入試問題を受けさせるという試みを行った。その結果、意外なことにAIは数学の得点が最も悪かったことが判明したと快科技が報じた。

 

対話型AIに大学共通入試問題を解かせてみたら

大規模言語モデル(LLM)を基礎にした対話型AIは、業務でも生活でももはやあたりまえのように使われるようになった。それだけに多くの人が対話型AIの限界をも感じるようになっている。こちらの言葉をうまく理解してもらえず、求めているのとはまったく違った方向の回答をしたり、事実とはまったく異なる嘘(ハルシネーション)を出力することもある。

上海人工知能実験室傘下の司南評価システム「OpenCompass」(https://opencompass.org.cn/home)では、主要な対話型AIの評価を行い、ランキングを発表しているが、6月に行われた大学共通入試「高考」(ガオカオ)の問題を解かせて採点するという試みを行った。

 

AIが問題を解き、人間の採点者が採点

対話型AIに受験をさせたのは、英数国の3科目で満点は420点になる。テストをしたLLMは7種類で、「試験問題の情報に触れてしまう」リスクを避けるために、オープンソースの対話型AIを、試験前にビルドをしておき受験をさせた。ただし、OpenAIのGPT-4oは、オープンソースでなく、情報の更新時期も明らかになっていないため、試験問題に直接触れてしまうリスクが避けられないため、参考参加として参照用に受験させた。

採点は、高考の採点経験がある教師に匿名参加をしてもらった。1問につき、最低でも3人が採点をし、評価が大きく分かれた場合は、研究チームと採点者で議論をして採点を進めた。また、採点者には「対話型AIの解答である」ということは隠され、採点終了後に明らかにされた。

▲大学入試問題の英数国3科目の得点。アリババの「通義千問」が1位となった。GPT-4oは情報の更新時期が明らかになっていないため参考参加となった。いずれも数学の得点が低いことがわかる。

 

意外なことにどのAIも数学の点数が低かった

その結果、420点満点で303点を取ってトップになったのはアリババの「通義千問」だった。2位には296点でGPT-4oが入った。フランスのスタートアップが開発した「Mistral」は残念ながら最下位となってしまった。

全般的に、国語と英語の成績はまずまずだったが、どの対話型AIも数学の得点が低いことが明らかとなった。最高点でも150点満点中75点で、21点という足切り対象になる低い得点もあった。

 

推論ができないAI

なぜ数学の得点が低いのか。問題別に見てみると、選択問題や穴埋め問題にはある程度の成績を出せるものの、一般的な問題を解かせる出題に弱いことがわかる。採点に協力をした教師たちによると、推論ができていないという。中には問題の意味がまったく理解できていないのに、それらしい計算過程を並べている例もあった。さらに、途中の論理がほぼでたらめに近いのに、なぜか解答だけは合っているという不思議な例もあったという。

▲各対話型AIの数学の得点。左から「選択問題」「複数選択問題」「穴埋め問題」「記述問題」。記述問題の得点が著しく悪かった。

 

行間が読めないAI

また、国語(中国語)でも特徴的な傾向が見られたという。それは、暗喩や隠されたサブテキストがまったく理解をできていないということだ。文字に書かれた論理はかなり正確に把握ができるものの、行間に埋められた文脈を理解できないか、無視をする傾向がある。

中国には「潜在詞」という表現方法がある。たとえば、次のような笑い話だ。

ある若者が床屋をからかおうとして、床屋に行き「ヒゲを剃ってください」と頼んだ。しかし、その若者にはヒゲなどまったく生えていないのだ。

床屋は若者を鏡の前に座らせて、そのまま放置した。若者が焦れて「ヒゲを剃ってもらえないの?」と尋ねると、床屋は「あなたのヒゲが生えてくるのを待っています」と答えた。

 

人間であれば、からかおうとした若者が逆に床屋にやりこめられることを面白がり、床屋の「髭が生えてくるのを待っている」という無理な理屈にも面白さを感じる。しかし、対話型AIは文字をそのままに受け取って、床屋はほんとうに髭が生えてくるのを待っているのだと解釈してしまう。

 

推論能力を身につけられるかがAIの今後の課題

上海人工知能実験室の林達華研究員は、対話型AIの推論の弱さが応用範囲を限定してしまっているという。「現在、多くの対話型AIは、顧客サポートやチャットなどで使われています。このようなシーンでは、推論の弱さによる影響はあまり大きくありません。しかし、財務報告を分析したり、技術文書を分析するなどのより高度な用途には推論能力が求められるため、まだこのような分野での活用は難しい面があります」。

現在の対話型AIの最も多い使われ方は、詳細で迅速な検索ツールというものだ。何かを知りたい時、以前はネット検索をし、表示されたウェブを頭から読んでいき、求める情報を見つけ、それを整理して回答を得ていたが、このプロセスを自動化してくれる。その用途では効率を大きく向上させた。しかし、課題が提出され、それを解くために論理と推論によりアプローチをしていくということはまだできていない。

ネットでは、「人間とAIの違いは推論能力。大学入試は推論能力を問う数学や物理の配点を重くし、暗記を主体とした英語や地理の配点を軽くした方がいいのではないか」という提言をする人もいる。人間とAIの能力の違いが徐々に明らかになってきている。