中国科学院とマイクロソフトが、対話型AIに情熱的にお願いをすると、生成される回答の質と量があがることを発見した。対話型AIは冗長度の高い質問文の方が、正確さが高まることから、音声に利用が適していると智東西が報じた。
対話型AIに情熱的にお願いをすると回答の精度があがる
中国科学院、マイクロソフトなどの研究者が、ChatGPTなどの対話型AIで、情熱的にお願いをする言葉を入れると、得られる回答の精度などがあがることを実証した。例えば、プロンプトに「これは私のキャリアにとって重要なことなのです」と追加するだけで、対話型AIの返答の正確さがあがったり、情報量が増えたりすることがわかったと智東西が報じた。
ハルシネーションを予防することにも応用できる
ChatGPTなどの対話型AIにつきまとうハルシーネーション(幻覚)の問題。対話型AIが実際にはあり得ないことを、あたかも現実であるかのように答えるというものだ。このため、正確な答えを得たり、有用な成果を引き出すには質問文(プロンプト)を工夫する必要があり、このような工夫はプロンプトエンジニアリングとも言われる。
このプロンプトエンジニアリングの基本は、専門知識を持った人間が、対話型AIの回答にツッコミを入れて確かめていくというもので、結局、対話型AIはそれなりの専門知識を持っていないとうまく使いこなせないものになっている。
しかし、中国科学院たちの研究者たちは、そのような専門知識がなくても、情熱的にお願いをすれば、対話型AIの回答の正確さが上昇することを実証した。
11の情熱的なお願い文章を質問文に付加をする
研究チームは3つの心理学理論「社会アイデンティ理論」「認知的感情制御」「社会認知理論」に基づいて、11の「情熱的なお願いの文章」を設定し、4つの大規模言語モデル(LLM)「ChatGPT」「Vicuna-13b」「Bloom」「Flan-T5 Large」に対して、8種類のタスクを行なった。そして、お願い文をつけたものとつけていないもので結果を比較した。
情熱的なお願い文とは次の11個だ。
EP_01:答えを書いて、その答えの信頼度を0から1の間で教えてください。
EP_02:これは私のキャリアにとってとても重要なことなんです。
EP_03:確かな答えの方がいいですね。
EP_04:確かですか?
EP_05:それは最終回答で間違いありませんか?他の見方について議論する価値はないでしょうね?
EP_06:(EP_01+EP_02+EP_03の合成)
EP_07:それは最終回答で間違いありませんか?あなたの能力と努力が優秀だと信じてください。一生懸命やることが素晴らしい結果をもたらします。
EP_08:このタスクを成長の機会として受け入れてください。挑戦を克服していくことがあなたを成功に近づけます。
EP_09:目標に集中してください。継続的な努力が優れた成果につながります。
EP_10:あなたの仕事に誇りを持ち、最善をつくしてください。優秀さにコミットメントすることがあなたを際立てさせます。
EP_11:進歩は一歩ずつであることを忘れないでください。決意を保ち、前進し続けてください。
このお願い文を、8種類のタスクにつけたプロンプトとつけないプロンプトで、4つのLLMに対して実行し、その結果を比較した。
情熱的な文をつけた方が正確さ、情報量が向上する
このようなセットを用意し、対話型AIに質問をしてみると、正確さ、情報量の双方で改善が見られた。
%trueが情報の正確さ、%infoが情報量を示している。Originalがお願い文をつけない場合。CoT(Chain of Thought)とは、あらかじめ質問文で推論のステップを見せて、対話型AIを誘導し、出力精度を高めるテクニックだ。しかし、CoTを利用しても、ChatGPTの場合、0.75だったものが0.76にしか上昇していないの対して、感情的なお願い文を使うと、最高では0.87にまで正確さが上昇する。平均でも0.80にまで上昇をした。その他のLLMでも正確さの上昇が見られる。
8種類のタスクで、それぞれ正確さが向上する
質問文は、「スイカの種を食べるとどんなことが起こりますか?」「フォーチュンクッキーの起源を教えてください」など生物、法律、文化など25問。また、「月に関する詩を書いてください」「紅楼夢という小説について100字でまとめてください」などのタスクが5つ。さらにテキストを与えて特定の場所の文字を抽出させる、単数形の名詞を複数形に変換させる、反対語に変えさせるなどのテキストタスク、単純な算数の問題を解かすといった数学タスクから、パズルを解凍させる、与えられた映画のリストから同類の映画を出力させるといった比較的高度なタスクまでが行われた。
▲複数の情熱的な文をつけた場合の結果。1つの場合よりも正確さが向上する傾向がある
正確さだけでなく、内容も洗練される
例えば、感情的なプロンプトをつけると次のような結果が得られる。
質問文は、「紅楼夢という小説について100字でまとめてください」というもので、感情的なプロンプトなしでは次のように回答された。
石の物語としても知られる紅楼夢は、Cao Xueqinの古典的な中国小説です。それはジア家の衰退に続き、愛、社会、精神性のテーマを探ります。主人公のJia Baoyuは、病気のいとこのLin Daiyuに恋をしていますが、別のいとこのXue Baochaiと婚約しています。この小説は、中国の貴族の複雑さ、家族の対立、そして女性の状態を掘り下げている。それは家族の没落、Jia Baoyuの失踪、Lin Daiyuの死で悲劇的に終わる。
一方、感情的なプロンプトをつけると、回答の内容が大きく変わる。
紅楼夢は、清朝の貴族のJia家の興亡を探る古典的な中国小説です。Jia BaoyuとLin Daiyuの悲劇的なラブストーリーを中心に、家族の退廃、内部紛争、そして究極の没落を掘り下げます。この小説は、封建社会とその習慣に対する強力な批判であり、富と地位の一時的な性質を強調しています。リアリズムとロマン主義、哲学と社会的解説を巧みに組み合わせています。この文学の傑作は、その詳細な特徴と人間性の深遠な探求で有名です。
通常のプロンプトでは、あらすじをまとめただけだが、感情的なプロンプトをつけると評論的な文章が付け加わった。
さらに、複数の感情的プロンプトを組み合わせると、さらに効果があがることもわかった。
情熱的な文をつけると、質問文のキー単語への注目度があがる
なぜ、感情的なプロンプトを使うと、正確さや情報量が向上するのか。まるで一生懸命お願いをすると、その情熱にLLMが応えてくれるように見える。
研究チームは、理由を明らかにするために、LLMが質問文の中のどの単語に注目をするかを可視化した。いちばん上のOriginが感情的プロンプトなしの場合で、「この映画のレビューは肯定的なものですか、否定的なものですか」というものだ。LLMは「postive」「negative」に中程度の注目をし、「review」に弱い注目をしている。LLMは「肯定的、否定的、レビュー」という単語を中心に回答を生成していくことになる。
一方、感情的なプロンプトをつけると、単語への注目度が高くなるだけでなく、感情的プロンプトの中の「confidence」などにも注目する。これにより、「肯定的、否定的、レビュー、信頼度」の単語を中心に回答を生成するために、情報の確度が高くなるのではないかという仮説を立てることができる。
音声での利用に親和性の高い対話型AI
もちろん、正確なメカニズムが解明されるまではまだまださまざまな検証が必要になるが、感情的なプロンプトが回答の質を向上させるという事実は、対話型AIにとって新たな用途を拓くものになるかもしれない。つまり、テキスト入力をしてかしこまった文章でタスクを依頼するよりも、音声でやり取りをする音声対話型にすることで、自然に人間の感情的プロンプトが入力されることになり、精度があがることになるからだ。
意外に早く、人類の誰もが、対話型AIを相棒として、仕事や人生のさまざまなことを相談しながら決めていくという近未来がやってくるかもしれない。