人間の脳の中をAIが覗き見る。脳内の画像をStable Diffisionに出力させるAIモデル

生成AIはついに人の頭の中まで読み始めた。香港中文大学、シンガポール国立大学、スタンフォード大学の合同研究チームが、人が頭の中に描いた映像を可視化する「視覚デコーダ」を開発したと大数据文摘が報じた。

脳の中をAIが覗き見る「視覚デコーダー」

この研究は論文「Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding」（http://arxiv.org/abs/2211.06956）も公開されているだけでなく、GitHubにコード（https://github.com/zjc062/mind-vis）も公開をされている。

視覚デコーダーの着想は単純だ。人は何かを見た時に、見たものに対応する脳波を発生させる。この脳波を教師データとして、AIモデルを学習させ、Stable Diffsionなどで使われている拡散モデルを使って画像を生成する。つまり、多くの画像生成系AIでは、画像の属性を指示するのに単語を入力するプロンプト方式が採用されている。視覚デコーダーは、脳波を教師データにして、AIモデルにこのプロンプトを出力させるというものだ。後は、Stable Diffisionに画像を生成してもらう。学習がうまく進めば、人が見たものを画像生成AIが出力してくれるようになるはずだ。

しかし、脳は常に活動しているために、どの脳波が画像刺激により生まれたものなのかを分別する必要があり、さらには脳波の発生パターンも人によって異なっているかもしれない。

着想は簡単だが、実現するのは簡単ではないというのが視覚デコーダーだ。

▲被験者に見せた画像（上）と、画像生成AIが出力した画像（下）。細部は異なるものの高い再現度を示した。

前処理が視覚デコーダーの質を決める

脳波の観察は、fMRI（磁気共鳴機能画像法、functional Magnetic Resonance Imaging）により、被験者に肉体的ダメージを与えずにできるようになっている。これにより、脳波の研究が進み膨大なデータが集まってきている。その分析の結果、被験者が異なっても、人が同じ脳処理をする時には、同じような脳の領域が活性化することが知られるようになっている。

しかし、fMRIの出力は、大脳の3次元モデルでどの部位が活性化されたマッピングデータとなるため、情報量が多すぎてAIの教師データには向かない。そこで、特定の領域を選んで、その領域の活性度のデータを抽出し、さらにデータ量を圧縮するために、データ構造を変化させないマスクをかけた。

つまり、fMRIのデータから無駄な部分を削ぎ落とし、AIの学習に向く前処理を行なっている。

このデータを拡散モデルAIに学習をさせた。データの前処理が適切で、AIがうまく学習をしていれば、人が猫の画像を見れば、猫の画像に対応した脳波を発生させるため、AIは猫の画像を出力するようになる。

▲被験者に写真を見せると、それに対応した脳波が発生する。この脳波を教師データにAIモデルを学習させ、画像系生成AIのプロンプトを発生させる。これにより、人間が見た画像が再現される。

驚くべき再現度

その結果は、見たものそのままというわけにはいかないものの、明らかにテスト画像と関連のある画像が出力された。過去の同様の研究と比較しても、正確さが格段に向上している。

▲過去に研究された視覚デコーダーとの比較。左端が被験者に見せた画像。赤枠が今回の視覚デコーダー。再現性が大きく進歩している。

失敗例から改善点を学ぶ

しかし、まったく異なる画像を出力してしまうケースもある。この失敗例は多くを物語っている。

ひとつは、このAIモデルは幾何学的情報に頼っていて、被写体が何であるかは理解していないということだ。失敗例をよく見ると、何らかの幾何学的共通点が存在している。

もうひとつは、AI学習よりも、前処理に関する知見がまだ不足しているということだ。fMRIのデータをすべて利用してしまうと、学習が進まないため、なんらかの前処理をしてデータ量を削減する必要があるが、ここで、個人差のようなものを削ぎ落としてしまっている可能性がある。

人間は、物体を見た時に、写真のように映像として認識するのではなく、何かに着目をして物体を認識する。例えば、犬を見たら、全体の映像から「犬ではないか」と仮説を立て、犬の仮説にあてはまる特徴点を注視して、犬であるかどうかを判定する。この判定するための特徴点は、人のそれまでの経験により、大きく異なっていることが容易に想像できる。