ビデオ生成AIが続々と登場している。それぞれどのような特徴を持っているのか。雷峰網では主要なビデオ生成AIに同じプロンプトを入れて、生成されるビデオにどのような違いがあるかを検証した。
続々と登場するビデオ生成AI
OpenAIがビデオ生成AI「Sora」を発表して世界を驚かせたが、さらに驚かせたのが、続々とビデオ生成AIが登場してきたことだ。
現在、手軽に利用できるビデオ生成AIだけでも次のようなものがある(Soraは公開日未定)
Sora:https://openai.com/index/sora/
Luma Dream Machine:https://lumalabs.ai/dream-machine
PixVerse:https://pixverse.ai/
可霊(Kling):https://kling.kuaishou.com/
清影:https://chatglm.cn/?redirect=/video
このようなビデオ生成AIはどの程度の実力なのだろうか。どのような違いがあるのだろうか。そこで、雷峰網では、まだ利用ができないSora以外のビデオ生成AIに同じプロンプトを入れてビデオを生成し比較するというテストを行った。
空間理解テスト
プロンプト
Two anthropomorphic dogs fight in a ring, the one on the left wearing black gloves and the one on the right wearing red gloves.
(二匹の擬人化された犬がリングで戦う。左の犬は黒いグローブをつけ、右の犬は赤いグローブをつけている)
Kling:非常に優秀で問題ないレベル。しかも、左の犬は前傾をしてパンチを避けようとしたり、相手のパンチがあたるとそれに応じて顔が歪むなど非常にリアル。
清影:パンチがあたるシーンはないものの、まずまずの及第点。
PixVerse:グローブの色が両方とも赤になってしまっている。また、パンチをくり出す戦いのシーンはない。
Luma:右は犬ではなく人になってしまっている。また、グローブの色も時折変化してしまう。
Pika:グローブをしてないし、パンチではなく、なでるになってしまっている。
前後関係テスト
プロンプト
Front shot, long focus, a hamster pedaling hard on a bicycle, behind the hamster a very fat orange cat is chasing the hamster.
(正面撮影、望遠。ハムスターが自転車のペダルを懸命に漕いでいる。後ろからは、太った茶色の猫がハムスターを追いかけてくる)
Kling:ハムスターがペダルを漕ぐ表現はいいが、猫がハムスターを追いかけていない。
清影:非常に素晴らしく、プロンプトの要求を完全に満たしている。
PixVerse:要求を満たしているが、ハムスターが大きすぎる。
Luma:正面からの撮影ではないし、ハムスターが出てこない
Pika:自転車が出てこず、猫は追いかけてなく、すれ違うだけ。
運動方向テスト
プロンプト
Fixed position, side shot, a man with his head replaced by a balloon runs from the left to the right of the square.
(固定視点。横からの撮影。頭が風船になった男が、広場を左から右に走る)
Kling:頭が風船になってない。しかも、走る方向が逆。
清影:風船の数が多すぎるのはいいとしても、やはり走る方向が逆。
PixVerse:頭が風船になっていない。走る方向は合っている。
Luma:頭が風船になるということが理解できていない。走る方向も逆。
Pika:やはり、頭が風船になるということが理解できていない。しかも正面からの撮影になってしまっている。
想像力テスト
プロンプト
※注:(原文の英文プロンプトの記載ミスのため省略)
(正面撮影。一匹のパンダとカササギが合成された生物が、木の上にいて、翼を素早く羽ばたかせる)
Kling:プロンプトの要求を満たしている。
清影:要求は満たしているが、パンダ成分が多すぎる。
PixVerse:正面撮影ではないが、体を回転させる時の足の運びなどはみごと。
Luma:羽ばたいてくれない。
Pika:カササギ成分多すぎ。しかも羽ばたいてくれない。
カメラワークテスト
プロンプト
Thrust upward at a low Angle, a panda sits on the wall playing guitar.
(低いアングルから上に移動。パンダが壁の上に座ってギターを弾いている)
Kling:壁の上に座っている描写がない。
清影:壁に少し歪みが生じるが、要求を満たしている。
PixVerse:カメラワークが反映されていない。
Luma:カメラワークもズームバックが混ざってしまっているし、ギターが出てこない。
Pika:カメラワークもなし、ギターもなし。
静止画からのビデオ生成テスト1
ビデオ生成AIでは、最初に静止画を与えて、その静止画内の人物や物体を動かすことができる。次のような静止画を与えて、動きをプロンプトで指示をしてみた。
プロンプト
The old man ate the phone in his hand and chewed it.
(老人が手の中にある電話を食べて、噛む)
Kling:要求を満たしている。携帯電話がちゃんと口のところに運ばれている。
清影:ほぼ要求を満たしているが、携帯電話が口に届かず、噛む時の顔の筋肉の動きも違和感がある。
PixVerse:携帯電話が口に届いていない。噛む行為が食べる行為と連動しているということが理解できていない。
Luma:食べる動作が起こらない。
Pika:噛む動作はあるものの、食べる動作が起こらない。
静止画からのビデオ生成テスト2
現実にはありえない内容の静止画を与えてみた場合のテスト。
プロンプト
Excavator excavation.
(掘削機が地面を掘る)
Kling:要求を満たしている。
清影:ほぼ要求を満たしているが、土の表現に違和感がある。
PixVerse:ほぼ要求を満たしているが、土の表現に違和感がある。
Luma:土を掘削するのではなく、生物が何かをついばむ動きになっている。ある意味、優秀。
Pika:掘削してくれない。
課題はあるものの可能性に満ちている
ビデオ生成AIはまだ登場したばかりで、思いどおりの映像を生成するには大量の試行錯誤が必要になる。プロンプトの理解力もまだ足りないし、人間側のプロンプトエンジニアリングの開発もこれからだ。しかし、可能性は非常に広く、すでにビデオ生成AIで制作したショートフィルムなども登場してきている。米国と中国で、ビデオ生成AIの開発競争はますます熾烈になっていく。