今話題のゼレンスキー大統領のフェイク動画と弊社のAIアバターを比べてみました!

今、世の中を騒がせているゼレンスキー大統領のフェイク動画。

我々、AI研究開発会社という専門家が開発したAIアバターと、どんなところが異なるのか比べてみました!

ゼレンスキー大統領のディープフェイクと弊社のAIアバター

ゼレンスキー大統領のディープフェイク

(2022年3月18日放送「news zero」より)動画について弊社代表・河合はコメントしました。

みなさんも見たことがあると思われる、こちらのディープフェイクで作られたゼレンスキー大統領の偽動画。一見ちらっと見るだけだと、本物の動画であると騙されてしまうかもしれません。ですが、違和感のある点がいくつかあります。
※ディープフェイクについて詳しく知りたい方はこちらから
ディープフェイクとは?

弊社の開発したAIアバター

▲AIで自動生成された動画。会社案内をしている様子。

弊社では、法と倫理に配慮しながら、「Deep AI Copy」という、個人の見た目・声 趣味、思考、知識、自己認識などをAIにインストールするサービスを開発しています。

2つの動画の相違点

アバターの動き
ゼレンスキー大統領のディープフェイクは、身体や頭など全体的に動きがなく、固まりすぎていますね。
特に身体は全くと言っていいほど動きがないですね。頭部や顔の動きを注視してみると、なんとなく微妙な同じ動きを繰り返しているように見えます。細かい部分はループ再生しているかのようです。
一方、弊社のAIアバターは、本物の人物に近い滑らかな動きが再現できていると思います。手を大きく動かす動作も非常にリアルです。
影の入り方
ゼレンスキー大統領の偽動画の首のあたりに注目してください。影がほとんど映っていないことに気付けたでしょうか?光に対する影の付き方は一様では無いはずです。しかし、偽動画では顔に出来る影、首元に出来る影、洋服に出来る影がほとんど変わりません。これだけでは違和感を感じます。
一方、弊社の開発したAIアバターは、首元の影、壁紙に映る影、手を横に出したときの影、それぞれの濃淡も異なり非常にリアルにできています。

※ディープフェイクの見分け方について詳しく知りたい方はこちらからご覧ください。
ディープフェイクの見破り方

ここからは、どのようにしてこういったディープフェイク動画が作れるのか、特に口の動きに注目して基本的な仕組みをみていきましょう。

ディープフェイクを作る際の技術を一部紹介します

口の動き
そもそも日本語発声時の口形は、母音/a/,/b/,/c/,/d/,/e/の口形と口を閉じた形である閉口形である/x/をあわせた基本口形からなります。
母音/a/,/b/,/c/,/d/,/e/の口形と口を閉じた形である閉口形である/x/をあわせた基本口形を、

B = {A,I,U,E,O,X}

とし、次に、母音口形の前に形成される口形を、"初口形”=F、発音した音の母音に相当する口形を"終口形”=Lとすると、基本形を用いて

F = {I,U,X}、 L= {A,I,U,E,O,X}

と表します。

初口形は日本語すべての音で形成されますが、終口形は音によって形成されない場合もあります。そのため、初口形をf(f∈F),終口形をl(l∈L)としたとき、日本語の発声時の口形は'l'または'fl'という記号で表すことが可能になります。

口形変化を初口形と終口形の組み合わせで表すとつぎのようになります。

口形コード変化表
また、撥音便や促音便に関しては、決まった口形がなく、その前後の音によって口形が変化するので、詳しくは論文を参照してください。
口形変化の例

※引用元
特徴的口形に着目した日本語発声時の口唇形状変化のコード化表現に関する研究

口形変化と発話映像の生成

次は実際に口の動きがどのように変化しているか見てみましょう。

口の動き方の獲得

口の動き
唇の上下左右にマーカで青い点を4点付け、マーカーをトラッキングし唇の動きをみてみます。すると下唇が主に動いているだけで残りの3点はあまり変化がありませんでした。パペット人形も下唇だけを使いますよね。よってここからは下唇に注目し動きを確認していきます。

「あいうえお」と発声したときの下唇の動き

「あいうえお」と発声したときの下唇の動き
グラフを見ると、放物線を描きながら下唇の位置が変化していることがわかります。
フレームの一部を切り取ると、下唇の変化を3次方程式で表せることがわかります。
3次方程式グラフ

CG技術のモーフィングを用いて口形変形画像を生成し、組み合わせることで発話映像を生成します。さらに、基本口形画像と口形変化画像を組み合わせることにより、発話映像をよりリアルに作ることができます。
実際に作成した発話映像を用いて、被験者15名に発話映像から読唇できるかという実験があり、その研究結果は以下のようになり、発話内容を理解することのできる映像を生成できたと言えます。

発話映像の読み取り実験

実験結果

※引用元
日本語発話時の口形変化量の分析と発話映像自動生成への適用

まとめ

いかがだったでしょうか?
同じディープフェイク動画だったとしてもかなり内容の異なるものだったのではないでしょうか!

弊社(クリスタルメソッド株式会社)は日本国内の法制化の動向だけではなく欧米の動きや倫理についても考慮しながら、こういった技術の開発を進めています。

弊社の「deepAIcopy」さらに詳しく知りたいと思われた方はこちらからご覧ください!
クリスタルメソッド株式会社|DeepAICopy

本記事を最後までお読み頂き、ありがとうございました。

弊社SNS
Twitter https://twitter.com/YCrystalmethod
Facebook https://www.facebook.com/クリスタルメソッド株式会社-100971778872865/