ディープフェイクの作り方を解説!

今話題のディープフェイク作り方のご紹介

AIの発展によりフェイク動画がyoutubeなどの動画サイトを中心に様々なメディアで取り上げられています。

ディープラーニング(深層学習)であるAI技術を用いて作成されるフェイク動画であるディープフェイク。様々な活用が期待される一方、著名人へのなりすまし、ポルノ動画など悪用の可能性も懸念されています。

本記事では、ディープフェイクの作り方、ディープフェイク作成の技術について、その技術的な部分をAI研究開発会社である弊社わかりやすく解説します!

単にアプリを用いてディープフェイク動画を作成したい、作り方を知りたいという方もいると思います。

ディープフェイク動画は専用のアプリを使えば簡単に誰でも作成することが可能です。
アプリでのディープフェイク作成に興味がある方はこちらへ!
ディープフェイク作成アプリ3選

目次

  1. 1. ディープフェイクの作り方
  2. 2. ディープフェイクに用いられるGANとは?
  3. 3. 口形変化と発話映像の生成
  4. 4. ディープフェイク作り方まとめ

ディープフェイクを作る際の技術を一部紹介します

口の動き
ここでは、ディープフェイクの作り方について一部紹介していきます。

そもそも日本語発声時の口形は、母音/a/,/b/,/c/,/d/,/e/の口形と口を閉じた形である閉口形である/x/をあわせた基本口形からなります。
母音/a/,/b/,/c/,/d/,/e/の口形と口を閉じた形である閉口形である/x/をあわせた基本口形を、

B = {A,I,U,E,O,X}

とし、次に、母音口形の前に形成される口形を、"初口形”=F、発音した音の母音に相当する口形を"終口形”=Lとすると、基本形を用いて

F = {I,U,X}、 L= {A,I,U,E,O,X}

と表します。

初口形は日本語すべての音で形成されますが、終口形は音によって形成されない場合もあります。そのため、初口形をf(f∈F),終口形をl(l∈L)としたとき、日本語の発声時の口形は'l'または'fl'という記号で表すことが可能になります。

口形変化を初口形と終口形の組み合わせで表すとつぎのようになります。

口形コード変化表
また、撥音便や促音便に関しては、決まった口形がなく、その前後の音によって口形が変化するので、詳しくは論文を参照してください。
口形変化の例

※引用元
特徴的口形に着目した日本語発声時の口唇形状変化のコード化表現に関する研究

ディープフェイクに用いられるGANとは?

GANを使ったディープフェイクで作成した顔の比較
ディープフェイク動画を作るうえで使われる、GANというAIの技術があります。
GANは、2014年に発表されたもので、主にGenerator(生成ネットワーク)とDiscriminator(識別ネットワーク)という、2つの過程からなっています。1つめの過程が偽のデータ(例えばディープフェイク動画)を作成する技術のことです。偽のデータは可能な限りハイクオリティを目指して作られ、本物により近いデータを作りだします。そして作った偽のデータが偽であるか、そうでないか(ディープフェイク動画が本物かどうか)を判断するのがもうひとつの過程です。このふたつの過程を通して、偽のデータの作成、そのデータが偽であるかどうかの判定をし、精度を改善していくことで、より偽のデータを本物に近づけていきます。

例えるならば「どろけい」のように、警察(偽物であるか判断をする)が泥棒(偽のデータを生成する)を捕まえる(偽物であることをみやぶる)をしても、仲間の泥棒により捕まった泥棒が逃げ出す(偽物の動画を作成する技術が向上する)。そして警察が再び逃げた泥棒を捕まえるために、策をねったりする(偽物を判定することが出来る技術の向上をする)を繰り返すということに似ています。

ディープフェイクはこのGANと呼ばれる手法のAI技術などを応用し作られたものです。

単純に顔を挿げ替えているのではなく、Aさんの顔の表情筋を細かくパーツ毎に分解して解析します。そして学習(ディープラーニング)した結果をもとに、Bさんの表情筋を解析してAさんのパーツを当てはめることで、自然な表情を作ることができるのです。パーツ自体はAさんのものを使用していますので、表情も滑らかに変化し違和感はありません。

何も知らない人がディープフェイク動画だと気付くのは困難です。そのため著名人へのなりすましやエロ動画への悪用が起きるのです。

そんなフェイク動画に騙されたくない!気づくためには?という人は以下の記事をご覧ください!

>> GAN(敵対的生成ネットワーク)について説明します!

GANが別人の顔を生成する過程

GANについて詳しく知りたい方は以下の記事を読んでみて下さい。

>> GAN(敵対的生成ネットワーク)について説明します!

口形変化と発話映像の生成

次は実際に口の動きがどのように変化しているか見てみましょう。

口の動き方の獲得

口元の画像
唇の上下左右にマーカで青い点を4点付け、マーカーをトラッキングし唇の動きをみてみます。すると下唇が主に動いているだけで残りの3点はあまり変化がありませんでした。パペット人形も下唇だけを使いますよね。よってここからは下唇に注目し動きを確認していきます。

「あいうえお」と発声したときの下唇の動き

下唇のy座標値の時系列変化
グラフを見ると、放物線を描きながら下唇の位置が変化していることがわかります。
フレームの一部を切り取ると、下唇の変化を3次方程式で表せることがわかります。
下唇が動く際のy座標値の点と3次式の曲線

CG技術のモーフィングを用いて口形変形画像を生成し、組み合わせることで発話映像を生成します。さらに、基本口形画像と口形変化画像を組み合わせることにより、発話映像をよりリアルに作ることができます。
実際に作成した発話映像を用いて、被験者15名に発話映像から読唇できるかという実験があり、その研究結果は以下のようになり、発話内容を理解することのできる映像を生成できたと言えます。

発話映像の読み取り実験

実験結果

※引用元
日本語発話時の口形変化量の分析と発話映像自動生成への適用

まとめ

ディープフェイクの作り方いかがだったでしょうか?

ディープフェイクの作り方に付いて一部解説しましたが、どのように作られているのか少しでも理解できたならと思います!

ディープフェイクは様々な場面で人の代わりとなり役立つ技術ですが、著名人へのなりすましやエロ動画への悪用など危険性も危惧されています。

弊社(クリスタルメソッド株式会社)は日本国内の法制化の動向だけではなく欧米の動きや倫理についても考慮しながら、こういった技術の開発を進めています。

弊社ではAIアバターの作成を行なっています。
弊社の「deepAIcopy」(AIアバター作成)をさらに詳しく知りたいと思われた方はこちらからご覧ください!
クリスタルメソッド株式会社|DeepAICopy

本記事を最後までお読み頂き、ありがとうございました。

弊社SNS
Twitter https://twitter.com/CrystalmethodZ9
Facebook https://www.facebook.com/クリスタルメソッド株式会社-100971778872865/