AIと音声合成の関係について説明します!
目次
・音声合成とは?
・音声合成を行うAIの背景
・声質変換とは?
・音声解析に重要なメルスペクトログラム
・音声合成の活用場面
・弊社での取り組み
目次
・音声合成とは?
・音声合成を行うAIの背景
・声質変換とは?
・音声解析に重要なメルスペクトログラム
・音声合成の活用場面
・弊社での取り組み
当初、音の学習でもCNNが用いられていたのですが、時間的に静止した画像データの処理に大きな強みを持っていたCNNに対して、時間軸を有する音声データは経時的な処理を必要としました。そのため、CNNを改良したネットワークを開発することが必要となり、再帰型ニューラルネットワーク(Recurrent Neural Network, RNN)が登場しました。RNNでは、音声データ中のある時刻での波形を学習する際、その直前の時刻の学習として得られたパラメータを(隠れ層からの入力として)利用するという仕組みが加えられました。これによって音声データの連続的な変化をひとまとまりにした、より意味のある学習が可能となりました。
しかし、RNNにも学習の減衰や計算力の爆発的増大などという新たな問題が浮上したため、さらなる改良が必要となりました。そこで生まれたのが、LSTM(Long Short-Term Memory)というネットワークです。これは前述のRNNの学習減衰と計算量の増大を抑制したもので、現在、弊社の音声合成AIに組み込まれているネットワークとなります。
従来、声質変換を行うためには、入力となる音声情報と出力となる音声情報を結びつけるために多くの情報を必要としていました。しかし、AIを用いることで必要な情報量は格段に削減され、決して音声情報が多くなくともモデルを作ることができるようになりました。この技術を応用して、一般的に音声情報が多くない一般人を模したAIを作ることができるようになったため、亡くなった人の「失われた声」や結婚式などの「当時の思い出」を再現することができるのではないかと期待され、研究が進められています。
では、音声合成の例として弊社で開発したAIを用いてハスキーな女性の声をプレーンな声に変換した、「声質変換」についてご紹介させていただきます。以下の音声はハスキーな女性の声をプレーンな声に変換している例です。
ハスキーな女性の声
プレーンな女性の声に変換したもの
いかがだったでしょうか?
AIを用いた音声合成における「声質変換」について、ハスキーな女性の声をプレーンな女性な声へと変換する例を交えて紹介させていただきました。他にも、音のAIの活用例として声質変換の他に入力文章の読み上げを行う朗読や、異音検知など様々な応用事例があり、日夜研究が進められています。
音は空気中を伝わる波の重なりで出来ている、というような説明を耳にしたことはないでしょうか。
コンピュータでは、音声ファイルを周波数の異なる波形の重なりで表現しています。深層学習では、このような個々の音声の波形を以下のような「メルスペクトログラム」へと変換し、テキストデータの対応関係を学習させることで、テキストデータの入力から音声を合成して出力できるようになります。
メルスペクトログラムでは、横軸が時間、縦軸が周波数、色が音の大きさ(振幅)として表現されます。音の大きさは黒から白にかけて大きくなっていきます。
弊社ではこの技術を応用し、アクセント推定や音韻区切れ検出などを研究することにより、業界内で高い水準の音声を生成することに成功しております。
従来の音声合成モデルでは、学習時に使用するテキストや音声の種類によって、合成される日本語音声のアクセントがおかしくなってしまうといった問題がありました。
そこで、従来の音声合成モデルではテキストのみを学習させていたのに対し、弊社の音声合成モデルはテキストに加えてアクセントの情報を学習させることによって、合成される日本語音声のアクセントを改善しました。
「従来の音声合成モデルを使用して合成した音声」と「テキストとアクセントを学習させた音声合成モデルを使用して合成した音声」のサンプルを以下に添付いたします。
【従来の音声合成モデルで合成した音声】
・「母の誕生日に、手紙と鞄をあげました。」→「誕生日」のアクセントがおかしい
・「ご飯を食べようとした時、塩を入れ忘れたことに気づいた。」→「ご飯」のアクセントがおかしい
・「あの店のハンバーガーは大きすぎるから、一人では全部食べられないよ。」→「食べられないよ」のアクセントがおかしい
【テキストとアクセントを学習させた音声合成モデルで合成した音声】
・「母の誕生日に、手紙と鞄をあげました。」
・「ご飯を食べようとした時、塩を入れ忘れたことに気づいた。」
・「あの店のハンバーガーは大きすぎるから、一人では全部食べられないよ。」
また、被験者に、「従来の音声合成モデルを使用して合成した音声」と「テキストとアクセントを学習させた音声合成モデルを使用して合成した音声」を聴いてもらい、それぞれの合成音声の質を5段階で評価した結果を以下に添付いたします。
以上のように、テキストに加え、アクセントを学習させた音声合成モデルを使用することによって、合成音声のアクセントを改善することができ、より人間の発話に近い音声を合成することができます。こちらで説明した弊社の最新の音声合成モデルは弊社の対話型AI HAL3の「朗読機能」にも使用する予定です。HAL3の操作方法などの詳しい説明については、こちらからフォームを送っていただくと、HAL3の資料をダウンロードすることができます。
また、以下のページにも様々な音のAIに関する弊社の取り組みをまとめておりますので、興味がございましたら是非ご覧ください。