近年トレンドになっているAIと音声の関係とは?その仕組みについて解説します

皆さん、「AI」という単語を耳にすることが最近増えてきたのではないかと思います。しかし、その仕組みについて知りたいと感じても、「私には難しそう...」と敬遠してしまっている方も多いのではないでしょうか?

ここでは、AIの利用手段として「音声合成」について見てみましょう!

経緯

AIを構成する重要な要素として、ご存知の方もおられると思いますが、CNN(=Convolutional Neural Network)というものがあります。

CNNは、ディープラーニングで用いられるネットワークの中で最も有名なものです。元々は画像認識の分野で大きな成果を収めたネットワークだったのですが、近頃はその応用が音声の方面でも進んできています。

CNNは時間的に静止した画像データに対する処理には向いていましたが、時間軸を有する音声データは経時的な処理を要するため、音声データを処理するためにCNNに手を加える必要がありました。

そして登場したのがRNN=(Recurrent Neural Network)というもので、音声データ中のある時刻での波形を学習する際、その直前の時刻で学習で得られたパラメータを(隠れ層からの入力として)利用するという仕組みが加えられました。これによって音声データの連続的な変化を1まとまりにしたより意味のある学習が可能になりました。

しかし、RNNにも学習の減衰や、計算量の爆発的増大などという問題点があるのが判明したため、さらなる改良が必要になりました。

そこで生まれたのが、LSTM(Long Short-Term Memory)というネットワークになります。これは前述のRNNの問題点を抑制したもので、弊社の音声合成AIにも組み込まれているネットワークになります。

音声合成

音というものは空気中を伝わる波の重なりで出来ている、というような説明を耳にしたことがある方は多いのではないでしょうか?

コンピュータにおいても、これと同様に音声ファイルを周波数の異なる波形の重なりで表現しています。深層学習においては、このような個々の音声の波形をメルスペクトログラムというものに変換し、そのメルスペクトログラムとテキストデータの対応関係を学習させることで、テキストデータの入力から音声を合成して出力できるようになります。

↑メルスペクトログラム: 縦軸が周波数、横軸が時間であり、色の濃淡が音の大きさ(振幅)を表している。白いほど音量大。

弊社では、独自にアクセント推定や音韻区切れ検出などの技術を研究し、そのノウハウを蓄積してきました。

朗読

入力された文章の読み上げを行うもので、弊社は業界の中でも高品質でクリアーな音声を生成することに成功しています。

声質変換

ハスキーな女性の声をプレーンな声に変換している例です。