AIと音の生成について説明します!

 皆さん、「AI」や「ディープラーニング」という単語を耳にすることが最近増えてきたのではないかと思います。しかし、その仕組みについて知りたいと感じても、「私には難しそう...」と敬遠してしまっている方も多いのではないでしょうか。
 本記事では様々な音のパターンを学習させると、音を自ら生成できるようになるAIによる音の生成について例を交えて解説していきたいと思います。

AIで音の生成を行った例

 音のAIを活用した例として「異音検知」や「声質変換」など様々なものがありますが、本節では音声生成の活用例として「ノイズ抑制」と「ノイズ付加」の2つについてご紹介します。

▷ ノイズ抑制
 「ノイズ抑制」は低品質な音声からフィルタリングを行うことで高音質な音声を生成させる技術です。具体的な例として、劣化したマイクから入力されたノイズが混じった低品質な音声であっても、正常なマイクから入力されたような高音質でクリアな音声へすることができます。
 以下に雑音の混じった音声と、弊社のAIを用いてフィルタリングを行いノイズを抑制した音声の例をご紹介します。

[上]ノイズ抑制前の雑音の混じった音声   [下]ノイズ抑制後の高品質な音声


▷ ノイズ付加
 「ノイズ付加」は入力された音声に対してノイズを混ぜた音声を生成する技術です。一般的にノイズは除去されるべきものとして疑問を覚えるかもしれませんが、あえてノイズを付加することが求められる場面があります。それはAIが音を学習するときです。

 一般的にノイズは除去すべきものとして扱われますが、あえてノイズを付加することが重要となる場面があります。この「ノイズ付加」はAIが音を学習するために必要な音声データの処理、つまり学習データの前処理に活用されます。

 例として、ある機械の音データを取得することで「機械に異常が起こっていないかを自動で判別する異音検知AI」を作成したい考えてみましょう。直感的に「機械の正常音と異常音を学習させればよいのではいか」と思われるかもしれませんが、様々な音が発生している工場で稼働させるという環境について考えてみてください。
 様々な音が発生するということは、意図せず監視対象以外の音を拾ってしまう可能性があるということです。「人の話し声」や「隣の機械の音」、「館内放送」などによって正常な動作をしている監視対象が異常ありと誤検知されてしまっては意味がありません。

 そのため、環境音が多く発生しやすい環境や入力のマイクが劣化しやすい環境など、高音質な学習データだけでは不十分であると考えられる環境で使用するAIを作りたいときに、「ノイズ付加」の技術が使われます。以下にノイズ付加前の音声と弊社で開発したAIを用いてノイズを付加した音声についてご紹介します。

[上]ノイズ付加前の音声   [下]ノイズ付加後の音声



音の生成を行うAIの背景

 AIを構成する重要な要素として、人間の脳構造を模倣したニューラルネットワーク(Neural Network, NN)と呼ばれるものがあります。従来、AIはこのニューラルネットワークを用いて学習していたのですが、現在はそれをさらに発展させた畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)とよばれるものが広く使われています。当初、このCNNは画像認識の分野で大きな成果を収めたネットワークだったのですが、その性能の高さから最近では画像認識以外の様々な分野でも活用・応用されています。
 
 音の学習にも当初はCNNが用いられていたのですが、時間的に静止していた画像の処理に長けていたCNNが時間軸を有する音声データを処理するのは適切ではないのではないかと考えられていました。そこで、直前時刻の学習データを考慮した再帰型ニューラルネットワーク(Recurrent Neural Network, RNN)と呼ばれるネットワークが開発・活用されるようになりました。しかし、これも学習の減衰や計算量の爆発的増大などの欠点を有しており、さらなる改良が要求されました。

 現在では、前述のRNNの課題を改良したLSTM(Long Shot-Term Memory)というネットワークが使用されています。弊社ではこのネットワークを用いて、音の生成を行うAIに「通常の音声」と「ノイズを付加した音声」の対応を学習させています。

弊社での取り組み

 本記事ではAIと音の生成について、「ノイズ抑制」と「ノイズ付加」の例を交えてご紹介しました。
 弊社では本記事で紹介した「ノイズ抑制」や「ノイズ付加」以外にも、この技術を応用した「音声合成」や「異音検知」などの様々な音のAIの研究開発を進めております。以下に弊社における音のAIの活用事例をまとめておりますので、興味がございましたら是非ご覧ください。
音のAI・深層学習