AIと音の生成について説明します!

 皆さん、「AI」や「ディープラーニング」という単語を耳にすることが最近増えてきたのではないかと思います。しかし、その仕組みについて知りたいと感じても、「私には難しそう...」と敬遠してしまっている方も多いのではないでしょうか。
 本記事では様々な音のパターンを学習させると、音を自ら生成できるようになるAIによる音の生成について例を交えて解説していきたいと思います。

AIで音の生成を行った例

 弊社で開発したAIを用いて音の生成を行った例と、活用例についてご紹介します。音生成の活用法として「ノイズ抑制」と「ノイズ付加」の二つが一般的に知られています。

▷ ノイズ抑制
 「ノイズ抑制」は低品質な音声から、高音質な音声を生成させる技術です。劣化したマイクから入力されてしまったノイズjの混じった低品質な音声に対して、フィルタリングを行うことで高音質な音声を生成することができます。以下は雑音の混じった音声と、弊社のAIを用いてフィルタリングを行いノイズを抑制した高品質な音声の例です。

[上]ノイズ抑制前の雑音の混じった音声   [下]ノイズ抑制後の高品質な音声


▷ ノイズ付加
 一般的にノイズは除去すべきものとして扱われますが、あえてノイズを付加することが重要となる場面があります。この「ノイズ付加」はAIが音を学習するために必要な音声データの処理に活用されます。

 例として、ある機械の音データを取得することで異音検知を行いたいと考えてみましょう。様々な音が発生している工場において音声データを取得すると多くの場合、意図せずとも監視対象以外の音が入ってしまいます。
 そのような環境で高音質な音データから学習を行ったAIでは、監視対象は正常動作しているのにもかかわらず、環境音の影響で誤検知をしてしまう可能性があります。そのため、学習データにあえて「ノイズ付加」を行うことがあります。

[上]ノイズ付加前の音声   [下]ノイズ付加後の音声



音の生成を行うAIの背景

 AIを構成する重要な要素として、ディープラーニングで用いられるネットワークのなかでも有名な畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)とよばれるものがあります。

 当初、CNNは画像認識の分野で 大きな成果を収めたネットワークだったのですが、その性能の高さから最近では音のAIへも応用されており、音の生成を行うAIでは「通常の音声」と「ノイズを付加した音声」との対応をCNNを用いて学習させます。

 この手法を用いることで、ノイズが混じった音声に対してノイズを抑制したクリアで高音知るな音声を生成することや、逆にクリアで高音質な音声から異常な波形を付加するようなAIを作成することができます。

弊社での取り組み

 弊社では、本記事で紹介した「ノイズ抑制」や「ノイズ付加」以外にも、この技術を応用して「音声合成」や「異音検知」などを行っております。
 以下に音のAIによる弊社の活用事例をまとめておりますので、興味がございましたら是非ご覧ください。
音のAI・深層学習