音のAI・深層学習

弊社では音に関するAIとして、以下のような技術を開発しております。

こちらもご参照ください。

目次
異音判定 ・・・ 特定の音声を判定 (人の声・プラスチック音・金属音・コンクリート音)
音源分離・雑音抑制 ・・・ 特定の音源から発生する音を抽出。混ざった人の声の分離・雑音と人の声分離。
音の生成 ・・・ 学習データにする異常音の生成。劣化したマイクの音の補正。
音声合成  ・・・ 滑らかにアクセントよく合成可能。声質変換対応。
マルチモーダル感情認識 ・・・ 音とそれに紐づくテキストから感情推定

 


異音判定

人間の耳でも行っている音の判別を、AIによって効率化・高精度化することが可能です。

以下、弊社で判定した音のデータを添付いたします。

 

【人の声・それ以外判定】

・OK音

・NG音

【プラスチック音判定】

・OK音

・NG音

【モーター音判定】

・OK音

・NG音

 

下になればなるほど、人が聞いても微妙な違いになっています。これらの技術は製造業において製品や部品、機械の異常を音から判断する際などに活用することができます。

 

音源分離・雑音抑制

弊社では、雑音環境下での入力された音よりノイズ除去処理を加えるAIを開発しております。活用場面としては、都会の雑踏からの必要な音の抽出・工場の中の様々な音から必要な音を取り出す等が挙げられます。

 

【複数名の声・雑音から対象の声を抽出】

例)複数の声から対象の声を抽出

・複数の人が同時に話している

・上の音声から1人の声のみ抽出

・抽出された残りの音声

 

例えば、会議の議事録を音声認識技術によって自動で作成する際に、複数の人が同時に話している状況だと上手く作成することができません。このとき、対象の音声を抽出することにより、このような状況でも誰が何を話したかがわかり、議事録を残すことができます。

 

【雑音環境から人の声のみ分離】

例)元の曲から伴奏と歌声を分離

・元の曲

・伴奏

・歌声

 

【様々な背景の音から異音を抽出】

例)大手自動車メーカの工場で稼働。抽出判定精度は99%を記録。

・In

・Out

 

工場などの雑音が多いところでも対象音のみ抽出することで、上で述べた異音判定をより高い精度で行うことができます。

 

音の生成

AIに様々な音のパターンを学習させると、音を自ら生成できるようになります。

正しい音声に異常な波形を付加して、別のAIの学習に利用できる異常音を生成したり、逆に劣化したマイクから入力された音声のノイズを補正してクリアな音に変えたりすることができるようになります。

 

【マイク入力音ノイズ補正サンプル】

抑制前(Noisy)

抑制後(Clear)

 

音声合成

音声合成とは、あるテキストに対して対応する音声を生成する技術のことです。弊社では、その活用事例の1つとして「声質変換」を行っています。以下、弊社で開発したAIによる音声合成と声質変換を行なった結果を添付いたします。

 

【通常の音声合成】

【声質変換サンプル】

 

これらの音声はいずれも女性の声ですが、明らかに違う声になっています。また、どちらも「機械っぽさ」が薄く、私たちが日常的に話しているときの音声に近いことがわかります。このような音声合成の技術は、弊社が開発した対話型AI HAL3, Deep AI Copyでも使用されています。

 

マルチモーダル感情認識

マルチモーダル感情認識とは、音声(=話している調子)と言語(=話している内容)の両方から感情を認識することです。私たちは普段、話している内容だけでなく、話している調子からも、相手の感情を判断しています。同じように弊社のAIでは、入力した音声から音声の特徴抽出と言語の特徴抽出の両方を行い、感情を認識します。

【感情認識サンプル】

話した言葉A社のWeb版感情認識弊社の感情認識
よろしくお願いします

 

悲しみ(疲れている)喜び
いらっしゃいませ

 

悲しみ(疲れている)喜び
お世話になっております。

 

悲しみ(疲れている)平静
今晩いかがですか

 

悲しみ(疲れている)平静
今晩いかがですか(元気なく)

 

悲しみ(疲れている)悲しみ

 

弊社の対話型AI HAL3にも感情認識機能が搭載されており、高い精度での感情認識を行うことができます。

クリスタルメソッド 株式会社

〒102-0073
東京都千代田区九段北4丁目1-14 TLビル5F

都営新宿線「市ケ谷駅」より徒歩3分
東京メトロ有楽町線・南北線
JR 総武線「市ケ谷駅」より徒歩5分