人工知能学会発表会2018での発表
第35回知識・技術・技能の伝承支援研究会(SIG-KST)
敵対的生成ネットワークを用いた機械音の生成
※スライドショー版埋め込みあり
第35回知識・技術・技能の伝承支援研究会(SIG-KST)
敵対的生成ネットワークを用いた機械音の生成
※スライドショー版埋め込みあり
本研究のアイディアは以前に行っていた、為替の予測についての研究からスタートした。
第19回のSIG-FIN金融情報学研究会での研究発表で、為替チャートを学習し未来の価格を予測するために、チャート画像を入力にして将来の画像を作成する研究を行った。(メインテーマではない)
pix2pix[4] とは、Isolaらによって提案された生成モデルであり、入力データと正解データの組から、両者の関係性を学習する。任意の入力を与えることで、学習した関係性を反映した出力を行うことが出来る。 pix2pixのGeneratoには、画像セグメンテーションのためのU-Net[6]が使われている。U-Netは、データから抽出された局所的な特徴のみでなく、位置に関する情報も保持できるという特徴を持つ。浅い層で獲得される特徴も取得されるため、質の高い画像を得ることができる。
図6、7はそれぞれ、pix2pixのGenerator、Discriminatorの構造を表す。
今回は2種類の検証を行った。
1.生成を行うタスクでの比較として、DCGANでの出力とpix2pixでの出力
2.結果が良かったpix2pixの応用実験
1.DCGANでの出力とpix2pixでの出力
DCGANおよびpix2pixにより生成された機械音のパワースペクトログラムの例を(図8)に示す。
録音信号の波形(図9)と比較した場合、DCGANでは元の信号と大きく異なった波形(図 10)が生成された。一方で、pix2pixで生成した信号(図11)では類似した波形が得られた。
DCGANでは、振幅の変動が開始・終了する時刻、振幅がピークを取る時刻はどのデータでもおおよそ一致 したが、最大振幅および各時刻での振幅値については データごとのばらつきが大きくなる結果が得られた。
pix2pixでは、一部分を切り抜き、512×8 のうちの一部分のみを生成することで、生成結果の評価のため、10の録音信号と10000の生成信号について、dynamic time warping(DTW) [7] に よって信号同士の信号間距離を計算した。pix2pixの生成信号では、すべての項目について、録音信号同士の比較と遜色ない値が得られた。以上より、pix2pixでは十分に望ましい機械 接続音の生成ができたと言える。
pix2pixにてパワースペクトログラムから8×8pixcelの領域をそれぞれ2箇所、4箇所、8箇所、16箇所、32箇所切り取ったものを入力データとして学習用機械接続音を生成した。10000の学習用機械接続音を生成した。生成結果の評価のため、録音信号とpix2pixによる生成信号の全ての組み合わせについてdynamic time warping(DTW)[7]によって信号同士の信号間距離の平均値を計算した。信号間距離の平均値と信号生成の際に切り取った8×8領域数の関係を(図 12)に示す。切り抜きの箇所を増やすほど、元のデータと類似度が低い機械音が生成されることが確認できる。
機械装置の製造工程における、機械音を作業者が聴き取ることで不良品を検知する工程を、音による不良品検知技術を利用して自動化する方法を検討した。音源中に存在する様々な雑音の除去を行うために、データ・ドリブンな深層学習を使用する場合、音源の人手による網羅的な収集には莫大なコストがかかる。そこで本論文では、敵対的生成ネットワーク(GAN)の一種であるDCGANとpix2pixの2つの手法を用いた音源生成実験とその考察を行なった。生成の結果、DCGANでは学習データの不足から、音源生成はできなかったが、pix2pixによる生成ではオリジナルの機械接続音と質的に近い音源を得ることができた。本稿では機械接続音について取り扱ったが、今後は、その他の局所発生的な音声全般についても応用を試みたい。
ここまでご愛読いただきありがとうございました!
よろしければ弊社SNSもご覧ください!
Twitter https://twitter.com/crystal_hal3
Facebook https://www.facebook.com/クリスタルメソッド株式会社-100971778872865/