敵対的生成ネットワークを用いた機械音の生成

敵対的生成ネットワークを用いた機械音の生成

1.研究の動機

・製造業では作業員の方々が手さばきのすばらしさで、熟練の技を磨いて、活躍をされている。
・世の中の機械化・自動化の波に飲み込まれ、また少子高齢化などの要因によりそういった熟練工の技だけに頼って生産を進める事が難しくなった。
・生産する対象も高度になればなるほど、構造も複雑になり、熟練の技だけに頼るわけにもいかない状況になりつつある。
・生産設備においての機械音は様々なバリエーションがある。
・モータ作動音、自動的に物資を運ぶ車のタイヤ音、金属同士をすり合わせる音、プラスチックと金属が当たる音、人の声、サイレン音などなど。
・本研究は深層学習・機械学習時のデータ量が大量に必要になるという特性により、学習が困難になってしまう事をカバーして、より精度の高い学習を行えるデータ作りのために行われた。
・様々な雑音が発生する中から特定の機械音を抽出し、製造業の1工程が終わったことの検査をするための仕組みを構築した
・学習データを大量生成して、より堅牢な抽出器を構築する目的とする
・音データの再生

2.着想・アイディア

本研究のアイディアは以前に行っていた、為替の予測についての研究からスタートした。
第19回のSIG-FIN金融情報学研究会での研究発表で、為替チャートを学習し未来の価格を予測するために、チャート画像を入力にして将来の画像を作成する研究を行った(メインテーマではない)

3.学習データ

・機械音は実物をスタジオで録音することにより、10パターンほど準備した(5種類、大小)
・機械を接続する音を録音し学習に使用 する.ただし,録音信号をスペクトログラムに 変換する処理を行い,画像データを入力データとして 使用することで,音データの生成に応用する。
・10 種類の機械接続音を 512×32 pixel のパワー スペクトログラムに変換した(図 2 左). これらの録音信号から変換された10の画像データを 学習用素材として用いる.
・機械音発生箇所のみを切 り取った 512×8 pixel のパワースペクトログラム画像 から,ランダムに 8×8 pixel の領域を選択し,選択箇 所を切り取った.8×8 pixel の領域を抽出した画像を 入力データ(図5左),抽出前の画像(図5右)を正解 データとして与えることで,抜き取られた領域を補完 したパワースペクトログラムを生成するように学習さ せた(図 5).録音信号 1 つにつき 1000 個の入力データを生成した.録音信号数が10であった ので,合計 10000 の学習用機械音を生成した.

4.検証内容

pix2pix[4] とは,Isola らによって提案された生成モ デルであり,入力データと正解データの組から,両者の 関係性を学習する. 任意の入力を与えることで,学習し た関係性を反映した出力を行うことが出来る. pix2pix の Generator には,画像セグメンテーションのための U-Net[6] が使われている. U-Net は,データから抽出 された局所的な特徴のみでなく,位置に関する情報も保 持できるという特徴を持つ. 浅い層で獲得される特徴 も取得されるため,質の高い画像を得ることができる.
図 6,7 はそれぞれ, pix2pix の Generator, Discriminator の構造を表す。

5.機械音生成実験

今回は2種類の検証を行った。
1.生成を行うタスクでの比較として、 DCGANでの出力と pix2pix での出力
2.結果が良かったpix2pix の応用実験
1.DCGANでの出力と pix2pix での出力
DCGAN および pix2pix により生成された機械音のパワースペクトログラムの例を(図8)に示す.
録音信 号の波形(図 9)と比較した場合,DCGAN では元の 信号と大きく異なった波形(図 10)が生成された.一 方で,pix2pix で生成した信号(図 11)では類似した 波形が得られた.
DCGAN では,振幅の変動が開始・終了する時刻,振幅がピークを取る時刻はどのデータでもおおよそ一致 したが,最大振幅および各時刻での振幅値については データごとの ばらつきが大きくなる結果が得られた.
pix2pix では、一部分を切り抜き、512×8 のうちの 一部分のみを生成することで、生成結果の評価のため,10 の録音信号と 10000 の生 成信号について,dynamic time warping (DTW) [7] に よって信号同士の信号間距離を計算した. pix2pixの生成信号では,すべて の項目について,録音信号同士の比較と遜色ない値が 得られた. 以上より,pix2pixでは十分に望ましい機械 接続音の生成ができたと言える.

6. 応用実験

pix2pix にてパワースペクトログラムから 8 × 8pixcel の領域をそれぞれ 2 箇所、4 箇所、8 箇所、16 箇所、32 箇所切り取ったものを入力データとして学習 用機械接続音を生成した. 10000 の学習用機械接続音を生成した. 生成結果の評価のため,録音信号と pix2pix による 生成信号の全ての組み合わせについて dynamic time warping (DTW) [7] によって信号同士の信号間距離の 平均値を計算した. 信号間距離の平均値と信号生成の 際に切り取った 8 × 8 領域数の関係を(図 12) に示す. 切り抜きの箇所を増やすほど,元のデータと類似度 が低い機械音が生成されることが確認できる。

7. まとめ

機械装置の製造工程における,機械音を作業者が聴 き取ることで不良品を検知する工程を,音による不良 品検知技術を利用して自動化する方法を検討した. 音源中に存在する様々な雑音の除去を行うために, データ・ドリブンな深層学習を使用する場合,音源の 人手による網羅的な収集には莫大なコストがかかる. そこで本論文では,敵対的生成ネットワーク(GAN) の一種である DCGAN と pix2pix の 2 つの手法を用い た音源生成実験とその考察を行なった. 生成の結果,DCGAN では学習データの不足から、音源生成はできなかったが,pix2pixによる生成 ではオリジナルの機械接続音と質的に近い音源を得ることができた. 本稿では機械接続音について取り扱ったが,今後は,その他の局所発生的な音声全般についても応用を試みたい,





-->