blog

人工知能学会発表会2018での発表

本稿は、人工知能学会の第35回知識・技術・技能の伝承支援研究会(SIG-KST)において発表した研究「敵対的生成ネットワークを用いた機械音の生成」の内容を詳しく解説したものです。製造現場での音による品質検査を自動化するという実務課題に対し、GAN(Generative Adversarial Network)を活用してデータ不足を解消するアプローチを取りました。以下では研究の動機から実験結果、今後の展望まで順を追って紹介します。

敵対的生成ネットワークを用いた機械音の生成

1. 研究の動機

製造業の現場では、長年にわたって熟練した作業員が卓越した手さばきや経験則をもとに高品質な製品を生み出してきました。しかし近年、機械化・自動化の急速な進展と少子高齢化の深刻化により、こうした熟練工の技能だけに依存した生産体制を維持することが難しくなっています。生産対象となる製品の構造が高度になればなるほど、属人的な感覚や経験では対応しきれない局面が増え、定量的・客観的な検査手法が求められるようになっています。

製造設備が稼働する現場では、非常に多様な機械音が絶えず発生しています。具体的には、モータ作動音、自動搬送車のタイヤ音、金属同士がすれ合う音、プラスチックと金属が接触する音、作業員の声、警告サイレン音など、数えきれないほどのバリエーションがあります。こうした複雑な音響環境の中から特定の機械音だけを正確に抽出し、製造工程の一ステップが正常に完了したかどうかを自動判定するための仕組みを構築することが、本研究の出発点となりました。

深層学習・機械学習を用いた音響分析には、大量の学習データが必要です。しかし実際の製造現場で発生する音を人手で網羅的に収集・ラベリングすることは、時間的にも費用的にも莫大なコストを伴います。特に異常音のデータは通常時に比べて極めて少なく、データ不均衡の問題も生じます。そこで本研究では、GANを用いて学習用の機械音データを大量生成することで、より堅牢で精度の高い音響抽出器を構築することを目的としました。

2. 着想・アイディア

本研究のアイデアの源泉は、以前に取り組んでいた為替予測の研究にあります。第19回SIG-FIN金融情報学研究会での発表において、為替チャートの画像を深層学習モデルに入力し、将来の価格推移を示す画像を生成するという研究を行いました。このとき、音声や時系列データを「画像」として扱うことで、画像生成タスクに適したGANのアーキテクチャをそのまま転用できるという発想が生まれました。

音を画像として扱う具体的な方法がスペクトログラム変換です。音声信号を時間軸と周波数軸からなる2次元のパワースペクトログラム画像に変換すると、音のパターンが視覚的な模様として現れます。この画像を生成・補完するタスクとして再定義することで、画像生成分野で優れた性能を示すGANベースの手法を音生成に応用することが可能になります。為替チャートという「時系列の視覚化」から「音声信号の視覚化」へと発想を転換したことが、本研究の核心的なアイデアです。

アイデアの流れ(為替予測研究 → 機械音生成研究)

為替チャート画像を入力
→ 将来チャートを生成
音声をスペクトログラム
(画像)に変換
GANで画像を補完・生成
→ 音声に逆変換

3. 学習データの準備

学習データとなる機械音は、実際の機器をスタジオ環境で録音することで収集しました。録音した音は5種類の機械接続音を対象とし、それぞれ音量の大小を含めた計10パターンを準備しました。収録環境をスタジオに限定することで、余計な背景雑音を排除し、純粋な機械音のデータを確保しています。

収録した録音信号は、次のようにしてスペクトログラム画像へ変換しました。まず、各録音信号を512×32ピクセルのパワースペクトログラムに変換します(横軸:周波数、縦軸:時間)。次に、機械音が実際に発生している箇所のみをトリミングし、512×8ピクセルのパワースペクトログラム画像を抽出します。この画像から8×8ピクセルの領域をランダムに選択して切り取り、その「穴あき画像」を入力データ、切り取り前の元画像を正解データとしてペアを構成しました。

この入力・正解ペアを録音信号1件につき1,000個生成し、録音信号が10件あるため、合計10,000個の学習用データを作成しました。少ない実録音データから多数の学習サンプルを生成するこのアプローチが、GANによるデータ拡張の本質的な価値を体現しています。

項目 詳細
録音した機械音の種類 5種類(大小含め計10パターン)
スペクトログラムのサイズ(全体) 512×32ピクセル
スペクトログラムのサイズ(音発生箇所) 512×8ピクセル
切り取り領域のサイズ 8×8ピクセル(ランダム選択)
1録音あたりの生成サンプル数 1,000個
合計学習データ数 10,000個

4. 検証内容:pix2pixの概要

本研究で主に用いたGANの手法は、Isolaらによって提案されたpix2pixです。pix2pixは「Conditional GAN(条件付きGAN)」の一種であり、入力画像と正解画像のペアを与えることで、その対応関係を学習します。学習後は任意の入力画像を与えるだけで、学習した変換ルールを反映した出力画像を生成できます。

pix2pixのGeneratorには、画像セグメンテーションの分野で高い性能を誇るU-Netが採用されています。U-Netはエンコーダ(特徴抽出)とデコーダ(画像復元)をスキップコネクションで接続した対称構造を持ちます。この構造の特長は、深い層で抽出された大域的な特徴だけでなく、浅い層で捉えた局所的な特徴や位置情報も保持できる点にあります。その結果、細部まで鮮明で質の高い画像を生成することが可能になります。

一方のDiscriminatorはいわゆるPatchGAN構造を採用しており、画像全体ではなく局所的なパッチごとに「本物か偽物か」を判定します。これにより、高周波成分(細かいテクスチャや輪郭)の再現精度が向上し、スペクトログラムのような精密なパターン生成に適しています。

比較対象として、もう一つのGAN手法であるDCGAN(Deep Convolutional GAN)も実験に用いました。DCGANはランダムなノイズベクトルを入力として画像を生成する非条件付きGANであり、入力と出力のペアを使った学習は行いません。

5. 機械音生成実験

実験では大きく2種類の検証を実施しました。ひとつはDCGANとpix2pixの出力品質の比較、もうひとつはpix2pixを用いた応用実験です。

5-1. DCGANとpix2pixの比較

両手法でパワースペクトログラムを生成し、元の録音信号の波形と視覚的・定量的に比較しました。

DCGANの生成結果では、振幅の変動が開始・終了する時刻や振幅がピークに達する時刻についてはデータ間でおおよそ一致が見られました。しかし、最大振幅の値や各時刻における振幅値については、データごとのばらつきが大きく、元の録音信号の波形とは大きく異なる結果が得られました。これは、学習データ数が10件と少なく、DCGANが十分に分布を学習できなかったことが主因と考えられます。

pix2pixの生成結果は、元の録音信号と類似した波形を示しました。定量評価として、10件の録音信号と10,000件の生成信号のすべての組み合わせについて、DTW(Dynamic Time Warping)による信号間距離を計算しました。DTWは時系列データの類似度を計測するための手法で、時間軸方向の伸縮を考慮した柔軟な比較が可能です。pix2pixの生成信号のDTW距離は、録音信号同士を比較した場合と遜色のない値を示し、十分な品質で機械接続音を生成できたと結論づけることができました。

機械接続音のパワースペクトログラム:縦軸に周波数、横軸に時間を取り、音の強度を色の濃淡で表した可視化イメージ
機械接続音のパワースペクトログラム:縦軸に周波数、横軸に時間を取り、音の強度を色の濃淡で表した可視化イメージ

6. 応用実験:切り抜き箇所数と生成品質の関係

pix2pixの性能が確認できたことを受け、次のステップとして応用実験を行いました。この実験では、512×8ピクセルのパワースペクトログラムから切り取る8×8ピクセルの領域数を変化させ、切り抜き箇所が多いほど生成される音がどの程度元データから離れるかを検証しました。

具体的には、切り取る領域数を2箇所・4箇所・8箇所・16箇所・32箇所の5段階に設定し、それぞれの条件で10,000件の学習用機械接続音を生成しました。生成結果の品質評価には、先述のDTWによる信号間距離の平均値を用いました。

結果として、切り抜き箇所を増やすほどDTW距離が大きくなり、元のデータとの類似度が低下することが確認されました。これはGANによって補完される領域が広がるほど、生成音が元の録音音から逸脱した多様なバリエーションを持つようになることを意味します。

切り抜き箇所数とDTW距離(概念図)

切り抜き箇所数 元データとの類似度 生成音の特徴
2箇所 高い(DTW距離 小) 元の録音音に近い音が生成される
4箇所 やや高い 録音音に概ね近い
8箇所 中程度 ある程度のバリエーションが生まれる
16箇所 やや低い バリエーションが広がる
32箇所 低い(DTW距離 大) 元データから大きく逸脱した音が生成される

この結果は実用上の重要な示唆を持っています。切り抜き箇所数を調整することで、「元の録音音に近い高忠実度なデータ拡張」と「より多様なバリエーションを持つデータ生成」のバランスをコントロールできることが分かりました。用途に応じて生成データの多様性と品質のトレードオフを意図的に調整できるという点は、実際のデータ拡張パイプラインを設計する上で有用な知見です。

録音信号と生成信号の波形比較をイメージした抽象的なスペクトログラムパターン図
録音信号と生成信号の波形比較をイメージした抽象的なスペクトログラムパターン図

7. まとめと今後の展望

本研究では、製造工程における音響的な品質検査の自動化を目指し、GANを用いた機械音の生成実験を実施しました。成果と課題を整理すると以下のとおりです。

  • 課題の背景:音による不良品検知を深層学習で実現しようとした場合、実録音データの収集には莫大なコストがかかる。特に異常音のデータは本質的に少ない。
  • アプローチ:音声信号をスペクトログラム画像に変換し、画像生成タスクとして再定義することで、GANの強みを音生成に活用した。
  • DCGAN:学習データ数の不足から、元の機械音と品質的に近い音源の生成には至らなかった。
  • pix2pix:入力・正解ペアを活用した条件付き生成により、元の機械接続音と質的に近い音源を安定して生成することができた。DTW距離による定量評価でも実録音同士の比較と同等の結果を達成した。
  • 応用実験:切り抜き箇所数を調整することで、生成データの多様性を制御できることを確認した。

今回は機械接続音という特定カテゴリの音を対象としましたが、この手法は音の種類を問わず「局所的に短時間発生する音声全般」に応用可能です。今後は、警告音や衝撃音など他の種類の局所発生的な音声にも本手法を展開し、より汎用的な製造現場向け音響データ拡張フレームワークとして発展させていく予定です。また、生成されたデータを実際の異音検知モデルの学習に組み込み、検知精度の向上に対してどれだけ貢献できるかを定量的に検証することが次のステップとなります。GANを活用したデータ拡張は、データ不足に悩む製造業の現場において、深層学習の実用化を加速する有力なアプローチとなり得ると考えています。

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AIエージェント デジタルID ガバナンス 責任追跡——エストニア構想が日本企業に突きつける問い

    AIエージェント デジタルID ガバナンス 責任追跡——エストニア構想が日本企業に突きつける問い

    エストニアが示した「AIエージェント デジタルID」の核心——なぜ今、責任追跡が問われるか 2026年6月17日前後、エストニアのKristen Michal首...

  • Amazon OpenAI提携が日本企業への影響——AI調達の力学はどう変わるか

    Amazon OpenAI提携が日本企業への影響——AI調達の力学はどう変わるか

    映画流産が可視化した提携の本質——Amazon OpenAI提携と日本企業への影響の出発点 2026年6月、Amazon MGM Studiosがルカ・グァダニ...

  • 感情認識API ビジネス活用の判断軸——KLIPYのGoogle AI支援参加が示す転換点

    感情認識API ビジネス活用の判断軸——KLIPYのGoogle AI支援参加が示す転換点

    KLIPYのGoogle AI Futures Fund参加が示す「感情認識API ビジネス活用」の転換点 2026年6月17日、GIF・ミーム・短尺クリップ向...

View more