CNNなどを用いて音声データから感情を識別する研究を行っています。
東北大学 伊藤・能勢研究室 能勢先生・千葉先生と研究しています。

第五回 現在の研究方針

現在までの音声のみの学習ではなく、テキストも利用した画期的な方法で学習を行う。査読付き研究論文化予定である。

これまでの研究経緯・結果

第四回 CNNによる音声特徴量を用いた感情識別
前回からの変更点

  • 音声の特徴量を取り出す前に無音区間をjuliusによる強制アライメントを利用して無音区間の切り抜いた。
  • 音声の特徴量として音声のスペクトル、基本周波数、パワーに関するもの( F0(基本周波数)、パワー、FBANK特徴量)を用いた。※FBANK特徴量はMFCC同様、音声の音韻的な特徴をよく表現できることが知られている。

手法
step1 JTESを学習セット・開発セット・テストセットに分割
step2 JTESのサンプルの無音区間を取り除く
step3 特徴量の抽出
音声スペクトル、パワー、基本周波数(F0)に関わるものをWORLDを用いて抽出する
step4 音声特徴量系列からフレームを切り出す ※FBANKは二次元画像、F0とパワーは一次元系列
step5 CNNに特徴量をフレームごとに入れて学習する

結果と考察

※開発セットに対する識別結果とテストセットに対する識別結果を下図に示した。表中のFBANK、F0、Powerはそれぞれの特徴量を単独で使用した結果である。Concは3つすべての特徴量を結合した結果を示す。またbaselineはopenSMILEで抽出した特徴量を隠れ層3層のNeural Networkで学習したものであり、第三回の結果である。

考察
今回の結果を特徴量別にみるとFBANK特徴量による識別性能が高く、スペクトラムが感情識別において有用性があることを示唆している。しかし、従来感情識別で有用とされる声高やパワーが今回の結果で高い性能を得られなかった。今回のネットワークでは声高・パワーの変動をうまく捉えていないことが原因だと考えられる。
また、各感情の識別率が特徴量ごとに異なる傾向があることが分かった。全体的に「悲しみ」の正答率が非常に高く、すべての感情に対して性能のいい単独の特徴量はなかったが、単独の特徴量の識別が相補的になっているものがあり、結合によって性能が向上したことが考えられる。

過去の研究

第三回
手法
openSMILEを用い音声特徴量をとり、Deep Neural Networkで学習を行った。
結果
上表のbaselineの項目に記載。

第二回
手法
音声データをスペクトルグラム化してCNNでクラス分類
結果
正答率
学習データ  約95%
テストデータ 約64%

第一回
手法
Wavファイルの情報をそのまま一次元のCNNに渡して学習
結果
正答率
学習データ  約60%
テストデータ 約45%