感情認識の種類について解説します

感情認識の技術の経緯について簡単に解説したところで、次はどのような感情認識の種類があるのかを解説していきます。
大きく分けて
・音からの感情認識
・顔の表情からの感情認識
・発話内容からの感情認識
・マルチモーダル感情認識
からなる4つの感情認識があるのですが、まずは予備知識として「快・不快」について簡単に解説します。
快・不快とは
「快・不快」という感情は人間の根本的感情の1つとされています。
「快」……つまり気持ち良い状態のことで、生物は本能的に快を得られる行動を取るようになっています。
また、不快から避ける行動も「快を求めている状態」とも捉えることができます。
それは食欲であったり、物欲であったりと様々ですが、人間も快を得たいという欲求が、行動に影響を与えていることは確かです。
反対に「不快」とは、気持ち良くないことや危険なことから回避したいという状態になります。
生存欲求にも大きく関わる感情のことで、空腹状態や不眠状態も不快にあたり、この状態が長く続くとストレスや健康にも影響が出てくる、非常に重要な感情といえます。
人間の感情は様々な要素が絡みあい、非常に複雑なものですが、AIの感情認識は大きく分けて「快・不快」のどちらに該当するのかが基準となり、そこから細かい感情に分類していくというわけです。
こういった人間の根本的感情を土台として、AIに新たな感情を学習させていくのです。
次項では4つの感情認識についてそれぞれ解説していきます。
音からの感情認識
AIは音による感情認識が可能になっていますが、音とはつまり「人間が発する声」です。
声の大きさ、高さ、抑揚などから判断していきます。
音声によって相手の感情がわかると、相手が怒っているのか、悲しんでいるのかがわかり、適切な対応を取ることが可能となりますので、コールセンターなどでの活躍が期待できます。
特にこの「声の感情認識」で注目すべき点は言語に左右されないという点です。
単語1つ1つではなく、その話し方や声量、息遣いなどによって総合的に判断されるので、「何を話しているかはわからないが、怒っているということは理解できる」状態になるのです。
さらに自分自身の声も感情認識が可能になりますので、自身の発する声から知らぬうちにストレスを抱えていたり、体調不良に陥っているといった気付きが得られます。
この技術を用いて、対話ロボットは相手が今どんな感情なのかを瞬時に判断し、適切な回答を選び出しています。
このまま技術が発展すれば、より相手との自然なコミュニケーションのサポートや、翻訳の技術で他国言語を話す人とコミュニケーションを円滑に進めることも可能となるでしょう。
顔の表情からの感情認識
顔の表情から感情を認識することは、実は人間は無意識におこなっていることです。
石器時代から集団生活を営んできた人間にとってコミュニケーションは必須であり、言語を持たなかった人間は表情で相手の感情を察していたのです。
言葉が発達した今でも、相手の表情から得られる情報は多く、「目は口程に物を言う」ということわざがあることからもその大切さがうかがえます。
AIの感情認識の場合は、表情筋と呼ばれる顔にある無数の筋肉の動き1つ1つをカメラで捉え、その各筋肉の動きや角度などの微妙な動きから、どの感情に分類されるのかを当てはめていきます。
アメリカの企業などは1,000万人以上にも及ぶ表情のデータを有しており、顔の形や国籍も関係なく高精度で判別することが可能となっています。
表情から感情が識別が可能になったことで、コミュニケーションの場面以外にも活用ができるようになっています。
食品会社では、試食品を食べてもらったお客様の表情を分析することで、お世辞ではない本当の反応を見ることができますし、パッケージデザイン会社では、その見た目が売り上げに大きく影響するために、なるべく快の反応が大きいデザインを採用するということがあります。
今後はVRゲームやテレワークなどでカメラ越しに会話する機会が増えると予想されるため、表情からの感情認識の活躍の場は増えていくことでしょう。
発話内容からの感情認識
「音からの感情認識」で解説したように、従来の感情認識では「怒ってはいるけれども何を言っているかはわからない状態」でした。
しかし、テキストマイニングの技術により、その言葉の持つ意味を理解し、より高精度な感情認識をする研究が進められています。
※テキストマイニングに関してはこちらで詳しく解説しています。
テキストマイニングとは?ツールや実例まで解説
テキストマイニングによってその言葉や漢字が持つ意味を学習することで、その言葉を発した相手の感情を総合的に判断できるようになるのです。
私たちの声を「音」でしか理解できなかったAIが、言葉として内容を理解したうえで感情認識をおこなえば、より正確な感情認識がおこなえるでしょう。
マルチモーダル感情認識
マルチモーダルとは、Multi(複数)とModal(様式)を組み合わせたコンピュータ用語です。
対義語としてシングルモーダルがあり、従来のコンピュータは1つの基準だけで物事を判別していました。
しかし、深層学習の技術が確立されたことで、複数の情報を与えて総合的に判別することが可能となりました。
これを上記の感情認識に当てはめると、相手の「発する声、表情、発話内容」から見て総合的に判断することができるようになったということです。
人間はこれらを当たり前にこなしていますが、実際はかなり複雑なプロセスを踏んでおり、AIでの再現の難しさとがよくわかるかと思います。
ですが、徐々にAIも技術も進化しており、いよいよ現実味を帯びてきたことがうかがえます。
対話エンジンへの応用例
対話エンジンとは、こちらの話した内容を理解し、その内容に対して最も適切な回答をすることができるエンジン(プログラム)のことを指します。
これまではチャットボットのように、あらかじめこちらの質問内容が決まっており、その質問に対して回答するものが一般的でした。
テキストマイニングの技術が発達したことで、入力された言葉や文字を理解し、その内容に対して回答する技術が開発されてきましたが、その発展型として「対話エンジン」が開発されました。
代表的なものに、SiriやAmazon Echo、Google Homeなどがあります。
こちらの発した言葉を理解して適切な回答をするだけでなく、雑談などにも対応できるようになったのは、膨大な機械学習の成果だといえます。
今は家電製品などにも人間の声で音声操作できるものも増えており、今後は対話エンジンもより高度なものになっていくでしょう。
さらに研究が進めば、人間と同様のコミュニケーションができるロボットが開発される日も近いかもしれません。