マルチモーダルAIとは?詳しく解説

「マルチモーダル」という言葉をご存知でしょうか?
あまり聞きなれない言葉かと思いますが、AIの技術の進化を語るうえでは外せない言葉です。
近年AIが急成長しており、私たちの生活になくてはならないものになっており、その種類もたくさんあります。
マルチモーダルとは言葉の通り、たくさんの情報を扱うことですが、「マルチモーダルAI」が何なのか、マルチモーダルAIの研究開発に特化した弊社が詳しく解説していきます。

この記事では、

について解説していきます。

弊社では、マルチモーダルAIに特化した研究開発を行っております。
社内のDX,IoTをお急ぎですか?こちらからお問い合わせください。
お問い合わせ

目次

  1. マルチモーダルとは
  2. マルチモーダルの歴史
  3. マルチモーダルでどのようなことが可能になったのか
  4. マルチモーダルの今後
  5. クリスタルメソッドのマルチモーダルへの取り組み
  6. マルチモーダルAIで様々なことが可能になった
  7. 感情によるマルチモーダルAIを利用したIPO株価推定

マルチモーダルとは

マルチモーダルとは

マルチモーダルとは、「multi」+「modal」という言葉を組み合わせたコンピュータ用語です。
直訳すると「multi(複数の)」+「modal(様式)」という意味になりますが、対になる言葉としてシングルモーダルがあります。
「モーダル」という言葉には、AIへの入力情報の種類(画像、音声、テキストなど)を意味を意味しており、マルチモーダル=複数の種類の情報を一度に処理する技術のことを指します。

これまではコンピュータの処理能力の限界からシングルモーダルしかできませんでした。
しかし、強化学習やディープラーニングでAIが進化することによりマルチモーダルが可能になりました。
これによって処理速度は劇的に向上し、AIの性能も飛躍的に向上しました。AIの可能性が一気に広がり、様々なものに活用されています。
身近なものでは私たちのスマートフォンにも搭載されており、今や私たちの生活になくてはならないものになっています。

そんなマルチモーダルの仕組みや歴史について次項で解説していきます。

マルチモーダルの歴史

マルチモーダルを語るうえでAIのディープラーニング(深層学習)は切っても切り離せません。
まずはディープラーニングについて軽く解説します。

ディープラーニングとは

従来、それまで20世紀までのコンピュータのスペックは低く処理速度や処理能力に限界がありました。
その問題を解決しようと発案されたのがディープラーニングです。

ディープラーニングとは、機械学習から発展したもので、人間が得た情報や課題を処理する過程をコンピューターにも学習させ、再現する方法のひとつです。
元々コンピューターは与えられた作業しかできませんでしたが、AIを搭載することにより、「与えられたデータから何らかの規則や共通点を見つけ学習し、分析する」ことが可能になりました。
これが機械学習です。

その機械学習の手法であるニューラルネットワークという分析手法を拡張して高精度の分析や応用が可能になったのがディープラーニングです。
参考にした人間の神経細胞(ニューロン)の仕組みを使い、ニューラルネットワークを何百層にも重ねることで、一度に大量のデータの特徴や共通点を分析・学習することが可能になりました。

これによりAIの知能は飛躍的に上昇し、解析する速度や精度も向上したのです。
次の段階は、人間が与えたデータをより正確に見分けることです。
これまでは
・1つの画像から人とそれ以外とを見分ける
・たくさんの郵便物の中から東京とそれ以外とを分ける
といったシンプルな課題しか処理できませんでした。

私たちは生活しているうえでたくさんの情報や刺激が常に入ってきます。
目(視覚)からは人の顔や風景、文字や色など
耳(聴覚)からは人の声や怒鳴り声、車の音や風の音など といった具合です。

しかし、従来ではそれぞれを単独でしか認識できず、表面的な情報しか抽出できませんでした。
時が経つにつれてディープラーニングで多くの情報を吸収したAIはより細かな認識が可能になりました。

①画像認識の例
◆従来・・・バーとスペースの組み合わせによりできたバーコードから数字や文字を読み取る。画像検出のためのテンプレートマッチング方式の利用
◆ディープラーニング後・・・動物などの人以外の認識が可能になり、高精度で認識ができる

②音声認識の例
◆従来・・・単語認識と、特定話者対応により事前学習が必要な文章認識タイプの音声認識
◆ディープラーニング後・・・音から雑音と人の声とを区別し、声の特徴や抑揚から感情を認識したり、音声データをテキストに変換することができる

③テキストマイニングの例
◆従来・・・数値化やコード化されたデータに対してのマイニング。
◆ディープラーニング後・・・大量のテキストデータから必要な情報をすばやく取り出す。

このように、従来とディープラーニング後を比較してみるだけでも各段に精度が向上したことがお分かりいただけるでしょうか?

これらはほんの一例に過ぎず、今もなおディープラーニングにより学習し、精度を上げています。
ですが、あくまで画像という視覚データを単独でしか解析できません。
これが従来のシングルモーダルの特徴であり、欠点です。

“こちらが与えたデータを画像や音、内容などから総合的に判断する”のがマルチモーダルになります。
例として、AIにリンゴの画像を見せた際に、AIはあくまで画像のピクセル情報や輪郭、形状からリンゴと判断しています。
しかし、人間は赤ちゃんのときからリンゴを認識できます。
人間と比較してみると、人間はただ画像を見たり音声を聞いているのではなく、色や口の動きも見ながら聴覚・視覚など複数の情報を加味して意味を理解していることがわかりました。

また、実際のリンゴに触れた際に、手で触れたり匂いを嗅いだり、実際に食べて味を感じ、脳が五感でリンゴのことを記憶します。
ですので、リンゴの画像だけでなく、絵や記号のリンゴでも人間は「これはリンゴだ」と認識できるのです。

このことを参考にし、画像や音声だけというシングルモーダルの情報だけでは精度が不十分だったものも、複数の情報を加えて総合的に判断することで精度を上げることが可能になりました。

シングルモーダルよりもマルチモーダルのほうが総合的に判断するため、より精度は上がりますが、処理する内容が多くなるために高いコンピュータのスペックが要求されます。

また、動画のように、動きや音などたくさんの情報は含まれているものはマルチモーダルが適していますが、画像解析や2次元の分析においてはシングルモーダルでも問題ない場合もあるため、いかに上手く使い分けるが重要といえます。

2013年には、コンピューターに任意のテキストを入力すると、入力されたテキストの意味を理解して楽しそうな感情や怒りの感情を込めて読み上げることが可能になりました。

これは文字を認識するシングルモーダルと、ディープラーニングによって言葉に含まれる意味を理解し、その言葉に応じた感情を選択して読み上げるという複雑な工程をこなすことが可能になったという証拠です。

皆さんも、ユーザーが入力した質問の内容を理解し、自動で返信内容を作成し読み上げて回答するようチャットボットのサービスを利用したことがあるでしょう。これらもマルチモーダルを使ったAIのサービスになります。
マルチモーダルによって精度が高くなっただけでなく、様々な用途に使用可能になり、AIの可能性が一気に広がったのです。

マルチモーダルでどのようなことが可能になったのか

マルチモーダルのAIが画面操作
シングルモーダルでは1つの情報のみでしか判別することができませんでした。
しかし、人間が五感で物事を処理して判断するように、マルチモーダルを学習することでAIも視覚情報、嗅覚、触覚、聴覚など、様々な情報を複合的に判断することで精度を上げることに成功しました。

ここではマルチモーダルによってどのようなことが可能になったのかをご紹介します。

活用事例1.行動認識技術による防犯対策、トラブル発生の防止

行動認識とは、マルチモーダルによって人の数だけでなく、人間の骨格までも検知してどの人がどんな行動をしているのかまでも認識することができます。

主に監視カメラなどに導入されており、画角内に動いている人が何人いて、何をしているのかを判断することで防犯対策やトラブルを未然に防ぐといったことに使われています。
・画像認識により、映っているものが人なのか、人であればそれは男性なのか女性なのか
・音声認識により、どんな音が流れており、それが人が発した言葉であれば何を話しているのか
・行動認識により、不審な行動をしていないか、喧嘩などが起こっていないか

これらを総合的に判断することができます。
例えば、男性2人が向かい合って何かを話し合っているとします。
これが画像認識だけであれば、ただ会話しているのか、言い合いになっているのかの区別が付きません。
音声認識が加わり、発している言葉が通常のトーンであれば普通の会話をしていることになりますが、大きな声を荒げている場合は何かトラブルが起きていると判断することができます。
映像から肩を叩く動作を認識しても、それはふざけ合って叩いているのか、暴力行為なのかの区別は付きません。

様々な情報をマルチモーダルで複合的に考えることでAIが正確に物事を判断し、いち早く危険を察知して知らせることで警備員が駆け付け、トラブルを最小限に食い止めることができるのです。

活用事例2.生産工場などでの異変検知

マルチモーダルは人間でいう五感だけでなく、振動や異音、温度などにも応用することができます。

通常では起こりえない振動をセンサーが感知するように学習させたり、正常な温度を学習させることで、異常な数値を検知した際に警報や管理人に知らせることが可能です。

これらは生産工場などに導入されています。
・画像認識を使って正しい規格か、異常な物体が混じっていないかの検品作業
・音声認識を使って機械が摩耗していないか、故障していないかの確認

メンテナンス時に異音や変な振動がないかのチェックなど、幅広く活用することができます。
万が一異物混入などがあれば、消費者に迷惑をかけるだけでなく、企業の信頼も失ってしまいます。

これらは消費者に守るだけでなく、生産工場の商品の質を守るため、また安全を保証するためにも重要な役割を担っています。

活用事例3.コロナウイルス対策

世界中で猛威を振るっているコロナウイルス。
その感染力の高さから外出を控えるように言われていますが、出社しなければならない場合や買い物などやむを得ない場合は少なからずあります。
その場合もマルチモーダルが活用されています。
特にお店や飲食店などは消毒を積極的におこなっているところも多いですが、人間の目だけでは完全に消毒できているのか判断が難しい場合があります。

そこでマルチモーダルを使います。マルチモーダルは映像に映っている物体や人間の動きを認識できますので、人間の行動認識から消毒し忘れている場所を示したり、Co2の量を検知して空気の入れ替えのタイミングを伝えることができます。
また、従業員の体温や表情の変化を検知して、いち早く体調不良に気付くことで、ウイルスの繁殖や感染拡大を防ぐことができます。

活用事例1のように、今は屋外でマスクを外して大声で会話する行為が嫌われていますので、そういった行為をおこなっている人がいれば早急に発見、対応することができます。

活用事例4.自動運転

近年、車の自動運転の研究が盛んですが、これらにもマルチモーダルが活用されています。
人間は運転する際に五感で様々な情報を読み取り瞬時に判断しています。
前方の信号だけでなく、急な人の飛び出しや、その場の交通状況に応じた走りを要求されるため、AIでは運転の自動化は難しいと思われてきました。
以前からカメラにセンサーを付けてのブレーキアシストや車間距離を調整する技術などは開発されてきました。
ですが、これらはあくまでサポートであり、前方や後方にある物体をセンサーが検知してブレーキを踏むだけに留まるものでした。

しかし、マルチモーダルが使われるようになってからは、物体認識だけでなくクラクションや踏切などの音、歩行者が幼児や高齢者などの詳細な区別、総合的な判断が可能になりました。
これにより、白線や障害物、前方との車間距離を認識した自動運転が実験的におこなわれており、近い将来には完全な自動運転技術が確立されるといわれています。

また、運転手と会話するAIも開発されており、カーナビゲーションを声で操作可能にすることで、余所見をして前方から視線を外すことがなくなったり、AIが運転手に音声で様々な交通情報を与えてくれます。

他にもセンサーが運転手の視線や挙動から眠気を感知したり、苛立ちを感知して事前に休息を提案するなど、事故や危険を未然に防ぐようなシステムが開発されています。
これらもマルチモーダルの開発による恩恵が大きいものになります。

マルチモーダルの今後

人間とロボットの手がタッチ

すでに様々な製品にAIが搭載されており、非常に可能性に満ちているマルチモーダルですが、今後はどのようにマルチモーダルが発展していくのか考察してみましょう。

医療×マルチモーダル

すでに医療の分野においてAIの導入が進められていますが、その中でも最も期待されているのが病気予測です。
患者のカルテや診断状況を過去のデータと照らし合わせ、マルチモーダルで判断することにより、医者でも見逃してしまっていた病気の早期発見や適切な対応が可能です。
詳しくはこちらでも解説しています。第8回「AIが診断支援と病気予測を行う日へ」

特に、コロナウイルスの影響により直接の接触を嫌う傾向にありますので、AIを搭載した医療ロボットや介護ロボットが今後は活躍すると考えられています。

工場×マルチモーダル

2次元の分野においてはAIは得意な分野になっています。
カメラを利用しての検品作業や異物検知などはすでに多くの向上で導入されています。
ディープラーニングによって、画像認識や音声認識は90%を超え高い精度を誇っています。

これらを活かして製造ロボットの管理や検品作業もAIでこなしていましたが、今後は従業員の勤怠管理やシフト管理などもAIでまかなうことが出来れば、大幅な人件費削減・コストカットにつながります。

ただの製造業務だけをおこなっていたロボットに様々なマルチモーダルを搭載することで、複数の業務をさせることも可能です。
しかし、AIで人手不足が解消できるとともに、雇用される人数も減ってしまうという問題があります。
単純な労働はAIに任せる代わりに、AIのメンテナンス業や機械に詳しい専門職のニーズが増えると予測されています。

コミュニケーション×マルチモーダル

AIが次の段階として目指しているのが、「自然なコミュニケーション」です。
チャットボットや人型ロボットのように、一定のフレーズに対しては反応することができても、複雑な会話や臨機応変に返事をするというのは難しかったのです。

しかし、ディープラーニングによって様々なケースの会話を学習しています。
マルチモーダルによって会話する人間の表情や声をマルチモーダルで総合的に判断できるところまで来ています。

より研究を進めていけば、その場の状況や相手の心情を察して返事をするという、より自然で高度なコミュニケーションが可能になるとされています。

こういったコミュニケーションロボットは、介護施設で身寄りのないご老人の話相手だったり、企業の受付窓口だったりと様々な場面での活躍が期待されています。

マーケティング×マルチモーダル

様々な市場や顧客情報を分析して売れる仕組みを作るマーケティング業務ですが、マルチモーダルを使えばより多角的な面での分析が可能になります。

単純な売り上げの数字だけを見るよりも、動画を使っての顧客の流入や表情の調査、会話データなどから顧客満足度や次の売り上げ予測が容易に可能になります。
AIによる客観的な分析と過去何十年、何百年というデータ量は人間では到底処理しきれない数字です。

こういったデータ関連はAIが得意とするところですが、今までにない新しいことを企画したり、何かを生み出すことに関しては人間のほうが向いています。

近い将来には集計や分析はAI、企画や立案は人間、といったような分業制を取り入れるかもしれません。

クリスタルメソッドのマルチモーダルへの取り組み

各企業や研究機関においてマルチモーダルは日々開発されています。
各企業が開発したAIのディープラーニングの内容はそれまでの研究の成果であり財産です。

そんな弊社もマルチモーダルの開発に注力しており、高い成果を出しています。
ここではそんな研究の成果の一部をご紹介します。

弊社では、マルチモーダルAIに特化した研究開発を行っております。
社内のDX,IoTをお急ぎですか?こちらからお問い合わせください。
お問い合わせ

マルチモーダル感情認識

弊社の音声認識は高い精度を誇っており、実際の企業様に検品の際の異音判定や、機械の動作音の確認など幅広く採用されています。

その音声認識の技術をコミュニケーションにも活用すべく、人間が発する声を分析し、話している内容と声の調子から相手の感情を認識するという技術に応用しています。
正確に人間の言葉を認識し、会話の抑揚や強弱を分析する高い技術が必要になりますので、AIが正しく意味を理解できいないケースもあります。

しかし、弊社は微妙な感情の違いも細かく読み取り、違和感のないコミュニケーションに成功しています。
※実際の音声サンプルがございます。
音のAI・深層学習

対話型AIへの導入

弊社では「ロボットをより人間に近づける」をテーマに日々AIの研究開発をおこなっております。

その中でも代表的なものが対話型AI “HALさん”です。
プロモーション動画はこちら

現在、AIはスマートフォンや自動車、家電製品などたくさんのものに搭載されており、なくてはならない存在です。
日本のAIの普及数は5千万世帯と言われており、AIの利用者数は約8千万人にものぼります。
これは人口の約70%が何かしらのAIを使っているという計算になります。
この数字はもっと伸びると予想されており、一家に1台AIを搭載したお手伝いロボットが家庭にいる未来もそう遠くないでしょう。

そんなAIロボットを企業でも家庭でも積極的に採用していただくべく、AIについて日夜研究を続けています。
中でも注目しているマルチモーダルは、AIとのコミュニケーションにおいて非常に重要だと考えております。

これまでのシングルモーダルでは「顔色を窺う」「空気を読む」といった人間独自のコミュニケーションはAIには理解できません。
しかし、人間はこういった細かい表情の違いや、発した言葉以外の感情を読み取って、初めて本当のコミュニケーションが成立しています。
この細かい感情を読み取るためにはマルチモーダルが不可欠です。
目線、眉の動き、表情の強張り、口元の動き、声の大きさ、抑揚、発した言葉の内容。
これらをマルチモーダルで総合的に判断することで、より人間に近いコミュニケーションが出来るようになります。

ただ人間の表情を読み取るだけでなく、自身で考えた表情を描写し自律した返答ができれば、それは人間に大きく近づいたと言えるのではないでしょうか。

対話型AI HALさんもこれらを意識した研究がされており、一定のオフィス業務に関しては実働可能なレベルに達しています。
ご依頼があれば、各業務や様々な業種に特化した機能を備えることも可能になります。
今はまだモニター越しですが、さらに研究が進めば人型ロボットのようにアンドロイド化した対話型AI HALさんが実現します。

アンドロイドそれぞれにHALさんを搭載することができれば、日常会話が出来る高性能なお手伝いロボットとして人間と共存できる日がくるでしょう。

感情認識以外のマルチモーダルの研究も同時に進めており、AIは便利なロボットではなく、生活をともにする家庭のパートナーとなる日もそう遠くないかもしれません。

マルチモーダルAIで様々なことが可能になった

ここまでマルチモーダルの意味と歴史、マルチモーダルの今後や弊社の取り組みについて解説してきました。

マルチモーダルが確立されたことで精度が飛躍的に上昇し、様々な可能性が広がりました。
業務用ロボットの開発はもちろんですが、今は一般の方にもAIが広く浸透しており、家電のみならず自宅をAIで管理するといったこともあるかもしれません。

そうなった際に、AIと人間が自然にコミュニケーションを取り、共存できるような未来を描きながら、日夜研究開発に精進してまいります。

この記事を読んで、AIやマルチモーダルに興味を持っていただければ幸いです。

人工知能学会金融情報学会第20回での発表について

感情によるマルチモーダルAIを利用したIPO株価推定

1. 研究の動機
従来の経済学では、需要と供給によって決まった価格を判断基準として、人間は売買行動を実行している。一方、感情によって売買行動をとるという研究も存在している。非言語の情報が株価にどのような影響を与えるのだろうか。価格以外の要因によるIPO時の株価変動について検証する。

IPO株価のグラフ
2. 研究発表の対象 研究概要
音声・画像・テキストなど、複数のデータからマルチモーダルな学習モデルを構築し、新規上場企業のインタビュー動画と株価変動の相関について検証。登壇者の表情や声色、発表内容から、株価の変動を予測する。
番組全体のデータが翌営業日の価格変化に相関があるかをSVM・ロジスティック回帰を使用して検証する。
番組放送中のデータが一分足の価格変化に相関があるかをRandom Forest・XGBoost・DNN・LSTMを使用して検証する。


3. ストックボイスTVについて(IPO)
STOCK VOICE TVとは、新規株式公開等に際して、企業の代表者などが自社の事業計画等を発表する放送である。放送時間約13分で、大方の放送は後場に開始する。


4. データ準備
Ⅰ. ストックボイスのサイトをスクレイピングし必要情報を抽出
Ⅱ. YouTubeから動画データを一括取得
Ⅲ. YouTubeからⅡの会社証券コード・会社名・上場日等の必要情報をプログラミングにより取得・作成
Ⅳ. ストックボイスTVの動画を映像と音声に分離
Ⅴ. 1分足の検証のため、ダウンロードした動画を1分ごとに分割
Ⅵ. 区切った動画をGoogle Speech APIに入力しテキストを取得
Ⅶ. 1分毎に区切った音声をGoogle Speech APIに入力し、テキストを取得
一分準備データ
Ⅷ. 日足評価用に全体音声、テキストを用意
Google Webストレージに音声データをアップロードし、テキスト表現を取得
5. 各種特徴量抽出・株価データ準備

  • テキストデータは、Google Emotionによって特徴量抽出する。
  • 音声データは、感情特徴量を利用する。 パワー・MFCC
  • 映像データは、一分評価用・全体評価用ともに5秒ごとに特徴抽出Microsoft Emotion APIを利用する。(複数人の場合は平均を取得)


6. SVM(Support Vector Machine)
SVMの最大の特徴は、マージン最大化を行うことである。マージンの最大化により、比較的データ量が少ない場合でも汎化性能を高めやすい。カーネルトリックを用いることで、非線形に拡張することが可能である。


7. Random Forest
Random Forestでは決定木を大量に生成し、以下のように出力を決定する。
→分類問題:多数決
→回帰問題:平均値
また、各特徴量の重要度を算出することができる。
参照:https://aichamp.wordpress.com/2017/03/09/treatment-of-categorical-variables-in-h2os-drf-algorithm/


8. XGBoost
XGBoostは、Kaggleと呼ばれる、データ分析のコンペティションが多数開催されているプラットフォームでよく使用される。GBDT(Gradient Boosting Decision Tree)を使用していて、計算速度やモデルの予測精度の面で優れている。R、Python等で利用可能である。
9. LSTM(Long Short-Term Memory)
LSTMは文章や音声等、時系列データを扱うことができるRNNsの拡張である。RNNsの勾配消失問題が緩和され、長期依存する時系列も扱える。Tensorflow, Chainer等のフレームワークで比較的楽に実装することが可能である。
参照:https://becominghuman.ai/only-numpy-deriving-forward-feed-and-back-propagation-in-long-short-term-memory-lstm-part-1-4ee82c14a652


10. 検証(日足)
・データ:ストックボイスTVから取得した196社分のデータ
196社のうち、123社がIPO銘柄、73社がNew Stage銘柄
全データのうちテストデータの割合が2割の場合、3割の場合の検証をした
またIPO銘柄のみの場合、全銘柄を使用した場合の検証もした
・モデル:ロジスティック回帰・SVMを使用
・予測:翌営業日の株価が上昇しているか否か
・評価指標:2値分類の正答率
11. 結果(日足1、日足2)
IPO銘柄のみでの検証結果は、銘柄数が少ないため、結果にばらつきが生じた。ロジスティック回帰がSVMを上回る結果となった。
IPOとNew Stage銘柄での検証結果は、銘柄数が少ないため、結果にばらつきが生じた。IPO銘柄のみの場合よりも、予測精度の平均値が低かった。


12. 結果(日足の考察)
日足の検証結果のうち、平均値を以下にまとめた。ロジスティック回帰は53%の水準である。登壇者の表情等がIPO時とNew Stage時で異なる可能性がある。


13. 結果(1分足)
・データ:ストックボイスTVから取得した138社分のデータ
・予測:放映中における各1分間の株価変動を予測
クラス0:株価の変動が1pip以内の場合
クラス1:株価の変動が1pipより上昇
クラス2:株価の変動を1pipより下落
ストックボイスTVの放映中に株価の変動がない場合は、次に株価の上昇・下降があった時点の価格や、公募価格を参考にする。
・評価指標:3クラス分類の正答率
14. 検証(1分足)
1分足での検証結果は、LSTMはテストデータの予測精度が非常に悪かった。すべての手法においてOverfittingしているように見える。(学習データとテストデータの値差)
下図はXGBoostの予測結果である。


15. 検証・結果
一分・Xgboost70%の精度AIが予測した値が一番よかった会社が以下の会社である。
証券コード 6195:ホープ 上場日 2016/6/15
放送開始後上がり続けている。(動画を参照)
16. 考察
改善ポイント

  • 発話区間を区切り、意味のあるコンテクストに変更 (ひとまとまりの発話内容が終わった次点の1分足の予測)
  • 映像を解析し、プレゼンのOCR読み取りを行い、内容を解釈することにより価格推定に結び付ける
  • 発話内容を感情ではなく、決算短信や有価証券報告書などで推定する