マルチモーダルでどのようなことが可能になったのか

シングルモーダルにおいてAIは1つの情報のみでしか判別できません。
しかし、人間が五感で情報を処理して判断するように、マルチモーダルを学習することでAIも視覚情報、嗅覚情報、触覚情報、聴覚情報など、様々な情報を複合的に判断することで精度を上げました。
ここではマルチモーダルが可能にしたことをご紹介します。
活用事例1.行動認識技術による防犯対策、トラブル発生の防止
行動認識技術とは、マルチモーダルによって人の数だけでなく、人間の骨格までも検知してどの人がどんな行動をしているのかまでも認識する技術のことです。
主に監視カメラの防犯対策技術に導入されており、画像情報/音声情報/行動情報を総合して判断を行います。
例えば男性2人が向かい合って何かを話し合っていると場合、
画像情報のみだと会話と言い合いの区別がつかず、行動情報のみ、例えば映像から肩を叩く動作を認識してもふざけてるのか暴力行為なのか判断できず、音声情報のみでは詳細な状況を理解することが難しいです。
様々な情報をマルチモーダルで考えることによりAIが正確に物事を判断し、いち早く危険を察知して知らせることでトラブルを最小限に食い止められます。
活用事例2.生産工場などでの異変検知
マルチモーダルは人間でいう五感だけでなく、振動や異音、温度などにも応用することができます。
通常では起こりえない振動をAIセンサーが感知するように学習させたり、正常な温度を学習させることで、異常な数値を検知した際に警報や管理人に知らせることが可能です。
これらは生産工場などに導入されています。
・画像認識技術を使って正しい規格か、異常な物体が混じっていないかの検品作業
・音声認識技術を使って機械が摩耗していないか、故障していないかの確認
メンテナンス時に異音や変な振動がないかのチェックなど、幅広く活用できます。
これらは消費者に守るだけでなく、生産工場の商品の質を守るため、また安全を保証するためにも重要な役割を担っています。
活用事例3.コロナウイルス対策
世界中で猛威を振るっているコロナウイルス。
その感染力の高さから外出を控えるように言われていますが、出社しなければならない場合や買い物などやむを得ない場合は少なからずあります。
その場合もマルチモーダルが活用されています。
特にお店や飲食店などは消毒を積極的におこなっているところも多いですが、人間の目だけでは完全に消毒できているのか判断が難しい場合があります。
そこでマルチモーダルを使います。マルチモーダルは映像に映っている物体や人間の動きを認識できますので、人間の行動情報から消毒し忘れている場所を示したり、Co2の量を検知して空気の入れ替えのタイミングを伝えることができます。
また、従業員の体温や表情の変化を検知して、いち早く体調不良に気付くことで、ウイルスの繁殖や感染拡大を防ぐことができます。
活用事例1のように、今は屋外でマスクを外して大声で会話する行為が嫌われていますので、そういった行為をおこなっている人がいれば早急に発見、対応することができます。
活用事例4.自動運転
近年、車の自動運転の研究が盛んですが、これらにもマルチモーダルが活用されています。
人間は運転する際に五感で様々な情報を読み取り瞬時に判断しています。
前方の信号だけでなく急な人の飛び出しやその場の交通状況に応じた走りを要求されるため、カメラセンサーによるアシスト技術が存在していた当時でも、AIによる運転の自動化は難しいと思われてきました。
しかし、マルチモーダルが使われるようになってからは、物体認識だけでなくクラクションや踏切などの音、歩行者が幼児や高齢者などの詳細な区別、総合的な判断が可能になりました。
これにより、白線や障害物、前方との車間距離などの情報を認識した自動運転が実験的におこなわれており、近い将来には完全な自動運転技術が確立されるといわれています。
また、運転手と会話するAIも開発されており、カーナビゲーションを声で操作可能にすることで、余所見をして前方から視線を外すことがなくなったり、AIが運転手に音声で様々な交通情報を与えてくれます。
他にもAIセンサーが運転手の視線や挙動から眠気を感知したり、苛立ちを感知して事前に休息を提案するなど、事故や危険を未然に防ぐようなシステムが開発されています。
これらもマルチモーダルの開発による恩恵が大きいものになります。