マルチモーダルの歴史
マルチモーダルを語るうえでAIのディープラーニング(深層学習)は切っても切り離せません。
まずはディープラーニングについて軽く解説します。
ディープラーニングとは
従来、それまで20世紀までのコンピュータのスペックは低く処理速度や処理能力に限界がありました。
その問題を解決しようと発案されたのがディープラーニングです。
ディープラーニングとは、機械学習から発展したもので、人間が得た情報や課題を処理する過程をコンピューターにも学習させ、再現する方法のひとつです。
元々コンピューターは与えられた作業しかできませんでしたが、AIを搭載することにより、「与えられたデータから何らかの規則や共通点を見つけ学習し、分析する」ことが可能になりました。
これが機械学習です。
その機械学習の手法であるニューラルネットワークという分析手法を拡張して高精度の分析や応用が可能になったのがディープラーニングです。
参考にした人間の神経細胞(ニューロン)の仕組みを使い、ニューラルネットワークを何百層にも重ねることで、一度に大量のデータの特徴や共通点を分析・学習することが可能になりました。
これによりAIの知能は飛躍的に上昇し、解析する速度や精度も向上したのです。
次の段階は、人間が与えたデータをより正確に見分けることです。
これまでは
・1つの画像から人とそれ以外とを見分ける
・たくさんの郵便物の中から東京とそれ以外とを分ける
といったシンプルな課題しか処理できませんでした。
私たちは生活しているうえでたくさんの情報や刺激が常に入ってきます。
目(視覚)からは人の顔や風景、文字や色など
耳(聴覚)からは人の声や怒鳴り声、車の音や風の音など といった具合です。
しかし、従来ではそれぞれを単独でしか認識できず、表面的な情報しか抽出できませんでした。
時が経つにつれてディープラーニングで多くの情報を吸収したAIはより細かな認識が可能になりました。
①画像認識の例
◆従来・・・バーとスペースの組み合わせによりできたバーコードから数字や文字を読み取る。画像検出のためのテンプレートマッチング方式の利用
◆ディープラーニング後・・・動物などの人以外の認識が可能になり、高精度で認識ができる
②音声認識の例
◆従来・・・単語認識と、特定話者対応により事前学習が必要な文章認識タイプの音声認識
◆ディープラーニング後・・・音から雑音と人の声とを区別し、声の特徴や抑揚から感情を認識したり、音声データをテキストに変換することができる
③テキストマイニングの例
◆従来・・・数値化やコード化されたデータに対してのマイニング。
◆ディープラーニング後・・・大量のテキストデータから必要な情報をすばやく取り出す。
このように、従来とディープラーニング後を比較してみるだけでも各段に精度が向上したことがお分かりいただけるでしょうか?
これらはほんの一例に過ぎず、今もなおディープラーニングにより学習し、精度を上げています。
ですが、あくまで画像という視覚データを単独でしか解析できません。
これが従来のシングルモーダルの特徴であり、欠点です。
“こちらが与えたデータを画像や音、内容などから総合的に判断する”のがマルチモーダルになります。
例として、AIにリンゴの画像を見せた際に、AIはあくまで画像のピクセル情報や輪郭、形状からリンゴと判断しています。
しかし、人間は赤ちゃんのときからリンゴを認識できます。
人間と比較してみると、人間はただ画像を見たり音声を聞いているのではなく、色や口の動きも見ながら聴覚・視覚など複数の情報を加味して意味を理解していることがわかりました。
また、実際のリンゴに触れた際に、手で触れたり匂いを嗅いだり、実際に食べて味を感じ、脳が五感でリンゴのことを記憶します。
ですので、リンゴの画像だけでなく、絵や記号のリンゴでも人間は「これはリンゴだ」と認識できるのです。
このことを参考にし、画像や音声だけというシングルモーダルの情報だけでは精度が不十分だったものも、複数の情報を加えて総合的に判断することで精度を上げることが可能になりました。
シングルモーダルよりもマルチモーダルのほうが総合的に判断するため、より精度は上がりますが、処理する内容が多くなるために高いコンピュータのスペックが要求されます。
また、動画のように、動きや音などたくさんの情報は含まれているものはマルチモーダルが適していますが、画像解析や2次元の分析においてはシングルモーダルでも問題ない場合もあるため、いかに上手く使い分けるが重要といえます。
2013年には、コンピューターに任意のテキストを入力すると、入力されたテキストの意味を理解して楽しそうな感情や怒りの感情を込めて読み上げることが可能になりました。
これは文字を認識するシングルモーダルと、ディープラーニングによって言葉に含まれる意味を理解し、その言葉に応じた感情を選択して読み上げるという複雑な工程をこなすことが可能になったという証拠です。
皆さんも、ユーザーが入力した質問の内容を理解し、自動で返信内容を作成し読み上げて回答するようチャットボットのサービスを利用したことがあるでしょう。これらもマルチモーダルを使ったAIのサービスになります。
マルチモーダルによって精度が高くなっただけでなく、様々な用途に使用可能になり、AIの可能性が一気に広がったのです。