第10回「豊かな感情を生成・合成する音声AIの世界」

人工知能(Artificial Intelligence)、すなわち「AI」。この革新の技術が取り沙汰されるようになってから、もう半世紀以上の年月が経とうとしています。そう遠くない未来において、AIが私たちの生活・社会・文化を多方面から支える存在、あるいはそれら自体となり得る、そのような世界の到来が見込まれているのです。現代と未来に欠かす事のできない、AIに関する多彩な諸相をお伝えするべく、私たちクリスタルメソッド株式会社が「全20回」に渡ってAI解説記事をお届けしています。第10回は、前回の第9回「豊かな感情を解析するAI」に続く形で、「生成・合成する音声AI」に関するお話を致しましょう。

[Siriは軍事研究から生まれた]

「AIは全知全能のゼウスでもなければ、魔法の杖でも無い。」これは前回でも同じ事を言いましたが、実際の所、全ての願いを叶えてくれる汎用AI(=強いAI)は、まだ先の未来の展望に過ぎないのです。ですが、何か希望めいたものを(あるいは不安めいたものを)、誰しもがAIの未来に感じているに違いありません。AndroidやiPhoneに搭載されている音声アシスタントなどに「30分後にアラーム掛けて」と指示いて、あるいはAmazon EchoやGoogle Homeなどに「今日のニュースは?」と聞いて、相手からの不自然とは言い切れない和やかなAI音声が返って来た時、私たちは紛れもなく、そこに高度で複雑な技術性の実現を感じ取るのです。

「深層学習(Deep Learning:ディープラーニング)」という、人間の脳構造を模倣した「ニューラルネットワーク」が展開されてからというもの、私たちは「AI自らが、学習の積み重ねによって、より高度な判断を行う」という状況をある程度、現実のものとしています。これによって、特化型AI(弱いAI)は医療用画像処理を始め、工業用検査(外観検査・欠品検査、異音判定等)、自動運転やカーナビ、ノイズキャンセルや音声分離、ロボティックス等、製造業や生活のあらゆる側面での応用が行われるようになっています。音声に関するAI技術は、介護、オフィス、医療などの現場でも、幅広い需要が高まっています。

音声生成・合成のAIをいち早く世界に知らしめた、もっとも影響力のある企業のひとつは、パーソナル・アシスタント・ソフトを開発したSiri社(旧ステレス・カンパニー社)となるでしょう。文字通り、私たちの知るiPhone搭載のSiriを開発した企業です。起業前の公式ウェブサイトには、次のような文言が記されていたようです。「私たちはシリコンバレーの次なる大企業を創ろうとしている。私たちの目標は、コンシューマ・インターネットの顔を作り替えること。私たちのポリシーはステルスでいること、次の巨大な仕事の仕上げを秘密に行うためだ。皆さんが考えるよりも早く、大々的にストーリーを明らかにしよう。」

彼らはDARPA(国防高等研究計画局:軍隊使用技術開発および研究を行うアメリカ国防総省管轄の機関)から支援を受ける事となり、軍研究としての「学習して体系づける認知アシスタント」のAI研究に没頭しました。プロジェクト名は「CALO」。ラテン語で「兵士の召使」を意味する「Calonis」に由来する名称だと言います。彼らの仕事は、想定していたよりも遅々とした小規模な仕上げになってしまったようですが、「Do Enginge」と呼ばれる高機能AIを確立しました。このエンジンは、計算を行う事、簡単な会話を行う事、航空機のフライト情報を調べる事、メモを取る事といった、「Do」をサポートすることが出来たのです。

彼らは更なる開発の為に、投資資金2500万ドルを必要としました。そこで、このDo Engineの一部を切り離した「Siri」を、2008年、アップル社に買収して貰う事となりました。当時、アップル社はこの「Siri」を、およそ2億ドルで買収しています。その後、アップル社はより「人間的な対話を促すAI」を実現するべく、音声生成・合成の技術性を高めます。そして、2011年、遂に私たちは「iPhone 4S」を通じて、そのSiriの自然な語り口調や数々の利便性に度肝を抜かされたのです。

[豊かな感情を生成・合成する音声AI]

前回、私たちクリスタルメソッド株式会社が主力開発を行っている「HAL3(ハルさん)」に、「豊かな感情を解析する音感情認識機能」というAIが搭載されている事を既に述べたかと思います。こちらの機能は、ユーザーの皆さんの声のトーンや言葉の特徴を適切に解析し、皆様の感情(喜怒哀楽)を分類・表示するものとなっています。同じ「アホ」という発言でも、喜怒哀楽によって、その言葉の真意が異なります。このAIは、そうした真意を読み取る潜在力があるのです。

また、こちらの音感情認識機能は、そのまま音声として生成・合成する際にも応用できるものです。例えば、AIが人間相手に「ちょっと待って」と伝える場合でも、状況や人間関係によって、その音声を大きく変化させねばなりません。警備巡回をするAIが不審人物を呼び止める場合は「ちょっと待って!(怒)」、相手から何か喜ばしい成果を報告された場合は「ちょっと待って、(喜)」、激しいクレームを受けて相手の話を理解できない場合は「ちょっと待って…(哀)」、自分が別処理をしている際に相手に配慮する場合は「ちょっと待って(楽)」、こういった具合です。

人間がそうした自然に行える対話性を、AIとして再現する。このような応用が、ビジネス・医療・行政などの幅広い業界から求められています。AIが感情的に話す事に違和感を覚える方もいらっしゃるかもしれませんが、私たちが感情的な生き物である以上、感情的な音声の出力は、今後の未来社会において必要不可欠な要素になるものと、弊社は考えています。

[第1回 AI・人工知能 EXPO【秋】]

「革新」が「日常」に広がる世界。私たちは今、まさにAI技術との付き合い方を考え、来に向けて力強く歩む段階にあります。此度、2020年10月28日(水)~30日(金)、「第1回 AI・人工知能 EXPO【秋】」が幕張メッセにて開催されます。AIに関するあらゆるサービスが出展しており、最新のAIサービスを導入・比較検討することができる日本最大のAIの専門展となっております。私たちクリスタルメソッド株式会社も、その分野の一翼を担う活動者として、同イベントへの参画を行わせて頂いております。AIでの課題解決にご興味のある方は、ぜひとも積極的にご参加を下さいませ!
--------------------------------------------------
■「第1回 AI・人工知能 EXPO【秋】」
公式サイト:https://www.ai-expo-at.jp/
会期:2020年10月28日(水)~30日(金)10:00~18:00 ※最終日のみ17:00終了
会場:幕張メッセ(事前登録によりオンラインでも来場、商談可能)
主催:リード エグジビション ジャパン株式会社
参加料金:事前登録にて無料
後援団体:
一般社団法人 人工知能学会
一般社団法人 日本ディープラーニング協会
同時開催:
第1回 ブロックチェーン EXPO【秋】
第1回 量子コンピューティング EXPO【秋】

■弊社概要
会社名:クリスタルメソッド株式会社
公式サイト:https://crystal-method.com/
住所:〒102-0073 東京都千代田区九段 4 丁目 1-14 TL ビル 5F
代表者:代表取締役 河合 継
研究者:20 名以上
主な取引先:大手自動車メーカー、金融システム構築
展望:対話 AI「HAL」に向けた「意識」の導入
--------------------------------------------------