blog
AIブログ
第9回「AIが音声合成の領域で病院に貢献する日へ」
音声合成とは?
音声合成とは、あるテキストに対して対応する音声を生成する技術のことです。
その歴史は古く、1800年以前から機械によって人間が発声する音と同じ音を生成しようとする試みは行われていました。その頃の機械は人間の声道、唇、舌などの発声に関わる器官を模したものでしたが、その後、計算機の性能の向上により、統計的手法が用いられるようになり、音声合成へのアプローチは大きく変化したといえます。特に、隠れマルコフモデル (hidden Markov model; HMM) を用いたシステムはHMM音声合成と呼ばれ、1990年代合成音声が実用化され始めた頃から広く研究、利用されてきました。
近年、HMMに替えて、ディープニューラルネットワーク(deep neural network; DNN)、すなわち深層学習を用いる手法が活発に研究、利用されるようになり、音声合成の分野も大きな変革期を迎えているといえます。
詳しくはこちらをご覧ください。
病院 音声合成 脳波 バーチャルヒューマン 音声合成
厚生労働省の2017年の資料によれば、日本の雇用者総数は約5800万人であると言われています。産業別にその雇用者数を分類しますと、製造業が約1006万人でトップを走り、それに続くのが卸売業・小売業の約988万人、そして医療福祉の約786万人となります。この3つの分野は日本社会を支える重要な柱ですが、少子高齢化により、慢性的な人手不足に悩まされている現状があります。
私たちの健康を支える病院は特にそうした人手不足課題と先細りの問題が指摘されている組織の一つです。この人手不足は病院経営の問題だけではなく、医療サービスの品質にも直結する大きな問題となります。日本医療労働組合連合会の調査資料によれば、医療事故の原因として報告されている最も高い原因項目は「人手不足による忙しさ」とあります。ひとりの医師や看護師にキャパシティを超える仕事が課せられている結果、医療ミスのリスクが高まる事を意味しています。
厚生労働省の資料にも「病床あたりの看護師数が高い程、患者の安全性が高まる」という統計が示されていますから、病院の人手不足問題はこれから先、必ず解決に向けて歩まねばならない社会課題だと言えます。この気難しい社会課題に対して、限られた作業の効率化と正確性を絶え間なく行えるAIというテクノロジーは大変有効であり、活路となり得ます。
病院においてAIが活躍する領域は、第一にルーティンワークを伴う場所です。一定のルールのもとに特定の反応が要求される医療事務の領域は、特にAIが得意とする動作性を有しています。単純作業とルーティンワークが減少すれば、余剰分の人員や予算を他の場所に回せますので、安定した病院経営と医療サービスの品質維持に貢献をします。
そうした段階を踏まえて、更に病院で活躍するAIが開拓しなければならない領域があります。それが「アート思考」に関する領域です。このアート思考というのは、美学・感性・直観を示す思考状態となります。これはビジネスパーソンのロジカルシンキングの分類に準拠する項目です。
一般的に、ビジネスの世界では「経験と勘に基づくアナログ思考」からステップアップする形で、「事実と論理に基づくデジタル思考」、「仮説と実践を行えるデザイン思考」と駆け上がり、最終的に「スタイルや美意識を創造できるアート思考」に至ります。
AIがそうした創造的な世界に足を踏み込むのは早いのではないかという考えもあるでしょうが、それは開発の方向性次第です。もちろん、人間のアート思考そのものを再現するような汎用性の高いAIを魔法のように作り出す事は出来ませんが、領域を限定すれば、そうしたアート思考を表現できるAIを生み出す事は十分に可能であると弊社は考えます。
病院の現場では、医師や看護師の「声」や「仕草」が、患者にとって非常に重要な意味を持ちます。柔らかな声や仕草によって自然な会話が行われれば、診断や治療も促進される事になるのです。そこで、弊社が焦点を当てているひとつの領域が「音声合成」です。弊社は対話AI「DeepAICopy」に代表されるように、自然な声を自動生成する音声合成の分野に力を入れています。現在は実在する人間の声や容姿、そして仕草を取り込むという深層学習を行っていますが、ゆくゆくは音声を脳波と連携させるアプローチも視野に入れています。音声合成の品質をより高める事で、より自然なコミュニケーションのスタイル確立を目指すのです。
そのようにAIがアート思考の領域の一端を担い、いわば「バーチャルヒューマン」として現場で活躍する事が出来れば、病院は人手不足や医療サービス品質維持の問題を解決するだけではなく、そこに新しい価値を生み出す事が出来るかもしれません。このような医療支援に役立つAIを開発し、実用化に結びつける事は開発側としても大きなメリットがあります。病院は社会インフラとして機能している非常に重要な機関ですので、例外処理やマーケットが限定された業界とは違い、学習コストが掛かっても、ゆくゆくは十分なリターンを受けられる可能性が高いのです。結果として社会改善やSDGs環境の構築にも貢献できれば、エンジニアとしてこれほど嬉しい事はありません。
AIが音声合成の領域で病院に貢献する日に向けて、弊社は続いて開発を続けます。先細りする未来を怖がるのではなく、どうすれば未来を変えられるのかに焦点を当てて、力強く高みを目指します。
クリスタルメソッドの音声合成
音声合成・音声認識エンジン
■TTS(text to speech) 音声合成システム
テキストによっては日本語音声のアクセントがおかしくなってしまうものがある、という問題を改善したものであり、弊社の対話型AI HAL3の朗読機能にも利用されます。
■従来の音声合成エンジンとの違い
従来の音声合成エンジンに使われていたモデルでは、テキストのみを学習させていたのに対し、新しい音声合成エンジンのモデルでは、テキストに加えてアクセントの情報を学習させることにより、合成される日本語音声のアクセントを改善しました。実際にそれぞれのモデルに対して評価実験を行ったところ、新しい音声合成モデルのほうがアクセントへの違和感が少なく、合成音声の質が良いという結果を得ることができました。
■新しい音声合成エンジンによって読み上げはどのように変わるのか
すでに、テキストを読み上げるサービスは数多く存在していますが、事前に人の音声を録音したものを流しているものも多く、現状ではテキストから音声への変換は手間のかかるものとなっています。また、AIによる読み上げはアクセントの不自然なものが多く、AIによって生成された音声は、人の読み上げと全く同レベルのクオリティとは言えないのが現状です。手間をかけずに自然にテキストの読み上げができるようになれば、これまで音声化されていなかったようなテキストについても音声にすることが可能になります。例えば製品マニュアルの場合、今まではテキストのみを配布することが一般的でしたが、読み上げ機能を活用することで動画形式のものも配布することができるようになります。ユーザーは視覚に加えて、聴覚からも情報を得られるようになり、製品に関する情報が読み取りやすくなります。
■合成音サンプル
■音声合成エンジンの評価
ここでは、実際に合成した際のサンプルと評価について記載しました。まだまだ向上していきますので、是非ご活用ください。
朗読テキスト
修行中に、ドイツ北部のメクレンブルクやハンブルク、オランダやフランドルを旅した。
全てキングレコードのファルコムレーベルからの発売。
西側の囚人を収容している捕虜収容所の解放は迅速ではなかった。
メインの肖像でなくとも、その人物と特定できるものはリストに加えた。
部分積分を繰り返し使って同様に計算出来る。
これらの作品は、国の美術コレクションとしては適していたかもしれないが、明らかにアートバンクの事業目的にそぐわないものであった。
原因は設計段階で軸受け容量が不足し過負荷に耐えきれないこと、ベアリングに用いたテーパーコロの角度不良、焼き入れ不良、その他が考えられた。
坊主頭にロゴや模様などの当時としては奇抜な剃り込みがトレードマークであった。
その経済的重要さはこの時代以降の社会を支配する大衆文化に繋がった。
現地の教会でのゴスペルに感銘を受け、自身も作曲・演奏活動を開始。
トルンカの死後、彼を失ったアニメスタジオを閉鎖するべきではないかという意見が政府から上がる。Movie Creatorにより、テキストを人間らしい発音で読み上げる動画を作成することができます。
■Movie Creator
お好みの日本語テキストを入力するだけで、テキストを読み上げするAIの声、テキスト字幕とAIの表情がリンクした動画が自動で生成できるアプリケーションです。AIがテキストの内容から自然なイントネーションを推測して読み上げるめ、一般的な読み上げソフトよりも聞き取りやすい音声が生成できます。さらに、発音に対応した口形や表情も同時に動画として合成するので、視覚的にも聴覚的にもリアルな読み上げが実現します。
また、今後の開発の参考・技術向上のため、皆様からのフィードバックを募集しております。ご利用希望されたい方、又本サービスについてご感想やご要望などぜひこちらにお問い合わせくださいませ。
最後に
よろしければ弊社SNSもご覧ください!
Twitter https://twitter.com/crystal_hal3
Facebook https://www.facebook.com/クリスタルメソッド株式会社-100971778872865/
Study about AI
AIについて学ぶ
-
「Diffusion Transformers (DiTs)」とは。わかりやすく解説
「Diffusion Transformers (DiTs)」とは Diffusion Transformers (DiTs) は、画像生成における新しいアプロ...
-
3D画像での異常検知システム(3DのAI・深層学習)
3DのAI・深層学習 3Dデータとは? 写真等の一般的な2Dデータは、ピクセル(画素)の縦×横の2次元の配列です。では3Dデータはどの様に表現されるのでしょうか...
-
AI問題点を分かりやすく解説!新たな技術の課題とは?
AI(人工知能)は革新的な技術である一方で、さまざまな問題点も浮かび上がってきました。本記事では、AIの問題点についてわかりやすく解説します。 AIの急速な発展...