■TTS(text to speech) 音声合成システム

テキストによっては日本語音声のアクセントがおかしくなってしまうものがある、という問題を改善したものであり、弊社の対話型AI HAL3の朗読機能にも利用されます。

■従来の音声合成エンジンとの違い

従来の音声合成エンジンに使われていたモデルでは、テキストのみを学習させていたのに対し、新しい音声合成エンジンのモデルでは、テキストに加えてアクセントの情報を学習させることにより、合成される日本語音声のアクセントを改善しました。実際にそれぞれのモデルに対して評価実験を行ったところ、新しい音声合成モデルのほうがアクセントへの違和感が少なく、合成音声の質が良いという結果を得ることができました。

■新しい音声合成エンジンによって読み上げはどのように変わるのか

すでに、テキストを読み上げるサービスは数多く存在していますが、事前に人の音声を録音したものを流しているものも多く、現状ではテキストから音声への変換は手間のかかるものとなっています。また、AIによる読み上げはアクセントの不自然なものが多く、AIによって生成された音声は、人の読み上げと全く同レベルのクオリティとは言えないのが現状です。手間をかけずに自然にテキストの読み上げができるようになれば、これまで音声化されていなかったようなテキストについても音声にすることが可能になります。例えば製品マニュアルの場合、今まではテキストのみを配布することが一般的でしたが、読み上げ機能を活用することで動画形式のものも配布することができるようになります。ユーザーは視覚に加えて、聴覚からも情報を得られるようになり、製品に関する情報が読み取りやすくなります。

■合成音サンプル

■音声合成エンジンの評価

ここでは、実際に合成した際のサンプルと評価について記載しました。まだまだ向上していきますので、是非ご活用ください。

朗読テキスト

修行中に、ドイツ北部のメクレンブルクやハンブルク、オランダやフランドルを旅した。
全てキングレコードのファルコムレーベルからの発売。
西側の囚人を収容している捕虜収容所の解放は迅速ではなかった。
メインの肖像でなくとも、その人物と特定できるものはリストに加えた。
部分積分を繰り返し使って同様に計算出来る。

これらの作品は、国の美術コレクションとしては適していたかもしれないが、明らかにアートバンクの事業目的にそぐわないものであった。
原因は設計段階で軸受け容量が不足し過負荷に耐えきれないこと、ベアリングに用いたテーパーコロの角度不良、焼き入れ不良、その他が考えられた。
坊主頭にロゴや模様などの当時としては奇抜な剃り込みがトレードマークであった。
その経済的重要さはこの時代以降の社会を支配する大衆文化に繋がった。
現地の教会でのゴスペルに感銘を受け、自身も作曲・演奏活動を開始。
トルンカの死後、彼を失ったアニメスタジオを閉鎖するべきではないかという意見が政府から上がる。

Movie Creatorにより、テキストを人間らしい発音で読み上げる動画を作成することができます。

■Movie Creator

お好みの日本語テキストを入力するだけで、テキストを読み上げするAIの声、テキスト字幕とAIの表情がリンクした動画が自動で生成できるアプリケーションです。AIがテキストの内容から自然なイントネーションを推測して読み上げるめ、一般的な読み上げソフトよりも聞き取りやすい音声が生成できます。さらに、発音に対応した口形や表情も同時に動画として合成するので、視覚的にも聴覚的にもリアルな読み上げが実現します。


また、今後の開発の参考・技術向上のため、皆様からのフィードバックを募集しております。ご利用希望されたい方、又本サービスについてご感想やご要望などぜひこちらにお問い合わせくださいませ。

クリスタルメソッド 株式会社

〒102-0073
東京都千代田区九段北4丁目1-14 TLビル5F

都営新宿線「市ケ谷駅」より徒歩3分
東京メトロ有楽町線・南北線
JR 総武線「市ケ谷駅」より徒歩5分