ReadSpeakerが取り組んでいる新しい技術、音聲合成にできる事をお見せするコーナーです。
歌聲合成とは、テキストではなく、歌詞とメロディー(楽譜など)を入力することで歌聲を合成する技術です。従來の一音一音を繋ぎ合わせる方式では無く、機械學習ベースの新しい方式により、滑らかで自然な歌聲合成を実現しています。
ReadSpeakerの歌聲合成では、楽譜のようなシンプルな入力で高いクオリティの歌聲を合成することができます。
ビブラートやブレスといった歌唱表現なども聲優の特徴を再現しており、これらの特徴も自動で反映されます。
雑音の大きい環境では、人間は自然と聲を張り上げ、聞き取りやすい聲へ変化します。
この現象はロンバード効果と呼ばれています。
ロンバード効果をシミュレートすることで、音聲合成でも聞き取りやすさに効果がでることが確認されています。(※1)
騒音環境下での評価実験でも、通常の音聲合成モデルに比べ、最大1.6倍(※2)の了解度向上が確認されました。
(※1)參考文獻
M. Cooke, C. Mayo, C. Valentini-Botinhao, Y. Stylianou, B. Sauert and Y. Tang,
"Evaluating the intelligibility benefit of speech modifications in known noise conditions," Speech Communication, 55, 572-585, 2013.
C. Valentini-Botinhao, J. Yamagishi, S. King and Y. Stylianou, Combining perceptually-motivated spectral shaping with loudness and duration modification for intelligibility enhancement of HMM-based synthetic speech in noise," Proc. INTERSPEECH, 3567-3571, 2013.
(※2)當社調べ