男声の音声合成の違和感:波形を見れば判ると思うけど根本的問題として『短時間FFT』とか『短時間のフォルマント包絡』の『短時間』が人間に認識できるくらいの長さになってしまうからかな?
9:49 AM Oct 14th Tweenから
ああそうか。言い方を変えよう。音程が低くなると、周波数領域での分解能は上がるが時間領域での分解能が下がるから、結局アラというか音声合成技術的な『ごまかし』が露呈しやすいとか。
9:54 AM Oct 14th Tweenから
だから、TD-PSOLAみたいな波形に着目した手法だと逆に男声の方が強いような気がします。研究したことは無いので確証はありませんが。
9:59 AM Oct 14th Tweenから