音声合成技術やプログラミングのスレ - 1260399772

1：名無しさん@frqファイル作成中：2009/12/10(木) 08:02:52 ID:bfXNtwyU0: 音声合成周りって難しいよな…
11：名無しさん@frqファイル作成中：2009/12/29(火) 01:36:49 ID:sC230Na20: 波形の頂点の位置と値だけ記録して行けばFFTとか難しいことせずに
周波数変化くらいは判るかなと思ったけど、これはこれで難しいんだな。

デフォ子が意外と強敵。妙に振れ幅=音量が揺れてるんだ。
12：名無しさん@frqファイル作成中：2009/12/29(火) 08:05:05 ID:JhdX5iWs0: http://ackiesound.ifdef.jp/tech/timestretch.html
ここが参考になるかもね
13：名無しさん@frqファイル作成中：2009/12/29(火) 08:25:20 ID:sC230Na20: 確かに面白いな。thx
ただ実際はもっと複雑な処理が要るかも。
デフォ子の「あ」がこんな感じで、1波形中にゼロクロスが何度も起きてたりするんだよなあ。

　.　　|　　　　　　 .　　|
　　　|　　　./i　/i　　　|
　　.　|　　　| | .| | ./| 　|
＿＿__|＿＿__|_|_.|_|_.!_|__,!＿＿＿
　　.　|　 ./|　| .V .V　.| .|
　　　|　.| .| .|　　　　V
　　　|　.|　V
　　. 　!　!
　　　 V
14：名無しさん@frqファイル作成中：2009/12/29(火) 19:22:06 ID:sC230Na20: つーか試しにゼロクロスの起きない部分で値を変化させたwavを作ってみたけど
それでも音は鳴ったし、理論上はそれもありえなくないんだろか。

相対的に突出した点を拾って記録して行くしかないのかな。
デフォ子の「あ」だと1周期に付き、上下各5個ずつの点を拾うことになる。
そのうちどれが基音の点か。
音量一定なら突出度の高いやつ選べばいいんだろうけど
音量が下がっていく過程だと、今回の波で1番突出した点が
前回の波で2番目に突出した点より低い位置になることもあるわけだ。
15：名無しさん@frqファイル作成中：2010/01/01(金) 18:42:01 ID:6zDCgXGM0: ttp://u9.getuploader.com/utaou/download/170/WAV2FRQ.ZIP

とりあえず自前でwavの波形表示だけ作った。バージョンupしたら消して次を上げる予定。
何かaudacityやsound engine freeで表示したのと波形が違うのは気のせいか。

次は突出点を検出して、波形の該当位置に赤丸でも付けていくかなあ。
揺れがあると突出点の検出だけでも結構大変。
それから突出点のどれが基音かを見分けて…

…あ、今気付いたけどLISTチャンク含んだwav読むとたぶん落ちる。
16：名無しさん@frqファイル作成中：2010/01/01(金) 18:45:53 ID:6zDCgXGM0: あれ？LISTチャンク中にdataチャンクが入ってることもあるのかな？

LISTは全部飛ばしてdataが出てくるまで読んでるから、
これもファイル末尾飛び越えて不正終了だな…。
17：名無しさん@frqファイル作成中：2010/01/02(土) 09:19:34 ID:qv2PEl8k0: 波形上下逆に表示してたｗ
18：名無しさん@frqファイル作成中：2010/01/02(土) 10:09:41 ID:qv2PEl8k0: ttp://u9.getuploader.com/utaou/download/171/WAV2FRQ.ZIP

LISTチャンクの次にdataチャンク対応。「LISTチャンクの中に」は無理(そんなwavあるのかは不明)。
波形の上下逆を直す。
ショートカットにwavをドロップしても読めるように。
16bitならサンプリングレートに関わらず読むように。

…本題は全然進んでない罠。
19：名無しさん@frqファイル作成中：2010/01/13(水) 09:01:43 ID:u0a6KRbg0: 公式の新版でresamplerのDLL化でプロセス起動ラグ消して高速化されたな。
20：名無しさん@frqファイル作成中：2010/01/13(水) 19:47:05 ID:k8g67Crg0: あー黒画面が速くなったと思ったのはそのせいか
たいぶ作業が楽になった
21：名無しさん@frqファイル作成中：2010/01/25(月) 19:21:49 ID:nrHD16.20: ttp://ackiesound.ifdef.jp/soko.html

WaveToneの作者の新作VocalShifter
まだ開発初期でピッチシフト能力はUTAUのresamplerにかなり及ばない感じだけど
実績ある人だから期待してみる。
22：名無しさん@frqファイル作成中：2010/01/25(月) 21:02:06 ID:dsA1NvqM0: >>21
あくまでもピッチ編集だけだからUTAUとは方向性が違う気がするけど、これはすごいな。
解析速度も速いから単純にピッチ解析ソフトとしても使える。
23：名無しさん@frqファイル作成中：2010/01/26(火) 18:46:35 ID:G76wkcco0: 出力の44.1KHzのwavの場合、音符毎のサンプル数は(音長/テンポ) * 5512.5 になる。
音長は4分音符=480。
で、これが整数で割り切れん場合が出るんだが、このズレ修正って意外と面倒だよな。
24：名無しさん@frqファイル作成中：2010/01/27(水) 07:48:04 ID:Tm7no/ok0: …あ、よく考えたら「先頭からの合計音長」の位置から出力すればいいだけだな。
これなら誤差が累積せず音符1個に付き最大1/44100秒弱のズレで収まる。
つーか四捨五入すりゃさらに半分。
25：名無しさん@frqファイル作成中：2010/03/18(木) 18:04:59 ID:3S2GJhZw0: そう言やピッチとフォルマントの周波数が被る場合ってどう分解するんだろ…？
26：名無しさん@frqファイル作成中：2010/03/25(木) 12:20:34 ID:g.EPjwWE0: もしかして、ピッチの各波形は同じでないまでも似た形のはずだから、
前後10波形分の平均と各波形のズレからフォルマントの波形を推測する…
とか出来るのかな？
27：名無しさん@frqファイル作成中：2010/04/10(土) 09:35:03 ID:Y4SVjkuQ0: 「うたりす」の自動採譜期待したけど、
今の精度だとWaveToneで音符置いていったほうが早いな。
今後に期待。
ttp://www.nicovideo.jp/watch/sm10270301
28：名無しさん@frqファイル作成中：2010/04/10(土) 14:47:13 ID:9U0TsiV20: >>27
周波数トレーサーやうたりすは「周波数」を拾って「調声」する為のものだから、
「音階」単位で拾って「耳コピ」する為のWaveToneとはちょっと違う。
29：名無しさん@frqファイル作成中：2010/04/10(土) 15:02:18 ID:Y4SVjkuQ0: いや動画の終わりのほう見りゃ判るけど「採譜」機能もあるんだよ。
音階を解析周波数に一番近いとこに動かしてるだけではあるけど。

WaveToneにも自動採譜あるけどやっぱり実用には辛い。
30：名無しさん@frqファイル作成中：2010/04/25(日) 08:55:25 ID:ixgkLloU0: fresamp 音質はともかく遅くなったのは辛いな…。
31：名無しさん@frqファイル作成中：2010/04/25(日) 12:18:28 ID:ixgkLloU0: まあ.frq作成は速くなったんだけど。
32：名無しさん@frqファイル作成中：2010/04/28(水) 19:34:37 ID:4WZbWe6A0: HANASUをやってみようとしてもはや目的がすり変わっていた
ttp://www.nicovideo.jp/watch/sm10535987

飴屋氏暴走中ｗ
33：名無しさん@frqファイル作成中：2010/06/09(水) 20:46:56 ID:FamY4w1o0: ピッチとフォルマントを分解→ピッチだけをアップ/ダウン→再合成
…だと思ってたけど、この図から見ると…

ttp://twitpaint.com/njn648

ピッチもフォルマントもまとめて周波数変えて、
その後にフォルマントだけずらして直してるぽい。
具体的にどういう処理なのかは想像付かん。
34：名無しさん@frqファイル作成中：2010/06/13(日) 19:05:41 ID:wvoy0lSg0: そのままピッチを変更すれば必然的にフォルマントもずれる。
そのずれたフォルマントをそれを元に戻すということ。
35：名無しさん@frqファイル作成中：2010/06/13(日) 19:56:37 ID:yU5phdH60: それだと「フォルマントだけ」戻すためには、フォルマントとそれ以外に分解する必要があるよな。

結局、最初から分解しておくのに比べて二度手間な気がするんだが
何か効率的な方法でもあるんだろか。
36：名無しさん@frqファイル作成中：2010/06/14(月) 23:25:48 ID:LRvjuoOQ0: >フォルマントとそれ以外に分解する必要があるよな。
ないよ。
必要なのは初めにフォルマントを「抽出」しておくこと。
37：名無しさん@frqファイル作成中：2010/06/20(日) 10:01:56 ID:c83ufh.I0: うたりすシリーズ

【実験】鼻歌採譜プラグイン作ってみた【UTAU】
ttp://www.nicovideo.jp/watch/sm11120832
38：名無しさん@frqファイル作成中：2010/07/30(金) 04:30:35 ID:VvHLwFaQ0: resamplerとか、UTAUのDLLって仕様公開されてないよね？
公開されればいろいろ使えそうだけど
39：名無しさん@frqファイル作成中：2010/07/30(金) 06:49:26 ID:m1cheLSI0: resamplerは飴屋氏ブログで解説あるよ。
ttp://utau2008.blog47.fc2.com/blog-entry-7.html
40：名無しさん@frqファイル作成中：2010/07/30(金) 21:48:58 ID:VvHLwFaQ0: >>39
あいや、exeじゃなくてdllの方は公開されないのかなーと。
41：名無しさん@frqファイル作成中：2010/07/31(土) 10:33:03 ID:3biArLUw0: 3/7の飴屋PのTwitterでの発言によると

【export】int _stdcall exec(char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,int(_stdcall *)(char*,int));
exec(infile,outfile,tone,vel,flg,offset,reqlen,fixed,blank,vol,mod,tempo,pitch,callback)//callbackは0でも良い。他のchar*は無い場合""へのポインタを渡しておいた方が無難。
callbackの引数はchar*,intだが、現状第一引数も数字が渡る。
42：名無しさん@frqファイル作成中：2010/09/01(水) 13:05:11 ID:K6hUcreY0: 飴屋氏の音色付加ツール、
UTAU歌唱と中の人歌唱の差分取れば「表情成分」だけ抜き出せるのかな…？
43：名無しさん@frqファイル作成中：2010/09/01(水) 23:05:02 ID:aONW94M.0: 差分っつってもなあ
少なくとも、WAVの波形での引き算、でないことは確かだろうし
フーリエで横軸を周波数にした状態での引き算、でもないんじゃないかな
44：名無しさん@frqファイル作成中：2010/09/23(木) 20:01:47 ID:lKAaj.aI0: これは知らなんだ。105万で中の人になれるってさ。
『歌声合成用MIDI編集ツール　ワンダーホルンStudio』
http://www.utabara.com/product/spec.html
45：名無しさん@frqファイル作成中：2010/10/15(金) 01:56:53 ID:Rp6fiIQs0: 某スレの
音波増幅方式とか
音性抽出方式とか
音性抽出分解周波数結合方式

検索しても全然学術書っぽいの見つからないけどホントにあるのだろうか

音声合成の全理論と実践
で検索したらそれっぽい物はあったがあってるのか分らん。
46：名無しさん@frqファイル作成中：2010/10/15(金) 07:30:28 ID:mxMgDIEY0: よく判らんが、m4エンジンは分解再合成系らしい。
ttp://twitter.com/ameyaP_/status/25181756522
47：名無しさん@frqファイル作成中：2010/10/15(金) 10:16:48 ID:qw0ul0AQ0: 民明書房をご存じないのであれば戸惑うのも仕方ないかと
48：名無しさん@frqファイル作成中：2010/10/15(金) 12:12:50 ID:/UDDxZTk0: >>45
あそこの694を皮肉ったネタだよ。

もしかしたら694もネタなんだろうか。ホンモノさんにしか見えないが。
49：名無しさん@frqファイル作成中：2010/10/15(金) 16:39:39 ID:/UDDxZTk0: 考えてみればこういうボカシ方も人によっては伝わらないのか。

ホンモノさん＝ホンモノのおばかさんね。
50：名無しさん@frqファイル作成中：2010/10/15(金) 17:32:11 ID:mxMgDIEY0: とりあえず元URL貼っとくけどいい加減スレ違いだ。

【UTAU・AquesTone】歌唱合成ソフト6 【SugarCape】
ttp://hibari.2ch.net/test/read.cgi/streaming/1277024638/694-

ほんと規制で書き込めないのが腹立つ。
51：名無しさん@frqファイル作成中：2010/10/15(金) 17:57:54 ID:mxMgDIEY0: 飴屋氏のtwitterから。

男声の音声合成の違和感：波形を見れば判ると思うけど根本的問題として『短時間FFT』とか『短時間のフォルマント包絡』の『短時間』が人間に認識できるくらいの長さになってしまうからかな？
9:49 AM Oct 14th Tweenから
ああそうか。言い方を変えよう。音程が低くなると、周波数領域での分解能は上がるが時間領域での分解能が下がるから、結局アラというか音声合成技術的な『ごまかし』が露呈しやすいとか。
9:54 AM Oct 14th Tweenから
だから、TD-PSOLAみたいな波形に着目した手法だと逆に男声の方が強いような気がします。研究したことは無いので確証はありませんが。
9:59 AM Oct 14th Tweenから

男声が迫力に欠けるからってg上げすると却ってぼそぼそ声になって逆効果だったことはあるけどこの辺か。
52：名無しさん@frqファイル作成中：2010/10/15(金) 21:58:41 ID:AyXo41Q.0: ｇ以前に、合成元の音程が低いのが問題ってことじゃ？
53：名無しさん@frqファイル作成中：2010/11/17(水) 22:18:46 ID:qWxJgUvY0: 個人的には・・・

合成元の音程が低い物は高く、高い物は低く作ると
ウホッ
となることが多い

うろ覚えだが例：
　　　タヤ　ＦｒｅｑＡＶＧ F3→A4
テト　　〃　Ａ４→Ｆ３
　　　ＬＯＫＥ　〃Ａ２→Ｄ３
54：名無しさん@frqファイル作成中：2010/12/15(水) 00:13:04 ID:A49GbqIE0: dspdimensionのDIRAC3LEってどうなの？
55：名無しさん@frqファイル作成中：2011/01/05(水) 00:56:16 ID:2cxNiJ4w0: フリーソフト（Audacity以外）でノイズリダクション機能のあるのってどれがいいかなあ。音源のノイズを取るのに。
シェアウェアだと、手頃な値段のはこれとかなんだろうか？『wavclean』
ttp://www.vector.co.jp/soft/winnt/art/se460024.html
56：名無しさん@frqファイル作成中：2011/01/05(水) 20:37:45 ID:MWPESs..0: フリーのVSTプラグインならReaPlugsのReaFIRってのもある。
ttp://www.reaper.fm/reaplugs/index.php
57：名無しさん@frqファイル作成中：2011/01/06(木) 22:09:34 ID:P8Nai2Y20: なるほど、ありがとうございました。
58：名無しさん@frqファイル作成中：2011/01/12(水) 22:27:28 ID:TzmtPpyk0: 一応参考に

UTAUの現状について
http://togetter.com/li/85567

森勢将雅助教のつぶやき中心
59：名無しさん@frqファイル作成中：2011/01/12(水) 22:29:01 ID:TzmtPpyk0: あと、deja音色氏のサンプル収録考察は参考に出来ると思う
60：名無しさん@frqファイル作成中：2011/01/14(金) 20:49:33 ID:HEPEbOnM0: 飴屋さんがついったで公開したWorld比較のページ
下の方に音の振幅比較画像があるけど、よく見ないと分からないものなんだな