したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | |

音声合成技術やプログラミングのスレ

1名無しさん@frqファイル作成中:2009/12/10(木) 08:02:52 ID:bfXNtwyU0
音声合成周りって難しいよな…

11名無しさん@frqファイル作成中:2009/12/29(火) 01:36:49 ID:sC230Na20
波形の頂点の位置と値だけ記録して行けばFFTとか難しいことせずに
周波数変化くらいは判るかなと思ったけど、これはこれで難しいんだな。

デフォ子が意外と強敵。妙に振れ幅=音量が揺れてるんだ。

12名無しさん@frqファイル作成中:2009/12/29(火) 08:05:05 ID:JhdX5iWs0
http://ackiesound.ifdef.jp/tech/timestretch.html
ここが参考になるかもね

13名無しさん@frqファイル作成中:2009/12/29(火) 08:25:20 ID:sC230Na20
確かに面白いな。thx
ただ実際はもっと複雑な処理が要るかも。
デフォ子の「あ」がこんな感じで、1波形中にゼロクロスが何度も起きてたりするんだよなあ。


 .  |            .  |
    |     ./i /i    |
   . |     | | .| | ./|  |
____|____|_|_.|_|_.!_|__,!___
   . |  ./| | .V .V .| .|
     | .| .| .|      V
     | .| V
   .  ! !
      V

14名無しさん@frqファイル作成中:2009/12/29(火) 19:22:06 ID:sC230Na20
つーか試しにゼロクロスの起きない部分で値を変化させたwavを作ってみたけど
それでも音は鳴ったし、理論上はそれもありえなくないんだろか。

相対的に突出した点を拾って記録して行くしかないのかな。
デフォ子の「あ」だと1周期に付き、上下各5個ずつの点を拾うことになる。
そのうちどれが基音の点か。
音量一定なら突出度の高いやつ選べばいいんだろうけど
音量が下がっていく過程だと、今回の波で1番突出した点が
前回の波で2番目に突出した点より低い位置になることもあるわけだ。

15名無しさん@frqファイル作成中:2010/01/01(金) 18:42:01 ID:6zDCgXGM0
ttp://u9.getuploader.com/utaou/download/170/WAV2FRQ.ZIP

とりあえず自前でwavの波形表示だけ作った。バージョンupしたら消して次を上げる予定。
何かaudacityやsound engine freeで表示したのと波形が違うのは気のせいか。

次は突出点を検出して、波形の該当位置に赤丸でも付けていくかなあ。
揺れがあると突出点の検出だけでも結構大変。
それから突出点のどれが基音かを見分けて…


…あ、今気付いたけどLISTチャンク含んだwav読むとたぶん落ちる。

16名無しさん@frqファイル作成中:2010/01/01(金) 18:45:53 ID:6zDCgXGM0
あれ?LISTチャンク中にdataチャンクが入ってることもあるのかな?

LISTは全部飛ばしてdataが出てくるまで読んでるから、
これもファイル末尾飛び越えて不正終了だな…。

17名無しさん@frqファイル作成中:2010/01/02(土) 09:19:34 ID:qv2PEl8k0
波形上下逆に表示してたw

18名無しさん@frqファイル作成中:2010/01/02(土) 10:09:41 ID:qv2PEl8k0
ttp://u9.getuploader.com/utaou/download/171/WAV2FRQ.ZIP

LISTチャンクの次にdataチャンク対応。「LISTチャンクの中に」は無理(そんなwavあるのかは不明)。
波形の上下逆を直す。
ショートカットにwavをドロップしても読めるように。
16bitならサンプリングレートに関わらず読むように。

…本題は全然進んでない罠。

19名無しさん@frqファイル作成中:2010/01/13(水) 09:01:43 ID:u0a6KRbg0
公式の新版でresamplerのDLL化でプロセス起動ラグ消して高速化されたな。

20名無しさん@frqファイル作成中:2010/01/13(水) 19:47:05 ID:k8g67Crg0
あー黒画面が速くなったと思ったのはそのせいか
たいぶ作業が楽になった

21名無しさん@frqファイル作成中:2010/01/25(月) 19:21:49 ID:nrHD16.20
ttp://ackiesound.ifdef.jp/soko.html

WaveToneの作者の新作VocalShifter
まだ開発初期でピッチシフト能力はUTAUのresamplerにかなり及ばない感じだけど
実績ある人だから期待してみる。

22名無しさん@frqファイル作成中:2010/01/25(月) 21:02:06 ID:dsA1NvqM0
>>21
あくまでもピッチ編集だけだからUTAUとは方向性が違う気がするけど、これはすごいな。
解析速度も速いから単純にピッチ解析ソフトとしても使える。

23名無しさん@frqファイル作成中:2010/01/26(火) 18:46:35 ID:G76wkcco0
出力の44.1KHzのwavの場合、音符毎のサンプル数は(音長/テンポ) * 5512.5 になる。
音長は4分音符=480。
で、これが整数で割り切れん場合が出るんだが、このズレ修正って意外と面倒だよな。

24名無しさん@frqファイル作成中:2010/01/27(水) 07:48:04 ID:Tm7no/ok0
…あ、よく考えたら「先頭からの合計音長」の位置から出力すればいいだけだな。
これなら誤差が累積せず音符1個に付き最大1/44100秒弱のズレで収まる。
つーか四捨五入すりゃさらに半分。

25名無しさん@frqファイル作成中:2010/03/18(木) 18:04:59 ID:3S2GJhZw0
そう言やピッチとフォルマントの周波数が被る場合ってどう分解するんだろ…?

26名無しさん@frqファイル作成中:2010/03/25(木) 12:20:34 ID:g.EPjwWE0
もしかして、ピッチの各波形は同じでないまでも似た形のはずだから、
前後10波形分の平均と各波形のズレからフォルマントの波形を推測する…
とか出来るのかな?

27名無しさん@frqファイル作成中:2010/04/10(土) 09:35:03 ID:Y4SVjkuQ0
「うたりす」の自動採譜期待したけど、
今の精度だとWaveToneで音符置いていったほうが早いな。
今後に期待。
ttp://www.nicovideo.jp/watch/sm10270301

28名無しさん@frqファイル作成中:2010/04/10(土) 14:47:13 ID:9U0TsiV20
>>27
周波数トレーサーやうたりすは「周波数」を拾って「調声」する為のものだから、
「音階」単位で拾って「耳コピ」する為のWaveToneとはちょっと違う。

29名無しさん@frqファイル作成中:2010/04/10(土) 15:02:18 ID:Y4SVjkuQ0
いや動画の終わりのほう見りゃ判るけど「採譜」機能もあるんだよ。
音階を解析周波数に一番近いとこに動かしてるだけではあるけど。

WaveToneにも自動採譜あるけどやっぱり実用には辛い。

30名無しさん@frqファイル作成中:2010/04/25(日) 08:55:25 ID:ixgkLloU0
fresamp 音質はともかく遅くなったのは辛いな…。

31名無しさん@frqファイル作成中:2010/04/25(日) 12:18:28 ID:ixgkLloU0
まあ.frq作成は速くなったんだけど。

32名無しさん@frqファイル作成中:2010/04/28(水) 19:34:37 ID:4WZbWe6A0
HANASUをやってみようとしてもはや目的がすり変わっていた
ttp://www.nicovideo.jp/watch/sm10535987

飴屋氏暴走中w

33名無しさん@frqファイル作成中:2010/06/09(水) 20:46:56 ID:FamY4w1o0
ピッチとフォルマントを分解→ピッチだけをアップ/ダウン→再合成
…だと思ってたけど、この図から見ると…

ttp://twitpaint.com/njn648

ピッチもフォルマントもまとめて周波数変えて、
その後にフォルマントだけずらして直してるぽい。
具体的にどういう処理なのかは想像付かん。

34名無しさん@frqファイル作成中:2010/06/13(日) 19:05:41 ID:wvoy0lSg0
そのままピッチを変更すれば必然的にフォルマントもずれる。
そのずれたフォルマントをそれを元に戻すということ。

35名無しさん@frqファイル作成中:2010/06/13(日) 19:56:37 ID:yU5phdH60
それだと「フォルマントだけ」戻すためには、フォルマントとそれ以外に分解する必要があるよな。

結局、最初から分解しておくのに比べて二度手間な気がするんだが
何か効率的な方法でもあるんだろか。

36名無しさん@frqファイル作成中:2010/06/14(月) 23:25:48 ID:LRvjuoOQ0
>フォルマントとそれ以外に分解する必要があるよな。
ないよ。
必要なのは初めにフォルマントを「抽出」しておくこと。

37名無しさん@frqファイル作成中:2010/06/20(日) 10:01:56 ID:c83ufh.I0
うたりすシリーズ

【実験】鼻歌採譜プラグイン作ってみた【UTAU】
ttp://www.nicovideo.jp/watch/sm11120832

38名無しさん@frqファイル作成中:2010/07/30(金) 04:30:35 ID:VvHLwFaQ0
resamplerとか、UTAUのDLLって仕様公開されてないよね?
公開されればいろいろ使えそうだけど

39名無しさん@frqファイル作成中:2010/07/30(金) 06:49:26 ID:m1cheLSI0
resamplerは飴屋氏ブログで解説あるよ。
ttp://utau2008.blog47.fc2.com/blog-entry-7.html

40名無しさん@frqファイル作成中:2010/07/30(金) 21:48:58 ID:VvHLwFaQ0
>>39
あいや、exeじゃなくてdllの方は公開されないのかなーと。

41名無しさん@frqファイル作成中:2010/07/31(土) 10:33:03 ID:3biArLUw0
3/7の飴屋PのTwitterでの発言によると

【export】int _stdcall exec(char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,char*,int(_stdcall *)(char*,int));
exec(infile,outfile,tone,vel,flg,offset,reqlen,fixed,blank,vol,mod,tempo,pitch,callback)//callbackは0でも良い。他のchar*は無い場合""へのポインタを渡しておいた方が無難。
callbackの引数はchar*,intだが、現状第一引数も数字が渡る。

42名無しさん@frqファイル作成中:2010/09/01(水) 13:05:11 ID:K6hUcreY0
飴屋氏の音色付加ツール、
UTAU歌唱と中の人歌唱の差分取れば「表情成分」だけ抜き出せるのかな…?

43名無しさん@frqファイル作成中:2010/09/01(水) 23:05:02 ID:aONW94M.0
差分っつってもなあ
少なくとも、WAVの波形での引き算、でないことは確かだろうし
フーリエで横軸を周波数にした状態での引き算、でもないんじゃないかな

44名無しさん@frqファイル作成中:2010/09/23(木) 20:01:47 ID:lKAaj.aI0
これは知らなんだ。105万で中の人になれるってさ。
『歌声合成用MIDI編集ツール ワンダーホルンStudio』
http://www.utabara.com/product/spec.html

45名無しさん@frqファイル作成中:2010/10/15(金) 01:56:53 ID:Rp6fiIQs0
某スレの
音波増幅方式 とか
音性抽出方式 とか
音性抽出分解周波数結合方式

検索しても全然学術書っぽいの見つからないけどホントにあるのだろうか

音声合成の全理論と実践
で検索したらそれっぽい物はあったがあってるのか分らん。

46名無しさん@frqファイル作成中:2010/10/15(金) 07:30:28 ID:mxMgDIEY0
よく判らんが、m4エンジンは分解再合成系らしい。
ttp://twitter.com/ameyaP_/status/25181756522

47名無しさん@frqファイル作成中:2010/10/15(金) 10:16:48 ID:qw0ul0AQ0
民明書房をご存じないのであれば戸惑うのも仕方ないかと

48名無しさん@frqファイル作成中:2010/10/15(金) 12:12:50 ID:/UDDxZTk0
>>45
あそこの694を皮肉ったネタだよ。

もしかしたら694もネタなんだろうか。ホンモノさんにしか見えないが。

49名無しさん@frqファイル作成中:2010/10/15(金) 16:39:39 ID:/UDDxZTk0
考えてみればこういうボカシ方も人によっては伝わらないのか。

ホンモノさん=ホンモノのおばかさんね。

50名無しさん@frqファイル作成中:2010/10/15(金) 17:32:11 ID:mxMgDIEY0
とりあえず元URL貼っとくけどいい加減スレ違いだ。

【UTAU・AquesTone】歌唱合成ソフト6 【SugarCape】
ttp://hibari.2ch.net/test/read.cgi/streaming/1277024638/694-

ほんと規制で書き込めないのが腹立つ。

51名無しさん@frqファイル作成中:2010/10/15(金) 17:57:54 ID:mxMgDIEY0
飴屋氏のtwitterから。

男声の音声合成の違和感:波形を見れば判ると思うけど根本的問題として『短時間FFT』とか『短時間のフォルマント包絡』の『短時間』が人間に認識できるくらいの長さになってしまうからかな?
9:49 AM Oct 14th Tweenから
ああそうか。言い方を変えよう。音程が低くなると、周波数領域での分解能は上がるが時間領域での分解能が下がるから、結局アラというか音声合成技術的な『ごまかし』が露呈しやすいとか。
9:54 AM Oct 14th Tweenから
だから、TD-PSOLAみたいな波形に着目した手法だと逆に男声の方が強いような気がします。研究したことは無いので確証はありませんが。
9:59 AM Oct 14th Tweenから

男声が迫力に欠けるからってg上げすると却ってぼそぼそ声になって逆効果だったことはあるけどこの辺か。

52名無しさん@frqファイル作成中:2010/10/15(金) 21:58:41 ID:AyXo41Q.0
g以前に、合成元の音程が低いのが問題ってことじゃ?

53名無しさん@frqファイル作成中:2010/11/17(水) 22:18:46 ID:qWxJgUvY0
個人的には・・・

合成元の音程が低い物は高く、高い物は低く作ると
ウホッ
となることが多い

うろ覚えだが例:
   タヤ FreqAVG F3→A4
テト  〃 A4→F3
   LOKE 〃A2→D3

54名無しさん@frqファイル作成中:2010/12/15(水) 00:13:04 ID:A49GbqIE0
dspdimensionのDIRAC3LEってどうなの?

55名無しさん@frqファイル作成中:2011/01/05(水) 00:56:16 ID:2cxNiJ4w0
フリーソフト(Audacity以外)でノイズリダクション機能のあるのってどれがいいかなあ。音源のノイズを取るのに。
シェアウェアだと、手頃な値段のはこれとかなんだろうか?『wavclean』
ttp://www.vector.co.jp/soft/winnt/art/se460024.html

56名無しさん@frqファイル作成中:2011/01/05(水) 20:37:45 ID:MWPESs..0
フリーのVSTプラグインならReaPlugsのReaFIRってのもある。
ttp://www.reaper.fm/reaplugs/index.php

57名無しさん@frqファイル作成中:2011/01/06(木) 22:09:34 ID:P8Nai2Y20
なるほど、ありがとうございました。

58名無しさん@frqファイル作成中:2011/01/12(水) 22:27:28 ID:TzmtPpyk0
一応参考に

UTAUの現状について
http://togetter.com/li/85567

森勢将雅助教のつぶやき中心

59名無しさん@frqファイル作成中:2011/01/12(水) 22:29:01 ID:TzmtPpyk0
あと、deja音色氏のサンプル収録考察は参考に出来ると思う

60名無しさん@frqファイル作成中:2011/01/14(金) 20:49:33 ID:HEPEbOnM0
飴屋さんがついったで公開したWorld比較のページ
下の方に音の振幅比較画像があるけど、よく見ないと分からないものなんだな


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板