[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
メール
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
1001-
1101-
この機能を使うにはJavaScriptを有効にしてください
|
htmltodatサポートスレッド
1
:
</b><font color=#FF0000>(L44UP/ps)</font><b>
:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。
351
:
名無しさん
:2006/11/25(土) 01:24:47
ザ掲示板のスレををdat化したいのですが
http://thebbs.jp/
正規表現を教えていただけないでしょうか?
352
:
◆/vmukiyuzw
:2006/11/25(土) 02:39:15
>>351
非常に困る点が一つ・・・
そこのbbsではレスの最初が1からではなく0から始まっているようで・・・
2ch標準のdatてのはレスは当然1から始まっているので
0のレスを無視すると0のレスは当然読めませんし、一つずらすことにすれば
レスアンカーがずれます。
「2ch互換の板とは言えないからhtmltodatが扱える領域じゃないです」とは
あまり言いたくはないのですが、うまく扱える案が思いつかないのですが正直なところです。
353
:
◆/vmukiyuzw
:2006/11/27(月) 23:49:55
こちらの板向きの話なので引用させてください。
http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/175
>> s#(<title.*?) - DUMPER.JP(</title>)#$1$2#
> を
>> s#(<title.*?) - 2ちゃんねるみらー(</title>)#$1$2#
> に変えるとマッチしない。なんでだ・・。。
s#(<title.*?) - 2ちゃんねるみらー(</title>)#$1$2#k
のようにkオプションを付ける必要があります。
kオプションは文字を日本語(SJIS)として扱うためのものです。
(perlには存在しないbregexp.dllの独自拡張機能)
自分の書く正規表現でもついサボって付けてなかったりすることが多いのですが、
大抵はうまくいくけれど今回のように問題が出る場合もあるようです。
具体的には、"2ちゃんねるみらー"の"ー"の2バイト目が"["(16進で5B)にあたるため
正規表現の"["と解釈されてしまって、エラーとなるようです。
多分このように2バイト文字の2バイト目が正規表現の文法とぶつかるようなケースが
まずいのだと思うのですが、具体的にどの文字だとダメかとか調べるのも大変なので、
日本語にマッチさせるような正規表現を使う場合は基本的にkオプションを付けるように
お願いします。
# 今までは日本語は"投稿日:"ぐらいしか使ってなかったので問題なかった模様。
# 今後気をつけます。
354
:
◆/vmukiyuzw
:2006/11/27(月) 23:58:07
というか日本語の有無に関わらず無条件でつけることにしても
問題はないはずですが。
(パフォーマンスへの影響とかはわかりませんが)
355
:
663
◆fnwcOWFi56
:2006/12/02(土) 15:53:50
いつもお世話になっています。
また要望です。
前処理で、特定の文字が出てきたら
それを別の文字に変換するような事とか出来ないでしょうか。
makimo.toさんの所のhtmlをdat化させたいのですが
他スレのリンクが
・同サーバ・同板の場合
<a href="../1127/1127911361.html">../1127/1127911361.html</a> <br>
・別板の場合
<a href="../../be_be/1106/1106239080.html">../../be_be/1106/1106239080.html</a>
とあるので、下の前処理をつけました。
s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2$3#gi
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1
http://server
\.2ch\.net/test/read\.cgi/board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
356
:
663
◆fnwcOWFi56
:2006/12/02(土) 16:04:41
# そのままコピペしたので最初のbe処理まで入ってしまったです
上の前処理の2行目
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1
http://server
\.2ch\.net/test/read\.cgi/board/$2/$3#ig
このコード中の「server」と「board」は
スレッド毎に違うので、その都度書き換えないといけないです。
コード自体を毎回書き換えるのは煩雑なので
例えば「$server」「$board」として
$serverに「ex13」
$boardに「gline」
が入るようにするような事とか出来ませんでしょうか。
357
:
◆/vmukiyuzw
:2006/12/03(日) 01:46:45
>>356
とりあえず、変換オプションにテキストボックスを2つ追加して
$serverと$boardの値をそれぞれ指定できるようにするとかでしょうか?
一括処理のときは一括にする範囲で工夫してもらうとして・・・
# makimo.toさん自身のhtml2dat.cgiではどうやってるのかがわかれば
# いいんでしょうけど・・・
358
:
◆/vmukiyuzw
:2006/12/03(日) 10:52:37
ところで、beの前処理は内部に組み込んだはずなのに
書かれてるってことは効いてないのかな
と思って調べてみるとやはり考慮漏れで効いてませんでした。
合わせて直します
359
:
◆/vmukiyuzw
:2006/12/03(日) 17:28:28
バージョンアップしました。(0.8.8)
・変換オプションに$server、$board入力欄を追加。
前処理スクリプト中に「$server」「$board」の文字が現れると
入力された値に置換してから処理する。
・be前処理の考慮漏れを修正。
1つめについてはほぼ
>>356
の通りですが、前処理に
$server\.2ch\.net/test/read\.cgi/$board/
みたいに書いて、$serverに「ex13」$boardに「gline」と入力し、変換処理を行なうと
ex13\.2ch\.net/test/read\.cgi/gline/
と解釈して処理します。
2つめについては、考慮漏れ。
<a href="JavaScript〜 みたいにクォーテーションが付くケースを漏らしてました。
これで、前処理にbeの処理を入れる必要はなくなったはず。
あとついでに、
>>353
に関連して添付の前処理「DUMPER.JPスレタイ削除」を修正し
差し替えてます。
360
:
663
◆fnwcOWFi56
:2006/12/03(日) 18:15:50
>>359
早い・・ありがとうございます。
書いてから「bbspink.comのケースもあったなあ」という事を忘れていましたが
上の場合だと
$server = ex13.2ch.net とか
$server = pie.bbspink.com 等に指定すれば良さそうです。
ありがとうございました。
361
:
名無しさん
:2006/12/04(月) 01:04:36
はじめまして!あの正規表現の対応を御願いできませんか?自分でしたところ、5時間かかってもできなかったので
断念・・・。makimo.toのログですが、上記にあったmakimo用の正規表現じゃ変換できませんでした・・・。
zipで纏めたhtmlです・・・。
http://winplus.or.tp/uploader01/upload.php?down=450
pass: 2ch
よろしく御願いします。
362
:
663
◆fnwcOWFi56
:2006/12/04(月) 08:02:42
横からごめんなさい
>>361
ブラウザ保存されたhtmlみたいなので、空白や改行があってマッチしないです。
ちょっと見る気力がないので
makimo.toさんの元htmlなら
http://makimo.to/2ch/pc7_affiliate/1161/1161168474.html
●正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mik
●前処理
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3$4#ig
●$server/$board
それぞれpc7/affiliate
●変換結果式
$4<>$2$3<>$5<>$6<>
●後処理
s#\#http#ttp#ig
s#([^h])ttp(://[^a-z0-9])#$1$2#igk
大量にある過去ログURLが記載してある
レス7のところでかなりもたつきますが
これでいけると思うです。
363
:
663
◆fnwcOWFi56
:2006/12/04(月) 08:35:34
追記
zipで固めたほうのhtmlをdat化させたいなら
正規表現を下のと差し替えればいいかも。
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
あと前処理に下のを追加
s#(<br>) *#$1#ig
364
:
名無しさん
:2006/12/04(月) 16:59:10
>>363
おお!ありがとうございます。無事変換できましたが、なぜかわかりませんが、レス番20あたりからすべて
mailto:のリンクが貼られた状態で青くなってました。
365
:
663
◆fnwcOWFi56
:2006/12/04(月) 17:40:50
うーむ
これでどうでしょう
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class="?sage"?>|<a href="mailto:(.*?)" class="?mailto"?>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|(?:</dd>)?</dl>)#mik
366
:
名無しさん
:2006/12/04(月) 18:52:29
すげぇ。出来ました!。・゚・(ノ∀`)・゚・。ありがとー。
29chが閉鎖する前に必要なログ保存できそうです・・・。
ほんとうにありがとうございます。
367
:
名無しさん
:2006/12/05(火) 14:07:28
同じくmakimo.toのログなんですが上記の正規表現で変換できません。
http://makimo.to/2ch/log_musicj/959/959833697.html
どのように修正したらよろしいのでしょうか?
368
:
663
◆fnwcOWFi56
:2006/12/05(火) 14:37:22
>>367
ぱっと見て「投稿日:」というのがそのhtmlにはあって
それでマッチしないのかなと思ったのですが
googleで「959833697」を検索すると、
既にhtml化されたものがありますので
どうしてもmakimo.toさんのhtmlからdat化させたいなら別ですが
そうでないのなら、下のDLしたほうが速いです
http://piza.2ch.net/log/musicj/kako/959/959833697.html
datはこちら
http://piza.2ch.net/log/musicj/kako/959/959833697.dat
369
:
名無しさん
:2006/12/05(火) 15:37:14
なるほど。それは気がつきませんでした。
お手間を取らせて済みませんでした。
370
:
名無しさん
:2006/12/07(木) 09:48:53
htmltodatで変換したdatをjaneで読み込むと
スレッド表示時でスレタイトル前に半角シャープが入ってしまいます。
現在はidxから修正していますが1つ1つだと大変なので
設定で修正するにはどのようにすればいいでしょうか?
371
:
663
◆fnwcOWFi56
:2006/12/07(木) 10:50:15
>>370
さん
>>362
で変換したdatを
自分のJaneDoe View α Build ID: 0511280214で読み込んでみましたが
タイトル前に半角シャープはついてなかったので
URLとどのJaneなのか教えて頂けないでしょうか。
372
:
663
◆fnwcOWFi56
:2006/12/07(木) 11:28:08
# 勘違いだったかも
>>370
makimo.toさんの所のhtmlとは書いておられないので
そうでなかったら わかんないです。。
373
:
◆/vmukiyuzw
:2006/12/08(金) 01:04:45
>>370
さん
状況がよくわからないので以下の情報が欲しいです。
・URL
・使用した正規表現
・変換オプション(前処理・後処理等)を指定してる場合はその内容
374
:
370
:2006/12/08(金) 11:26:16
情報不十分で申し訳ないです。
http://makimo.to/2ch/pc8_avi/1164/1164172579.html
使用した正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
前処理makimo.to
s#<span class=(.*?)>(.*?)</span> \[(.*?)\] #<span class=$1><a href="mailto:$3" class=mailto>$2 </span></span> #g
w debug.txt
後処理なし
変換結果式makimo.to
$4<>$2$3<>$5<>$6<>
OpenJane α 0.1.12.2 を使っています。
375
:
◆/vmukiyuzw
:2006/12/08(金) 22:14:36
>>374
試しましたが再現しません。
htmlの時点でそもそもスレタイに半角シャープは付いていないので
datに変換しても入りませんしJaneで読ませても当然入りません。
・・・で思ったのですが、もしかして、半角「シャープ」じゃなくて
半角「スペース」ではないのですか?
半角スペースなら確かに入ります。htmlの時点から入ってます。
でもこれはmakimo.toでhtml化された時点で無駄に付加されたものっぽいです。
これを除去したいということであれば、前処理に
s#(<title>) ?(.*?) ?(</title>)#$1$2$3#i
とでも付け足せばよいかと思います。
376
:
370
:2006/12/09(土) 15:21:32
仰るとおり「シャープ」ではなく「スペース」の勘違いでした・・・。
前処理の設定方法で半角スペースも取れました。
お返事ありがとうございました。
377
:
名無しさん
:2006/12/09(土) 23:10:32
【疑問】今さら聞けない家事・料理【質問】39
http://2ch/ms/human5.2ch.net/test/read.cgi/ms/1117079913/1
前スレ
【疑問】今さら聞けない家事・料理【質問】38
http://human5.2ch.net/test/read.cgi/ms/1115798098/
の部分は
にくちゃんねるのHTMLでは、
【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
になっていて、リンクで該当するスレッドにいけるのですが
htmltodatでにくちゃんねるのHTMLをdatに変換すると
【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
のままで、リンク先にはいけません。
htmltodatでにくちゃんねるのHTMLをdatに変換すると
【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
の部分を
【疑問】今さら聞けない家事・料理【質問】37
http://human5.2ch.net/test/read.cgi/ms/1113750788/
に変換できるようにするためには
どうしたらよいのでしょうか。
●正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mik
●変換結果式
$4<>$2$3<>$5<>$6<>
に設定して使っています。
どうかよろしくおねがいします。
378
:
名無しさん
:2006/12/10(日) 05:13:27
>>377
さん
試してないので何ですが
htmltodatの新バージョンを(DLしてないなら)DLして
>>362
を試してみて下さい
($server/$boardはそれぞれhuman5/msを指定)
379
:
名無しさん
:2006/12/23(土) 21:46:32
パー速vip
http://ex14.vip2ch.com/part4vip/
保管庫にあるhtmlをhtmltodatでdat化するには、どのような正規表現
にすればいいんですか。
380
:
名無しさん
:2006/12/24(日) 00:27:38
>>379
さん
専用ブラウザにそのURLを外部板として登録すれば
そのまま読み込めるのではないかと思うのですが
それでは駄目でしょうか。
381
:
名無しさん
:2006/12/24(日) 07:31:04
>>380
http://ex14.vip2ch.com/part4vip/kako/116/1161445050.html
これで登録しても
http://ex14.vip2ch.com/part4vip/
になり現行のスレしか表示されません
Jane Styleのアドレスに
http://ex14.vip2ch.com/part4vip/kako/116/1161445050.html
を入力してもログ取得できません、
ニュース速報(VIP)@避難所の過去ログはできたんですが
htmltodatで変換はできませんか、
ここで相談することではありませんがお願いします。
382
:
名無しさん
:2006/12/24(日) 08:54:56
>>381
これでどうでしょう
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mi
383
:
名無しさん
:2006/12/24(日) 09:07:45
>>382
ありがとうございますできました
384
:
名無しさん
:2006/12/28(木) 13:37:35
処女はお姉さまに恋してる第43話
http://makimo.to/2ch/bbspink-idol_hgame2/1151/1151736029.html
を
>>362
の前処理にある「2ch\.net」を「bbspink\.com」に、$server/$boardにそれぞれidol/hgame2を入れて変換して
みたのですが、テンプレにあるエロゲー作品別板から他所の板(2ch.netだけでなくbbspinkの板も)へのURLがうまく
変換できません。
どのようにすれば良いのでしょうか?
385
:
名無しさん
:2006/12/28(木) 21:53:07
>>378
いそがしくてなかなかお返事できなくて申し訳ありません。
>>362
でやったらうまく変換できました。
大変ありがとうございました。
これからも宜しくお願いします。
386
:
◆/vmukiyuzw
:2006/12/28(木) 22:23:38
>>384
さん
makimo.toでのbbspink.comのログに関しては
(1)同じ板内へのリンク:../1150/1150506092.html
(2)2ch.netの別板へのリンク:../../game9_gal/1139/1139744135.html
(3)bbspink.comの別板へのリンク:../../bbspink-idol_hgame/1149/1149173250.html
・・・ということみたいです。で、2ch.netのログとの扱いの違いは
(1)2ch.netと同じ形式。ただし変換結果は当然bbspink.comにする必要あり。
(2)2ch.netと同じ形式。ただし(1)とは逆で変換結果は2ch.netにする必要あり。
(3)鯖名の前にbbspink- の文字列がつくようだ。変換結果はもちろんbbspink.com。
間違いはあるかもしれないけどおおむねこんな感じかと。
これを踏まえ
>>362
の前処理を書き換えるには・・・
・・・申し訳ない今日はエネルギー切れです。自力で考えるか、わかる人回答してあげて下さい。
387
:
◆/vmukiyuzw
:2006/12/28(木) 23:52:01
・・・と言いながらももうちょっとがんばってみよう・・・
まず
>>362
の前処理は以下のとおり
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3$4#ig
1行目は2ch.netかbbspink.comかに関係ないのでそのままでOK
2行目と4行目は「\.2ch\.net」を「\.bbspink\.com」に修正すればOK
問題は3行目ですが
>>386
の(3)のとおりbbspink-があるかないかで
bbspink.comなのか2ch.netなのかが変わってきます。
(bbspink.comのスレだが中に2ch.netに対するリンクがありうるので無視するわけにはいかない)
なので2つに分けてしまいましょう。
s#(>)\.\./\.\./bbspink-(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.bbspink\.com/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
結局まとめるとこんな感じでしょうか
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.bbspink\.com/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./bbspink-(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.bbspink\.com/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.bbspink\.com/test/read\.cgi/$board/$2/$3$4#ig
ちなみに3行目、4行目はこの順番でないとダメです
なぜなら、4行目の(.+?)_はbbspink-pieにもヒットしてしまうので3行目で先に変換しておかないと
2ch\.netにみなされてしまいまずいことになるからです
388
:
◆/vmukiyuzw
:2006/12/31(日) 01:11:47
makimo.toの過去ログに関しては、663 ◆fnwcOWFi56 さんが書いてくださった
>>362
でおおむね変換できるものと思います。
※ただ、2ch.netではなくbbspink.comの過去ログに関しては
前処理を
>>387
のものにする必要があると思います。
(正規表現等は
>>362
のものでOKかな?)
しかし、makimo.toのログにはあまりにいろんなバリエーションがありますので、
(なんせ620万スレッドを超える過去ログを保有しているらしいですから)
>>362
でも
>>387
でも変換できないパターンがあると思うのです。
それらに個別に対応するには自分ひとりのパワーではあまりに不足に思えますし
他の方にサポートをお願いするにも限界があるかなと思いますし・・・。
----------------------------------------------------------------------------
なので、正直言うと、今年末でmakimo.toが閉鎖して、どうしようもなくなって
一息つくまではできるだけレスとかせず逃げ回っていようと思っていたのです。
それしかできることは思いつかなかったので・・・
----------------------------------------------------------------------------
しかし、実際にはmakimo.toさん側でもいろいろ規制をかけられたりして
無制限にHTMLがダウンロードされることもなく、結果ここにも質問が殺到したり
することもなかったので、まあホッとしたという感じです。
明日(てもう今日か)帰省するので今年最後の書き込みです。
皆様よいお年を。
389
:
名無しさん
:2006/12/31(日) 21:08:09
遅くなりましたが、mukiyuさんありがとうございました。
他のスレも何個か見ましたが、問題はなさそうです。
390
:
名無しさん
:2006/12/31(日) 21:12:29
名前が抜けてしまいましたが
>>389
=384です。
391
:
名無しさん
:2007/01/06(土) 01:37:31
htmltodat0.8.8を使っています
立ち上げるとhtmltodatの枠の部分が小さく表示されdat保存ボタンがあるところまで表示されません。
スクロールバーを使わなくては下まで表示されないのです。
同様に変換オプションや一覧表示なども下まで表示されません。
改善策はあるのでしょうか?
392
:
名無しさん
:2007/01/06(土) 09:35:13
>>391
俺も同様。ただし自宅のWin98で。
職場のWin2000では正常に表示される。
参考までに。
393
:
◆/vmukiyuzw
:2007/01/06(土) 15:55:45
>>391
さん
原因のひとつらしき点を修正してみましたが、環境による問題なので
十分に検証することが出来ません。
なので、以下の暫定版で動作確認して結果報告いただけたらありがたく思います。
(
>>392
さん他同様の現象が出る方にも)
http://mukiyu.hp.infoseek.co.jp/htmltodat/htmltodat0.8.8.1.zip
中身はhtmltodat.exeだけです。
今お使いのバージョンをバックアップした上で上書きしてお使いください。
394
:
名無しさん
:2007/01/07(日) 05:22:39
この保管ログが上手く変換できません…
ttp://search.mimizun.com:82/cgi/dattohtml.pl?
http://mimizun.com:81/log/2ch/sec/pc8.2ch.net/sec/kako/1153/11531/1153128180.dat
『read.cgi7.00?』とかで変換はできるのですが「<><>」が「[] 投稿日:」になってしまいます…
…「直接datで落せば」とか言われるのは判ってますが、
是非上手い変換スクリプトをおながいします
395
:
391
:2007/01/07(日) 09:22:29
もう遅れましたが、自分はXPです。
396
:
391
:2007/01/07(日) 09:24:33
>>393
すみません。EXEをアボーン設定しているのでレスが見えませんでした。
確認してみます。
397
:
名無しさん
:2007/01/07(日) 09:26:51
>>393
改善されました。ありがとうです!
398
:
◆/vmukiyuzw
:2007/01/07(日) 18:05:42
>>394
さん
663 ◆fnwcOWFi56 さんが別のところで考えてくださったそのままのコピペですが
m#<dt.*?>([0-9]+).+?<b>(?:.+?"mailto:(.+?)">)?(.+?)(?:</a>)?</b></font> ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi
ちなみに
> …「直接datで落せば」とか言われるのは判ってますが、
何故わざわざhtmltodatを経由したいのか参考までに教えていただきたく思います。
399
:
◆/vmukiyuzw
:2007/01/13(土) 17:16:04
さて、
>>393
の件ですが
>>391
さん以外からは動作報告があがってないようですね。
98/Me系での動作確認が取れればそのまま正式バージョンにしようかと思っていたのですが
当面ペンディングですかね。
まあ次にバージョンアップする機会があればそのときに一緒に入れてしまうと思いますが。
400
:
名無しさん
:2007/01/13(土) 20:12:55
>>393
>>399
>>391
さんと同じXPですがきちんと表示されるようになりました。
ありがとうございました。
401
:
名無しさん
:2007/01/16(火) 22:45:39
要望です。
クッキー・User-Agent・ベーシック認証に対応して頂けないでしょうか。
クッキーの件ですが
remix2ch(
http://contents-factory.net/remix2ch/)
さんや
makimo.toさんの所でクッキー送信が必要な場合があります。
User-Agentですが
http://pita.paffy.ac/
さんのdatを直接取得したい時や
●ログイン時などでMonazillaを使いたい場合があります。
ベーシック認証ですが
p2のhtml取得時に必要な場合がありますので(滅多にないですが)
あったら嬉しいです。
どこまで突っ込んで書いたらよいのかわからないので
簡単に書いたです。
詳細は下記で
http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/450-451n
以上、宜しくお願い致します。
402
:
◆/vmukiyuzw
:2007/01/17(水) 21:48:13
>>401
さん
いずれもHTTPリクエストヘッダで指定される内容ですね。
他にも指定したいものが出てくるかもしれませんし
(例えばリファラを要求されるサイトとかあるかもしれませんし)
汎用的に任意のヘッダ要素を追加指定できるようなメモウィンドウでも
付けましょうかね。
具体的にどんな形式で指定すべきかは、まあどのみち
proxomitron等でモニターして自分で調べないといけないと思うので、
使う側にお任せということで。
こんなとこでいかがでしょう。
ところで、
>>401
であげられてる例の半分くらいはhtmlというより
datを直接取得したい場合のような気がしますね。
「htmltodat」なのにdatを直接取得してどうするという話ですが
今では変換処理を経由せず前処理で直接ファイル保存ができるように
なってるのでそれを使っていただければいいかと思います。
(以前この機能がなかったときにはたわむれにdat→dat変換の
正規表現を書いたこともありましたが)
403
:
663
◆fnwcOWFi56
:2007/01/17(水) 23:02:37
>mukiyuさん
是非その線でお願いします。
もう一ついいでしょうか。
subject.txt作成の時
旧形式のdatをまとめる場合が結構ありますので(私だけかな)
区切り記号(デリミタというのでしょうか)を
「<>」と「,」を選べるようにして頂けないでしょうか。
404
:
◆/vmukiyuzw
:2007/01/18(木) 00:18:11
>>403
んーと、ちょっと確認が。
旧形式のdat(カンマ区切り)からsubject.txtを作るのはいいとして、
subject.txt自体は現行の形式(「<>」で区切られている)でいいですよね?
※というのも、monazillaの資料を見ていると、subject.txt自体にも旧形式
(カンマ区切り)のものが存在するようなのです。ので一応念のため。
あと旧形式のdatってデリミタの「,」と区別するためにdat中に現れる「,」を
「@`」に変換してますよね。
これもsubject.txt作成時には「,」に戻す必要がありますよね。
(アットマークが半角か全角か定かでない・・・自分の記憶では全角なのですが
monazillaの資料だと半角なのです。念のため両方変換するか)
405
:
663
◆fnwcOWFi56
:2007/01/18(木) 20:37:29
> mukiyuさん
> subject.txt自体は現行の形式(「<>」で区切られている)でいいですよね?
いいですいいです。
アットマークですが
確か全角みたいです。(「,」)
>>386
のdatとかそうですし。
http://piza.2ch.net/log/musicj/kako/959/959833697.dat
406
:
◆/vmukiyuzw
:2007/01/20(土) 20:31:16
バージョンアップしました。(0.8.9)
・「proxy設定」ボタンを削除し、代わりに「受信オプション」を追加。
proxy設定機能は受信オプション設定内にまとめるようにした。
・受信オプション設定に「HTTPヘッダ追加」欄を追加。
Cookie,User-Agent,Authorization等のヘッダを任意に指定できるようにした。
・subject.txt作成で、旧形式のdat(カンマ区切り形式)からもsubject.txtを
作成できるようにした。
・特定の環境下で、フォームの内容が枠に収まらずスクロールバーが出てしまう
不具合を修正。
まず「HTTPヘッダ追加」についてですが、
>>401-402
のとおり
HTTPリクエストヘッダに任意の行(RFC邦訳を見ると「ヘッダフィールド」と
呼ぶみたいですが)を追加するためのものです。
例えば
Cookie: text=dat<>1<>0<>false<>mycss=<>0<>0<>3000<><><><>
User-Agent: Monazilla/1.00(htmltodat/0.8.9)
のような感じでヘッダに含めて送信したい内容をそのまま指定します。
また、変換オプションの前処理等と同様、保存・呼び出しが可能です。
(拡張子は'.hdr')
※ちょっと内部処理の話なのですが、デフォルトで存在するヘッダ行に
単純に行を追加するだけなので、デフォルトの行を上書きすることは
基本的には出来ません。
但し、User-Agentだけは例外で、(変更したい要望があったので)
上書きできるようにしています。
もし、他に上書きしたい行がある場合は(あんまりないとは思いますが)
要望していただければ検討します。
次にsubject.txt作成の旧形式dat対応ですが、旧形式と現行形式を混在させて
処理することは出来ません(まあ単に判別が面倒だからなのですが・・・)。
フォルダを別にして処理する等して対処をお願いします。
最後の不具合の修正については、
>>391-392
で報告いただいて
>>393
で
対応した(つもり)のものですが、まだあまり自信がないので、
まだ不具合があればご報告ください。
407
:
663
◆fnwcOWFi56
:2007/01/20(土) 21:12:14
>mukiyuさん
ありがとうございます。
今日は不調なので後日試させて頂きます。
408
:
663
◆fnwcOWFi56
:2007/01/21(日) 12:41:37
試してみたです
出来ました!
凄いです!
ありがとうございました!
409
:
◆/vmukiyuzw
:2007/01/23(火) 00:37:53
ちょっとスレ違いなのですが
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1061022990/15
htmltodat自体もvistaで動くのかという気もするのですが
まあ何とかなるのではと思います。
JaneLogMoverは内部でOSが2000/XP系か98/Me系かを判定して
処理を分岐しているので、そろそろ対応を考えておかないと
まずいかなと思ったわけです。
というわけで情報お持ちの方はよろしくお願いします。
410
:
名無しさん
:2007/01/24(水) 17:56:55
http://ex14.vip2ch.com/part4vip/kako/116/1166959235.html
このスレを変換しようと
>>382
で書かれている正規表現を使用したのですが
途中でエラーになります。ちゃんと変換できる方法はありますか?
411
:
663
◆fnwcOWFi56
:2007/01/24(水) 19:08:05
>>410
さん
「:」と日付の間の半角スペースが無いのが原因みたいです。下のでどうでしょう
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>): ?(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik
412
:
◆/vmukiyuzw
:2007/01/24(水) 19:58:44
>>410-411
さん
私の環境では
>>382
の正規表現で正常に変換できましたが。
>>411
(663 ◆fnwcOWFi56)さんの
> 「:」と日付の間の半角スペースが無いのが
ですが、これが無くても結果に無駄な半角スペースがつくだけで
エラーにはならないと思うのです。
htmlソースをざっと見てみましたが:と日付の間に半角スペースは
見当たりませんし。
・・・で、推測ですが、いったんブラウザで表示させたものを
「名前を付けて保存」として保存したhtmlを変換しようとしてませんか?
もしそうであれば、htmltodatにURLを直接入力してhtmlを取得して
やってみてください。
※過去にも何度か書きましたがブラウザの機能で保存すると
htmlが適当に加工・整形されてしまうので、正規表現は
変えないといけなくなる場合があります。
あと、スレタイに余分なものがついているので、
s#(<title>.*?)@VIPService過去ログ倉庫(</title>)#$1$2#ik
と入れて整形したほうがいいんじゃないでしょうか。
413
:
◆/vmukiyuzw
:2007/01/24(水) 20:20:42
ちょっと言葉足らずでした。
s#(<title>.*?)@VIPService過去ログ倉庫(</title>)#$1$2#ik
と「前処理」に入れて整形したほうが〜
です。
414
:
名無しさん
:2007/01/25(木) 00:22:43
>>411-413
ありがとうございます
>>411
さんの正規表現でできました
その後
>>382
で試したところエラーになりました
前処理は役に立ちました
ありがとうございました
415
:
◆/vmukiyuzw
:2007/01/25(木) 08:52:05
>>414
さん
解決したのでもう見ておられないかもしれないですが・・・
>>411
でも書きましたが
>>410
のURLは
>>382
の正規表現で私のとこでは
うまくいくのです。
同じURLを同じ正規表現で処理してエラーになったりならなかったりする
というような状況は経験に無いので、以下の点だけ確認させてください。
・環境(OS、htmltodatのバージョン)
・エラーの内容(多分「一行が長すぎるか正規表現が正しくありません」だと
思うのですがもしそれ以外だったらその内容)
・エラーが出たときの、「読込行:xxxx/変換行:xxxx/バッファサイズ:xxxx」
(画面左下、「dat変換結果」欄の下に表示されているはず)の内容
以上、よろしければお願いします。
416
:
名無しさん
:2007/01/25(木) 10:37:03
http://search.mimizun.com:82/perl/dattohtml.pl?http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat
みみずん検索のdatを変換するには、どのようにすればよいのでしょうか?
よろしければ、ご教授ください。
417
:
名無しさん
:2007/01/25(木) 15:31:10
>>415
OS XP Media
htmltodat 0.8.9
エラーの内容「一行が長すぎるか正規表現が正しくありません」
「読込行:176/変換行:0/バッファサイズ:10100」
こうなりました
418
:
◆/vmukiyuzw
:2007/01/25(木) 21:12:33
>>416
さん
URLの先頭から dattohtml.pl? までを削って
http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat
にすれば直接datを落とせます。
どうしてもhtmlから変換したいということなら
>>398
でできると思います。
419
:
◆/vmukiyuzw
:2007/01/25(木) 21:25:00
>>417
さん
ご報告ありがとうございます。
申し訳ないのですが最後にもう一点だけ確認していただけないでしょうか。
>>382
の正規表現の最後に k を付けて
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik
これでもエラーになるでしょうか?
420
:
416
:2007/01/25(木) 21:59:16
>>418
ご回答いただき誠にありがとうございます。
また、よく調べもせずに安易に質問して申し訳ございませんでした。
421
:
名無しさん
:2007/01/25(木) 22:23:09
>>419
同じエラーになりました
読込行100を過ぎたあたりからスピードが遅くなっています
422
:
◆/vmukiyuzw
:2007/01/26(金) 22:11:01
>>421
さん
再度のご報告ありがとうございます。
残念ながら、エラーになる原因がわからないです。
>>411
がOKで
>>419
がエラーになる理由もわかりません。
(正規表現上での違いは一箇所しかないのです・・・でもそこが
エラーになる原因とは考えにくいのです)
これ以上はおそらく環境の問題だと思うのですが、
>>421
さんのPCを
直接触らせていただくくらいしか調べる方法が思いつかないので、
この件は申し訳ないですがいったん中断にさせてください。。。
もし他に何か思い当たる点があればご報告頂きたくお願いします。
423
:
◆/vmukiyuzw
:2007/02/09(金) 23:29:31
>>422
の続きですが
このスレ自体をブラウザで表示した際に、
>>419
のように書いたな正規表現が
ワードラップの関係で途中で改行されて、そこに不要な半角スペースが
入ってしまう可能性があるようです。
ブラウザの文字サイズを最小にするか表示領域の横幅を最大にして
改行されない状態でコピペするとうまくいくかもしれません。
424
:
◆/vmukiyuzw
:2007/02/10(土) 00:01:46
makimo.to(にくちゃんねる)のhtmlを現状でdat化する方法を
まとめておこうかな。
・「受信オプション」-「HTTPヘッダの追加」で
Cookie: text=dat<>1<>0<>false<>mycss=<>0<>0<>3000<><><><>
または
User-Agent: Monazilla/1.00 (htmltodat/0.8.9)
を指定する。
・該当のURLを入力してHTML取得(この時点でdat形式で取得されるはず)
・「変換オプション」-「前処理」で
w $SELECTFILE.dat
を指定する。ついでに「dat変換をしない(前処理のみ行う)オプションを
チェック。
・「変換開始」ボタンを押すとファイルの保存ダイアログが出てくるはず。
で任意のフォルダにdatを保存。
現状ではログを7日間しか保持されていないそうなので、それ以前にdat落ちした
ログとかでは無理ですが、そうでなければこちらの方法のほうが簡単だと思うので。
425
:
◆/vmukiyuzw
:2007/02/10(土) 02:34:36
>>424
の方法はちょっと保留にさせてください。
なんかdatの最後にゴミがくっついてくる場合があるようで・・・
にくちゃんねる側の不具合の可能性もあるのですが
gzip圧縮で転送されてくるのでhtmltodat側での解凍の
不具合である可能性もあります。
調査します。
426
:
◆/vmukiyuzw
:2007/02/10(土) 15:24:41
バージョンアップしました。(0.8.10)
・gzip解凍の際に結果にゴミがついてしまうバグを修正。
・受信データの最後が改行コードであった場合に、改行コードが欠落して
しまうバグを修正。
今回は不具合対応のみです。
どちらも結構前からあったバグだと思われますが、
gzip解凍のゴミ:gzip圧縮されたデータを扱うこと自体が少なかったと
思われるのと、html→dat変換に必要ない部分は基本的に見ていないので
問題とはならなかったと思われます。
改行コードの欠落:これもhtml→dat変換には関係ない部分ですので
発覚しなかったと思われます。
いずれも、
>>424
の方法で直接datを取得しようとして「何か変だ・・・」
と思い調べてみると発覚したものです。
改行コードの欠落については、ブラウザによっては問題なく読めるものも
あったのですが、最後1レスを認識しなくなるブラウザもあったので
対応しました。
427
:
名無しさん
:2007/02/18(日) 13:13:05
http://kiritsukegomen.hp.infoseek.co.jp/log/jisaku1145017036.html
のログを変換しようとすると、「1行が長すぎるか正規表現が正しくないようです」
となって読み込みが途中で止まってしまいます。
ここの他のログはread.cgi7.00?で変換できたのですが、このログだけダメです。
正規表現をどう変えればいいのでしょう?
428
:
663
◆fnwcOWFi56
:2007/02/18(日) 15:15:50
>>427
さん
makimo.toさんのhtmlをブラウザ保存したものみたいなので
下の正規表現で何とかなるかもです
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class="?sage"?>|<a href="mailto:(.*?)" class="?mailto"?>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|(?:</dd>)?</dl>)#mik
前処理その他は
>>362
でいいのかも
429
:
427
:2007/02/18(日) 16:44:04
早速ありがとうございます。
>>362
の$boardを変更するとうまくいきました。無料サポありがとうございます。
430
:
<削除>
:<削除>
<削除>
431
:
663
◆fnwcOWFi56
:2007/03/09(金) 19:24:26
いつもお世話になっております。
また要望よろしいでしょうか。
後処理でもwコマンドを使えるようにしては頂けないでしょうか。
現状ではwコマンドは前処理でのみ使えるのですが
後処理でも使えるなっていれば有り難いです。
例えばdatの保存先フォルダを自動取得して
それが
C:\My Documents\Nida070202\Logs\2ch\案内\ガイドライン\1165245437.dat
だった場合
後処理でwコマンドが使えたら
w C:\My Documents\DoeView051128\NidaUTF8\Nida070202\Logs\2ch\案内\ガイドライン\1165245437.dat
とやれば、dat変換完了と共に該当フォルダに保存出来るので嬉しいのですが。
もし可能でしたらお願い致します。
432
:
◆/vmukiyuzw
:2007/03/09(金) 22:38:04
なるほどそういう用途がありましたか。目からウロコです。
実は現状の仕様は
・前処理:読み込んだHTML全体に対して作用するようになっている
・後処理:変換結果のdatの一行ずつに作用するようになっている
ので、単純に前処理と同じように処理したのではたとえばdatが1001行あれば
wコマンドでの保存処理も1001回行うことになってしまい非常に効率が悪い
ことになってしまいます。
・・でも考えてみると、前処理と後処理で仕様が異なっているのには
特に深い理由はなく、
・前処理:相手にするHTMLがどんな形式かわからない。ので一行ずつ処理するのは
意味がない可能性があるので、全体に作用するようにした
・後処理:dat形式に整形された後なので形式はわかっている。であれば一行ずつ処理
するほうが簡単かなと思った
ということだったりします。
で、後処理のほうも前処理同様一行ずつではなく変換結果全体に作用するように
仕様変更すればいいのかもなのですが、今の仕様を前提に後処理を使っている人が
もしいたら困られるかもしれないです。(まずいないだろうとは思うのですが・・・
大抵代替手段はあると思いますし)
なのでしばらくペンディングにさせてください。
仕様変更されたら困ると言う方がおられればご報告ください。
433
:
663
◆fnwcOWFi56
:2007/03/23(金) 20:19:37
# ペンディングの件理解しました
# お気が向いた時にお願い致します
毎回すみません。
再び要望と正規表現を教えて頂きたく思います。
まずは要望ですが
各種設定をURLに含めるタイプのものに対応して頂けないでしょうか。
具体的な例をあげると
例えば下のスレッド
(1)
http://s.s2ch.net/test/-/wwwww.2ch.net/news4vip/1174582871/1-1001
これだと「省17」等で省略されたり
ID・AASのリンクがついてしまっています。
最下部の設定(「設」)で変更すると
設定はクッキーではなくURLに含まれてしまうようです。
とりあえず下記
(2)
http://s.s2ch.net/test/---.uaY!FROM=&mail=&color=000000+efefef+0000FF+0000FF+FFFFFF&size=3&NG_NAME=&NG_MAIL=&NG_DATE=&NG_MESSAGE=/wwwww.2ch.net/news4vip/1174582871/1-1001
つまり、省略やその他設定を変更するには
URLの
「〜test/-/server.2ch.net/〜」
を
「〜test/---.uaY!FROM=&mail=&color=000000+efefef+0000FF+0000FF+FFFFFF&size=3&NG_NAME=&NG_MAIL=&NG_DATE=&NG_MESSAGE=/server.2ch.net/〜」
に変えればいいみたいです。
見たところ、この文字列は他でも大体同じようなので
htmltodatのほうで対応しては頂けませんでしょうか。
つまり、例えば(1)のURLを入力実行すると
(2)のURLで送信取得するというように。
434
:
663
◆fnwcOWFi56
:2007/03/23(金) 20:41:44
次に、これのdat化について教えて頂けないでしょうか。
URL再掲
http://s.s2ch.net/test/---.uaY!FROM=&mail=&color=000000+efefef+0000FF+0000FF+FFFFFF&size=3&NG_NAME=&NG_MAIL=&NG_DATE=&NG_MESSAGE=/wwwww.2ch.net/news4vip/1174582871/1-1001
これに対する正規表現を考えてみたのですが
メール欄の箇所がうまくマッチしないです。
いちおう考えてみたものは下記
m#(?:<form action=i>|<br><br>)([0-9]+):<font color=forestgreen><b> </b>(.+?)<b> </b></font>(?::(.+?))?:(.+?) <br>(.+?)(<br><br>)#mik
変換結果式はメール欄逆転で。
途中の数レスが変換出来ないですが
beリンクの箇所のようなので、前処理で何とかなると思うです。
問題はメール欄で
メール欄未記入の場合
</font>:2007/03/23(金) 02:01:11.88 ID:hWYzwspD0 <BR>
メール欄に記入されている場合
</font>:sage:2007/03/23(金) 02:22:50.98 ID:CU23YYu/0 <BR>
というように
「</font>」と「:(日付)」の間にメール欄が(ある場合は)入るのですが
これはどのように切り分ければ良いのでしょうか。
435
:
◆/vmukiyuzw
:2007/03/24(土) 00:34:13
>>433
htmltodat流にやるなら、やっぱ正規表現を指定して変換するとかでしょうかね。
たとえば
s#(
http://s.s2ch.net/test/)-(.*)
#$1---.uaY!FROM=(中略)NG_MESSAGE=$2#
みたいな感じで。
>>434
多少強引ではありますが以下のようなのでどうでしょう。
m#(?:<form action=i>|<br><br>)([0-9]+):<font color=forestgreen><b> </b>(.+?)<b> </b></font>(?::([^/]+?))?:(.+?) <br>(.+?)(<br><br>)#mik
単にコロンとコロンの間にマッチさせようとすると、時刻表示の中のコロンに引っかかって
おかしくなってしまうので、[^/]+?としてみました。
(スラッシュ(日付表示の中に登場する)以外の繰り返し+コロンにマッチさせることで
結果的に時刻表示中のコロンにマッチさせるのを避けている)
これでもメール欄中にスラッシュがあるとまずいのですがまあそんなのは
レアケースだろうということで。
436
:
◆/vmukiyuzw
:2007/03/24(土) 01:01:53
よく考えるとメール欄中にスラッシュというのは本来の使い方からすると
決してレアケースではないはずですね^^;
まあそういう使い方が現状ではレアケースってことで。
437
:
663
◆fnwcOWFi56
:2007/03/24(土) 17:49:31
即レスありがとうございます
> (スラッシュ(日付表示の中に登場する)以外の繰り返し+コロンにマッチさせることで
> 結果的に時刻表示中のコロンにマッチさせるのを避けている)
目からウロコでした。こういう使い方も出来るとは勉強になりました。
URLを正規表現で指定して変換するような機能ですが
あったら嬉しいです。
2chのURLを入力してsnapshotの該当URLに変換するとしたら
s#(http://.+)#
http://p2.chbox.jp/read.php?url=$1/all
#i
とか。
やって頂けたら嬉しいです。
438
:
◆/vmukiyuzw
:2007/03/24(土) 23:58:30
URLを正規表現で変換するような機能なら多分受信オプションに追加して
他のオプションと同様選択とか追加とかできるようにする感じですかね。
しかしまあ個別にオプションを指定するのは汎用的かもしれませんが
面倒かもしれないなと思う今日この頃。
まとめていっぺんに指定(とか保存)とかできるようにしたほうがいいのだろうな
しかしどうやってやればいいのかと考える次第です。
439
:
名無しさん
:2007/03/30(金) 09:50:52
えと、2ch DAT落ちスレ ミラー変換機 ver.4 で検索してその22に目的のスレありました。
その22:ttp://namahage.dip.jp/public/2ch_s/read.asp?url=
http://pc8.2ch.net/test/read.cgi/cg/1147348472/
変換方法教えてもらえませんでしょうか。
スレ違いだったらすみません。
440
:
439
:2007/03/30(金) 11:08:10
色々ググって解決しました。
生禿さんとこは以下でいけるようです。
お騒がせしました。
正規表現
m#<dt>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b> ?(.*?)<dd> ?(.*?)<br><br>(<dt>|</dl>)#mi
前処理
s#(<title>.+?) ?\(\d+\)(</title>)#$1$2#
s#<font color="red">生禿あぼーん</font>#あぼーん#igk
s#(<b>)ナナシ(</b>)#$1$server$2#igk
$server
名無しさん@お腹いっぱい。
441
:
◆/vmukiyuzw
:2007/04/01(日) 15:56:47
# 今年のエイプリルフールは特に何もないようなので・・・
バージョンアップしました。(0.8.11)
・受信オプション設定に「URLの変換」を追加。
・変換オプション・後処理の仕様を変更。
出力結果のdat一行ずつに対して作用するようにしていたのを、出力結果全体
に対して作用するよう修正。
また、前処理と同様のwコマンドを追加。
URLの変換については
>>433
,
>>435
,
>>437
参照。
後処理の仕様変更については
>>431-432
参照。
もし変更の影響が出た場合は、sコマンドの最後にgオプションとか付ければ
大抵回避できると思います。
442
:
名無しさん
:2007/04/05(木) 00:57:05
スイマセン。よろしいでしょうか
http://jbbs.livedoor.jp/computer/6306/storage/1169464997.html
上のURLをjbbs過去ログの正規表現で変換しようとしたのですが
[1行が長すぎるか、正規表現が正しくないようです]
と出てしまいます。(他の過去ログも同じ)
自分がやった方法は
1、URLをコピペしてHTML取得
2、一覧表示からjbbs過去ログを選ぶ
3、変換開始 ←ここで[1行が〜]
と出てしまいます。
ちなみに上記以外はどこもいじっていません…
解決策があればお願いします。
443
:
◆/vmukiyuzw
:2007/04/05(木) 01:30:23
>>442
さん
jbbsの過去ログの形式が微妙に変更されているようですね。
あわせて正規表現を以下のように変更してみました。
m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</A>|</FONT>)(?: 投稿日)?: ?(.*?)(?:<BR>)?<DD>(.*) ?<BR><BR>#mik
一応、以前の形式とも互換性を取れるようにしたつもりです。
444
:
名無しさん
:2007/04/05(木) 01:48:50
>>443
夜更けにこのような迅速な対応…感謝します!!
早速使わせていただきました、datも問題なくばっちり一発でしたww
本当にありがとうございますm(__)m
445
:
名無しさん
:2007/04/11(水) 18:19:42
私も
>>442
の、[1行が長すぎるか、正規表現が正しくないようです]
のエラーが出て変換出来ませんが、
>>442
とは別なようでした。
2ch DAT落ちスレ ミラー変換機 ver.4の、その9のsnapshotなんですが
以下のようなアンカの多いレスで失敗しています。
>1>2>3>4>5>6>7>8>9>10
>11>12>13>14>15>16>17>18>19>20
>21>22>23>24>25>26>27>28>29>30
>31>32>33>34>35>36>37>38>39>40
>41>42>43>44>45>46>47>48>49>50
>51>52>53>54>55>56>57>58>59>60
>61>62>63>64>65>66>67>68>69>70
>71>72>73>74>75>76>77>78>79>80
>81>82>83>84>85>86>87>88>89>90
>91>92>93>94>95>96>97>98>99>100
このような場合はどうすればいいのでしょうか?
446
:
445
:2007/04/11(水) 18:28:40
アンカだけでなくURLリンクも多く貼られていると同様です。
447
:
445
:2007/04/11(水) 18:30:02
アンカだけでなくurlリンクも多く貼られていると同様です。
448
:
◆/vmukiyuzw
:2007/04/11(水) 20:21:10
>>445
さん
ミラー変換機その9(snapshot)の変換方法は
http://www.geocities.jp/mirrorhenkan/snapshot/
にまとめられてますが、もちろんこの手順通りに行った結果で
エラーになってるんですよね。
とりあえず、アンカーの多いスレ、URLリンクの多いスレの
(snapshotでの)URLを教えていただけると何とかできるかもしれません。
449
:
445
:2007/04/12(木) 09:18:03
>>448
殿、よろしくです。
ミラー変換機その9のものでもちゃんと変換されるものもありますし、IEでsnapshot開いて
該当スレをフィルタしたものをローカル保存したものであればちゃんと変換されますから
間違いは無いと思います。
ここの605
http://p2.chbox.jp/read.php?host=tmp6.2ch.net&bbs=download&key=1169907405&ls=all
ここの2、3
http://p2.chbox.jp/read.php?url=http://tmp6.2ch.net/test/read.cgi/download/1170602478/all
「read.cgi7.00?」でうまくいかない
http://web.archive.org/web/20050312081450/http://fun.kz/test/read.cgi/tech/1084697545/
450
:
名無しさん
:2007/04/12(木) 20:03:44
『2ch DAT落ちスレ ミラー変換スクリプトについて考える掲示板』
の649、651のにすると上手く変換できたようです。ありがとうです。
fun.kzとアンカーのは変換できましたが、urlリンクの方はfatal error
で失敗します。
ここの2、3
http://p2.chbox.jp/read.php?url=http://tmp6.2ch.net/test/read.cgi/download/1170602478/all
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板