[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
メール
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
1001-
1101-
この機能を使うにはJavaScriptを有効にしてください
|
htmltodatサポートスレッド
469
:
◆/vmukiyuzw
:2007/08/16(木) 02:26:04
>5番目の<>と\nの間を削ればいいんじゃないでしょうか。
4番目の間違いでした
470
:
663
◆fnwcOWFi56
:2007/08/18(土) 18:21:44
>>468-469
その通りで実害はなかったので
>>467
の件取り下げさせて下さい。
失礼しました。
で、別件の要望です。(毎回すみません)
datへの一括変換時に、同名ファイルが存在した場合
現状では「上書き」「保存しない」の二つだけなのですが
「別名で保存」というような選択肢を加えて頂けないものでしょうか。
例えば「1234567890.dat」が存在していた場合は
「1234567890[0].dat」で保存、というように。
471
:
663
◆fnwcOWFi56
:2007/08/18(土) 18:43:58
この機能が欲しい理由ですが
携帯用ページのスレッドをdat化したい時に
あったらラクだなと思ったもので。
http://www.geocities.jp/mirrorhenkan/2ch-i/
上記のページで書いたのですが
「1-10」「11-20」[21-30」等でしか表示出来ない携帯サーバの場合
それぞれのファイルをDLして
datに一括変換させて(ファイル名はそれぞれのレス1の日付からリネーム)
別個スクリプトでファイル名からソートしたテキストファイルを作成して
そのテキストファイルを元に連結すればdatになるのですが
秒数まで表示しないスレッドでなおかつ流れが速いものの場合
同名ファイルが幾つも出てきてしまうです。
例えば下記とか。
http://live.2ch.net/test/read.cgi/endless/1035922530/
これの2ch-imodeでのミラーはこちら
http://2ch-i.net/&/live.2ch.net/endless/1035922530/
これなどはレス数が640なので64個のファイルをDLして変換結合するのですが
同名ファイルになってしまうものが4つ出てしまうので困ってしまうのです。
レス1の日付から生成したファイル名でソート結合していますので
オリジナルファイル名.datでやるのは却って大変です。
で、同名だった場合に「別名で保存」オプションがあったら
例えば
「1234567890.dat」と「1234567890[0].dat」の比較処理等が実に簡単になるのです。
以上のような理由がありますので
一括変換の際の「別名で保存」オプション(名前はどうでもいいのですが)
を、是非実装して頂けたら実に嬉しいです。
472
:
◆/vmukiyuzw
:2007/08/18(土) 22:15:34
まあ難しい話ではないですがこれもいまいち実装するほどのことかなとの
感が否めないです。
自分がやるなら、元ファイルをソートできるようにリネームするアプローチを取るかな?
せっかく「1-10」「11-20」と連番が付いているのですし
最終的にはスクリプトでソートする意図のようなので
そのまえにスクリプトで数字の桁数をそろえてしまえばいいのでは?
473
:
◆/vmukiyuzw
:2007/08/18(土) 22:50:20
ところで、2ch自体でもそうですが
「1-10」が「0001-0010」となっていてもアクセスできますよね。
(まあCGIがそう働いてくれてるだけのことですが)
であればローカルのファイルをリネームするよりURLの一覧のほうを
そう変えてしまうほうがより簡単かもしれませんね。
474
:
名無しさん
:2007/08/25(土) 15:09:43
ほ
475
:
名無しさん
:2007/09/16(日) 18:48:48
御返事遅れて申し訳ないです
>>471
のページの方法で何とかなったと思うです。
さて、早速なのですが
下記3つのhtmlにマッチする正規表現を教えて頂けないでしょうか。
http://●.sarashi.com/htmltodat/1187190494.html
http://●.sarashi.com/htmltodat/1165245437.html
http://●.sarashi.com/htmltodat/1137198532.html
メール欄が日付(+ID)の右にあり、どうもマッチしないです。
下のような正規表現を考えてみたのですが
正規表現
m#<hr>([0-9]+):(.+?):(.+?)(?:\[(.+?)\])?<br>(.*?)(<hr>)#mki
前処理
s#(<title>)29-(.+?</title>)#$1$2#ik
変換結果式
$2<>$4<>$3<>$5<>
メール欄が無い場合にはマッチしないのです。
どこがよくないのでしょうか?
また、前処理でまだ色々やらなければいけないと思うのですが
とりあえずスレッドタイトルだけつけてみたら
どうも機能してないみたいです。
どこがまずいのか教えて頂けないでしょうか?
476
:
名無しさん
:2007/09/16(日) 18:49:58
>>475
で出したURLですが
「●」を「mirror」に変えて読み出して下さい。
477
:
◆/vmukiyuzw
:2007/09/17(月) 00:11:24
変換結果式を入れなければ(順番はおかしいですが)正しく変換されるので
変換結果式の処理にプログラム側にバグがあるようです。
でもぱっと見た限りではどこがまずいのかわからない・・・
時間があるときに見てみますが、とりあえず変換結果式を使わず後処理で
s#(.*?)<>(.*?)<>(.*?)<>(.*?)\n#$2<>$3<>$1<>$4\n#igk
とかで対処できないでしょうか。
(やってることは変換結果式と同じはずなんですがなぜ結果が異なるのか
まだわかりません)
なお、NGワードは設定していないので伏字でないと書けない理由はわかりません。
478
:
◆/vmukiyuzw
:2007/09/17(月) 01:00:39
原因はわかりました。
変換結果式で変換するときも内部的にはsコマンドで変換しているのですが
$4はふつう日付ID欄で空白なことはないだろってことで(.*?)でなく(.+?)にしてました。
しかし$4にメール欄(空欄あり)がきてしまったのでマッチしなかったようです。
まあ次の機会にでも修正します。ちょっと副作用が怖いですが。
479
:
名無しさん
:2007/09/17(月) 19:39:31
>>477-478
ありがとうございます
対処法がわかれば何とかなりそうです。
とはいえ、やはり変換時のプレビュー表示が気になりますので
お時間のある時にツール内部の対処をして頂ければ嬉しいです。
480
:
◆/vmukiyuzw
:2007/09/17(月) 20:54:16
>>479
たいした修正でもないので片付けちゃいました。
バージョンアップです。(0.8.13)
・変換オプションの変換結果式が正しく作用しない不具合を修正。
今回の修正は
>>477-478
の不具合の対応のみです。
481
:
名無しさん
:2007/09/24(月) 15:23:13
23chのスレッドに貼られてるリンクが経由してしまいます
482
:
◆/vmukiyuzw
:2007/09/24(月) 23:42:51
>>481
すみません、私の能力では解読不能です。
・具体的なURL
・使用した正規表現
・発生する(困っている)事象
についてもう少し詳しく書いていただけると
何とかできる可能性もありますけど。
483
:
名無しさん
:2007/09/27(木) 02:29:47
お世話になります
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku1.html
これとdatにしたいのですが、どのようにすればいいのでしょうか?
484
:
◆/vmukiyuzw
:2007/09/27(木) 20:43:37
>>483
さん
HTMLの形式を見るとかつてのmakimo.to(にくちゃんねる)のログを
HTML形式で保存したもののようですね。
このスレでの最新の情報としては
>>362
でどうでしょうか。
485
:
名無しさん
:2007/09/29(土) 02:01:33
ありがとうございます。上記のアドレスは問題なくdat化できました
が、下記のがうまくいきませんでした。
宜しくお願いいたします
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku2.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku3.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku4.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku5_1.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku5_2.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku6.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku7.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/002.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/003.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/004.html
486
:
◆/vmukiyuzw
:2007/09/29(土) 19:15:08
>>485
そこのサイトのログはいろんなところから集められたもののようで
1種類の正規表現で全部変換するのは無理です。
とはいっても何種類かのパターンに分類できるようで。
・keiyaku2.html
・keiyaku3.html
・keiyaku4.html
・keiyaku5-2.html
・002.html
・003.html
↓
m#<dt><a.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</b>).*?:(.*?)<dd>(.*)<br><br>#mi
・keiyaku5-1.html
↓
m#<dt><a.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</font>).+?<span class="date"> ?(.*?)</span></div><dd>(.*)<br><br>#mi
・keiyaku6.html
・keiyaku7.html
↓
m#<a href="menu.+?">([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</span>).+?<span class="date"> ?(.*?)</span></div><div class="mes">(.*)</div>#mi
・004.html
↓
既存の正規表現「read.cgi7.00?」か「DAT2HTML0.26」
でそれぞれ変換できると思います。
# 各ログの元の出所が知りたいところではあります
487
:
名無しさん
:2007/09/30(日) 01:30:52
>>486
大変お世話になりました
ログの出元はわかりません、もうしわけないです。
ありがとうございました!
488
:
名無しさん
:2007/10/05(金) 18:02:19
このスレをdatで欲しいのですがどのような正規表現や加工を行えばよいのでしょうか?
http://mentai.2ch.net/whis/kako/994/994109037.html
ご教示よろしくお願いします
<各URL>
http://academy2.2ch.net/test/read.cgi/whis/994109037/
http://mentai.2ch.net/test/read.cgi/whis/994109037/
Jane Doe Style 2.7.5.0
htmltodat 0.8.13
489
:
名無しさん
:2007/10/05(金) 18:12:08
あれ?上のURLで開けてしまいました。
多分Janeを再起動したことより開けたのだと思います
という事で自己解決してしまったのですが、
時折スレを補完してるサイトで
ttp://uploader.fam.cx/img/u27240.jpg
が上部に付いてる形式でそのまま補完してるところがあります
そういった場合の整形方法を後学のため教えていただけますか?
490
:
◆/vmukiyuzw
:2007/10/05(金) 19:45:52
>>488-489
さん
http://mentai.2ch.net/whis/kako/994/994109037.html
↑
こういうURLで2ch側でhtml化されているものは基本的にはdatでも
保存されてますので大抵の2ch専用ブラウザでは読めるはずです。
(最後「html」を「dat.gz」にすればdatとして読める)
datが入手できずhtmltodatを使う必要がある場合は正規表現「sample」で。
> ttp://uploader.fam.cx/img/u27240.jpg
> が上部に付いてる形式でそのまま補完してるところがあります
datに変換する上では無視されますので事前整形等の必要は
ないはずですが。
491
:
名無しさん
:2007/10/05(金) 20:12:18
>>490
>>488
については多分Janeのバグ(といっても全く実害の無いレベルのもの)だったのかと思います
色々試した後のJane再起動でいつの間にか直ってました
スレ汚しでホント恥ずかしいです
以前(確か2004〜05年頃だったかな?)、見かけたスレ補完庫の中に
いわゆるu27240.jpgの過去ログ.htmlで保存してて、htmltodatで変換出来ない物があり
今回恥の上塗りついでに質問しました(黄色いジャージを着た女性のバナーがあったので多分大人の時間の半角板だと思います)
もしもう一度そこに出会うことがあったなら、現在のverでかつ
◆/vmukiyuzwさんから教えていただいた『正規表現「sample」』で行ってみたいと思います
◆/vmukiyuzwさんありがとうございました
492
:
◆/vmukiyuzw
:2007/10/17(水) 23:26:38
htmltodatをバッチコマンド的に動作させる構想を持っていたのですが
以下の理由で見送りたいかなと思っています。
・かなり大きな修正になってしまうため自分のスキルが足りない
・もしできたところで、外部スクリプトの助けを借りずには動かすことは
困難と思われる。今でさえ使うのは簡単ではないのにさらにハードルを
あげると、使いこなせる人はほとんどいなくなると思う
・p2todatを使えばできることが多いと思うのでそっちを使ったほうが楽
てなとこでしょうか。
まあ自分は自分のできる範囲で地道にやっていこうと思います。
493
:
663
◆fnwcOWFi56
:2007/10/21(日) 11:50:07
いつもお世話になっております。
早速ですが下記URL
http://www.23ch.info/test/read.cgi/morningcoffee/1192437916/
正規表現は「read.cgi.7.00?」で変換出来ますし
読んでみても問題なさそうな感じがしますが
変換直後に
「レス 60-372 の間が変換できていません」
と出ます。
実用上問題は無さそうな感じはしますが
何故このメッセージが出るのでしょうか?
494
:
663
◆fnwcOWFi56
:2007/10/21(日) 12:24:59
あ
自分の正規表現を変えてあったのが原因みたいでした
m#<DT.*>(?:<A.*?>)?([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>) ?:(.*?)<DD>(.*)<BR><BR>#mik
上のものに変えていたのですが
元々のものに直してみたらエラーが出なくなったです。
>>493
は取り消させて下さい。
失礼しました。
495
:
◆/vmukiyuzw
:2007/10/21(日) 21:28:45
>>493-494
m#<DT.*>
ここが最長一致になっている(*の後に?がない)のが原因だと思われます。
「レス 60-372 の間が変換できていません」のエラーは$1が連続した数値かどうかで判断しているのですが
ご指摘のスレの場合、たまたま371番目のレスが名前欄が60-で始まるIPアドレスになっており
最長一致のためここを$1であると解釈してしまったようです。
(プレビュー欄を見ても371番目のレス番が60になっている)
まあ難しい部分で仕方ないかなと思います。
496
:
663
◆fnwcOWFi56
:2007/10/22(月) 18:56:34
なるほど、疑問氷解です。
ありがとうございました。
497
:
<削除>
:<削除>
<削除>
498
:
663
◆fnwcOWFi56
:2007/11/18(日) 12:48:15
要望ばかりで何ですが
また要望です
透明あぼーんされたレスの箇所を
わかるような形でdat化出来るようにして頂く事は出来ないでしょうか。
例を出すと
http://www.geocities.jp/futasuke5/bbs/1061523335_part1
この↑スレッドですが「read.cgi.7.00?」でdat化できますが
設置された方が荒らしレスを削除してアップしているようです。(例えばレス54など)
ですので
もしレス番で欠けているものがあったら
例えばその箇所に
「あぼーん<>あぼーん<>あぼーん<>あぼーん<>」
等を置換(?)出来るようにして頂けたら有り難いです。
失礼しました。
499
:
◆/vmukiyuzw
:2007/11/18(日) 22:02:05
>>498
(「面倒だと思われるのでしたらいいです」ということですので)
多少面倒なんで、気が向いたらそのうちという事にさせてください。
「jbbs過去ログ」とか利用されている方は結構こういう経験されて
いるかなとも思うのでそちら方面からニーズが出てきたらまた考えます。
500
:
名無しさん
:2008/01/03(木) 12:04:49
年始から失礼します。今年もよろしくお願いします。
http://makimo.to:8000/i/d.cgi/livebase/2ch.net/live24/1187671540/
http://makimo.to:8000/i/d.cgi/livebase/2ch.net/live24/1187693406/
こいつをdatにするには、どうしたらいいでしょうか。
501
:
◆/vmukiyuzw
:2008/01/04(金) 00:23:31
>>500
さん
これは私よりも 663 ◆fnwcOWFi56さんの領域ではないかと。
で、こちらで考えてくださっているのでご確認ください。
http://yy14.kakiko.com/test/read.cgi/mirror/1186175383/412-
502
:
◆/vmukiyuzw
:2008/01/04(金) 21:59:51
>>
http://jbbs.livedoor.jp/bbs/read.cgi/computer/21256/1164941934/521
きっちり線引きなんてできないとは思いますが
少なくともミラー変換機で取得できる範囲に関しては
私より663さんのほうが優れてると思います。
今回の500の質問についても、調べようと思ったら
663さんの板ですでに回答出てましたし。
ご自分で見つけられたミラーなので、私より先に
正規表現等考えられてるケースが大半です。
本来の私の領域はというとやはりニッチなとこです。
もともと個人的なまとめサイトあたりをターゲットに
してましたから。
503
:
名無しさん
:2008/01/21(月) 04:19:56
初めまして。便利なツールでよく使わせて貰ってます。
早速ですが質問です。
http://fllaykunan.run.buttobi.net/kakolog/index.html
なるところがありまして、比較的新しいところ
http://fllaykunan.run.buttobi.net/kakolog/M003.html
については「read.cgi7.00?」で変換可能なのですが、
古めの
http://fllaykunan.run.buttobi.net/kakolog/1001.html
http://fllaykunan.run.buttobi.net/kakolog/1012.html
などが変換できません。
名前欄やメール欄、日付の形式などの書き方が違うせいだと思われますが、
このような場合の変換式はどうなるのでしょうか?
よろしくお願いします。
504
:
◆/vmukiyuzw
:2008/01/22(火) 01:25:27
>>503
さん
正規表現:
m#<DT><A.+?>([0-9]+).+?<b>(.*)</b></FONT>\[(.*?)\] :(.*?)<DD> (.*)(:? <BR><BR>|<font)#mik
変換結果式:
$2<>$3<>$4<>$5<> (←「メール欄逆転」)
このHTMLはDAT2HTMLでJane風のスキン(メール欄が[ ]で見える)を被せて
変換したもののように思えます。
たぶんこのサイトでメール欄が名前欄の後に [sage] とかなってるスレには
ほぼ適用できるかもです(保証はしませんが)。
あと1001.htmlは最後の1レスがちょっと変ですがこれは元からそうなので
ご容赦ください。
(この1レスをそれなりに処理するためだけに正規表現の最後に|<fontを入れました)
505
:
503
:2008/01/22(火) 04:23:46
>>504
とても迅速な対応ありがとうございました。
おかげさまで無事変換できました。
506
:
◆/vmukiyuzw
:2008/01/27(日) 02:54:10
外部コマンド Part6
http://jane.s28.xrea.com/test/read.cgi/bbs/1200747725/103
htmltodatのレス1からdatファイル名を算出する機能がもしかしたら使えるかなと思って
試してみたのですが、出てきたのは微妙に違うスレ番号。
htmltodatのバグかも知れないと思い調べてみたのですが、よくよく見ると
レス1の投稿日の日時とJaneで表示されるsince(スレ立て日時)がぜんぜん違います。
他にもいくつかのスレを見てみましたがどれも違っている模様。
なぜこういう現象が起きるのかはわかりませんが、少なくとも「Jane総合掲示板」では、
レス1の投稿日時とdatのスレ番号は一致するとは限らない(というか基本的に
一致しないのか?)ようです。
まあ外部板ですしそういうことがあっても仕方ないのかもしれません。
ということでhtmltodatとしても外部板ではこの機能(レス1からdatファイル名を算出する機能)
は保証しません、と言うしかないです(うまくいく外部板もあるかもしれませんが)。
507
:
名無しさん
:2008/02/19(火) 04:47:53
初めまして、お世話になります
dat2Xhtmlからのdat化は可能でしょうか?
具体的には以下のスレッドをdat化したいのですが
正規表現がわかりません
http://www10.atwiki.jp/pv-3?cmd=upload&act=open&pageid=15&file=1152788885.html
Jane Doe Style 2.76
508
:
◆/vmukiyuzw
:2008/02/19(火) 21:53:17
>>507
さん
dat2XHTMLというのは寡聞にして知りませんでした。
Macもサポートしてるのかと思って見てみたらJavaで作られてるようですね。
いつ頃作られたのだろう?なかなか興味深い。
ともあれ、HTMLの形式としては比較的シンプルなように見えたのでやってみたのですが
レス番ポップアップ機能を使えるようにするためにレス本文中に若干余計なものが入っており
それを取り除くのに若干前処理が必要となりました。
正規表現:
m#<div>([0-9]+)<a id.+?<span class="name">(.*?)</span>(?:<span class="mail"> ?&lt;(.*?)&gt; ?</span>)?<span class="time"> : ?(.*?)</span></div><div class="res">(.*) </div><p />#mik
※↑ブラウザの表示の関係で化けてしまうので2箇所の全角アンパサント(&)は半角に変えてください
前処理:
s#<a href="\#res.*?"resClear\(\)">##igk
変換結果式:
$2<>$3<>$4<>$5<> (←メール欄逆転)
509
:
507
:2008/02/20(水) 02:24:06
無事dat変換に成功しJaneで認識できました。
ありがとうございました!
510
:
名無しさん
:2008/03/08(土) 17:15:38
はじめまして。
変換方法read.cgi7.00?でdatファイルを作りました。
変換方法は、そのスレで聞いて選びました。
ギコナビVersion バタ56(1.56.2.724)<IE>6.0.2800.1106
のログフォルダにそのdatファイルを入れると、
取得したログは1001で、1001まで読むことが出来るのですが、
なぜかギコナビのカウント数が違う数字で出ます。
中にはカウント0の物もあります。もちろん1001までログはあるので読めるのですが、
読めるのだから問題なければいいのですが、そのうちカウント数のログまでしか読めなくなる……
なんて事にはならないか心配です。
もしかしたら、
>>85
さんと症状が似てるのかもしれませんが、
再起動しても変わりませんでした。
だれか、教えてください。
511
:
◆/vmukiyuzw
:2008/03/08(土) 23:32:08
>>510
さん
もしdat変換が正しくできているのであればこれはhtmltodatの問題ではなく
ギコナビ側の問題になると思うのですが・・・
私自身ギコナビを常用していないのではっきりしたことはいえないのですが
カウント数が違うとかいうのは既得のログがありそれに上書きしたような
状況じゃないんでしょうか。であれば.idxファイルとの不整合が出ていることが
考えられます。(どうすれば整合性が戻せるのかはわかりませんが)
> そのうちカウント数のログまでしか読めなくなる……
そのようなことは考えにくいので実害がなければ気にしないのが一番ですかね。
もしどうしても気になるならギコナビのスレで聞かれたほうがいいかもしれません。
512
:
510
:2008/03/09(日) 14:05:57
>>511
さんありがとうございます。
おっしゃるとおり既得のログがあって、先に削除してから貼り付けたのですが
なぜかもともと持ってたカウント数のままでした。
ログが消えることが無いようでしたら、このままでいいかなと思ってます。
ありがとうございました。
513
:
名無しさん
:2008/03/14(金) 03:26:06
これらのスレをdatで欲しいのですがどのような正規表現や加工を行えばよいのでしょうか?
http://x96.s35.xrea.com/log34/1.html
http://x96.s35.xrea.com/log23/1.html
ご教示よろしくお願いします
Jane Doe Style 2.7.6.0
htmltodat 0.8.13
514
:
◆/vmukiyuzw
:2008/03/14(金) 20:07:11
>>513
さん
正規表現:
m#<dt><a name.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)</dt><dd> (.*?) <br><br></dd>#mik
しかしこれはどうやってHTML化したものか、微妙に独特な代物で出所が気になります。
結果吐かれるHTML自体はシンプルなんで正規表現を書くのは簡単でしたが。
515
:
名無しさん
:2008/03/15(土) 01:38:21
>>514
ありがとうございました。
無事変換できました。
516
:
名無しさん
:2008/03/19(水) 15:51:39
2chではないのですが、このタイプの変換はできますでしょうか?
ttp://www.alfheim.jp/~narikiri/narikiri/TheSun/kako/1120/1120999050.html
ヨロシクお願いします。
517
:
◆/vmukiyuzw
:2008/03/19(水) 23:02:15
>>516
さん
なりきり太陽板の過去ログですか。
HTMLの形式自体はシンプルなのですがこれまた微妙にタグの位置とかが他と異なり
既存の正規表現を使い回すことはできませんでした。
m#<dt>([0-9]+).+?<b>(?:<a href="mailto:(.+?) ">)?(.+?) (?:</b></font>|</a></b>) 投稿日:(.*?)<dd> (.*?) </dt>#mik
518
:
名無しさん
:2008/03/19(水) 23:28:37
>>517
ありがとうございました。
無事変換できました。
519
:
名無しさん
:2008/03/20(木) 14:44:28
何度やってもエラーを吐かれてしまうのですが、
これを変換するにはどうしたらよいのでしょう?
よろしくお願いします。
http://rejec.net/~boc/log/1086253475.html
520
:
◆/vmukiyuzw
:2008/03/21(金) 01:33:22
>>519
さん
正規表現:
m#<dt>([0-9]+).+?<b>(.+?)</b></font>(?:\[(.*?)\]) :(.*?)<dd>(.*)<br><br>#mik
変換結果式:
$2<>$3<>$4<>$5<> (←メール欄逆転)
これはDAT2HTMLにスキンをかぶせてHTML化したものかな?あんま自信はないですが。
しかし見た目は変わらないのに微妙に形式が異なるHTMLがいろいろあってなんだかなあと
ちょっと思ってしまいます。まあもともとそういうのに対応するために作ったソフトなんで
仕方ないかなというところはあるのですが。
あと、できればage書き込みはやめていただきたいです(板TOPにくると業者さんの無差別
書き込みに合う可能性が高いようなので)。ageなくとも専ブラでチェックしてますんで。
521
:
名無しさん
:2008/03/22(土) 17:35:44
>>520
ageてしまい申し訳ございませんでした。
無事変換できました。ありがとうございます。
こちらもお願いできませんでしょうか。
http://rejec.net/~boc/log/1084808536.html
どうやらmailtoに全角文字が入ってるところから表示がおかしくなっているようなのですが・・・。
522
:
◆/vmukiyuzw
:2008/03/23(日) 00:19:10
>>521
さん
正規表現「DAT2HTML0.26」に少し問題がありました。
確かに仰るとおりmailtoに全角文字が入ってるとこがおかしくなるので
まさか正規表現エンジンのバグかと思い焦ったのですが・・・
よく見ると、DAT2HTMLの仕様なのか、mailto欄の長さにより日付欄の前の改行位置が
まちまちになり、その影響で半角スペースが余分に付加されてマッチしなくなってたようです。
m#<DT>(?:<A.*?>)?([0-9]+).+?(?:<A href="mailto:(.+?)">)?<B>(.*?)</B>(?:</A>|</FONT>) *?:(.*?)<DD>(.*)<BR><BR>#mik
↑
「DAT2HTML0.26」から変えた部分は、日付欄にマッチさせる「:(.*?)<DD>」の前の
半角スペースに「*?」を足したとこです。
(今までの「DAT2HTML0.26」とも互換性はあると思います)
あと、ageの件はスレに強制sageというものが設定できることがわかり早速設定したので
今後は気にしなくていいです。
# て早速業者さん来てるし(笑
523
:
名無しさん
:2008/03/23(日) 02:15:28
>>522
全角が問題ではなかったんですね。
どうもありがとうございました。
524
:
◆/vmukiyuzw
:2008/03/23(日) 02:43:25
あー、勘違いだったかも
DAT2HTMLの仕様ではなく、DAT2HTMLでUPされたHTMLを
(多分)IEでダウンロードして、それを再度アップロードしたもののようです。
余分な半角スペースはIEダウンロードの時点で付加されたものかと。
まったく(何度も書いてますが)いらんことをしてくれるものですなぁ・・・。
525
:
名無しさん
:2008/03/31(月) 21:45:45
ttp://yb9-c25.hp.infoseek.co.jp/log/tamura6.html
ttp://yb9-c25.hp.infoseek.co.jp/log/tamura3.html
ttp://yb9-c25.hp.infoseek.co.jp/log/tamura4.html
上記スレを変換するにはどうしたらよいのでしょう?
よろしくお願いします。
526
:
◆/vmukiyuzw
:2008/04/01(火) 00:33:17
>>525
さん
m#<DT>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?)</b>(?:</a>)?</font>.*?投稿日: ?(.*?)<DD>(.*)<BR><BR>#mik
これまたどうやってHTML化したものか独特な代物です。
形式自体はシンプルなので他の正規表現が流用できないかと思ったのですが
微妙に形式が合わず、結局別の正規表現を書いたほうが早かったです。
あと、これらのHTMLにはスレタイの情報がどこにもありません。
自力でdatに書き足すか、情報ファイルに書き足すかしてください。
(datに書き足すなら、スレ一行目の一番最後に書き足す)
527
:
名無しさん
:2008/04/01(火) 00:40:34
>>526
自分でも正規表現をかけると良いのですが、
どうも切り出し方がよくわからずにたよってしまいます。
ありがとうございました。
528
:
名無しさん
:2008/04/14(月) 21:16:59
http://www6.atpages.jp/puyopuyokaku/%83%8d%83O/%82
Ղ%e6%82Ղ%e6%82Ƃ%a9%95`%82%ad12.html
このようなスレでは無理でしょうか?
よろしくお願いします。
Jane Doe Style 2.7.7.0
htmltodat 0.8.13
529
:
名無しさん
:2008/04/14(月) 21:25:04
http://www6.atpages.jp/puyopuyokaku/%83%8d%83O/%82?%e6%82?%e6%82?%a9%95
`%82%ad12.html
こっちでした。すみません
530
:
名無しさん
:2008/04/14(月) 21:30:45
上手く表示されないようです。
何度もすみません。
http://www9.atwiki.jp/puyopuyokaku/pages/38.html
ここにある過去ログです。
よろしくお願いします。
531
:
◆/vmukiyuzw
:2008/04/15(火) 23:59:19
>>530
さん
なぜか11スレ目だけ形式が違いますね。あとはこんなんでいけるかと
m#<a href="menu:.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</span>).*?<span class="date">(.*?)</span></div><div class="mes">(.*?)</div>#mik
11スレ目はなんかちょっと面倒そうなので考えます。
532
:
◆/vmukiyuzw
:2008/04/16(水) 23:11:53
11スレ目のみ
正規表現:
m#<dt.*?><a.*?><font.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*)</b>(?:</font>|</a>) ?:(.*?)<dd id.*?>(.*?)<br><br>(<a *?id.*?>|</dd>)#mi
後処理:
s#<A onmouseover.+>##gik
本文中にレスアンカーがあると<A onmouseover〜が入ってくるので
これを取り除くのに後処理が必要になりました。
(というか前処理でもいいはずなんですがうまくいかなくて手こずりました。
なぜうまくいかないのかわかりません・・・)
いずれにせよ、<!-- saved from〜>タグが2つもあったりして流浪の末に
できたHTMLなんだろうと。出所を解明する気にもなれないです。
533
:
◆/vmukiyuzw
:2008/04/16(水) 23:49:41
あー後処理間違えた〜
s#<A onmouseover.+?>##gik
ボケてました。失礼。
534
:
◆/vmukiyuzw
:2008/04/17(木) 02:30:11
前処理でも対処できる方法を見つけました
s#<A onmouseover(.|\n)+?>##gik
しかしなぜ.(ドット)は改行(\n)にマッチしてくれないのか
オプションのmを使ってもうまくいかないようだし
535
:
◆/vmukiyuzw
:2008/04/17(木) 02:56:11
さらに修正
s#<A( |\n)*?onmouseover(.|\n)+?>##gik
あと、<img 〜>(画像)があるんだけどどうしよう。
ブラウザによって扱いが違うだろうしとりあえず
放置しますか。
536
:
◆/vmukiyuzw
:2008/04/17(木) 23:12:23
>>530
さんへのレスがなんかごちゃごちゃしてきたのでまとめると
・11スレ目以外は
>>531
で多分OK
・11スレ目のみ
前処理:
s#<A( |\n)*?onmouseover(.|\n)+?>##gik
正規表現:
m#<dt.*?><a.*?><font.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*)</b>(?:</font>|</a>) ?:(.*?)<dd id.*?>(.*?)<br><br>(<a *?id.*?>|</dd>)#mi
但し11スレ目には<img 〜>タグが存在するため使用する専ブラによっては
表示が変になる可能性あり
てなところで。
537
:
名無しさん
:2008/04/25(金) 03:13:39
ttp://www.42ch.net/UploaderSmall/source/1209059921.dat
上記のような形式のスレを変換させるにはどうすれば良いでしょうか?
試行錯誤してみたものの[]内が空白になってしまったりと上手くいきませんでしたorz
538
:
◆/vmukiyuzw
:2008/04/25(金) 20:05:09
>>537
さん
正規表現:
m#<DT><A.+?>([0-9]+).+?<b>(.*)</b></FONT>\[(.*?)\].*?:(.*?)<DD> (.*)(:? <BR><BR>|<font)#mik
変換結果式:
$2<>$3<>$4<>$5<> (←「メール欄逆転」)
>>503-504
の形式と似ているなあと思ったらやっぱりDAT2HTMLで変換したものでした。
>>504
で書いた正規表現をちょっと修正して、かつ互換性が取れるようにしてみました。
これで同様のスキン適用のHTMLには使えるかも。
# スキン適用で変換したHTMLは、どのスキンを使用しているのか
# 例えばmetaタグとかで表記してくれていると個人的にはうれしいですな
539
:
537
:2008/04/26(土) 01:16:22
>>538
素早い対応ありがとうございました。
あと537のは変換書式を少し弄ってJane風にしているだけでスキンは適用していないそうです。
540
:
名無しさん
:2008/04/26(土) 21:54:49
>>536
わざわざ、ありがとうございます!助かりました!
541
:
◆/vmukiyuzw
:2008/04/26(土) 21:57:59
DAT2HTMLの最新版(0.35a)を落としてみましたが
変換書式の設定で
・メールアドレスを直接表示する(OpenJane方式)
・日付欄に「投稿日」の文字列を付加する
等のオプションがいつのまにか追加されてるようで
このへんを弄くると
>>503
とか
>>537
のようなHTMLになるようですね。
いずれにせよ大抵は
>>538
で対応可と思います。
(「メール欄逆転」が必須なのが多少うっとうしいですが)
イレギュラーなものが出てきたらまたその都度考えるしかないので・・・
542
:
名無しさん
:2008/05/01(木) 17:44:15
最新のregexps.txtまとめって無いのでしょうか?
このスレ読んでてもごちゃごちゃになってよくわかりません
543
:
◆/vmukiyuzw
:2008/05/01(木) 20:05:24
>>542
さん
基本的に、regexps.txtには自分で必要なものを入れて使ってくださいというスタンスなので
おっしゃるような「まとめ」的なものは存在しないと思ってください。
そもそもデフォルトで添付してるものも「単なるサンプルです」とreadmeに明記してます。
regexps.txt自体は単なるデータなのでその内容は著作物の範囲外だという考えです。
実際私以外の方がこのスレに書き込んでくださっているケースがありますし。
544
:
◆/vmukiyuzw
:2008/06/05(木) 22:03:28
バージョンアップしました。(0.8.14)
・変換オプションに「透明あぼーんを補う」を追加。
・変換オプション「アンカー削除」で<a href〜>形式のタグしか削除してなかった
のを<a 〜>全般を削除するよう修正。
「透明あぼーんを補う」は、dat変換中にレス番号の飛びを検出したときに
変換結果のdatに「透明あぼーんかも」という行を自動的に必要な数だけ生成します。
ただ、レス番号の飛びの検出は正規表現が正しくない場合にも起こり得るので
警告ウィンドウは以前同様出すようにしています。本当に透明あぼーんなのか
どうかはHTMLソースと正規表現を見比べて確認してください。
また、プレビュー欄には自動生成された行を表示するのはあまり意味がないと思った
ので表示していません。
「アンカー削除」については<a href〜>以外の形式もあるとのご指摘をうけ修正。
ただ、この処理はdat変換後に行っているので、前処理でaタグ関連の加工を行って
いる場合、完全にその代替にはならない場合がありますのでご容赦ください。
545
:
名無しさん
:2008/06/18(水) 03:47:52
http://www.geocities.jp/f4cq4/erg_story/log/1128496422.html
http://www.geocities.jp/f4cq4/erg_story/log/1141041553.html
http://www.geocities.jp/f4cq4/erg_story/log/1161458665.html
http://www.geocities.jp/f4cq4/erg_story/log/1168569791.html
http://www.geocities.jp/f4cq4/erg_story/log/1186203273.html
これらの正規表現がよくわかりません
よろしくお願いします
546
:
名無しさん
:2008/06/18(水) 16:18:27
ttp://ninjax.dreamhosters.com/hgame_hgame2/index.html
上記のサイトのログを変換するのに「なんだっけ…」が
一番まともに変換できたので、これを元に試行錯誤してみました
↓これで一応変換できたのですが、sageてないレスがうまく変換できません
m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B>(?:</B>)?(.*?)(?:</A>)?</B>.{6}(.*?)<DD>(.*)<BR><BR>#mi
できれば理屈も教えて頂ければと思います
よろしくお願い致します
547
:
◆/vmukiyuzw
:2008/06/18(水) 21:57:45
>>545
さん
1番目と4番目にはhtmlの形式に見覚えがありました。
>>531
と同じ正規表現でいけるかと。
2,3,5番目は見たことない形式でした。
ほぼ同じ形式なのですが細かいとこが微妙に異なり
一発のパターンでマッチさせるのにやや手こずりました。
m#<dt><INDEX/>(?:<a .*?>)?([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</font>)?</font>.*?:(?:<DATEONLY/>(?:<a .*?">)?<COLORINGID.+?>)?(.*?)(?:</a>)?</dt><dd>(.*?)<br><br></dd>#mik
なお2番目と3番目には「投稿日」の情報がそもそも含まれてませんので
dat変換しても表示させることは出来ません。
548
:
◆/vmukiyuzw
:2008/06/18(水) 23:26:56
>>546
さん
まず、投稿日欄の前の.{6}が問題です。
sage(というかメール欄の有無)がある場合とない場合では、名前欄の後の</b>の後が
</a>になるか</font>になるか変わって来ますので、ここの文字数を固定するとまずいです。
推奨としては(?:</a>|</font>):
(</a>か</font>のどちらかがあってその後に:(全角セミコロン)がくるものにマッチ)
がよいのではないかと。
あと、名前欄の部分の<B>(?:</B>)? ですが、トリップありの名前にマッチさせようというのだと思いますが
トリップの前の</b>が消えてしまうと本当のトリップかどうか表示上わからなくなり困るのではと思います。
また、必ずしも名前欄の先頭からトリップが書かれるとは限りませんし。先にコテハンを書くような人もいるでしょう。
(この場合<b>コテハン</b>トリップ<b><b>みたいになると思います)
で、名前欄へのマッチパターンの推奨としてはシンプルに<b>(.*)</b> ←最長一致にする(*に?をつけない)のがミソ
# 実は単純に最長一致ではまずいケースもあるのですが説明長くなってしまうので省略
とこの辺まで書いてきてふと試してみると、あれ?既存の「DAT2HTML0.26」で変換できるような・・・
いやご自分で試行錯誤されたことは決して無駄にはならないと思いますが。
549
:
名無しさん
:2008/06/19(木) 00:05:04
>>547
ありがとうございました
残りはp2datやo2onなどを使用して補完したいと思います
550
:
546
:2008/06/19(木) 09:45:42
>>548
た、確かに「DAT2HTML0.26」で変換できました
て言うか「jbbs過去ログ」でもできるみたいです
確か、上から順番にやって「read.cgi7.00?」で「応答なし」になって強制終了
次に下からやって「DAT2HTML0.26その2」までやって「1行が長すぎるか...」になったので
あきらめてしまっていたようです
大変申し訳ありませんでした
551
:
名無しさん
:2008/06/20(金) 06:05:23
暇つぶし2ch(mobile.seisyun.net)の正規表現よろしくお願いします
したらば(www)m#<DT>(?:<a .+?>)?([0-9]+).+?(?:mailto:(.+?)>)?<B>(.*?(?:</b><font .*?)?</b>).*? (.*?)<BR>.+?<DD>(.*)<br><br>#mi
はそれっぽいのですが不完全でした
http://mobile.seisyun.net/cgi/read.cgi/namidame/namidame_news_1202561507
552
:
663
◆fnwcOWFi56
:2008/06/20(金) 06:48:04
>>551
さん
http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/756n
でどうでしょうか。
ただ、今試してみると
名前の前に半角スペースが残っているみたいなので
気になる場合は正規表現を
m#<dt.*?>([0-9]+).+?<b> ?(.+?)</b>(?:</font>|</a>)(?: <small>mailto:(.+?)</small>)? <small>\[(.*?)\]</small><dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi k
に変えてみてもいいかもです
553
:
名無しさん
:2008/06/20(金) 07:18:40
上手くいきました!ありがとうございます
今後、困ってる人が検索・抽出で見つけられる様にこちらにまとめますと
暇つぶし2ch(
http://mobile.seisyun.net/
)のdat化はこうですね
正規表現
m#<dt.*?>([0-9]+).+?<b> ?(.+?)</b>(?:</font>|</a>)(?: <small>mailto:(.+?)</small>)? <small>\[(.*?)\]</small><dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi k
変換結果式
メール欄逆転
554
:
◆/vmukiyuzw
:2008/06/20(金) 20:33:08
# 皆様早起きですねえ
ところで、
>>548
で
> で、名前欄へのマッチパターンの推奨としてはシンプルに<b>(.*)</b> ←最長一致にする(*に?をつけない)のがミソ
とか書いちゃったんですが、実際には自分が書いてる正規表現では
最短一致を使ってました。実はあまり意識してなかったんですが。
なんで最短一致でもうまくいくか考えてみると。
例えば「DAT2HTML0.26」だと、マッチさせるhtml側のパターンは
<b>名前</b></a>
もしくは
<b>名前</b></font>
のように、名前欄の後の</b>の後にさらにマッチさせるべき要素が存在します。
で、これに対する正規表現としては
<b>.*?</b>(?:</a>|</font>)
のようにすれば、たとえトリップ等で名前欄の途中に他の</b>があったとしても、
後続に</a>や</font>がないので読み飛ばされて、正しく意図した</b>にマッチしてくれる
ということのようです。
また、
・改行コードなしのベターっとしたhtmlの場合、最長一致だと破綻する
(最近あまり見かけないですが、一時期のread.cgiがこういうhtmlを吐いていたんです。
「read.cgi7.00?」の本文欄へのマッチが最短一致になっているのはそのためです)
・最長最短どちらでも適用可能な場合、処理コストは最短一致のほうが少ないはず
という考えもあります。
というわけで
>>548
での上記発言(最長一致を推奨)は撤回させてください。
555
:
◆/vmukiyuzw
:2008/06/20(金) 23:16:45
>>554
ちょっと間違えた
<b>.*?</b>(?:</a>|</font>)
↓
<b>(.*?)</b>(?:</a>|</font>)
名前欄へのマッチの話をしてるんで普通はこうですわな
556
:
名無しさん
:2008/07/10(木) 14:16:13
すみません
Jane総合掲示板の外部コマンド Part7 (ttp://jane.s28.xrea.com/test/read.cgi/bbs/1212574864/)がNGワード設定のため書き込めず
またこちらのhtmltodatサポートスレッドに23ch.info用と明記されたレスが無いようなのでちょっと1レスお借りします
htmltodat 0.8.14の23ch.info変換
m#<dt.*?>([0-9]+).+?(?:"m☆ilto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi
557
:
名無しさん
:2008/07/10(木) 22:30:06
紙copiというスクラップソフトで2CHをスクラップ保存してhtml化したものをdatにしたいのですが
出来ますでしょうか?よろしくお願いします!
ファイルはここにあります
ttp://monkeyuploader.dyndns.org/Offering/mnkyup947.zip
558
:
◆/vmukiyuzw
:2008/07/11(金) 00:22:24
>>557
見たところレス番509の1レスだけのようですね。
私がこういうのもなんだかという気もしますが手で変換したほうが早いのではないか
と思います。
508までのdatをお持ちで、続きが欲しいということなら、どのみちエディタで
貼り合わせるしかないですし、このレスだけが欲しいということなら
そのレスがレス番1となるスレを作ることになります。
あと、正直言うと、1レスだけの変換だと、レス間を区切るセパレータとなるものが
何かわからないので、マッチする汎用的なパターンを読み取れないというのもあります。
ということで、願わくば自力で頑張って頂きたく。datの形式は
名前欄<>メール欄<>日時・ID欄<>本文<>スレタイ(※スレタイは基本的にはレス番1のみ)
正規表現を覚えるよりは簡単だと思いますが、エディタも使えないということなら
再度ご相談ください。
559
:
名無しさん
:2008/07/11(金) 00:44:43
>>558
レスありがとうございます
これはほんの一例です。紙copiで作った100レスぐらいのスクラップもたくさんあるので
同じ設定で全てdat変換できると思い、少な目のスクラップをupしたという経緯です。
エディタは使ったことがないです。メモ帳でも出来るのであれば試してみようと思いますが
どの様に何をすればいいのかもわかりません。
お願いできますでしょうか?
もしくはやり方を教えていただけないでしょうか?
560
:
◆/vmukiyuzw
:2008/07/11(金) 00:56:40
>>559
100レスもあるとメモ帳では手に負えないですね。
サンプルとして出していただけるのなら、レス数が多いほうが有難いのです。
(レスのバリエーションも多く含まれますし)
またupしていただければ調べます。
561
:
名無しさん
:2008/07/11(金) 21:13:12
ttp://monkeyuploader.dyndns.org/Offering/mnkyup955.zip
ちょっと順番が逆だったりごちゃ混ぜだったりするのもありました・・・
なんとか正規表現という技術でなんとかならないもででしょうか?
562
:
◆/vmukiyuzw
:2008/07/12(土) 22:28:34
>>561
うーむ、難しいですね〜
というのは、datファイルというのはその構造上、各レスに「レス番」という項目が
ついているわけではないので、改行で何レス目かを判別しているわけです。
(これをhtmltodat側から見ると、datに変換する時点でレス番に関する情報は失われる、
という意味でもあります)
これが普通のhtmlならちゃんとレス番順に並んでいるので問題になることはないのですが、
レス1から始まってなかったり、レス番が飛んでたり、ましてやレス番が逆転してるような
htmlをdatに変換しても、2ch専用ブラウザで見たときに正しいレス番で読むことは
基本的には難しいわけです。
htmltodatではレス番が飛んでるケースには一応対応しましたが、レス番逆転には
対応していません。(というかこれはどうしようもない気が・・・)
というわけで、正規表現以前の問題で、upして頂いたこれらのhtmlを(専ブラで一応読める
まっとうなdatという意味で)datに変換するのはhtmltodatの機能としては無理です。
・・・と突き放してしまうのもあんまりなので・・・
あくまで「レス番にはこだわらなくてもいい」という条件の上で書いてみます。
(これがないと専ブラで読むメリットが相当なくなる気がしますが・・・)
サンプルで上げて頂いたものの中でもバリエーションがあって一発の正規表現でとは
いきませんでした。よって以下のものでも通用しないケースもあると思います。
・とわ ◆MeBa4xL9X.〜
正規表現:
m#<STRONG>([0-9]+).+?:(.*?)\[(.*?)\].*?:(.+?)</STRONG>(.*?)(<STRONG>|<BR>TITLE:)#mik
変換結果式:
$2<>$3<>$4<>$5<> (←メール欄逆転)
・抜粋、輸送関係
正規表現:
m#<BR>(?:</P>)?([0-9]+) 名前(?::|:)(.*?)\[(.*?)\] 投稿日(?::|:)(.+?)<BR>(.*?)(<BR>([0-9]+) 名前(?::|:)|<BR>TITLE:)#mik
変換結果式:上と同じ(メール欄逆転)
563
:
名無しさん
:2008/07/13(日) 00:51:25
>>562
ありがとうございました!!
お手数お掛けしました。
dat作成してみたのですが、番号が1からの連番になってしまうのですね。
やはりどうしようもないみたいですね。
でも、いろいろと対策を考えていただいてありがとうございました!
564
:
名無しさん
:2008/07/14(月) 02:15:03
ふたば(双葉)☆ちゃんねる
http://www.2chan.net/
の文字板の正規表現がわからないので教えて頂けませんか?
tmp1〜tmp3が最もそれらしい動作をしたのですがエラーでした
スレ内検索はしたのですがもし過去レスに同内容の質問がありましたら申し訳ありません
ttp://www.2chan.net/test/read.cgi?bbs=ascii&key=1187933909
565
:
◆/vmukiyuzw
:2008/07/14(月) 23:16:26
>>564
さん
ほとんど「read.cgi7.00?」と形式が同じでした。
m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?) ?">)?<b>(.+?) ?</b>(?:</font>|</a>).*?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>|<table)#mik
投稿日欄の前に「投稿日:」という文字列がついているので
.*?:(.*?)<dd>としてマッチさせるようにしました。
(他の正規表現ではこれにマッチさせるために直接「投稿日:」とか書いちゃってる
ものもあるのですが、多分こちらのほうが汎用的なんで)
あと最後1レスにマッチさせるために「|<table」を最後に足したのと
細かいとこですが名前欄やメール欄の不要な半角スペースを削除した
くらいです。多分これまでの「read.cgi7.00?」とも互換性は保たれてると思います。
566
:
◆/vmukiyuzw
:2008/07/15(火) 00:14:22
というかそもそもこれは2ch互換板なのでは?
過去ログ化されたものはわかりませんが、現役のスレなら
Janeとかなら外部板に登録すればそのまま読めるような気がします。
>>564
のスレは現役スレには見当たりませんし過去ログ倉庫にも
ないようですしいったい何者?詳しい方教えてください。
567
:
名無しさん
:2008/07/15(火) 03:35:28
>>565-566
依頼者です。
ほとんど「read.cgi7.00?」だったそうですが、従来の物では全て×だったので助かりました。
ありがとうございます。
詳しい経緯は全くわからないのですが、いつものパターンだと、
1.スレ立て爆撃を喰らって強制dat落ち→dat落ち処理が追いついていない。
2.スレ立て爆撃を喰らって強制dat落ち→復旧処理が追いついていない。
3.運営さんが規約違反と判断した…が中途半端で放置。
4.鯖の不調(よくある)→人気の無い文字板に労力を割く時間は無い(よくある)→放置(よくある)。
(順不同)
あたりだと思います。
すみませんがここを読まれてるふたばに詳しい方、フォローお願いします。
568
:
◆/vmukiyuzw
:2008/07/16(水) 22:51:21
>>567
663 ◆fnwcOWFi56さんがご自分の板で補足してくださってます。
http://yy14.kakiko.com/test/read.cgi/mirror/1213700846/34
>
http://www.2chan.net/ascii/dat/1187933909.dat
でdatのまま取得できるようですね。
確かに、read.cgiで読んでいる以上、どっかにdatは存在していて
でも直接は読めない状況なのかなと思ってしまったのですが
直接読めるようですね。
ということでふたばでは
>>564
のようなケースではhtmltodatを介するよりも
URLを上のように変換してdatを取得したほうが楽かと思われます。
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板