[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
メール
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
1001-
1101-
この機能を使うにはJavaScriptを有効にしてください
|
htmltodatサポートスレッド
1
:
</b><font color=#FF0000>(L44UP/ps)</font><b>
:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。
333
:
<削除>
:<削除>
<削除>
334
:
◆/vmukiyuzw
:2006/07/09(日) 20:01:48
>>332
対応の意味がよくわかりませんがなんかスレ違いな気が・・・もしかして誤爆でしょうか?
専ブラの作者さんに言うべきことのように思います。
それともこれらに対応する正規表現考えてくれって意味ですかね?それならそれで
具体的なURLを教えていただかないと何ともし難いです。
(それくらいググれよと言われそうですが私はそこまで寛容では無いです)
335
:
<削除>
:<削除>
<削除>
336
:
663
◆red7kKzN/E
:2006/07/20(木) 19:26:04
要望というかどうすれば解決するのか教えて頂きたいのですが
http://web.archive.org/web/20030425012552/world2ch.net/test/read.cgi/accuse/1048754153/1-100
↑このhtmlをdat化しようとしています。
正規表現はたぶん
m#<dt>([0-9]+) Name: (?:<font color=green>)?(?:<a href="mailto:(.+?)">)?<b>(.+)</b>(?:</font>|</a>): (.*?)</dt><br><dd> (.*?)<br><br></dd>(<dt>|</dl>)#mi
でいいと思うのですが
元の文のハングル文字が全部「???」になってしまいます。
いったんdat保存して(文字コードUTF-8)、コピペで置換しようとしたのですが
やはり貼り付けると「???」になってしまいます。
(エディタはTeraPadとxyzzyyを使っています)
試していませんが、キリルフォントや繁体字・簡体字中国フォントでも
多分同様に文字化けすると思います。
この場合、どのようにすればよいでしょうか。
337
:
◆/vmukiyuzw
:2006/07/21(金) 02:10:38
>>336
うーむ、charset=UTF-8を名乗っておきながらUTF-8でない書き込みであるのが原因であろうと
思うのですが、何の文字コードなのかがさっぱりわかりません。
何となくEUC-KRぽい気はするのですが・・・ブラウザはどうやって判定してるんだろう?
とりあえずhtmltodatで判定する術は全く思いつかないです。逆に教えていただきたいくらいで。
338
:
◆/vmukiyuzw
:2006/07/21(金) 18:34:34
いや、やっぱりUTF-8ですね。xyzzyでソース表示させると表示できました。
でもSJISに無い文字なのでUTF-8→SJIS変換の時点で化けてしまうのですね。
可能性としては、「文字コード自動判別」をOFFにしてSJIS変換させずに
UTF-8のまま読ませてそのままdat変換(dat自体の文字コードもUTF-8でないと
意味無いでしょうから)できないかと試してみました。まあそれなりのdatぽくは
なったのですが、やっぱ内部的に全部SJISで扱ってる関係か、一部化けてしまいます。
こんな小手先の対応ではなくて、内部的にも全てUTF-8で扱うしか対応策はない
わけですがあまりに大きな変更になってしまうため不可能と思われます。
(bregexp.dllまでは手を出せませんし)
というわけで回答としては「ごめんなさいできません」です。
339
:
◆/vmukiyuzw
:2006/07/21(金) 19:19:52
しかしこういうのができないとなるとUTF-8のhtmlを読めるメリットも
減ってしまうのも事実で・・・というか「UTF-8に対応しています」と
言うこと自体おこがましいというか・・・
確約は全く出来ないですがいつかはやってみたい気はしますね。
340
:
663
◆red7kKzN/E
:2006/07/21(金) 21:38:34
>>338-339
検証ありがとうございます。お時間をとらせてしまって申し訳ありません。
残念ですが、諦めずにxyzzyyでのコピー貼りつけを模索してみます。
こんなページ↓とかありましたし(でも何だかうまくいかない・・・)
http://www.faireal.net/articles/6/08/
# 全く無関係な事ですが
# 上のページとか読むと xyzzyyって「ジジイ」と読むのかな と。
341
:
◆/vmukiyuzw
:2006/07/21(金) 23:01:57
>>340
現状htmltodatにはSJIS前提の処理が入りすぎてるのでどうがんばっても
無理でしょうね
てかいっそxyzzyでhtmltodat的処理を書いてしまうというのはどうでしょう?
2ch用ブラウザを作ってしまえるほどの能力を持つエディタですし。
(て自分ではあんまりやる気が無いので書いてるだけですが)
342
:
◆/vmukiyuzw
:2006/08/27(日) 00:24:35
バージョンアップしました。(0.8.6)
・beコードの仕様変更に対応した(つもり?)。
beコードの仕様がころころ変わっていてどうしたものかと考えていたのですが
どうやらなんとなく落ち着いたようなので対応しました。
具体的には、前は#の数で表されていたものがBRZ(1000)とかに変わったので
どちらにも対応できるよう修正しただけです。多分今後大きな変更がなければ
このままでいけるのではないかと。
あと
>>319-320
は全然手を出せてません。まあ真面目にやれば出来るんでしょうけど
「ある物を表示するのは簡単だけどない物を表示するのは案外面倒」だなと。
あと
>>338-339
は何をどうしてやればできるのかもわからない状態です。
申し訳ないです。
343
:
◆/vmukiyuzw
:2006/10/21(土) 17:49:09
バージョンアップしました。(0.8.7)
・正規表現にマッチせずdatに変換できないレスがあった場合、警告ウィンドウを
出して該当レス番号を表示するようにした。
>>319-320
を受けての修正ですが補足しておきます。
HTMLでは、一つのスレの中でも、一レス毎に見ていくと
・メール欄の有無
・名前欄の内容(デフォルトの名無しvsコテハン、トリップ等々)
・その他いろんな要素
により、形式が多少異なるものが混在しているのが普通です。
で、そのどれにもマッチするように正規表現を考えていくのですが
見落としてしまうことも当然あります。
こういうときはエラーになるべきなのでしょうが
正規表現の書き方によっては中途半端にマッチしてしまって
変換自体は成功してしまうことがままあります。
その場合は大抵、元のHTMLのレス数 > 変換結果のdat行数 となります。
(変換できていないレスが存在する)
では取りこぼしたレスはどれか?と調べようと思うと、HTMLとdatをいちいち見比べて
確認するしかなかったので、結構大変でした。
この確認を楽に出来るようにしたのが今回の修正です。
344
:
◆/vmukiyuzw
:2006/10/21(土) 17:58:47
さらに補足です。
正規表現が不十分でレスを取りこぼしたのではなく、
実際にレス番号が欠けているケースもあります。
いわゆる「透明あぼーん」状態です。
※これは2chでは基本的に発生しないはず(サーバ側でレスを物理削除するとそれ以降の
レスは番号が前に詰められる)なのですが、JBBSでは板管理者の設定で透明あぼーんに
することができます。例えば
>>174-176
こういうケースは正規表現をいじってもどうしようもないので、
>>176
で書いたような
対処しかないと思われます。
レス番号が飛んだことがわかるのなら自動で補うこともできるのではと思われるかも
知れませんが、取りこぼしなのか透明あぼーんなのかを識別するのが難しそうだなと
思います。
345
:
名無しさん
:2006/11/14(火) 17:26:25
924 名前:水先案名無い人 投稿日:2006/11/14(火) 15:58:00 ID:uG63LS5u0
すみません、htmltodatをwindowsMeで動作確認取った方はいますか?
snapshotのログを変換したいんですが…
925 名前:659 ◆659BBSUzlk 投稿日:2006/11/14(火) 17:16:22 ID:OUGFpUIf0 ?2BP(111)
実際試してみて不具合がなければそれでいいんじゃないですかね
346
:
◆/vmukiyuzw
:2006/11/14(火) 20:23:34
これはマジレスすべきなのかどうなのかよくわかりませんが・・・
Meでも動くはずですよ。実際私のサブマシンはMeですし。
もし使ってみて不具合があれば報告ください。
347
:
名無しさん
:2006/11/17(金) 14:13:02
>このプログラムを使って発生した損害に関しては、一切の責任を負いません。
>使用、配布に制限はありません。自由にお使いください。
>動作の保証はありません。
>動作を確認したOSは、Windows XPのみです。
ここを早急に直すべきかと
348
:
◆/vmukiyuzw
:2006/11/17(金) 19:40:02
まあどういうレベルなら「動作を確認した」と言えるかという話になりますが
個人的にはXP以外の環境では充分にテストしたわけではないと思っているのです。
(サブマシンのMe環境も普段ほとんど使いませんし、たまたま使ってみたら動いたという感じなので・・・)
なのでreadmeの記述自体を変更する必要はないと考えます。
とはいえ環境に依存するような処理を意図的に入れるようなことはしてませんので
他の環境でも大抵動いてしまうだろうなと思うわけで・・・
>実際試してみて不具合がなければそれでいいんじゃないですかね
が一番自分の気持ちを代弁してくださってるかなと。
349
:
名無しさん
:2006/11/22(水) 01:29:54
つまり、投げやりと
350
:
◆/vmukiyuzw
:2006/11/22(水) 21:12:10
はい、もともと自分で使う用に適当に作ったものですから
それを「投げやり」と言われれば返す言葉はないです。
しかし、具体的に「ここが上手く動かない」とか指摘されれば
何らかのアクションは取れると思うのですが、
そういうのが全くないままに文句だけを言われても
どうしようもないのは理解していただけるでしょうか。
351
:
名無しさん
:2006/11/25(土) 01:24:47
ザ掲示板のスレををdat化したいのですが
http://thebbs.jp/
正規表現を教えていただけないでしょうか?
352
:
◆/vmukiyuzw
:2006/11/25(土) 02:39:15
>>351
非常に困る点が一つ・・・
そこのbbsではレスの最初が1からではなく0から始まっているようで・・・
2ch標準のdatてのはレスは当然1から始まっているので
0のレスを無視すると0のレスは当然読めませんし、一つずらすことにすれば
レスアンカーがずれます。
「2ch互換の板とは言えないからhtmltodatが扱える領域じゃないです」とは
あまり言いたくはないのですが、うまく扱える案が思いつかないのですが正直なところです。
353
:
◆/vmukiyuzw
:2006/11/27(月) 23:49:55
こちらの板向きの話なので引用させてください。
http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/175
>> s#(<title.*?) - DUMPER.JP(</title>)#$1$2#
> を
>> s#(<title.*?) - 2ちゃんねるみらー(</title>)#$1$2#
> に変えるとマッチしない。なんでだ・・。。
s#(<title.*?) - 2ちゃんねるみらー(</title>)#$1$2#k
のようにkオプションを付ける必要があります。
kオプションは文字を日本語(SJIS)として扱うためのものです。
(perlには存在しないbregexp.dllの独自拡張機能)
自分の書く正規表現でもついサボって付けてなかったりすることが多いのですが、
大抵はうまくいくけれど今回のように問題が出る場合もあるようです。
具体的には、"2ちゃんねるみらー"の"ー"の2バイト目が"["(16進で5B)にあたるため
正規表現の"["と解釈されてしまって、エラーとなるようです。
多分このように2バイト文字の2バイト目が正規表現の文法とぶつかるようなケースが
まずいのだと思うのですが、具体的にどの文字だとダメかとか調べるのも大変なので、
日本語にマッチさせるような正規表現を使う場合は基本的にkオプションを付けるように
お願いします。
# 今までは日本語は"投稿日:"ぐらいしか使ってなかったので問題なかった模様。
# 今後気をつけます。
354
:
◆/vmukiyuzw
:2006/11/27(月) 23:58:07
というか日本語の有無に関わらず無条件でつけることにしても
問題はないはずですが。
(パフォーマンスへの影響とかはわかりませんが)
355
:
663
◆fnwcOWFi56
:2006/12/02(土) 15:53:50
いつもお世話になっています。
また要望です。
前処理で、特定の文字が出てきたら
それを別の文字に変換するような事とか出来ないでしょうか。
makimo.toさんの所のhtmlをdat化させたいのですが
他スレのリンクが
・同サーバ・同板の場合
<a href="../1127/1127911361.html">../1127/1127911361.html</a> <br>
・別板の場合
<a href="../../be_be/1106/1106239080.html">../../be_be/1106/1106239080.html</a>
とあるので、下の前処理をつけました。
s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2$3#gi
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1
http://server
\.2ch\.net/test/read\.cgi/board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
356
:
663
◆fnwcOWFi56
:2006/12/02(土) 16:04:41
# そのままコピペしたので最初のbe処理まで入ってしまったです
上の前処理の2行目
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1
http://server
\.2ch\.net/test/read\.cgi/board/$2/$3#ig
このコード中の「server」と「board」は
スレッド毎に違うので、その都度書き換えないといけないです。
コード自体を毎回書き換えるのは煩雑なので
例えば「$server」「$board」として
$serverに「ex13」
$boardに「gline」
が入るようにするような事とか出来ませんでしょうか。
357
:
◆/vmukiyuzw
:2006/12/03(日) 01:46:45
>>356
とりあえず、変換オプションにテキストボックスを2つ追加して
$serverと$boardの値をそれぞれ指定できるようにするとかでしょうか?
一括処理のときは一括にする範囲で工夫してもらうとして・・・
# makimo.toさん自身のhtml2dat.cgiではどうやってるのかがわかれば
# いいんでしょうけど・・・
358
:
◆/vmukiyuzw
:2006/12/03(日) 10:52:37
ところで、beの前処理は内部に組み込んだはずなのに
書かれてるってことは効いてないのかな
と思って調べてみるとやはり考慮漏れで効いてませんでした。
合わせて直します
359
:
◆/vmukiyuzw
:2006/12/03(日) 17:28:28
バージョンアップしました。(0.8.8)
・変換オプションに$server、$board入力欄を追加。
前処理スクリプト中に「$server」「$board」の文字が現れると
入力された値に置換してから処理する。
・be前処理の考慮漏れを修正。
1つめについてはほぼ
>>356
の通りですが、前処理に
$server\.2ch\.net/test/read\.cgi/$board/
みたいに書いて、$serverに「ex13」$boardに「gline」と入力し、変換処理を行なうと
ex13\.2ch\.net/test/read\.cgi/gline/
と解釈して処理します。
2つめについては、考慮漏れ。
<a href="JavaScript〜 みたいにクォーテーションが付くケースを漏らしてました。
これで、前処理にbeの処理を入れる必要はなくなったはず。
あとついでに、
>>353
に関連して添付の前処理「DUMPER.JPスレタイ削除」を修正し
差し替えてます。
360
:
663
◆fnwcOWFi56
:2006/12/03(日) 18:15:50
>>359
早い・・ありがとうございます。
書いてから「bbspink.comのケースもあったなあ」という事を忘れていましたが
上の場合だと
$server = ex13.2ch.net とか
$server = pie.bbspink.com 等に指定すれば良さそうです。
ありがとうございました。
361
:
名無しさん
:2006/12/04(月) 01:04:36
はじめまして!あの正規表現の対応を御願いできませんか?自分でしたところ、5時間かかってもできなかったので
断念・・・。makimo.toのログですが、上記にあったmakimo用の正規表現じゃ変換できませんでした・・・。
zipで纏めたhtmlです・・・。
http://winplus.or.tp/uploader01/upload.php?down=450
pass: 2ch
よろしく御願いします。
362
:
663
◆fnwcOWFi56
:2006/12/04(月) 08:02:42
横からごめんなさい
>>361
ブラウザ保存されたhtmlみたいなので、空白や改行があってマッチしないです。
ちょっと見る気力がないので
makimo.toさんの元htmlなら
http://makimo.to/2ch/pc7_affiliate/1161/1161168474.html
●正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mik
●前処理
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3$4#ig
●$server/$board
それぞれpc7/affiliate
●変換結果式
$4<>$2$3<>$5<>$6<>
●後処理
s#\#http#ttp#ig
s#([^h])ttp(://[^a-z0-9])#$1$2#igk
大量にある過去ログURLが記載してある
レス7のところでかなりもたつきますが
これでいけると思うです。
363
:
663
◆fnwcOWFi56
:2006/12/04(月) 08:35:34
追記
zipで固めたほうのhtmlをdat化させたいなら
正規表現を下のと差し替えればいいかも。
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
あと前処理に下のを追加
s#(<br>) *#$1#ig
364
:
名無しさん
:2006/12/04(月) 16:59:10
>>363
おお!ありがとうございます。無事変換できましたが、なぜかわかりませんが、レス番20あたりからすべて
mailto:のリンクが貼られた状態で青くなってました。
365
:
663
◆fnwcOWFi56
:2006/12/04(月) 17:40:50
うーむ
これでどうでしょう
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class="?sage"?>|<a href="mailto:(.*?)" class="?mailto"?>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|(?:</dd>)?</dl>)#mik
366
:
名無しさん
:2006/12/04(月) 18:52:29
すげぇ。出来ました!。・゚・(ノ∀`)・゚・。ありがとー。
29chが閉鎖する前に必要なログ保存できそうです・・・。
ほんとうにありがとうございます。
367
:
名無しさん
:2006/12/05(火) 14:07:28
同じくmakimo.toのログなんですが上記の正規表現で変換できません。
http://makimo.to/2ch/log_musicj/959/959833697.html
どのように修正したらよろしいのでしょうか?
368
:
663
◆fnwcOWFi56
:2006/12/05(火) 14:37:22
>>367
ぱっと見て「投稿日:」というのがそのhtmlにはあって
それでマッチしないのかなと思ったのですが
googleで「959833697」を検索すると、
既にhtml化されたものがありますので
どうしてもmakimo.toさんのhtmlからdat化させたいなら別ですが
そうでないのなら、下のDLしたほうが速いです
http://piza.2ch.net/log/musicj/kako/959/959833697.html
datはこちら
http://piza.2ch.net/log/musicj/kako/959/959833697.dat
369
:
名無しさん
:2006/12/05(火) 15:37:14
なるほど。それは気がつきませんでした。
お手間を取らせて済みませんでした。
370
:
名無しさん
:2006/12/07(木) 09:48:53
htmltodatで変換したdatをjaneで読み込むと
スレッド表示時でスレタイトル前に半角シャープが入ってしまいます。
現在はidxから修正していますが1つ1つだと大変なので
設定で修正するにはどのようにすればいいでしょうか?
371
:
663
◆fnwcOWFi56
:2006/12/07(木) 10:50:15
>>370
さん
>>362
で変換したdatを
自分のJaneDoe View α Build ID: 0511280214で読み込んでみましたが
タイトル前に半角シャープはついてなかったので
URLとどのJaneなのか教えて頂けないでしょうか。
372
:
663
◆fnwcOWFi56
:2006/12/07(木) 11:28:08
# 勘違いだったかも
>>370
makimo.toさんの所のhtmlとは書いておられないので
そうでなかったら わかんないです。。
373
:
◆/vmukiyuzw
:2006/12/08(金) 01:04:45
>>370
さん
状況がよくわからないので以下の情報が欲しいです。
・URL
・使用した正規表現
・変換オプション(前処理・後処理等)を指定してる場合はその内容
374
:
370
:2006/12/08(金) 11:26:16
情報不十分で申し訳ないです。
http://makimo.to/2ch/pc8_avi/1164/1164172579.html
使用した正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
前処理makimo.to
s#<span class=(.*?)>(.*?)</span> \[(.*?)\] #<span class=$1><a href="mailto:$3" class=mailto>$2 </span></span> #g
w debug.txt
後処理なし
変換結果式makimo.to
$4<>$2$3<>$5<>$6<>
OpenJane α 0.1.12.2 を使っています。
375
:
◆/vmukiyuzw
:2006/12/08(金) 22:14:36
>>374
試しましたが再現しません。
htmlの時点でそもそもスレタイに半角シャープは付いていないので
datに変換しても入りませんしJaneで読ませても当然入りません。
・・・で思ったのですが、もしかして、半角「シャープ」じゃなくて
半角「スペース」ではないのですか?
半角スペースなら確かに入ります。htmlの時点から入ってます。
でもこれはmakimo.toでhtml化された時点で無駄に付加されたものっぽいです。
これを除去したいということであれば、前処理に
s#(<title>) ?(.*?) ?(</title>)#$1$2$3#i
とでも付け足せばよいかと思います。
376
:
370
:2006/12/09(土) 15:21:32
仰るとおり「シャープ」ではなく「スペース」の勘違いでした・・・。
前処理の設定方法で半角スペースも取れました。
お返事ありがとうございました。
377
:
名無しさん
:2006/12/09(土) 23:10:32
【疑問】今さら聞けない家事・料理【質問】39
http://2ch/ms/human5.2ch.net/test/read.cgi/ms/1117079913/1
前スレ
【疑問】今さら聞けない家事・料理【質問】38
http://human5.2ch.net/test/read.cgi/ms/1115798098/
の部分は
にくちゃんねるのHTMLでは、
【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
になっていて、リンクで該当するスレッドにいけるのですが
htmltodatでにくちゃんねるのHTMLをdatに変換すると
【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
のままで、リンク先にはいけません。
htmltodatでにくちゃんねるのHTMLをdatに変換すると
【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
の部分を
【疑問】今さら聞けない家事・料理【質問】37
http://human5.2ch.net/test/read.cgi/ms/1113750788/
に変換できるようにするためには
どうしたらよいのでしょうか。
●正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mik
●変換結果式
$4<>$2$3<>$5<>$6<>
に設定して使っています。
どうかよろしくおねがいします。
378
:
名無しさん
:2006/12/10(日) 05:13:27
>>377
さん
試してないので何ですが
htmltodatの新バージョンを(DLしてないなら)DLして
>>362
を試してみて下さい
($server/$boardはそれぞれhuman5/msを指定)
379
:
名無しさん
:2006/12/23(土) 21:46:32
パー速vip
http://ex14.vip2ch.com/part4vip/
保管庫にあるhtmlをhtmltodatでdat化するには、どのような正規表現
にすればいいんですか。
380
:
名無しさん
:2006/12/24(日) 00:27:38
>>379
さん
専用ブラウザにそのURLを外部板として登録すれば
そのまま読み込めるのではないかと思うのですが
それでは駄目でしょうか。
381
:
名無しさん
:2006/12/24(日) 07:31:04
>>380
http://ex14.vip2ch.com/part4vip/kako/116/1161445050.html
これで登録しても
http://ex14.vip2ch.com/part4vip/
になり現行のスレしか表示されません
Jane Styleのアドレスに
http://ex14.vip2ch.com/part4vip/kako/116/1161445050.html
を入力してもログ取得できません、
ニュース速報(VIP)@避難所の過去ログはできたんですが
htmltodatで変換はできませんか、
ここで相談することではありませんがお願いします。
382
:
名無しさん
:2006/12/24(日) 08:54:56
>>381
これでどうでしょう
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mi
383
:
名無しさん
:2006/12/24(日) 09:07:45
>>382
ありがとうございますできました
384
:
名無しさん
:2006/12/28(木) 13:37:35
処女はお姉さまに恋してる第43話
http://makimo.to/2ch/bbspink-idol_hgame2/1151/1151736029.html
を
>>362
の前処理にある「2ch\.net」を「bbspink\.com」に、$server/$boardにそれぞれidol/hgame2を入れて変換して
みたのですが、テンプレにあるエロゲー作品別板から他所の板(2ch.netだけでなくbbspinkの板も)へのURLがうまく
変換できません。
どのようにすれば良いのでしょうか?
385
:
名無しさん
:2006/12/28(木) 21:53:07
>>378
いそがしくてなかなかお返事できなくて申し訳ありません。
>>362
でやったらうまく変換できました。
大変ありがとうございました。
これからも宜しくお願いします。
386
:
◆/vmukiyuzw
:2006/12/28(木) 22:23:38
>>384
さん
makimo.toでのbbspink.comのログに関しては
(1)同じ板内へのリンク:../1150/1150506092.html
(2)2ch.netの別板へのリンク:../../game9_gal/1139/1139744135.html
(3)bbspink.comの別板へのリンク:../../bbspink-idol_hgame/1149/1149173250.html
・・・ということみたいです。で、2ch.netのログとの扱いの違いは
(1)2ch.netと同じ形式。ただし変換結果は当然bbspink.comにする必要あり。
(2)2ch.netと同じ形式。ただし(1)とは逆で変換結果は2ch.netにする必要あり。
(3)鯖名の前にbbspink- の文字列がつくようだ。変換結果はもちろんbbspink.com。
間違いはあるかもしれないけどおおむねこんな感じかと。
これを踏まえ
>>362
の前処理を書き換えるには・・・
・・・申し訳ない今日はエネルギー切れです。自力で考えるか、わかる人回答してあげて下さい。
387
:
◆/vmukiyuzw
:2006/12/28(木) 23:52:01
・・・と言いながらももうちょっとがんばってみよう・・・
まず
>>362
の前処理は以下のとおり
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3$4#ig
1行目は2ch.netかbbspink.comかに関係ないのでそのままでOK
2行目と4行目は「\.2ch\.net」を「\.bbspink\.com」に修正すればOK
問題は3行目ですが
>>386
の(3)のとおりbbspink-があるかないかで
bbspink.comなのか2ch.netなのかが変わってきます。
(bbspink.comのスレだが中に2ch.netに対するリンクがありうるので無視するわけにはいかない)
なので2つに分けてしまいましょう。
s#(>)\.\./\.\./bbspink-(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.bbspink\.com/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
結局まとめるとこんな感じでしょうか
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.bbspink\.com/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./bbspink-(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.bbspink\.com/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.bbspink\.com/test/read\.cgi/$board/$2/$3$4#ig
ちなみに3行目、4行目はこの順番でないとダメです
なぜなら、4行目の(.+?)_はbbspink-pieにもヒットしてしまうので3行目で先に変換しておかないと
2ch\.netにみなされてしまいまずいことになるからです
388
:
◆/vmukiyuzw
:2006/12/31(日) 01:11:47
makimo.toの過去ログに関しては、663 ◆fnwcOWFi56 さんが書いてくださった
>>362
でおおむね変換できるものと思います。
※ただ、2ch.netではなくbbspink.comの過去ログに関しては
前処理を
>>387
のものにする必要があると思います。
(正規表現等は
>>362
のものでOKかな?)
しかし、makimo.toのログにはあまりにいろんなバリエーションがありますので、
(なんせ620万スレッドを超える過去ログを保有しているらしいですから)
>>362
でも
>>387
でも変換できないパターンがあると思うのです。
それらに個別に対応するには自分ひとりのパワーではあまりに不足に思えますし
他の方にサポートをお願いするにも限界があるかなと思いますし・・・。
----------------------------------------------------------------------------
なので、正直言うと、今年末でmakimo.toが閉鎖して、どうしようもなくなって
一息つくまではできるだけレスとかせず逃げ回っていようと思っていたのです。
それしかできることは思いつかなかったので・・・
----------------------------------------------------------------------------
しかし、実際にはmakimo.toさん側でもいろいろ規制をかけられたりして
無制限にHTMLがダウンロードされることもなく、結果ここにも質問が殺到したり
することもなかったので、まあホッとしたという感じです。
明日(てもう今日か)帰省するので今年最後の書き込みです。
皆様よいお年を。
389
:
名無しさん
:2006/12/31(日) 21:08:09
遅くなりましたが、mukiyuさんありがとうございました。
他のスレも何個か見ましたが、問題はなさそうです。
390
:
名無しさん
:2006/12/31(日) 21:12:29
名前が抜けてしまいましたが
>>389
=384です。
391
:
名無しさん
:2007/01/06(土) 01:37:31
htmltodat0.8.8を使っています
立ち上げるとhtmltodatの枠の部分が小さく表示されdat保存ボタンがあるところまで表示されません。
スクロールバーを使わなくては下まで表示されないのです。
同様に変換オプションや一覧表示なども下まで表示されません。
改善策はあるのでしょうか?
392
:
名無しさん
:2007/01/06(土) 09:35:13
>>391
俺も同様。ただし自宅のWin98で。
職場のWin2000では正常に表示される。
参考までに。
393
:
◆/vmukiyuzw
:2007/01/06(土) 15:55:45
>>391
さん
原因のひとつらしき点を修正してみましたが、環境による問題なので
十分に検証することが出来ません。
なので、以下の暫定版で動作確認して結果報告いただけたらありがたく思います。
(
>>392
さん他同様の現象が出る方にも)
http://mukiyu.hp.infoseek.co.jp/htmltodat/htmltodat0.8.8.1.zip
中身はhtmltodat.exeだけです。
今お使いのバージョンをバックアップした上で上書きしてお使いください。
394
:
名無しさん
:2007/01/07(日) 05:22:39
この保管ログが上手く変換できません…
ttp://search.mimizun.com:82/cgi/dattohtml.pl?
http://mimizun.com:81/log/2ch/sec/pc8.2ch.net/sec/kako/1153/11531/1153128180.dat
『read.cgi7.00?』とかで変換はできるのですが「<><>」が「[] 投稿日:」になってしまいます…
…「直接datで落せば」とか言われるのは判ってますが、
是非上手い変換スクリプトをおながいします
395
:
391
:2007/01/07(日) 09:22:29
もう遅れましたが、自分はXPです。
396
:
391
:2007/01/07(日) 09:24:33
>>393
すみません。EXEをアボーン設定しているのでレスが見えませんでした。
確認してみます。
397
:
名無しさん
:2007/01/07(日) 09:26:51
>>393
改善されました。ありがとうです!
398
:
◆/vmukiyuzw
:2007/01/07(日) 18:05:42
>>394
さん
663 ◆fnwcOWFi56 さんが別のところで考えてくださったそのままのコピペですが
m#<dt.*?>([0-9]+).+?<b>(?:.+?"mailto:(.+?)">)?(.+?)(?:</a>)?</b></font> ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi
ちなみに
> …「直接datで落せば」とか言われるのは判ってますが、
何故わざわざhtmltodatを経由したいのか参考までに教えていただきたく思います。
399
:
◆/vmukiyuzw
:2007/01/13(土) 17:16:04
さて、
>>393
の件ですが
>>391
さん以外からは動作報告があがってないようですね。
98/Me系での動作確認が取れればそのまま正式バージョンにしようかと思っていたのですが
当面ペンディングですかね。
まあ次にバージョンアップする機会があればそのときに一緒に入れてしまうと思いますが。
400
:
名無しさん
:2007/01/13(土) 20:12:55
>>393
>>399
>>391
さんと同じXPですがきちんと表示されるようになりました。
ありがとうございました。
401
:
名無しさん
:2007/01/16(火) 22:45:39
要望です。
クッキー・User-Agent・ベーシック認証に対応して頂けないでしょうか。
クッキーの件ですが
remix2ch(
http://contents-factory.net/remix2ch/)
さんや
makimo.toさんの所でクッキー送信が必要な場合があります。
User-Agentですが
http://pita.paffy.ac/
さんのdatを直接取得したい時や
●ログイン時などでMonazillaを使いたい場合があります。
ベーシック認証ですが
p2のhtml取得時に必要な場合がありますので(滅多にないですが)
あったら嬉しいです。
どこまで突っ込んで書いたらよいのかわからないので
簡単に書いたです。
詳細は下記で
http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/450-451n
以上、宜しくお願い致します。
402
:
◆/vmukiyuzw
:2007/01/17(水) 21:48:13
>>401
さん
いずれもHTTPリクエストヘッダで指定される内容ですね。
他にも指定したいものが出てくるかもしれませんし
(例えばリファラを要求されるサイトとかあるかもしれませんし)
汎用的に任意のヘッダ要素を追加指定できるようなメモウィンドウでも
付けましょうかね。
具体的にどんな形式で指定すべきかは、まあどのみち
proxomitron等でモニターして自分で調べないといけないと思うので、
使う側にお任せということで。
こんなとこでいかがでしょう。
ところで、
>>401
であげられてる例の半分くらいはhtmlというより
datを直接取得したい場合のような気がしますね。
「htmltodat」なのにdatを直接取得してどうするという話ですが
今では変換処理を経由せず前処理で直接ファイル保存ができるように
なってるのでそれを使っていただければいいかと思います。
(以前この機能がなかったときにはたわむれにdat→dat変換の
正規表現を書いたこともありましたが)
403
:
663
◆fnwcOWFi56
:2007/01/17(水) 23:02:37
>mukiyuさん
是非その線でお願いします。
もう一ついいでしょうか。
subject.txt作成の時
旧形式のdatをまとめる場合が結構ありますので(私だけかな)
区切り記号(デリミタというのでしょうか)を
「<>」と「,」を選べるようにして頂けないでしょうか。
404
:
◆/vmukiyuzw
:2007/01/18(木) 00:18:11
>>403
んーと、ちょっと確認が。
旧形式のdat(カンマ区切り)からsubject.txtを作るのはいいとして、
subject.txt自体は現行の形式(「<>」で区切られている)でいいですよね?
※というのも、monazillaの資料を見ていると、subject.txt自体にも旧形式
(カンマ区切り)のものが存在するようなのです。ので一応念のため。
あと旧形式のdatってデリミタの「,」と区別するためにdat中に現れる「,」を
「@`」に変換してますよね。
これもsubject.txt作成時には「,」に戻す必要がありますよね。
(アットマークが半角か全角か定かでない・・・自分の記憶では全角なのですが
monazillaの資料だと半角なのです。念のため両方変換するか)
405
:
663
◆fnwcOWFi56
:2007/01/18(木) 20:37:29
> mukiyuさん
> subject.txt自体は現行の形式(「<>」で区切られている)でいいですよね?
いいですいいです。
アットマークですが
確か全角みたいです。(「,」)
>>386
のdatとかそうですし。
http://piza.2ch.net/log/musicj/kako/959/959833697.dat
406
:
◆/vmukiyuzw
:2007/01/20(土) 20:31:16
バージョンアップしました。(0.8.9)
・「proxy設定」ボタンを削除し、代わりに「受信オプション」を追加。
proxy設定機能は受信オプション設定内にまとめるようにした。
・受信オプション設定に「HTTPヘッダ追加」欄を追加。
Cookie,User-Agent,Authorization等のヘッダを任意に指定できるようにした。
・subject.txt作成で、旧形式のdat(カンマ区切り形式)からもsubject.txtを
作成できるようにした。
・特定の環境下で、フォームの内容が枠に収まらずスクロールバーが出てしまう
不具合を修正。
まず「HTTPヘッダ追加」についてですが、
>>401-402
のとおり
HTTPリクエストヘッダに任意の行(RFC邦訳を見ると「ヘッダフィールド」と
呼ぶみたいですが)を追加するためのものです。
例えば
Cookie: text=dat<>1<>0<>false<>mycss=<>0<>0<>3000<><><><>
User-Agent: Monazilla/1.00(htmltodat/0.8.9)
のような感じでヘッダに含めて送信したい内容をそのまま指定します。
また、変換オプションの前処理等と同様、保存・呼び出しが可能です。
(拡張子は'.hdr')
※ちょっと内部処理の話なのですが、デフォルトで存在するヘッダ行に
単純に行を追加するだけなので、デフォルトの行を上書きすることは
基本的には出来ません。
但し、User-Agentだけは例外で、(変更したい要望があったので)
上書きできるようにしています。
もし、他に上書きしたい行がある場合は(あんまりないとは思いますが)
要望していただければ検討します。
次にsubject.txt作成の旧形式dat対応ですが、旧形式と現行形式を混在させて
処理することは出来ません(まあ単に判別が面倒だからなのですが・・・)。
フォルダを別にして処理する等して対処をお願いします。
最後の不具合の修正については、
>>391-392
で報告いただいて
>>393
で
対応した(つもり)のものですが、まだあまり自信がないので、
まだ不具合があればご報告ください。
407
:
663
◆fnwcOWFi56
:2007/01/20(土) 21:12:14
>mukiyuさん
ありがとうございます。
今日は不調なので後日試させて頂きます。
408
:
663
◆fnwcOWFi56
:2007/01/21(日) 12:41:37
試してみたです
出来ました!
凄いです!
ありがとうございました!
409
:
◆/vmukiyuzw
:2007/01/23(火) 00:37:53
ちょっとスレ違いなのですが
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1061022990/15
htmltodat自体もvistaで動くのかという気もするのですが
まあ何とかなるのではと思います。
JaneLogMoverは内部でOSが2000/XP系か98/Me系かを判定して
処理を分岐しているので、そろそろ対応を考えておかないと
まずいかなと思ったわけです。
というわけで情報お持ちの方はよろしくお願いします。
410
:
名無しさん
:2007/01/24(水) 17:56:55
http://ex14.vip2ch.com/part4vip/kako/116/1166959235.html
このスレを変換しようと
>>382
で書かれている正規表現を使用したのですが
途中でエラーになります。ちゃんと変換できる方法はありますか?
411
:
663
◆fnwcOWFi56
:2007/01/24(水) 19:08:05
>>410
さん
「:」と日付の間の半角スペースが無いのが原因みたいです。下のでどうでしょう
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>): ?(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik
412
:
◆/vmukiyuzw
:2007/01/24(水) 19:58:44
>>410-411
さん
私の環境では
>>382
の正規表現で正常に変換できましたが。
>>411
(663 ◆fnwcOWFi56)さんの
> 「:」と日付の間の半角スペースが無いのが
ですが、これが無くても結果に無駄な半角スペースがつくだけで
エラーにはならないと思うのです。
htmlソースをざっと見てみましたが:と日付の間に半角スペースは
見当たりませんし。
・・・で、推測ですが、いったんブラウザで表示させたものを
「名前を付けて保存」として保存したhtmlを変換しようとしてませんか?
もしそうであれば、htmltodatにURLを直接入力してhtmlを取得して
やってみてください。
※過去にも何度か書きましたがブラウザの機能で保存すると
htmlが適当に加工・整形されてしまうので、正規表現は
変えないといけなくなる場合があります。
あと、スレタイに余分なものがついているので、
s#(<title>.*?)@VIPService過去ログ倉庫(</title>)#$1$2#ik
と入れて整形したほうがいいんじゃないでしょうか。
413
:
◆/vmukiyuzw
:2007/01/24(水) 20:20:42
ちょっと言葉足らずでした。
s#(<title>.*?)@VIPService過去ログ倉庫(</title>)#$1$2#ik
と「前処理」に入れて整形したほうが〜
です。
414
:
名無しさん
:2007/01/25(木) 00:22:43
>>411-413
ありがとうございます
>>411
さんの正規表現でできました
その後
>>382
で試したところエラーになりました
前処理は役に立ちました
ありがとうございました
415
:
◆/vmukiyuzw
:2007/01/25(木) 08:52:05
>>414
さん
解決したのでもう見ておられないかもしれないですが・・・
>>411
でも書きましたが
>>410
のURLは
>>382
の正規表現で私のとこでは
うまくいくのです。
同じURLを同じ正規表現で処理してエラーになったりならなかったりする
というような状況は経験に無いので、以下の点だけ確認させてください。
・環境(OS、htmltodatのバージョン)
・エラーの内容(多分「一行が長すぎるか正規表現が正しくありません」だと
思うのですがもしそれ以外だったらその内容)
・エラーが出たときの、「読込行:xxxx/変換行:xxxx/バッファサイズ:xxxx」
(画面左下、「dat変換結果」欄の下に表示されているはず)の内容
以上、よろしければお願いします。
416
:
名無しさん
:2007/01/25(木) 10:37:03
http://search.mimizun.com:82/perl/dattohtml.pl?http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat
みみずん検索のdatを変換するには、どのようにすればよいのでしょうか?
よろしければ、ご教授ください。
417
:
名無しさん
:2007/01/25(木) 15:31:10
>>415
OS XP Media
htmltodat 0.8.9
エラーの内容「一行が長すぎるか正規表現が正しくありません」
「読込行:176/変換行:0/バッファサイズ:10100」
こうなりました
418
:
◆/vmukiyuzw
:2007/01/25(木) 21:12:33
>>416
さん
URLの先頭から dattohtml.pl? までを削って
http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat
にすれば直接datを落とせます。
どうしてもhtmlから変換したいということなら
>>398
でできると思います。
419
:
◆/vmukiyuzw
:2007/01/25(木) 21:25:00
>>417
さん
ご報告ありがとうございます。
申し訳ないのですが最後にもう一点だけ確認していただけないでしょうか。
>>382
の正規表現の最後に k を付けて
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik
これでもエラーになるでしょうか?
420
:
416
:2007/01/25(木) 21:59:16
>>418
ご回答いただき誠にありがとうございます。
また、よく調べもせずに安易に質問して申し訳ございませんでした。
421
:
名無しさん
:2007/01/25(木) 22:23:09
>>419
同じエラーになりました
読込行100を過ぎたあたりからスピードが遅くなっています
422
:
◆/vmukiyuzw
:2007/01/26(金) 22:11:01
>>421
さん
再度のご報告ありがとうございます。
残念ながら、エラーになる原因がわからないです。
>>411
がOKで
>>419
がエラーになる理由もわかりません。
(正規表現上での違いは一箇所しかないのです・・・でもそこが
エラーになる原因とは考えにくいのです)
これ以上はおそらく環境の問題だと思うのですが、
>>421
さんのPCを
直接触らせていただくくらいしか調べる方法が思いつかないので、
この件は申し訳ないですがいったん中断にさせてください。。。
もし他に何か思い当たる点があればご報告頂きたくお願いします。
423
:
◆/vmukiyuzw
:2007/02/09(金) 23:29:31
>>422
の続きですが
このスレ自体をブラウザで表示した際に、
>>419
のように書いたな正規表現が
ワードラップの関係で途中で改行されて、そこに不要な半角スペースが
入ってしまう可能性があるようです。
ブラウザの文字サイズを最小にするか表示領域の横幅を最大にして
改行されない状態でコピペするとうまくいくかもしれません。
424
:
◆/vmukiyuzw
:2007/02/10(土) 00:01:46
makimo.to(にくちゃんねる)のhtmlを現状でdat化する方法を
まとめておこうかな。
・「受信オプション」-「HTTPヘッダの追加」で
Cookie: text=dat<>1<>0<>false<>mycss=<>0<>0<>3000<><><><>
または
User-Agent: Monazilla/1.00 (htmltodat/0.8.9)
を指定する。
・該当のURLを入力してHTML取得(この時点でdat形式で取得されるはず)
・「変換オプション」-「前処理」で
w $SELECTFILE.dat
を指定する。ついでに「dat変換をしない(前処理のみ行う)オプションを
チェック。
・「変換開始」ボタンを押すとファイルの保存ダイアログが出てくるはず。
で任意のフォルダにdatを保存。
現状ではログを7日間しか保持されていないそうなので、それ以前にdat落ちした
ログとかでは無理ですが、そうでなければこちらの方法のほうが簡単だと思うので。
425
:
◆/vmukiyuzw
:2007/02/10(土) 02:34:36
>>424
の方法はちょっと保留にさせてください。
なんかdatの最後にゴミがくっついてくる場合があるようで・・・
にくちゃんねる側の不具合の可能性もあるのですが
gzip圧縮で転送されてくるのでhtmltodat側での解凍の
不具合である可能性もあります。
調査します。
426
:
◆/vmukiyuzw
:2007/02/10(土) 15:24:41
バージョンアップしました。(0.8.10)
・gzip解凍の際に結果にゴミがついてしまうバグを修正。
・受信データの最後が改行コードであった場合に、改行コードが欠落して
しまうバグを修正。
今回は不具合対応のみです。
どちらも結構前からあったバグだと思われますが、
gzip解凍のゴミ:gzip圧縮されたデータを扱うこと自体が少なかったと
思われるのと、html→dat変換に必要ない部分は基本的に見ていないので
問題とはならなかったと思われます。
改行コードの欠落:これもhtml→dat変換には関係ない部分ですので
発覚しなかったと思われます。
いずれも、
>>424
の方法で直接datを取得しようとして「何か変だ・・・」
と思い調べてみると発覚したものです。
改行コードの欠落については、ブラウザによっては問題なく読めるものも
あったのですが、最後1レスを認識しなくなるブラウザもあったので
対応しました。
427
:
名無しさん
:2007/02/18(日) 13:13:05
http://kiritsukegomen.hp.infoseek.co.jp/log/jisaku1145017036.html
のログを変換しようとすると、「1行が長すぎるか正規表現が正しくないようです」
となって読み込みが途中で止まってしまいます。
ここの他のログはread.cgi7.00?で変換できたのですが、このログだけダメです。
正規表現をどう変えればいいのでしょう?
428
:
663
◆fnwcOWFi56
:2007/02/18(日) 15:15:50
>>427
さん
makimo.toさんのhtmlをブラウザ保存したものみたいなので
下の正規表現で何とかなるかもです
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class="?sage"?>|<a href="mailto:(.*?)" class="?mailto"?>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|(?:</dd>)?</dl>)#mik
前処理その他は
>>362
でいいのかも
429
:
427
:2007/02/18(日) 16:44:04
早速ありがとうございます。
>>362
の$boardを変更するとうまくいきました。無料サポありがとうございます。
430
:
<削除>
:<削除>
<削除>
431
:
663
◆fnwcOWFi56
:2007/03/09(金) 19:24:26
いつもお世話になっております。
また要望よろしいでしょうか。
後処理でもwコマンドを使えるようにしては頂けないでしょうか。
現状ではwコマンドは前処理でのみ使えるのですが
後処理でも使えるなっていれば有り難いです。
例えばdatの保存先フォルダを自動取得して
それが
C:\My Documents\Nida070202\Logs\2ch\案内\ガイドライン\1165245437.dat
だった場合
後処理でwコマンドが使えたら
w C:\My Documents\DoeView051128\NidaUTF8\Nida070202\Logs\2ch\案内\ガイドライン\1165245437.dat
とやれば、dat変換完了と共に該当フォルダに保存出来るので嬉しいのですが。
もし可能でしたらお願い致します。
432
:
◆/vmukiyuzw
:2007/03/09(金) 22:38:04
なるほどそういう用途がありましたか。目からウロコです。
実は現状の仕様は
・前処理:読み込んだHTML全体に対して作用するようになっている
・後処理:変換結果のdatの一行ずつに作用するようになっている
ので、単純に前処理と同じように処理したのではたとえばdatが1001行あれば
wコマンドでの保存処理も1001回行うことになってしまい非常に効率が悪い
ことになってしまいます。
・・でも考えてみると、前処理と後処理で仕様が異なっているのには
特に深い理由はなく、
・前処理:相手にするHTMLがどんな形式かわからない。ので一行ずつ処理するのは
意味がない可能性があるので、全体に作用するようにした
・後処理:dat形式に整形された後なので形式はわかっている。であれば一行ずつ処理
するほうが簡単かなと思った
ということだったりします。
で、後処理のほうも前処理同様一行ずつではなく変換結果全体に作用するように
仕様変更すればいいのかもなのですが、今の仕様を前提に後処理を使っている人が
もしいたら困られるかもしれないです。(まずいないだろうとは思うのですが・・・
大抵代替手段はあると思いますし)
なのでしばらくペンディングにさせてください。
仕様変更されたら困ると言う方がおられればご報告ください。
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板