したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1 </b><font color=#FF0000>(L44UP/ps)</font><b> :2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

2 </b><font color=#FF0000>(L44UP/ps)</font><b> :2002/12/03(火) 03:42
とりあえず現状報告。
HTML取得を複数回押すとConnection closed gracefully のエラーになることがあります。
まじめにコネクションを切ってないのでまずい場合がある模様。
あと、EUC->SJIS変換しても化ける場合があります。別に凝ったことはしてないのになぁ。
HTML取得の後に化けるケースは対応できそうですがソース貼り付けの場合がどうも
うまくいかないっぽい。研究中です。
一応手元のバージョンではソース貼り付けのケースを除いては対応できたようなので
もう少しテストしてから差し替えます。

3 </b><font color=#FF0000>(L44UP/ps)</font><b> :2002/12/05(木) 07:35
修正版(0.0.6)をアップしました。

4 </b><font color=#FF0000>(L44UP/ps)</font><b> :2002/12/16(月) 10:16
0.0.7をアップしました。
今回は微修正のみです。

5 ジャス</b><font color=#FF0000>(jXxeRXqw)</font><b> :2002/12/28(土) 16:55
最近移転させられたスレを取り込みたくて、read.cgi7.04pの正規表現を書いてみました。
書いたといっても、正規表現は初めてだったので、悪戦苦闘したあげくできたのはsampleから
空白と数文字を省いただけのものになりましたが・・・。一応変換できるようなのですが、
これで良いのでしょうか?ご教示いただければ幸いです。
正規表現は次の通りです。
read.cgi7.04=m#<DT>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</b>.*?:(.*?)<DD>(.*)<BR><BR>#mi

6 </b><font color=#FF0000>(L44UP/ps)</font><b> :2002/12/28(土) 17:33
>>5
2ちゃんのread.cgiを読むのなら、regexps.txtに入っている「read.cgi7.00?」が
使えると思うのですが。
試されたURLも教えていただけると助かります。

7 ジャス</b><font color=#FF0000>(jXxeRXqw)</font><b> :2002/12/28(土) 21:55
早速のレスありがとうございます。試したURLは以下のものです。
http://life.2ch.net/test/read.cgi/lifetr/1040737543/l50
但しさっき気づいたのですが、原因は私の操作ミスでして、私はこのスレをプラウザで
表示させて、ファイルメニューから「名前を付けて保存」しておりました。そうではなく、
このスレへのリンクを右クリックで「対象をファイルに保存」にすると、ご指摘の通り
read.cgi7.00?で変換することができました。
(リンクのページ)http://life.2ch.net/lifetr/subback.html
大変失礼しました。
尚、申し遅れましたが、私は以前に一括変換の際に拡張子htmも対象となるよう要望した
ものです。あの時も素早い対応ありがとうございました。重ねてお礼申し上げます。

8 名無しさん :2003/01/12(日) 17:04
>>7
http://cheese.2ch.net/pure/kako/1000/10000/1000052758.html
でためしたところ、「read.cgi7.00?」では1行が長すぎると言われましたが、
ジャスさんの正規表現使ったらOKでした。
両方あったほうがいいかも知れません。

9 名無しさん :2003/02/19(水) 11:42
sample.htmlを変換しようとしても1行が長すぎますって出るんですが、なんでですか?

10 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/02/27(木) 19:26
PCを修理に出しててレスが遅くなりました。
>>9
正規表現にはもちろん「sample」をそのまま指定してますよね?
だとするとちょっとわからないです。

11 名無しさん :2003/04/03(木) 21:15
「ふぁるがいあ」のレスを、
<b>名前</b>トリップ</b>,メール欄,投稿日ID,本文,題名
の形にするには、正規表現をどの様にすれば良いのでしょうか?

当方には、プログラムの知識が全く御座いません。
お教え頂ければ幸いに存じます。

12 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/03(木) 23:37
>>11
変換したいスレのURLを書いて頂ければアドバイスできるかもしれません。
「ふぁるがいあ」でググってみたのですがよくわかりませんでした・・・
(「現在この掲示板はサービスを停止しています」とか言われたので)

13 11 :2003/04/04(金) 22:05
>>12
こちらです。雑談スレッドのログです。
 
http://www20.tok2.com/home/LEFTy/sinzatu1.html

14 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/05(土) 01:10
>>13
正規表現「その他」を使えば2ch標準形式のdatには変換できましたが。

>>11をみると、もしかしてかちゅ〜しゃ形式にしたいのでしょうか?
であれば、変換結果を再度自力でテキストエディタ等で変換して頂くしか
ないかと思います。datファイルは「<>」を「,」に変換すればいいらしいですが、
idxファイルの作り方は知りません。

# そういう情報をお持ちの方がこのスレに書いていただけると
# うれしいのですが、こんな過疎状態では難しいですね・・・w

15 11 :2003/04/05(土) 12:05
解りました。自力で何とかさせて頂きます。

#過疎状態……2chにスレでも立てれば。
#……荒れるか。

16 11 :2003/04/06(日) 11:40
2ch標準形式のdatのままで読み込めるエディタはどの様な物が有るのでしょうか?
教えて頂けると有り難いです。

17 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/06(日) 20:11
>>11さん
かちゅのログ形式について調べてみたのですが、かなり標準形式とは異なる
独特のもので、単に「<>」を「,」にを変える程度ではまともに読めるものには
ならないようです。(レス番ポップアップ等がまったく効かない)

対処としては、かなり面倒な方法ですが、htmltodatでできたdatファイルを
適当なwebスペースにupしてかちゅからアクセスするという方法があるようです。
(以下の情報を参考にしました。
kage板総合質問スレッド
ttp://kage.monazilla.org/test/read.cgi/kage/037402107/237-245 )

試しに私のサイトにupしてみましたので、以下のURLでかちゅから
アクセスしてみてください。
http://mukiyu.hp.infoseek.co.jp/test/read.cgi?bbs=katju&amp;key=0000000001

18 11 :2003/04/06(日) 23:26
有り難う御座います。
レス番ポップアップを使うためにDATファイルの書き換えをしていたのですが、
流石に1000以上の書き換えを手動で行うのは、骨が折れます。
更にそれをあと50スレッド以上行おうとしていた自分の正気を疑いたくなってきました。

さて、あとは何処のwebスペースにupすれば良いやら解らないと言うのが問題でして、
今、絶望的に感じている所ですが(泣笑)

19 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/07(月) 01:21
>>18
> さて、あとは何処のwebスペースにupすれば良いやら解らないと言うのが問題でして、

無料で利用できるホームページサービスはいくらでもあるので
それらを利用してはいかがでしょう。
http://www.google.com/search?q=%96%B3%97%BF%83z%81%5B%83%80%83y%81%5B%83W&amp;btnG=Google+%8C%9F%8D%F5&amp;num=50&amp;hl=ja&amp;ie=Shift_JIS
アップロードにはFFFTPがお勧めです。

20 11 :2003/04/07(月) 22:58
>>19
何から何まで色いろとアドバイスを頂き、感謝の言葉も御座いません。

本当に、有り難う御座いました。

21 11 :2003/04/18(金) 16:34
ええっと、どうやればURLに「?」が入れられるのでしょうか。
ファイル名に「?」は入れられ無いですし……。
アドバイスを頂けるとありがたく思います。

22 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/18(金) 18:33
全角の「?」でしょうか?
該当のURL(またはファイル名の例)を教えてください。

23 11 :2003/04/18(金) 19:34
>>21
半角の「?」です。
例は>17にある様な物です。

24 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/18(金) 21:35
すみません、質問の意図を今ひとつ理解できていません。

>>21を読んで、
「htmltodatのURL欄に『?』が入力できない(エラーになる?)」
という意味かと思ったのですが、どうもそういうことではないようですね。

もしかして、>>17
http://mukiyu.hp.infoseek.co.jp/test/read.cgi?bbs=katju&amp;key=0000000001
みたいなURLに向けてファイルをアップロードするにはどうすればいいか、
ということでしょうか?

25 11 :2003/04/19(土) 03:44
>>24
済みません、説明不足でした。

その通りです。

26 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/19(土) 15:57
http://mukiyu.hp.infoseek.co.jp/test/read.cgi?bbs=katju&amp;key=0000000001
の例は、かちゅーしゃからアクセスするためのURLで、実際にUPする
ファイル名とは違います。
上のようなURLをかちゅーしゃでアクセスすると、実際には
http://mukiyu.hp.infoseek.co.jp/katju/dat/0000000001.dat
というURLに対してGETが行われるので、これにあわせてファイルを
UPするようにします。

>>17でリンクした「kage板総合質問スレッド」にも詳しく書いて
下さっている方がいるのでご参照ください。少し引用すると、

> 置くディレクトリは、http://適当なwebスペース/bbsname/dat/に
> bbsnameの部分は、目的の板の板ディレクトリ名にしておく。
> 例 http://kage.monazilla.org/kage/dat/

「適当なwebスペース」の部分は通常自分のアカウントで鯖にログイン
した場合のルートディレクトリになるはずなので、実際にはそこに
bbsname/datのディレクトリを作ってからdatファイルを置くことに
なります。

27 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/19(土) 18:24
専用の簡易httpサーバでも書いてみようかな・・・

28 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/20(日) 22:10
とふと思ったけど、車輪の再発明以上のものにはなりそうにないのでやめます。
代わりに、と言っては何ですが、datファイルからsubject.txtを生成する機能を
実装中。
これを使ってローカルでhttpサーバを動かしてかちゅーしゃ等からアクセスする
方法についてまとめてみる予定。

29 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/22(火) 01:12
>>28について各種2ch用ブラウザで動作を検証中。
>>1」のようなリンクのポップアップがうまくいかないものが多い。
(ホットゾヌ、ギコナビ等)
どうやらhtml上で>>1の前に付加されているアンカータグ<a href=〜>
がそのまま解釈されてしまってうまくいってない模様。
たいていの2ch用ブラウザには>>1のようなリンクにはアンカータグが
なくても自動で補う機能がついているようなので、これに頼ることにして
dat変換時にアンカータグを削除する機能をつけてみることにします。

30 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/04/25(金) 18:18
とりあえずバージョンアップしました。(0.1.0)

・subject.txt生成機能を実装。
・レス本文中のアンカータグ削除機能を実装。
・エラーメッセージ等微修正。

ドキュメントについてはまだこれからです。

31 名無しさん :2003/05/14(水) 20:08
「sample」正規表現で過去ログHTMLを変換すると、
コテハン内の空白やトリップ付きコテハンで名前欄の内容の一部が欠落する模様。

ついでに2ちゃんねるプロバイダーの
2ちゃんねるビューアが吐くHTML用正規表現キボンヌ。

32 31 :2003/05/14(水) 20:38
……と思ったが、ひょんな拍子で2ちゃんねるビューア用正規表現が、
自力で出来てしまったので晒しておく。

m#<DT>(?:<a .+?>)?([0-9]+).+?(?:<A HREF=mailto:(.+?)>)?<b>(.*?)</b></.+>.*?:(.*?)<DD>(.*)<BR><BR>#mi

完璧かどうかは判らないけどね。

33 31 :2003/05/14(水) 20:38
……と思ったが、ひょんな拍子で2ちゃんねるビューア用正規表現が、
自力で出来てしまったので晒しておく。

m#<DT>(?:<a .+?>)?([0-9]+).+?(?:<A HREF=mailto:(.+?)>)?<b>(.*?)</b></.+>.*?:(.*?)<DD>(.*)<BR><BR>#mi

完璧かどうかは判らないけどね。

34 31 :2003/05/14(水) 20:39
むぅ、これが2重カキコの罠か。

35 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/14(水) 21:50
# サーバーエラーでなかなか書けなかった・・・

>>31さん
「sample」はあくまでサンプルですし、readmeにも書いてるとおり
そのまま使えるとは期待しないでください。

うまくいかないURLの例を書いていただけるとうれしいのですが、
とりあえず以下のようなのではどうでしょうか。

m#<dt>([0-9]+).+?(?:"mailto:(.+?)">)?<b> (.*?) </b>(?:</font>|</a>) 投稿日: (.*?)<dd> ?(.*?)<br><br>#mi

36 31 :2003/05/14(水) 22:03
↓実際に用があったスレッドとは違いますが、★とかもあってテストに最適
http://pc.2ch.net/nntp/kako/1041/10410/1041061070.html

>>35の正規表現で、ばっちりOKでした。

37 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/14(水) 22:52
間違った・・・
m#<dt>([0-9]+).+?(?:"mailto:(.+?)">)?<b> (.*?) </b>(?:</font>|</a>) 投稿日: (.*?)<dd> ?(.*)<br><br>#mi
でないとまずいかもしれません。
(他の正規表現もそうだな・・・見直さなくちゃ)

38 fuwa :2003/05/16(金) 11:08
ども。ありがたく使わせていただいています。

さて、以下はおんぷちゃんねるの過去Logなんですが、変換がうまくいきません。
http://www.42ch.net/UploaderSmall/source/1052921487.htm
したらば(www)と>>33さんの正規表現を使いましたが(他の正規表現ではダメ
でした)、イマイチです。
よろしければ正しい正規表現を教えてください。

39 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/16(金) 18:36
>>38さん
HTMLソース見ましたがかなり独特ですね。やたら変なところで改行してて。
(投稿日と時刻の間とか、<A の直後とか)

で、正規表現を弄っているうちに、プログラム的に直さないとまずい部分が
発覚してしまったので、修正します。
今日中にはUPできると思うのでしばらくお待ちください。

40 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/16(金) 20:09
修正版をUPしました。(0.1.1)
・アンカータグ削除がうまくいかない場合があるバグを修正。

>>38さん
バージョンアップした上で、以下の正規表現をお試しください。

m#<dt>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?)</b>(?:</font>|</a>) +?投稿日:(.*?) *?<dd>(.*)(<br><br> *?<dt>|</dd>)#mi

投稿日と時刻の間の半角スペースの数がまちまちだったりしますが
これは元のHTML上そうなっちゃってるんで勘弁してください。

41 名無しさん :2003/05/16(金) 22:51
迅速な対応ありがとうございました。m(_ _)m

 カ ン ペ キ で す !

しかし、うーむ、やっぱり独特でしたか…。
私も中見て「…ヘンだ」とか思ってました。(^^;)
とにかくこれでdat化が迅速になります。ありがとうございました!

42 名無しさん :2003/05/17(土) 03:29
ギブアップです(ノ_・。)。

よろしければ、ご指南頂きたいです。

http://www25.big.or.jp/~wolfy/ragnarok/ ←元サイト
http://chobi.net/~akemino/ragnarok/kako/ ←ログおいてあるとこ

HTMLファイルを『OpenJane Doe α0.1.7.1』
のログ形式にしたいと思っています。添付
されていたsample.htmlを変換したDATファ
イルは、ちゃんと読み込むことができまし
た。

43 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/17(土) 15:20
>>42さん
該当サイトのログは全てgzip圧縮されているようですね。
htmltodatは現在残念ながらgzip圧縮には対応していません
ので、URL直打ちではHTML取得自体ができません。

ログをダウンロードして適当な解凍ツールで解凍してから
変換する必要があります。
(ブラウザで表示して「名前をつけて保存」とする方法も
ありますが、数が多ければ面倒ですし、保存の段階でHTMLが
適当に加工されてしまうので別の正規表現が必要になるかも
しれません)

正規表現は、read.cgi7.00のを元にちょっと弄っただけですが
以下のようなのでいけると思います。

m#<dt><A.*?></A>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?) ?</b>(?:</font>|</a></font>) 投稿日:(.*?)<dd> ?(.*?)<br><br>(<dt>|</dl>)#mi

44 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/17(土) 16:35
おまけ・・・
gzip解凍のできるツールは世の中にいろいろあると思いますが、
いっぺんにたくさんのファイルを対象にしたい場合、GUI型の
ツールより、gzipコマンドがお勧めです。
http://www.gzip.org/
ここからダウンロードして、コマンドプロンプトで*.gzファイルの
あるフォルダに移動し、
gzip -d *.gz
これだけで済みます。

45 42 :2003/05/17(土) 17:47
やった〜。できました。無事に変換できて、閲覧もばっちしでし
た(>>参照など)。

解凍自体はこのツール(http://www.kmonos.net/lib/noah.html)
使ってできていました。各種DLLを自動で落としてくれるCALDIXっ
てツール同梱で、とても便利ですよ。

おかげさまで、落としまくったログを快適に閲覧できそうです。
また何か詰まることがあったら、なにとぞご指南よろしくお願い
します。

最後に一発、(≧∇≦)アリガトー 。

46 42 :2003/05/17(土) 23:24
追記。

1000を超えるログファイルを解凍しようとして、その
すさまじさにちょいとびびり…でもまぁしょうがない
かと放置モードに入ろうとして、ふとgzipを試してみ
ました。

20秒たらずで全ファイル解凍完了。

GUIが常にいいとは限らないのだな、と心から実感し
た瞬間でした。アドバイス、深謝m(_ _)m。

47 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/05/21(水) 21:02
バージョンアップしました。(0.1.2)
正規表現に関する質問が増えてきたので、前から気になっていた正規表現編集の
手抜き部分(汗)を少し手直ししました。

0.1.2(2003/05/21)
・メインウィンドウからの正規表現一覧編集時の動作を少し修正。
一覧から選択して編集した場合しか「追加」ができなかったのを、一覧から
選択したものでなくても(例えば正規表現欄に直接入力したようなときも)
「追加」ができるようにした。
また、一覧から選択したものでない場合に「更新」をしたとき、「追加」と
同様の動作になるようにした。

48 もうだめぽ :2003/07/05(土) 02:02
…すみません、自分でかまってたらよけいにおかしくなってしまいまして。
お知恵をお借りしたいと思います。
変換したいHTMLソースは
http://members.tripod.co.jp/iijimalink3/log88.html
なのですが…

ここの>35,37 の2Ch用の正規表現を使っても
「一行が長過ぎるか、正規表現が正しくないようです」
と出て変換できません。かろうじて変換できたのは「したらば(WWW)」用の
物でしたが、これはトリップ部分が削られてしまいます。

ここの「テストその2」というスレの>7の正規表現を使うとトリップは再現
出来ましたが、今度は地の文のフォントがすべて緑色になってしまいます。

よろしければ、何かヒントでもいただけないでしょうか? お願いします。

49 もうだめぽ :2003/07/05(土) 06:40
上で書き忘れたのですが、どちらの正規表現を使っても本来1001あるはずの
発言が250〜500前後に削られてしまい、とてもまともに読めない状態です。

同じ2chでも鯖の設定によって条件が変わってしまうのか、保存したHTMLの
状態によって変換の可否が決まるのか… ううむ。 (´-ω-`)

50 もうだめぽ :2003/07/05(土) 08:21
連続書きすみません。

その後、諸先輩方の作例から下の正規表現をでっち上げ、何とかOpenJaneDoeで
文字属性を保ったまま1001発言を表示出来るようにはなりました、が…
正規表現自体の理解が足りず、未だmail欄が空白になる現象を直せません。

m#<DT><A.*?>([0-9]+).+?<B>?(?:<a href="mailto:(.+?)">)?(.*?)(?:</A>)?</B>(?:</font>|</a>) :(.*?)<DD>(.*)<BR><BR>#mi

51 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/07/05(土) 14:57
>>48-50さん
件のログはDAT2HTMLでHTML化されたもののようですね。
DAT2HTMLもバージョンによって出力形式が微妙に異なるようですが、
バージョン0.26で変換したものなら以下のようなのでいけるかと思います。

m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>) :(.*?)<DD>(.*)<BR><BR>#mi

52 48-50 :2003/07/05(土) 18:42
(L44UP/ps)様、早速>51の式で変換したところ、無事にOpenJaneDoeで
綺麗に表示する事が出来ました!! (。´Д⊂)゚。・

せっかく教えて頂いた事ですし、これを機会に自分で弄くってた>50とよく
見比べて、使いこなせるように勉強してみる事にします。

(L44UP/ps)様、本当にどうもありがとうございました!!

また、つまらない事で質問する事があるかも知れませんが…
そのときは、どうぞよろしくお願いします。

では…

53 48-50 :2003/07/05(土) 18:46
すみません、追伸になってしまって申し訳ありませんが…

素早い対応をして頂いて、本当にありがとうございました。

54 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/07/15(火) 00:13
今日たまたま見つけたのでご報告。
>>51

> DAT2HTMLもバージョンによって出力形式が微妙に異なるようですが、
> バージョン0.26で変換したものなら以下のようなのでいけるかと思います。

と書いたのですが、バージョン0.26の中にもいくつか細かいバージョン違いが
あるようで、>>51の正規表現ではうまくいかない場合があるようです。
(具体的には、名前欄の前後の<A HREF〜>、</A>の位置が違う)

「DAT2HTMLの出力なのに>>51ではうまくいかないよ!」という場合は、以下の
正規表現(「テストその2」スレの7のものと同じですが)だとうまくいくことが
あるので、お試しください。

m#<DT><A.*?>([0-9]+).+?<B>(?:<A HREF="mailto:(.+?)">)?(.*?)(?:</A>)?</B></FONT> :(.*?)<DD>(.*)<BR><BR>#mi

# どちらのバージョンでもいっぺんに対応できる正規表現を書いてみようと
# したのですが、曖昧になりすぎてうまくいきませんでした・・・_| ̄|○

55 名無しさん :2003/07/15(火) 17:47
本日このソフトを知り、試してみているのですが、
dat出力までは出来たのですが、
それをどうやって表示させるのかがわかりません。

使っているのはopenjane Doe α0.1.8.2です。
datファイルをどこに保存すればいいのかとか
教えていただけませんか。。

ものすごく初歩の質問でごめんなさい。。。

56 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/07/15(火) 23:14
Janeの場合、デフォルトでは
(Janeのインストールフォルダ)
 ┗ Logs
  ┗ 2ch
   ┗ (カテゴリ毎のフォルダ)...
    ┗ (板毎のフォルダ)...
の形式でフォルダができているはずです。
datファイルは任意の「板毎のフォルダ」の下に置いてください。
Janeでその板のスレ一覧を開けば、多分一番下のほうに該当のスレが
表示されるようになるはずです。

57 名無しさん :2003/07/16(水) 00:07
>>56
見れました!どうもありがとうございます。
自分で勝手にフォルダ作っても表示されないんですね。それで見れませんでした。

58 名無しさん :2003/07/17(木) 01:20
http://log-chan.hp.infoseek.co.jp/
↑のログちゃんねるのHTMLログを取得したいのですが
自分には手も足も出ません・・・
誰か正規表現書いた方、うpしてもらえませんか?
。゚・(ノД`)・゚・。

59 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/07/17(木) 22:18
>>58さん
いくつかログを見てみましたが、それぞれ微妙に形式が異なり、
汎用的なルールを書くのが難しかったです。
HTML中に
<META content="IBM HomePage Builder 2001 V5.0.4 (Trial) for Windows" name="GENERATOR">
とありますが一個一個手で整形してるのかしら?

一応以下のようなのをひねり出してみました。
ラウンジにあった4つのスレは一応変換できましたが、他のログにも
全て通用するかどうかはあまり自信ありません・・・

m#<DT>([0-9]+).+?(?:<B> </B>)?(?:<FONT.*?>)?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</FONT>|</A>).*?投稿日: ?(.*?) ?<BR>.*?<DD>(.*)<BR> *?<BR>( *?<DT>|</DL>)#mik

60 <削除> :<削除>
<削除>

61 名無しさん :2003/07/18(金) 05:26
>>59
ありがとうございますー!!
私が読みたかったスレはこれで大丈夫でした。
本当にありがとうございました。

62 名無しさん :2003/07/29(火) 10:13
JBBSしたらばに過去ログ倉庫機能がついたのですが、
これに対応した正規表現を書いた方はいらっしゃいませんでしょうか?(´・ω・`)

アクティブなスレとの違いは、<a name="1">とかがついてるだけっぽいので、
ここをどうにかすればいいとは思うのですが、何をどうしたらよいやら(;´Д`)

読みたいと思ってるのは、ここにあるスレです。
http://jbbs.shitaraba.com/game/1578/storage/index.html
http://jbbs.shitaraba.com/game/5091/storage/index.html

63 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/07/29(火) 21:54
>>62さん
JBBSしたらば過去ログは私も利用していますので・・・
こんなのを使ってますがどうでしょう?

m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> (.*?) </B>(?:</A>|</FONT>) 投稿日: (.*?)<BR><DD>(.*) ?<BR><BR>#mik

64 名無しさん :2003/07/30(水) 08:11
>>63
おお!ありがとうございます!
無事に変換することが出来ました。
今後も便利に使わせて頂きます(=´∇`=)

65 名無しさん :2003/09/26(金) 17:53
こんにちは

別のスレッドでお聞きしたのですが、こちらのほうが適当かと思い
こちらでもお聞きさせてください。

最近になってhtmltodatを試してみたのですが
2chプロバイダーのhtml(メニューから「htmlのみ」で保存しました)がうまくいきません。
試した正規表現は登録されているもの全てと
2chプロバイダー=m#<DT><A name=([0-9]+).+?(?:<A href="mailto:(.+?)">)?<B>(.*?)</B>.*?:(.*?)<DD>(.*)<BR><BR>(<DT>|</DD>)#mi
です。

ご指導頂ければ幸いに存じます。

66 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/09/26(金) 18:49
>>65さん

> 別のスレッドでお聞きしたのですが、こちらのほうが適当かと思い

「乱立する〜」スレですね。今見てきました。
私は2chプロバイダーに加入してないので、2chプロバイダーの吐くhtmlがどんな
ものかわからず正規表現自体に関するアドバイスはできないのですが、

> 2chプロバイダーのhtml(メニューから「htmlのみ」で保存しました)がうまくいきません。

この方法でhtmlを保存した場合、ブラウザが適当にhtmlを整形・加工してしまう
ので、正規表現にヒットしにくくなってしまう場合があります。
リンクを右クリック→「対象をファイルに保存」として保存するか、適当な
ダウンロードツール(iria、irvine等)で保存したhtmlならうまくいくかも
しれません。

67 65 :2003/09/26(金) 23:00
>>66様、お返事ありがとうございます。

2chプロバイダーですがcgiを用いているようで
「リンクを〜」などが使えないようです。

実際のhtmlの一部なのですがEUC→SJIS後、
横スクロールありにチェックを入れたところ

<br><br><dt><a name=64>64</a> :<a href=mailto:sage><b>名無しさん@お腹いっぱい。</b></a> :02/12/19 20:21 ID:hxRcrPWT<dd> マウ筋も軌跡でろ!
<br><br><dt><a name=65>65</a> :<font color=green><b>名無しさん@お腹いっぱい。</b></font> :02/12/20 00:56 ID:hi4FfEbG<dd> StrokeItで、デスクトップで「W」を書いてIE起動するのがすげー気持ちいい。 <br> 他のもいろいろ試してみっかな、フリーのヤツ
<br><br><dt><a name=66>66</a> :<font color=green><b>名無しさん@お腹いっぱい。</b></font> :02/12/20 01:27 ID:1/Z054zb<dd> 俺はWはWORDに使ってる <br> ブラウザはL
<br><br><dt><a name=67>67</a> :<a href=mailto:sage><b>名無しさん@お腹いっぱい。</b></a> :02/12/20 01:32 ID:fBTLXZIA<dd> <a href="../test/read.cgi/software/1039655120/66" >>>66</a> <br> DonutL使いと見たがどうか。

こんな風になっています。
これだけだと不十分でしょうか。

68 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/09/27(土) 01:12
>>67
ざっと見たところ、
・mailto の前後の「"」が無い
・名前欄の後が<b></a>だったり</b></font>だったりする
ところが微妙に違うみたいですね。

とりあえず、書いて頂いた分に対してだけ通用しそうなルールを書いてみました。

m#<DT><A.*?>([0-9]+).+?(?:<A HREF=mailto:(.+?)>)?<B>(.*?)</B>(?:</A>|</FONT>) :(.*?)<DD>(.*)<BR><BR>#mi

最後1レスが変換できないかもしれません。
また、キャップやトリップ付のレスがあると正しく変換できないかもしれません。
うまくいかなければ、html全体をどこかにupして頂けるとアドバイスできるかも
しれません。

69 65 :2003/09/27(土) 01:58
作者様、度々ありがとうございます。

ご指示いただいたものも試したのですが
うまくいかないようなのです。

一応
http://up.isp.2ch.net/up/c7eddd8c5120.lzh
こちらにアップさせていただきました。
なお887にトリップを使ったレスがあります。
(あと関係ないかもしれませんが本文中にトリップのコピペがあります。)
キャップを使ったレスは、ないようです。

お手数をおかけし恐縮ですがよろしくお願いします。

70 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/09/27(土) 08:41
>>69
頂いたファイルでいろいろ正規表現を試していたのですが
「これでいけるはずなのにうまくいかない…」状況に。
仕方なく、プログラムレベルでのデバッグをしてみると、とんでもない
バグを見つけてしまいました^^;
htmlの最初の行が空行だった場合、必ず「変換結果0行でした」のエラーに
なってしまうというものです。(まあそんなことまで想定してなかった
ということなんですが)
早速fixしたバージョン(0.1.3)をリリースしましたので、お試しください。
正規表現は>>68のでいけると思います。

71 65 :2003/09/27(土) 16:06
>>70
作者さま、こんにちは。

ご指示いただいたものをいくつかのスレッドで試したところ
もんだいなく変換できました。

今回は、度重なるご指導ありがとうございました。
便利に使わせていただきます!

72 名無しさん :2003/12/02(火) 02:01
ぶしつけな書き込みですいません。

2chのスレをhtmlで保存してあるのをこのツールで変換して
Live2chで使っています。read.cgi7.00?で、ほぼうまくいって
いるのですが、一点だけ気になることが。

>>72」とかの引用が文字だけ表示になってしまって、リンク
されてないんです。正規表現を理解しておらず、他力本願なの
ですが、どなたかお助け下さい。

73 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/12/03(水) 18:25
>>72さん
アンカータグ削除機能(>>29-30参照)とLive2chの相性の問題かな、と
最初思ったのですが、Live2ch Ver.1.01で確認したところ、アンカータグ
削除を行っていてもちゃんと>>xx形式へのリンクはされました。
ということはやはりdatへの変換がうまくいっていない可能性が高いです。
(1行1レスになってないとか)

該当のスレのURLを教えていただければアドバイスできるかもしれません。

74 72 :2003/12/03(水) 19:29
お返事いただきありがとうございます。

自分の環境では2chのどのスレでも再現してしまいました。
保存をブラウザでしたやつを利用したからでしょうか?
(IE 6.0.2008とNN 4.78jの両方で確認してみました)

とりあえず作者さんの環境で、これではいかがでしょうか。
新幹線の乗り方(超初心者編)2
http://travel.2ch.net/test/read.cgi/travel/1036408453/

えっと実はアンカータグ削除機能のことは知らなかったのですが、
もしよろしければread.cgi7.00?に機能あり/なし の二つの変換式
バージョンを用意するってのでも、私的には十分満足です。

75 72 :2003/12/03(水) 22:31
すいません。今さら気付いたんですが、アンカータグ削除機能は
変換式ではなく本体プログラムの方での対応だったんですね。失礼しました。
(このチェックボックス自体はon/offして試していたのですが)

Live2ch v1.01の設定で「拡張ポップアップ」をonにしても「>>」だけはテキスト表示。
ん〜「>」とか「>」は表示するのに・・・。こんな感じでした。

76 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/12/03(水) 22:41
>>74
> とりあえず作者さんの環境で、これではいかがでしょうか。

こちらでも再現しました。そして原因もわかりました。

html上で<や>のような文字を表現する場合、htmlタグと区別するために
代わりに&lt;、&gt;(本来は半角)を使用する、のが一般的なルールなの
ですが、今の2chのread.cgiでは>>xxを&gt;&gt;xxではなくそのまま>>xxと
いう文字でhtml出力しているようです。
(サーバのdatファイル上では&gt;&gt;xxになっているので出力時に
わざわざ変換しているようです)

# これはルール違反じゃないかと思うのですが・・・

で、htmltodatもLive2chもそんなことは想定していないので&gt;&gt;xxには
リンクが貼れるがただの>>xxにはリンクが貼れない、という状況のようです。
ちなみにJaneでもギコナビでもリンクは貼られませんでした。

対処としては各ブラウザの作者さんにお願いするわけにもいかないでしょうから
htmltodatで変換するようにしたいと思います。
気長にお待ちを・・・

77 72 :2003/12/03(水) 23:59
はい、ありがとうございます。さっそく(?)気長に待つことにします。

78 </b><font color=#FF0000>(L44UP/ps)</font><b> :2003/12/04(木) 08:02
バージョンアップしました。(0.1.4)

0.1.4(2003/12/04)
・本文中に「>>x」(xは数字)の文字列があったら「&gt;&gt;x」(実際は半角)に
変換するよう修正。
2chのread.cgiの仕様変更(?)により、>>x形式のリンクが&gt;&gt;xでなく
>>xそのままで出力されるようになってしまったため、ブラウザによっては
リンクであると認識できなくなる不具合への対応。

お試しください >>72さん

79 72 :2003/12/04(木) 20:30
気長に待つつもりでおりましたら、なんてすばやい対応。
ちゃんとうまく動きました。ありがとうございます。

80 名無しさん :2004/02/23(月) 13:39
いつもありがたく利用させて貰っています。
いちごびびえす用にいろいろ書いているんですが、どうも上手くいきません。
どなたかいちごびびえす用の正規表現を教えていただけないでしょうか。

81 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/02/27(金) 23:23
>>80さん
あんまり調べてないんでうまくいくどうかわかりませんが
一度お試しください。

m#<DT>([0-9]+).+?<b>(?:<A HREF="mailto:(.+?)">)?(.*?)</b>.*?  (.*?)<DD>(.*)#mi

82 名無しさん :2004/04/14(水) 20:39
http://makimo.to/2ch/life2_fashion/1046/1046890775.html
ここがうまく表示できないのですが・・・

83 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/04/15(木) 00:19
>>82さん
前にwin板のJaneスレで見かけたのですが、makimo.toのログは
htmltodat使わなくてもdat形式で取得できるそうですよ。

参考:
2chBrowser OpenJane@Win板 Part12
http://pc2.2ch.net/test/read.cgi/win/1063590722/
http://pc2.2ch.net/win/kako/1063/10635/1063590722.html
の49,56,73

ちょっと長くなりますが引用しておきます。

--------------------------------------------------------
49 名前:名無し~3.EXE[] 投稿日:03/09/20 17:03 ID:cDvhXlYB
http://makimo.to/2ch/
ここの過去ログ墓場にあるスレを
OpenJaneDoeで閲覧したいのですが…
見る方法はあるでしょうか?

---------------------------------------------------------
56 名前:名無し~3.EXE[sage] 投稿日:03/09/20 18:22 ID:cDvhXlYB
ちなみに>>49のサイトの管理人に聞いてみたところ、

[105] (無題) 投稿者:ぴ 投稿日:2003/09/20(Sat) 16:10
http://makimo.to/2ch/xxx_xxx/xxxx/xxxxxxxxxx.html
というURLがあったら、自動的に
http://makimo.to/cgi-bin/html2dat/html2dat.cgi?xxx_xxx/xxxx/xxxxxxxxxx.html
にアクセスするような仕組みがあれば可能だと思いますが、

ブラウザの作者のほうへ依頼したほうがいいと思います。


という答えが返ってきました

---------------------------------------------------------
73 名前:名無し~3.EXE[sage] 投稿日:03/09/21 01:53 ID:w1p6Vafg
>>56 って、下のURL自身がhtml形式からdat形式に変換するcgiなような……。
スレのURLを変換して表示すればdat形式で表示されるよ。

例えば、
ttp://makimo.to/2ch/news4_news/1055/1055607711.html
なら、下のURLを開く。
ttp://makimo.to/cgi-bin/html2dat/html2dat.cgi?news4_news/1055/1055607711.html

表示された内容を1行目の"+OK /dat/news4_news/1055/1055607711.dat"を除いて
テキストエディタに貼り付けて、"1055607711.dat"という名前でログフォルダに
保存(指定可能なら改行コードはLFの方がいいかも)。

84 82 :2004/04/16(金) 18:46
>>84
素早い対応ありがとうございました。
これからも利用させてもらいます。

85 名無しさん :2004/04/22(木) 18:45
はじめまして、いろいろ試行錯誤しながら使わせて頂いています。

ところでこちらのサイトので管理されている過去ログ
http://ifuya.hp.infoseek.co.jp/area88temp/menu.htm
なんですが、変換後に『ギコナビ』で読み込ませてもスレッド名が表示されません

ファイル処理は問題なく逝っているのですが…

ギコナビは、バタ47、変換方法はDAT2HTML0.26です

よろしくおながいすます (汗

86 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/04/23(金) 02:09
>>85さん
該当のサイトのログをいくつか見てみました。
http://ifuya.hp.infoseek.co.jp/area88temp/log/1078421871.html
http://ifuya.hp.infoseek.co.jp/area88temp/log/1077967909.html
http://ifuya.hp.infoseek.co.jp/area88temp/log/1077289427.html
「DAT2HTML0.26」では「一行が長すぎるか、〜」のエラーが出たのですが
「read.cgi7.00?」ではちゃんと変換でき、ギコナビバタ47でスレッド名が
表示されるのも確認しました。
一度お試しください。

87 85 :2004/04/24(土) 02:52
早速のご返答有難うございます!

…試したのですが、やっぱり無理ですた(泣
変換した新着レスの日付が『1970年1月1日』と表示され、
スレッド名が表示されず、取得・カウント共に『0』のまま…
日付はどうでも良いけど、スレ名が反映されないとは…

今時Win98+IE6なんで、その性かなぁ… シクシク

88 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/04/24(土) 17:21
よくわからないですけど、>>85で「DAT2HTML0.26」で変換できている時点で
何か違うような気がします。
・うまくいかないスレのURLを教えてください。
・HTML取得はURL直打ちでしましたか?それともいったんローカルに
保存してから取得しましたか?その場合、どうやって保存しましたか?
・ギコナビでのスレ内容自体の表示はできていますか?
(レス番ポップアップが効くか、等)

以上の情報をください。

89 85 :2004/04/25(日) 10:16
>>88さま
どうも色々試行錯誤しながら、他の奴も変換していた性で
自分でも勘違いしていたかもしれません>DAT2HTML0.26

>86の
http://ifuya.hp.infoseek.co.jp/area88temp/log/1077967909.html
だけはスレッド名取得その他問題なく『バタ47』に取り込み成功したのですが、
何故上手くいったか判らず…

・うまくいかないスレ:過去ログ置き場
http://ifuya.hp.infoseek.co.jp/area88temp/menu.htm
!症状:
・ギコナビで『アニメ板』を表示した時に変換したスレが現れず、取得済みスレから該当スレを呼び出すと
取得済みの過去ログと現行最下スレッドの境に「スレッド名:空欄、取得・カウント共に『0』」
のファイルが表示される。
・タブにもスレ名はでない(名称未設定になっているみたいです)
!HTML取得:
・URLは該当ログを表示して、アドレスをコピペ
!ギコナビでのスレ内容自体の表示:
全て問題無し

という感じです。過去ログが『DAT2HTML 0.29a』でhtml変換されている性なんでしょうか?

後下の奴も「その他」変換で同じ症状が出ました
http://bustof.hp.infoseek.co.jp/1079113823.html
(html変換:DAT2HTML 0.26)

ファイル変換自体は上手くいくんで、ギコナビで過去ログ監理する時、
スレ名さえ読んでくれれば問題解決なんですが…

90 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/04/25(日) 19:12
変換自体がうまくいくのにスレッド名が表示されないのは
ちょっと原因がわかりません。
私の環境では
http://bustof.hp.infoseek.co.jp/1079113823.html
も正規表現「その他」で変換でき、スレッド名もスレ内容も
取得・カウントもちゃんと表示できましたが・・・

変換後、htmltodatの「dat変換結果」欄の1行目の最後、
<>の後ろにスレッド名は入っていますか?
(ギコナビでのスレッド名もこれを表示しているはず)

また、ギコナビを再起動しても表示は変わりませんか?

91 85 :2004/04/26(月) 21:56
>また、ギコナビを再起動しても表示は変わりませんか?
ぐはっ、か、肝心なことを見逃してました…

再起動で、「表示」問題解決しました。
こんなこと気付かずに無駄レスしてしまいスイマセン

お詫びに、チョット逝ってきます
   ||
 ∧||∧
( / ⌒ヽ
 | |   | < >90氏様、有難うございますた…
 ∪ ノ ノ        
  | | |         
  ∪∪       
   :          
   :        
 ―━―

92 名無しさん :2004/05/03(月) 18:10
Internet Archiveの正規表現を教えてもらえないでしょうか…?
ただ、このスレッドは全てのレスを表示できません

http://web.archive.org/web/20020919151417/choco.2ch.net/test/read.cgi/park/950434711/701-800

93 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/05/03(月) 22:07
>>92さん
正規表現は「read.cgi7.00?」でうまくいくと思いますが、
全レス取得できないスレを変換しても2ch用ブラウザでの
表示はうまくいかないと思いますよ。

94 92 :2004/05/04(火) 01:42
>>93
そうですか…無理を言ってしまってすいません

95 名無しさん :2004/05/10(月) 20:42
とても便利なツールだと思うので使いこなしたいのですが
起動でつまずいてしまいました…
htmltodat.exeをダブルクリックしても「必要なDLLファイルBREGEXP.DLLがみつかりませんでした。」と表示されてしまいます。
ヘルプに書いてあるhttp://www.hi-ho.ne.jp/babaq/index.html
のBREGEXP.DLLをダウンロードして同じフォルダの中に入れているのですが
それだけではダメなのでしょうか?
「Bregexp.h」「Breg50.lib」「Bregexp.lib」を開いてみましたがうまくいきませんでした。
初心者な質問で申し訳ありませんがご教授ください。

96 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/05/10(月) 23:39
>>95さん
基本的にはDLLをexeと同じフォルダに置くだけで動くはずなのですが・・・
ちょっと原因がつかみかねます。

・差し支えなければ、exeとDLLを置いたフォルダ名を教えてください。
・BREGEXP.DLLをシステムフォルダに移してもだめですか?
 ※システムフォルダはwondowsのバージョンによって異なります。
 XP - C:\WINDOWS\SYSTEM32
 2000 - C:\WINNT\SYSTEM32 (2000はあまり使ってないのでうろ覚え)
 9x - C:\WINDOWS\SYSTEM

97 95 :2004/05/12(水) 01:00
解凍したままデスクトップで作業していました。お恥ずかしいです。
先程BREGEXP.DLLとexeをC:\WINDOWS\SYSTEMに移してみた所、ちゃんと動きました。
お手数をお掛けして済みませんでした。ありがとうございます。

98 名無しさん :2004/05/29(土) 13:55
DAT2HTML 0.29用の正規表現はどのようになりますか?
入っていた全ての正規表現を試してみても上手く変換できませんでした。

99 </b><font color=#FF0000>(L44UP/ps)</font><b> :2004/05/29(土) 17:12
>>98さん
DAT2HTML 0.29と0.29appで手元の適当なdatをHTML変換してみましたが
いずれも正規表現「DAT2HTML0.26」でdatに戻せましたよ。

ただ、HTML変換時にスキンが指定されてたりすると違った形式のHTMLに
なってしまう可能性もあります。
差し支えなければうまくいかないURLを教えてください。

100 名無しさん :2004/05/29(土) 22:17
>99
すみません。再度実行してみたら今度は出来ました。
お手数おかけしました。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

■ したらば のおすすめアイテム ■

レッドブルエナジードリンク 250ml×24本 - レッドブル・ジャパン

フルチャージ!

この欄のアイテムは掲示板管理メニューから自由に変更可能です。


掲示板管理者へ連絡 無料レンタル掲示板