したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1</b><font color=#FF0000>(L44UP/ps)</font><b>:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

41名無しさん:2003/05/16(金) 22:51
迅速な対応ありがとうございました。m(_ _)m

 カ ン ペ キ で す !

しかし、うーむ、やっぱり独特でしたか…。
私も中見て「…ヘンだ」とか思ってました。(^^;)
とにかくこれでdat化が迅速になります。ありがとうございました!

42名無しさん:2003/05/17(土) 03:29
ギブアップです(ノ_・。)。

よろしければ、ご指南頂きたいです。

http://www25.big.or.jp/~wolfy/ragnarok/ ←元サイト
http://chobi.net/~akemino/ragnarok/kako/ ←ログおいてあるとこ

HTMLファイルを『OpenJane Doe α0.1.7.1』
のログ形式にしたいと思っています。添付
されていたsample.htmlを変換したDATファ
イルは、ちゃんと読み込むことができまし
た。

43</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/05/17(土) 15:20
>>42さん
該当サイトのログは全てgzip圧縮されているようですね。
htmltodatは現在残念ながらgzip圧縮には対応していません
ので、URL直打ちではHTML取得自体ができません。

ログをダウンロードして適当な解凍ツールで解凍してから
変換する必要があります。
(ブラウザで表示して「名前をつけて保存」とする方法も
ありますが、数が多ければ面倒ですし、保存の段階でHTMLが
適当に加工されてしまうので別の正規表現が必要になるかも
しれません)

正規表現は、read.cgi7.00のを元にちょっと弄っただけですが
以下のようなのでいけると思います。

m#<dt><A.*?></A>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?) ?</b>(?:</font>|</a></font>) 投稿日:(.*?)<dd> ?(.*?)<br><br>(<dt>|</dl>)#mi

44</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/05/17(土) 16:35
おまけ・・・
gzip解凍のできるツールは世の中にいろいろあると思いますが、
いっぺんにたくさんのファイルを対象にしたい場合、GUI型の
ツールより、gzipコマンドがお勧めです。
http://www.gzip.org/
ここからダウンロードして、コマンドプロンプトで*.gzファイルの
あるフォルダに移動し、
gzip -d *.gz
これだけで済みます。

4542:2003/05/17(土) 17:47
やった〜。できました。無事に変換できて、閲覧もばっちしでし
た(>>参照など)。

解凍自体はこのツール(http://www.kmonos.net/lib/noah.html)
使ってできていました。各種DLLを自動で落としてくれるCALDIXっ
てツール同梱で、とても便利ですよ。

おかげさまで、落としまくったログを快適に閲覧できそうです。
また何か詰まることがあったら、なにとぞご指南よろしくお願い
します。

最後に一発、(≧∇≦)アリガトー 。

4642:2003/05/17(土) 23:24
追記。

1000を超えるログファイルを解凍しようとして、その
すさまじさにちょいとびびり…でもまぁしょうがない
かと放置モードに入ろうとして、ふとgzipを試してみ
ました。

20秒たらずで全ファイル解凍完了。

GUIが常にいいとは限らないのだな、と心から実感し
た瞬間でした。アドバイス、深謝m(_ _)m。

47</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/05/21(水) 21:02
バージョンアップしました。(0.1.2)
正規表現に関する質問が増えてきたので、前から気になっていた正規表現編集の
手抜き部分(汗)を少し手直ししました。

0.1.2(2003/05/21)
・メインウィンドウからの正規表現一覧編集時の動作を少し修正。
一覧から選択して編集した場合しか「追加」ができなかったのを、一覧から
選択したものでなくても(例えば正規表現欄に直接入力したようなときも)
「追加」ができるようにした。
また、一覧から選択したものでない場合に「更新」をしたとき、「追加」と
同様の動作になるようにした。

48もうだめぽ:2003/07/05(土) 02:02
…すみません、自分でかまってたらよけいにおかしくなってしまいまして。
お知恵をお借りしたいと思います。
変換したいHTMLソースは
http://members.tripod.co.jp/iijimalink3/log88.html
なのですが…

ここの>35,37 の2Ch用の正規表現を使っても
「一行が長過ぎるか、正規表現が正しくないようです」
と出て変換できません。かろうじて変換できたのは「したらば(WWW)」用の
物でしたが、これはトリップ部分が削られてしまいます。

ここの「テストその2」というスレの>7の正規表現を使うとトリップは再現
出来ましたが、今度は地の文のフォントがすべて緑色になってしまいます。

よろしければ、何かヒントでもいただけないでしょうか? お願いします。

49もうだめぽ:2003/07/05(土) 06:40
上で書き忘れたのですが、どちらの正規表現を使っても本来1001あるはずの
発言が250〜500前後に削られてしまい、とてもまともに読めない状態です。

同じ2chでも鯖の設定によって条件が変わってしまうのか、保存したHTMLの
状態によって変換の可否が決まるのか… ううむ。 (´-ω-`)

50もうだめぽ:2003/07/05(土) 08:21
連続書きすみません。

その後、諸先輩方の作例から下の正規表現をでっち上げ、何とかOpenJaneDoeで
文字属性を保ったまま1001発言を表示出来るようにはなりました、が…
正規表現自体の理解が足りず、未だmail欄が空白になる現象を直せません。

m#<DT><A.*?>([0-9]+).+?<B>?(?:<a href="mailto:(.+?)">)?(.*?)(?:</A>)?</B>(?:</font>|</a>) :(.*?)<DD>(.*)<BR><BR>#mi

51</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/07/05(土) 14:57
>>48-50さん
件のログはDAT2HTMLでHTML化されたもののようですね。
DAT2HTMLもバージョンによって出力形式が微妙に異なるようですが、
バージョン0.26で変換したものなら以下のようなのでいけるかと思います。

m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>) :(.*?)<DD>(.*)<BR><BR>#mi

5248-50:2003/07/05(土) 18:42
(L44UP/ps)様、早速>51の式で変換したところ、無事にOpenJaneDoeで
綺麗に表示する事が出来ました!! (。´Д⊂)゚。・

せっかく教えて頂いた事ですし、これを機会に自分で弄くってた>50とよく
見比べて、使いこなせるように勉強してみる事にします。

(L44UP/ps)様、本当にどうもありがとうございました!!

また、つまらない事で質問する事があるかも知れませんが…
そのときは、どうぞよろしくお願いします。

では…

5348-50:2003/07/05(土) 18:46
すみません、追伸になってしまって申し訳ありませんが…

素早い対応をして頂いて、本当にありがとうございました。

54</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/07/15(火) 00:13
今日たまたま見つけたのでご報告。
>>51

> DAT2HTMLもバージョンによって出力形式が微妙に異なるようですが、
> バージョン0.26で変換したものなら以下のようなのでいけるかと思います。

と書いたのですが、バージョン0.26の中にもいくつか細かいバージョン違いが
あるようで、>>51の正規表現ではうまくいかない場合があるようです。
(具体的には、名前欄の前後の<A HREF〜>、</A>の位置が違う)

「DAT2HTMLの出力なのに>>51ではうまくいかないよ!」という場合は、以下の
正規表現(「テストその2」スレの7のものと同じですが)だとうまくいくことが
あるので、お試しください。

m#<DT><A.*?>([0-9]+).+?<B>(?:<A HREF="mailto:(.+?)">)?(.*?)(?:</A>)?</B></FONT> :(.*?)<DD>(.*)<BR><BR>#mi

# どちらのバージョンでもいっぺんに対応できる正規表現を書いてみようと
# したのですが、曖昧になりすぎてうまくいきませんでした・・・_| ̄|○

55名無しさん:2003/07/15(火) 17:47
本日このソフトを知り、試してみているのですが、
dat出力までは出来たのですが、
それをどうやって表示させるのかがわかりません。

使っているのはopenjane Doe α0.1.8.2です。
datファイルをどこに保存すればいいのかとか
教えていただけませんか。。

ものすごく初歩の質問でごめんなさい。。。

56</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/07/15(火) 23:14
Janeの場合、デフォルトでは
(Janeのインストールフォルダ)
 ┗ Logs
  ┗ 2ch
   ┗ (カテゴリ毎のフォルダ)...
    ┗ (板毎のフォルダ)...
の形式でフォルダができているはずです。
datファイルは任意の「板毎のフォルダ」の下に置いてください。
Janeでその板のスレ一覧を開けば、多分一番下のほうに該当のスレが
表示されるようになるはずです。

57名無しさん:2003/07/16(水) 00:07
>>56
見れました!どうもありがとうございます。
自分で勝手にフォルダ作っても表示されないんですね。それで見れませんでした。

58名無しさん:2003/07/17(木) 01:20
http://log-chan.hp.infoseek.co.jp/
↑のログちゃんねるのHTMLログを取得したいのですが
自分には手も足も出ません・・・
誰か正規表現書いた方、うpしてもらえませんか?
。゚・(ノД`)・゚・。

59</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/07/17(木) 22:18
>>58さん
いくつかログを見てみましたが、それぞれ微妙に形式が異なり、
汎用的なルールを書くのが難しかったです。
HTML中に
<META content="IBM HomePage Builder 2001 V5.0.4 (Trial) for Windows" name="GENERATOR">
とありますが一個一個手で整形してるのかしら?

一応以下のようなのをひねり出してみました。
ラウンジにあった4つのスレは一応変換できましたが、他のログにも
全て通用するかどうかはあまり自信ありません・・・

m#<DT>([0-9]+).+?(?:<B> </B>)?(?:<FONT.*?>)?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</FONT>|</A>).*?投稿日: ?(.*?) ?<BR>.*?<DD>(.*)<BR> *?<BR>( *?<DT>|</DL>)#mik

60<削除>:<削除>
<削除>

61名無しさん:2003/07/18(金) 05:26
>>59
ありがとうございますー!!
私が読みたかったスレはこれで大丈夫でした。
本当にありがとうございました。

62名無しさん:2003/07/29(火) 10:13
JBBSしたらばに過去ログ倉庫機能がついたのですが、
これに対応した正規表現を書いた方はいらっしゃいませんでしょうか?(´・ω・`)

アクティブなスレとの違いは、<a name="1">とかがついてるだけっぽいので、
ここをどうにかすればいいとは思うのですが、何をどうしたらよいやら(;´Д`)

読みたいと思ってるのは、ここにあるスレです。
http://jbbs.shitaraba.com/game/1578/storage/index.html
http://jbbs.shitaraba.com/game/5091/storage/index.html

63</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/07/29(火) 21:54
>>62さん
JBBSしたらば過去ログは私も利用していますので・・・
こんなのを使ってますがどうでしょう?

m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> (.*?) </B>(?:</A>|</FONT>) 投稿日: (.*?)<BR><DD>(.*) ?<BR><BR>#mik

64名無しさん:2003/07/30(水) 08:11
>>63
おお!ありがとうございます!
無事に変換することが出来ました。
今後も便利に使わせて頂きます(=´∇`=)

65名無しさん:2003/09/26(金) 17:53
こんにちは

別のスレッドでお聞きしたのですが、こちらのほうが適当かと思い
こちらでもお聞きさせてください。

最近になってhtmltodatを試してみたのですが
2chプロバイダーのhtml(メニューから「htmlのみ」で保存しました)がうまくいきません。
試した正規表現は登録されているもの全てと
2chプロバイダー=m#<DT><A name=([0-9]+).+?(?:<A href="mailto:(.+?)">)?<B>(.*?)</B>.*?:(.*?)<DD>(.*)<BR><BR>(<DT>|</DD>)#mi
です。

ご指導頂ければ幸いに存じます。

66</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/09/26(金) 18:49
>>65さん

> 別のスレッドでお聞きしたのですが、こちらのほうが適当かと思い

「乱立する〜」スレですね。今見てきました。
私は2chプロバイダーに加入してないので、2chプロバイダーの吐くhtmlがどんな
ものかわからず正規表現自体に関するアドバイスはできないのですが、

> 2chプロバイダーのhtml(メニューから「htmlのみ」で保存しました)がうまくいきません。

この方法でhtmlを保存した場合、ブラウザが適当にhtmlを整形・加工してしまう
ので、正規表現にヒットしにくくなってしまう場合があります。
リンクを右クリック→「対象をファイルに保存」として保存するか、適当な
ダウンロードツール(iria、irvine等)で保存したhtmlならうまくいくかも
しれません。

6765:2003/09/26(金) 23:00
>>66様、お返事ありがとうございます。

2chプロバイダーですがcgiを用いているようで
「リンクを〜」などが使えないようです。

実際のhtmlの一部なのですがEUC→SJIS後、
横スクロールありにチェックを入れたところ

<br><br><dt><a name=64>64</a> :<a href=mailto:sage><b>名無しさん@お腹いっぱい。</b></a> :02/12/19 20:21 ID:hxRcrPWT<dd> マウ筋も軌跡でろ!
<br><br><dt><a name=65>65</a> :<font color=green><b>名無しさん@お腹いっぱい。</b></font> :02/12/20 00:56 ID:hi4FfEbG<dd> StrokeItで、デスクトップで「W」を書いてIE起動するのがすげー気持ちいい。 <br> 他のもいろいろ試してみっかな、フリーのヤツ
<br><br><dt><a name=66>66</a> :<font color=green><b>名無しさん@お腹いっぱい。</b></font> :02/12/20 01:27 ID:1/Z054zb<dd> 俺はWはWORDに使ってる <br> ブラウザはL
<br><br><dt><a name=67>67</a> :<a href=mailto:sage><b>名無しさん@お腹いっぱい。</b></a> :02/12/20 01:32 ID:fBTLXZIA<dd> <a href="../test/read.cgi/software/1039655120/66" >>>66</a> <br> DonutL使いと見たがどうか。

こんな風になっています。
これだけだと不十分でしょうか。

68</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/09/27(土) 01:12
>>67
ざっと見たところ、
・mailto の前後の「"」が無い
・名前欄の後が<b></a>だったり</b></font>だったりする
ところが微妙に違うみたいですね。

とりあえず、書いて頂いた分に対してだけ通用しそうなルールを書いてみました。

m#<DT><A.*?>([0-9]+).+?(?:<A HREF=mailto:(.+?)>)?<B>(.*?)</B>(?:</A>|</FONT>) :(.*?)<DD>(.*)<BR><BR>#mi

最後1レスが変換できないかもしれません。
また、キャップやトリップ付のレスがあると正しく変換できないかもしれません。
うまくいかなければ、html全体をどこかにupして頂けるとアドバイスできるかも
しれません。

6965:2003/09/27(土) 01:58
作者様、度々ありがとうございます。

ご指示いただいたものも試したのですが
うまくいかないようなのです。

一応
http://up.isp.2ch.net/up/c7eddd8c5120.lzh
こちらにアップさせていただきました。
なお887にトリップを使ったレスがあります。
(あと関係ないかもしれませんが本文中にトリップのコピペがあります。)
キャップを使ったレスは、ないようです。

お手数をおかけし恐縮ですがよろしくお願いします。

70</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/09/27(土) 08:41
>>69
頂いたファイルでいろいろ正規表現を試していたのですが
「これでいけるはずなのにうまくいかない…」状況に。
仕方なく、プログラムレベルでのデバッグをしてみると、とんでもない
バグを見つけてしまいました^^;
htmlの最初の行が空行だった場合、必ず「変換結果0行でした」のエラーに
なってしまうというものです。(まあそんなことまで想定してなかった
ということなんですが)
早速fixしたバージョン(0.1.3)をリリースしましたので、お試しください。
正規表現は>>68のでいけると思います。

7165:2003/09/27(土) 16:06
>>70
作者さま、こんにちは。

ご指示いただいたものをいくつかのスレッドで試したところ
もんだいなく変換できました。

今回は、度重なるご指導ありがとうございました。
便利に使わせていただきます!

72名無しさん:2003/12/02(火) 02:01
ぶしつけな書き込みですいません。

2chのスレをhtmlで保存してあるのをこのツールで変換して
Live2chで使っています。read.cgi7.00?で、ほぼうまくいって
いるのですが、一点だけ気になることが。

>>72」とかの引用が文字だけ表示になってしまって、リンク
されてないんです。正規表現を理解しておらず、他力本願なの
ですが、どなたかお助け下さい。

73</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/12/03(水) 18:25
>>72さん
アンカータグ削除機能(>>29-30参照)とLive2chの相性の問題かな、と
最初思ったのですが、Live2ch Ver.1.01で確認したところ、アンカータグ
削除を行っていてもちゃんと>>xx形式へのリンクはされました。
ということはやはりdatへの変換がうまくいっていない可能性が高いです。
(1行1レスになってないとか)

該当のスレのURLを教えていただければアドバイスできるかもしれません。

7472:2003/12/03(水) 19:29
お返事いただきありがとうございます。

自分の環境では2chのどのスレでも再現してしまいました。
保存をブラウザでしたやつを利用したからでしょうか?
(IE 6.0.2008とNN 4.78jの両方で確認してみました)

とりあえず作者さんの環境で、これではいかがでしょうか。
新幹線の乗り方(超初心者編)2
http://travel.2ch.net/test/read.cgi/travel/1036408453/

えっと実はアンカータグ削除機能のことは知らなかったのですが、
もしよろしければread.cgi7.00?に機能あり/なし の二つの変換式
バージョンを用意するってのでも、私的には十分満足です。

7572:2003/12/03(水) 22:31
すいません。今さら気付いたんですが、アンカータグ削除機能は
変換式ではなく本体プログラムの方での対応だったんですね。失礼しました。
(このチェックボックス自体はon/offして試していたのですが)

Live2ch v1.01の設定で「拡張ポップアップ」をonにしても「>>」だけはテキスト表示。
ん〜「>」とか「>」は表示するのに・・・。こんな感じでした。

76</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/12/03(水) 22:41
>>74
> とりあえず作者さんの環境で、これではいかがでしょうか。

こちらでも再現しました。そして原因もわかりました。

html上で<や>のような文字を表現する場合、htmlタグと区別するために
代わりに&lt;、&gt;(本来は半角)を使用する、のが一般的なルールなの
ですが、今の2chのread.cgiでは>>xxを&gt;&gt;xxではなくそのまま>>xxと
いう文字でhtml出力しているようです。
(サーバのdatファイル上では&gt;&gt;xxになっているので出力時に
わざわざ変換しているようです)

# これはルール違反じゃないかと思うのですが・・・

で、htmltodatもLive2chもそんなことは想定していないので&gt;&gt;xxには
リンクが貼れるがただの>>xxにはリンクが貼れない、という状況のようです。
ちなみにJaneでもギコナビでもリンクは貼られませんでした。

対処としては各ブラウザの作者さんにお願いするわけにもいかないでしょうから
htmltodatで変換するようにしたいと思います。
気長にお待ちを・・・

7772:2003/12/03(水) 23:59
はい、ありがとうございます。さっそく(?)気長に待つことにします。

78</b><font color=#FF0000>(L44UP/ps)</font><b>:2003/12/04(木) 08:02
バージョンアップしました。(0.1.4)

0.1.4(2003/12/04)
・本文中に「>>x」(xは数字)の文字列があったら「&gt;&gt;x」(実際は半角)に
変換するよう修正。
2chのread.cgiの仕様変更(?)により、>>x形式のリンクが&gt;&gt;xでなく
>>xそのままで出力されるようになってしまったため、ブラウザによっては
リンクであると認識できなくなる不具合への対応。

お試しください >>72さん

7972:2003/12/04(木) 20:30
気長に待つつもりでおりましたら、なんてすばやい対応。
ちゃんとうまく動きました。ありがとうございます。

80名無しさん:2004/02/23(月) 13:39
いつもありがたく利用させて貰っています。
いちごびびえす用にいろいろ書いているんですが、どうも上手くいきません。
どなたかいちごびびえす用の正規表現を教えていただけないでしょうか。

81</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/02/27(金) 23:23
>>80さん
あんまり調べてないんでうまくいくどうかわかりませんが
一度お試しください。

m#<DT>([0-9]+).+?<b>(?:<A HREF="mailto:(.+?)">)?(.*?)</b>.*?  (.*?)<DD>(.*)#mi

82名無しさん:2004/04/14(水) 20:39
http://makimo.to/2ch/life2_fashion/1046/1046890775.html
ここがうまく表示できないのですが・・・

83</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/04/15(木) 00:19
>>82さん
前にwin板のJaneスレで見かけたのですが、makimo.toのログは
htmltodat使わなくてもdat形式で取得できるそうですよ。

参考:
2chBrowser OpenJane@Win板 Part12
http://pc2.2ch.net/test/read.cgi/win/1063590722/
http://pc2.2ch.net/win/kako/1063/10635/1063590722.html
の49,56,73

ちょっと長くなりますが引用しておきます。

--------------------------------------------------------
49 名前:名無し~3.EXE[] 投稿日:03/09/20 17:03 ID:cDvhXlYB
http://makimo.to/2ch/
ここの過去ログ墓場にあるスレを
OpenJaneDoeで閲覧したいのですが…
見る方法はあるでしょうか?

---------------------------------------------------------
56 名前:名無し~3.EXE[sage] 投稿日:03/09/20 18:22 ID:cDvhXlYB
ちなみに>>49のサイトの管理人に聞いてみたところ、

[105] (無題) 投稿者:ぴ 投稿日:2003/09/20(Sat) 16:10
http://makimo.to/2ch/xxx_xxx/xxxx/xxxxxxxxxx.html
というURLがあったら、自動的に
http://makimo.to/cgi-bin/html2dat/html2dat.cgi?xxx_xxx/xxxx/xxxxxxxxxx.html
にアクセスするような仕組みがあれば可能だと思いますが、

ブラウザの作者のほうへ依頼したほうがいいと思います。


という答えが返ってきました

---------------------------------------------------------
73 名前:名無し~3.EXE[sage] 投稿日:03/09/21 01:53 ID:w1p6Vafg
>>56 って、下のURL自身がhtml形式からdat形式に変換するcgiなような……。
スレのURLを変換して表示すればdat形式で表示されるよ。

例えば、
ttp://makimo.to/2ch/news4_news/1055/1055607711.html
なら、下のURLを開く。
ttp://makimo.to/cgi-bin/html2dat/html2dat.cgi?news4_news/1055/1055607711.html

表示された内容を1行目の"+OK /dat/news4_news/1055/1055607711.dat"を除いて
テキストエディタに貼り付けて、"1055607711.dat"という名前でログフォルダに
保存(指定可能なら改行コードはLFの方がいいかも)。

8482:2004/04/16(金) 18:46
>>84
素早い対応ありがとうございました。
これからも利用させてもらいます。

85名無しさん:2004/04/22(木) 18:45
はじめまして、いろいろ試行錯誤しながら使わせて頂いています。

ところでこちらのサイトので管理されている過去ログ
http://ifuya.hp.infoseek.co.jp/area88temp/menu.htm
なんですが、変換後に『ギコナビ』で読み込ませてもスレッド名が表示されません

ファイル処理は問題なく逝っているのですが…

ギコナビは、バタ47、変換方法はDAT2HTML0.26です

よろしくおながいすます (汗

86</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/04/23(金) 02:09
>>85さん
該当のサイトのログをいくつか見てみました。
http://ifuya.hp.infoseek.co.jp/area88temp/log/1078421871.html
http://ifuya.hp.infoseek.co.jp/area88temp/log/1077967909.html
http://ifuya.hp.infoseek.co.jp/area88temp/log/1077289427.html
「DAT2HTML0.26」では「一行が長すぎるか、〜」のエラーが出たのですが
「read.cgi7.00?」ではちゃんと変換でき、ギコナビバタ47でスレッド名が
表示されるのも確認しました。
一度お試しください。

8785:2004/04/24(土) 02:52
早速のご返答有難うございます!

…試したのですが、やっぱり無理ですた(泣
変換した新着レスの日付が『1970年1月1日』と表示され、
スレッド名が表示されず、取得・カウント共に『0』のまま…
日付はどうでも良いけど、スレ名が反映されないとは…

今時Win98+IE6なんで、その性かなぁ… シクシク

88</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/04/24(土) 17:21
よくわからないですけど、>>85で「DAT2HTML0.26」で変換できている時点で
何か違うような気がします。
・うまくいかないスレのURLを教えてください。
・HTML取得はURL直打ちでしましたか?それともいったんローカルに
保存してから取得しましたか?その場合、どうやって保存しましたか?
・ギコナビでのスレ内容自体の表示はできていますか?
(レス番ポップアップが効くか、等)

以上の情報をください。

8985:2004/04/25(日) 10:16
>>88さま
どうも色々試行錯誤しながら、他の奴も変換していた性で
自分でも勘違いしていたかもしれません>DAT2HTML0.26

>86の
http://ifuya.hp.infoseek.co.jp/area88temp/log/1077967909.html
だけはスレッド名取得その他問題なく『バタ47』に取り込み成功したのですが、
何故上手くいったか判らず…

・うまくいかないスレ:過去ログ置き場
http://ifuya.hp.infoseek.co.jp/area88temp/menu.htm
!症状:
・ギコナビで『アニメ板』を表示した時に変換したスレが現れず、取得済みスレから該当スレを呼び出すと
取得済みの過去ログと現行最下スレッドの境に「スレッド名:空欄、取得・カウント共に『0』」
のファイルが表示される。
・タブにもスレ名はでない(名称未設定になっているみたいです)
!HTML取得:
・URLは該当ログを表示して、アドレスをコピペ
!ギコナビでのスレ内容自体の表示:
全て問題無し

という感じです。過去ログが『DAT2HTML 0.29a』でhtml変換されている性なんでしょうか?

後下の奴も「その他」変換で同じ症状が出ました
http://bustof.hp.infoseek.co.jp/1079113823.html
(html変換:DAT2HTML 0.26)

ファイル変換自体は上手くいくんで、ギコナビで過去ログ監理する時、
スレ名さえ読んでくれれば問題解決なんですが…

90</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/04/25(日) 19:12
変換自体がうまくいくのにスレッド名が表示されないのは
ちょっと原因がわかりません。
私の環境では
http://bustof.hp.infoseek.co.jp/1079113823.html
も正規表現「その他」で変換でき、スレッド名もスレ内容も
取得・カウントもちゃんと表示できましたが・・・

変換後、htmltodatの「dat変換結果」欄の1行目の最後、
<>の後ろにスレッド名は入っていますか?
(ギコナビでのスレッド名もこれを表示しているはず)

また、ギコナビを再起動しても表示は変わりませんか?

9185:2004/04/26(月) 21:56
>また、ギコナビを再起動しても表示は変わりませんか?
ぐはっ、か、肝心なことを見逃してました…

再起動で、「表示」問題解決しました。
こんなこと気付かずに無駄レスしてしまいスイマセン

お詫びに、チョット逝ってきます
   ||
 ∧||∧
( / ⌒ヽ
 | |   | < >90氏様、有難うございますた…
 ∪ ノ ノ        
  | | |         
  ∪∪       
   :          
   :        
 ―━―

92名無しさん:2004/05/03(月) 18:10
Internet Archiveの正規表現を教えてもらえないでしょうか…?
ただ、このスレッドは全てのレスを表示できません

http://web.archive.org/web/20020919151417/choco.2ch.net/test/read.cgi/park/950434711/701-800

93</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/05/03(月) 22:07
>>92さん
正規表現は「read.cgi7.00?」でうまくいくと思いますが、
全レス取得できないスレを変換しても2ch用ブラウザでの
表示はうまくいかないと思いますよ。

9492:2004/05/04(火) 01:42
>>93
そうですか…無理を言ってしまってすいません

95名無しさん:2004/05/10(月) 20:42
とても便利なツールだと思うので使いこなしたいのですが
起動でつまずいてしまいました…
htmltodat.exeをダブルクリックしても「必要なDLLファイルBREGEXP.DLLがみつかりませんでした。」と表示されてしまいます。
ヘルプに書いてあるhttp://www.hi-ho.ne.jp/babaq/index.html
のBREGEXP.DLLをダウンロードして同じフォルダの中に入れているのですが
それだけではダメなのでしょうか?
「Bregexp.h」「Breg50.lib」「Bregexp.lib」を開いてみましたがうまくいきませんでした。
初心者な質問で申し訳ありませんがご教授ください。

96</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/05/10(月) 23:39
>>95さん
基本的にはDLLをexeと同じフォルダに置くだけで動くはずなのですが・・・
ちょっと原因がつかみかねます。

・差し支えなければ、exeとDLLを置いたフォルダ名を教えてください。
・BREGEXP.DLLをシステムフォルダに移してもだめですか?
 ※システムフォルダはwondowsのバージョンによって異なります。
 XP - C:\WINDOWS\SYSTEM32
 2000 - C:\WINNT\SYSTEM32 (2000はあまり使ってないのでうろ覚え)
 9x - C:\WINDOWS\SYSTEM

9795:2004/05/12(水) 01:00
解凍したままデスクトップで作業していました。お恥ずかしいです。
先程BREGEXP.DLLとexeをC:\WINDOWS\SYSTEMに移してみた所、ちゃんと動きました。
お手数をお掛けして済みませんでした。ありがとうございます。

98名無しさん:2004/05/29(土) 13:55
DAT2HTML 0.29用の正規表現はどのようになりますか?
入っていた全ての正規表現を試してみても上手く変換できませんでした。

99</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/05/29(土) 17:12
>>98さん
DAT2HTML 0.29と0.29appで手元の適当なdatをHTML変換してみましたが
いずれも正規表現「DAT2HTML0.26」でdatに戻せましたよ。

ただ、HTML変換時にスキンが指定されてたりすると違った形式のHTMLに
なってしまう可能性もあります。
差し支えなければうまくいかないURLを教えてください。

100名無しさん:2004/05/29(土) 22:17
>99
すみません。再度実行してみたら今度は出来ました。
お手数おかけしました。

101名無しさん:2004/06/15(火) 17:16
すみません。
こちらの過去ログ置き場のHTMLファイルを変換したいのですが、
1行が長すぎると出て変換出来ません。
http://umaibo.net/y/y01.htm

ページの先頭に【 2chtubo Ver.1.1.4.0 】と記載されてます。
これは、2ちゃんねるビューア用の正規表現とは別物が必要という事で
よろしいのでしょうか。

ご指導、よろしくお願いいたします。

102</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/06/15(火) 19:15
>>101さん

> ページの先頭に【 2chtubo Ver.1.1.4.0 】と記載されてます。

のとおり、2chtubo 1.1.4.0を使って表示したhtmlを保存したもののようですね。
正規表現は以下のようなのでいけると思います。

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?)</b>(?:</font>|</a>) *?:(.*?) *?<dd.*?>(.*?)<br><br>( *?<dt|</dd>)#mi

ベースにしたのは「read.cgi7.00?」で、ポイントは、DTやDDタグに<DT id=res0_1>
みたいなのがくっついているので、これにマッチさせるために<dt.*?>等としたところ
でしょうか。あとは半角スペースの位置・数の微修正程度。

103101:2004/06/16(水) 12:45
どうもありがとうございました。
よもや、こんなに早くお答えが頂けると思っていませんでした…

「ポイントは〜」以降の相違でレスの切り分けが出来なくなってた訳ですね。
これでやっと大量の過去ログを専用ブラウザで読む事が出来ます。
ほんとうに、ありがとうございました。

104名無しさん:2004/07/05(月) 20:12
dat落ちスレ閲覧用に、isp.2ch.net/viewerから落とし>>68の正規表現でdat化させる
方法を多用していましたが、先日これでは巧く行かないケースに遭遇しました。

<br><br><dt><a name=3>3</a> :<a href=mailto:sage><b>(´・ω・`)</b></font> :02/01/17 21:46 ID:qUrW9FUs<dd> (´・ω・`)
<br><br><dt><a name=266>266</a> :<font color=green><b>(=゚ω゚)ノ</b></font> :02/01/17 23:09 ID:BaagaU6g<dd> <a href="../258" >>>258</a><br>(=゚ω゚)ノ<br><br>
<br><br><dt><a name=266>266</a> :<font color=green><b>(=゚ω゚)ノ</b></font> :02/01/17 23:09 ID:BaagaU6g<dd> <a href="../258" >>>258</a><br>(=゚ω゚)ノ<br><br>
<br><br><dt>

この様にRes内の連続改行が<br> <br>では無く、<br><br> となってる個所があり、
ここで2Resが1Res結合されてしまいます。そこでRes部を最短一致の*?に変更し、

m#<DT><A.*?>([0-9]+).+?(?:<A HREF=mailto:(.+?)>)?<B>(.*?)</B>(?:</A>|</FONT>) :(.*?)<DD>(.*?)<BR><BR>#mi

とすることで取り敢えず解決しました。今のところ他の部分への副作用は特に見
当たりません。以上、ご報告まで…

105名無しさん:2004/07/09(金) 21:45
http://makimo.to/cgi-bin/search/search.cgi?q=|*�e�[�e)�d��&sf=2&andor=AND&G=�G�k�n�Q
↑の中にあるログを変換したいんですが、どの正規表現を選んでもダメなんです。
 解決方法ないですかね?教えてください。

106105:2004/07/09(金) 21:48
↓すいません。こっちでした。
http://makimo.to/cgi-bin/search/search.cgi?q=|*�e�[�e)�d��&sf=2&andor=AND&G=�G�k�n�Q

107</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/07/10(土) 15:29
>>105さん
>>83ではだめですか?

108105:2004/07/11(日) 02:45
>>107さん
あっ、上に書いてあったんですね。
>>83でOKでした。どうもすいません。

109名無しさん:2004/08/14(土) 11:48
http://www.geocities.co.jp/Playtown-Spade/3115/believe_or.html

ここを「なんだっけ…」という正規表現でDAT化しようとすると
日付の色や文字の大きさが違ったり、T color=#8080ff size=2> New!と
余計なものが付いてきたりします。
他の正規表現ではエラーが出るか変換できても同じような表示になります。
正規表現はまるでわからないので申し訳ないのですが

110</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/08/14(土) 20:42
>>109さん
「New!」とか入ってるとこを見ると、何かの2ch用ブラウザで表示させた
結果をHTML化したもののようですね。
とりあえず以下のような正規表現を書いてみました。

m#<DT><A.*?>([0-9]+).+?<B>(?:<A HREF="mailto:(.+?)">)?(.*?)(?:</A>)?</B></FONT>(?:<FONT .*?/FONT>)?(?:<FONT .*?/FONT>)(?:<FONT.*?>) (.*?)</FONT><DD>(.*)<BR><BR>#mi

但し、このHTMLにはスレタイの情報がどこにもないので、スレタイは
表示できません。
自力でdat内なり情報ファイルなりに書き足してください。

111109:2004/08/16(月) 00:01
レスありがとうございます。
正規表現の方はばっちりでした!
idxとSubject.txtをいじるのに苦労しましたがスレタイもOKでした。
ログの名前って数字じゃないとだめみたいですね

112109:2004/08/16(月) 00:01
レスありがとうございます。
正規表現の方はばっちりでした!
idxとSubject.txtをいじるのに苦労しましたがスレタイもOKでした。
ログの名前って数字じゃないとだめみたいですね

113109:2004/08/19(木) 15:58
http://like_a_god.at.infoseek.co.jp/MMR.html
今回はここなのですが、前回と似たような感じなので
>>110の正規表現でほぼうまくいきました。
ただ、メール欄になにも書かれていないレスが消えてしまうようです。
度々すみませんがまた教えていただけないでしょうか

114</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/08/20(金) 18:11
>>113さん
>>109との違いはNew!があるかないかだけみたいですね。

>>110の正規表現中の(?:<FONT .*?/FONT>)の繰り返しの2個目は
New!にマッチさせるためのものだったんで、New!があってもなくても
いいよう、これに?を付けました。
あと日付欄の前の半角スペースがあったりなかったりしたのでこれも
?をつけました。
これは>>109にも>>113にもマッチするはずです。

m#<DT><A.*?>([0-9]+).+?<B>(?:<A HREF="mailto:(.+?)">)?(.*?)(?:</A>)?</B></FONT>(?:<FONT .*?/FONT>)?(?:<FONT .*?/FONT>)?(?:<FONT.*?>) ?(.*?)</FONT><DD>(.*)<BR><BR>#mi

115</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/08/20(金) 18:13
あと、ついでと言っては何ですがバージョンアップしました。(0.1.5)
>>109のようなスレタイ(正確には<title>タグ)が含まれないHTMLを変換
したとき、プレビュー欄の表示がおかしくなっていました。
これは、プレビュー表示時にスレタイが見つからなければHTMLヘッダ情報
自体を出力していなかったのが原因だったので、これを修正しました。

但し、これは見た目だけの話で、いずれにせよスレタイの情報が取得でき
ないことに変わりはないので、>>110のとおり自力でdat内なり情報ファイル
なりに書き足す必要があります。

116109:2004/08/20(金) 23:08
どうもありがとうございました。
バージョンアップお疲れ様です

117名無しさん:2004/08/26(木) 00:45
めちゃくちゃ初心者な質問で恐縮ですが、
html化された過去ログ 例えば
http://curry.2ch.net/occult/kako/1007/10074/1007429618.html

を htmltodat の正規表現「sample」を利用してdatファイルにし、
それを dat2html を使用してhtml化すると、URLがダブってしまいます

34 名前:あなたのうしろに名無しさんが・・・ :01/12/05 17:36
http://piza2.2ch.net/test/read.cgi/occult/1007144685/l50&quot; target="_blank">http://piza2.2ch.net/test/read.cgi/occult/1007144685/l50
このまま二人が帰ってこなかったら、死ぬほど(比喩抜きで)後味の
悪い話が完成する。

のような感じで。
これは致し方ないことなのでしょうか。
もしくは正規表現に手を加えれば修正できるのでしょうか。
ご面倒でなければ、お教え頂ければと思います

118117:2004/08/26(木) 01:02
すみません、「アンカー削除」のチェックを外してdat化していました・・・
チェックを入れたままにしたところ、うまくいきました。
スレ汚しすみませんでした

119名無しさん:2004/08/30(月) 01:57
Internet Archiveの正規表現
m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?)</b>(?:</font>|</a>) *?:(.*?) *?<dd.*?>(.*?)<br><br>( *?<dt|</dd>)#mi

120名無しさん:2004/08/30(月) 12:56
今更だけどオフラインモードで終了して
htmltodatで生成されたDATを該当フォルダに移動
該当フォルダのsubject.txtに生成されたsubject.txtの内容を上書きすれば
自動的に.idxが生成されるね… これって標準仕様なのかな?

121名無しさん:2004/09/24(金) 21:09
いつもお世話になってます。
にくちゃんねるのログをDAT形式に変換する方法はないでしょうか?
>>84を読むとにくちゃんねるのhtml形式のログはDAT形式に変換できるようですが、
http://makimo.to/cgi-bin/dat2html/dat2html.cgi?http://that3.2ch.net/test/read.cgi/gline/1094036120/
などのように、まだhtml化されていないログをDAT形式に変換する方法はないでしょうか?
にくちゃんねるがDAT形式で保存しているのをユーザーにhtml形式で提供していますが、
にくちゃんねるからはhtml形式で保存されないログはDATでは提供されていないので、
どうしてもにくちゃんねるのhtml形式のログをDAT形式に変換したいのです。

122</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/09/25(土) 22:59
>>121さん
にくちゃんねるのhtmlてcssとかJavascript使いまくりでhtmltodatで変換するのは
結構面倒ぽいので、にくちゃんねるの管理人さんに質問してみました。
すると、有難いことにDAT形式で取得するオプションを付けてくださいました。
ttp://makimo.to/cgi-bin/bbs/bbs.cgi

具体的には、URLの最後に&view=DATを付けてください。
>>121の例だと
http://makimo.to/cgi-bin/dat2html/dat2html.cgi?http://that3.2ch.net/test/read.cgi/gline/1094036120/&amp;view=DAT
みたいな感じです。

123名無しさん:2004/09/26(日) 17:55
>>122
出来ました。どうもありがとうございました。

124名無しさん:2004/10/11(月) 00:17
makimo.toから>>83のやり方でdatを取得してログフォルダに入れたらきちんと表示されなかったので、
>>83で取得したdatをdattohtmlでhtml化してそれをhtmltodatの「なんだっけ・・・」でdat化したら上手くいきました。
「DAT2HTML0.26」や「その2」だと変換できるんだけどレスの順序がバラバラになってしまいました。

125名無しさん:2004/10/11(月) 15:22
ん??? さっき漏れもmakimo.toからダウソしたが、

1) /2ch/ → /cgi-bin/html2dat/html2dat.cgi? でダウソ(ファイル末尾欠落は無視)
2) 拡張子修正 .html → .dat
3) html2datでsubject.txt作成

これだけでOkayダターョ

126名無しさん:2004/11/08(月) 11:49
ttp://fun.kz/
↑用の正規表現を既に考えた方いますか?

127名無しさん:2004/11/11(木) 17:26
>>126
そこは2chと構造が同じなのでhtmltodatを使わなくても、
2chブラウザに外部板として「fun.kz/board/」を追加すれば見れますよ。
boardの部分は適宜読み込みたい板のディレクトリ名に変更。
その中から見つからない場合は「fun.kz/board/dat/」から目的のdatを
直接落として後はdat2htmlするなり2chブラウザに入れるなりしてください。

128126じゃないけど:2004/11/12(金) 22:12
>>127
ありがとう。さっそく役に立ちました。

129126:2004/11/18(木) 22:25
>127
あ、ありがとうございました!

130名無しさん:2004/11/21(日) 00:25
http://aw0015.hp.infoseek.co.jp/2ch/gx-19.html
これがどうやっても正しく変換できません。その他となんだっけ・・・なら
変換は出来るのですが、番号が飛び飛びになってしまいます。

131名無しさん:2004/11/21(日) 00:29
すみません。バージョンアップしたらできるようになりました。
半年前のやつだったので、古かったようです。
スレ汚し申し訳ございませんでした。

132名無しさん:2004/12/04(土) 17:48
始めまして。
htmltodatを使わせて頂いております。
さて、下記のURLの変換がどうしてもうまく出来ません。
http://f33.aaa.livedoor.jp/~kagura/kako/1060675865.html

正規表現は、どのようにすれば宜しいのでしょうか。
お分かりの方居りましたら、ご教授下さいますようお願い致します。

133週刊少年マンガ板住人:2004/12/15(水) 17:42
2ちゃんねるミラー化計画からログを引っ張ってこれるように
UFT-8のデコードにも対応してもらいたいです。

>>132
m#<dt>.+</a>(\d+) 名前:.+<a href="mailto:(.*)"><b>(.*) ?</b>.+:(.+)<br><dd>(.*)<br><br>#mki

こんな感じ?名前欄のスペース有り無しでハマった…

134週刊少年マンガ板住人:2004/12/16(木) 16:16
誤字った…改めて

>>作者様へご要望です
2ちゃんねるミラー計画からログを引っ張ってこれるように
UFT-8のデコードにも対応してもらいたいです。
対応ご検討いただけると嬉しいです。

135 週刊少年マンガ板住人:2004/12/16(木) 16:24
うわぁ直ってない。
×UFT-8
○UTF-8
です。

136週刊少年マンガ板住人:2004/12/16(木) 17:11
この際なんで要望その2!

自分はperlしか知らないんですが、()の対応がうまく取れず拾いたいレコードを
取りこぼしてしまい、(多くはメール欄の有無で処理が大きく分ける必要のあるhtml)
結局前処理が必要になることがあるので、

・マッチング用の正規表現スペースを2つか3つにして or で拾い
・2つ目以降のスペースはそれぞれ空の時マッチング動作に加わらずスキップ
としていただけるとなお嬉しい…

この仕様だと旧パターンの互換性は一つ目の正規表現スペースだけを使う事で保証されます。

137</b><font color=#FF0000>(L44UP/ps)</font><b>:2004/12/18(土) 01:04
>>134-136さん
UTF-8対応は割と簡単そうなので気が向いたらそのうちやりたいと思います。
2ちゃんねるミラー計画とやらのURLを教えてください。
2つめのご要望はかなりの改造になってしまうのでちょっと難しいと思います。

138週刊少年マンガ板住人:2004/12/18(土) 03:57
対応、どうもありがとうございます。
うーん、フラグ持たせて評価関数ループ…じゃ難しいのかな。

2ちゃんねるミラー計画@fun.kz
http://fun.kz/

サイトはこちらです。

139132:2004/12/18(土) 11:11
>>133
どうも、ありがとうございました。
無事、変換することが出来ました。

140名無しさん:2004/12/19(日) 07:16
>週刊少年マンガ板住人
>>127


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板