したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1</b><font color=#FF0000>(L44UP/ps)</font><b>:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

212 ◆/vmukiyuzw:2005/10/13(木) 02:23:54
あと、後処理については実はあまり有効な使い道を考えてませんw
(前処理があるなら後処理もいるかなーくらいのノリで付けてたりして)
まあ、前処理でもbeコード削除でも取り除けないゴミを除去するくらいには
使えるんじゃないでしょうかね。例えば>>196-197ですがbeコード削除を
しても (p)ID:qEFalaaz0(7) みたいにp2コード?が残っちゃいますよね。
これを取り除くには

s#(.*?<>.*?<>.*?)[(]p[)](ID:.*?)[(].*?[)]#$1$2#

などとすればよいかと思います。

213 ◆/vmukiyuzw:2005/10/13(木) 22:05:41
連日ですがバージョンアップしました。(0.4.1)
・セパレータが<>以外だと正しく変換できない不具合に暫定対応。

現在、変換結果式のセパレータを「<>」以外のもの(カンマ区切りとか)に
されるとうまく動作しません。
で、後処理で変換できるようにしたつもりだったんですが、処理の順番で
うまくいっていませんでしたので、これを修正しました。
例えばかちゅ〜しゃライクなカンマ区切りにしたいような場合だと後処理を
以下のように指定します。
(注:あくまで例であり、このようにすればかちゅ〜しゃで読めるようになると
いうわけではありません)

s#(.*?)<>(.*?)<>(.*?)<>(.*?)<>(.*?)#<b>$1</b>,$2,$3,$4,$5#

214名無しさん:2005/10/16(日) 12:21:57
乙乙です

215 ◆/vmukiyuzw:2005/10/17(月) 18:30:13
バージョンアップしました。(0.4.2)
・HTTP受信時にgzip圧縮されたデータを受け取ると解凍するよう修正。
・変換後処理の欄で改行文字やスペース文字を表示できるようにするのを忘れて
 いたので修正。

今回は不具合対応のみです。
今後の予定としては変換オプションのファイル保存・呼び出し対応等。

216 ◆/vmukiyuzw:2005/10/21(金) 22:48:04
バージョンアップしました。(0.5.0)
・変換オプション中の前処理・変換結果式・後処理をそれぞれファイルに保存・
 一覧選択できるようにした。
・使用しているzlibのバージョンを1.1.3→1.2.3に変更。
・v0.4.2のエンバグ(ローカルHTMLが正しく読めない場合がある等)を修正。

217 ◆/vmukiyuzw:2005/10/21(金) 23:47:01
前バージョン(0.4.2)では、かなり初歩的な、でも致命的なバグを仕込んでしまいました。
ダウンロードされた方々、申し訳ありません。

あと、zlib 1.2.3 に対応したgzip_delphi2.zipを公開されている、Open Jane Project の
◆184NBKmVW6氏に感謝します。

218集計人:2005/10/23(日) 23:17:32
集計人と申します。自サイト"http://www.usamimi.info/~shukeisho/&quot;
内のphpスクリプトで、htmltodat使ってます。
"htmltodatのようなもの"の補足文書がすごい参考になりました。感謝感謝!

219 ◆/vmukiyuzw:2005/10/29(土) 00:37:44
バージョンアップしました。(0.6.0)
・文字コード自動判別機能を実装。
・取得即変換機能を実装。
・変換前処理のちょっとしたデバッグ機能を実装。
・変換前処理・後処理の保存時に不要な改行コードがついてしまうバグを修正。
・その他細かい修正(URL欄でEnterキーを押せば取得動作をするようにした・
 一括変換で変換中止ボタンを押してもそのファイルを処理中は中止できなか
 ったので、メインの変換処理に割り込みをかけられるようにした)

今回の変更点メインは文字コード自動判別です。
もともとは、HTML欄にコピペされた場合に変換するタイミングがわからないので
ボタンで変換するようにしていたのですが、そんな使い方してる人はほとんど
いないだろうと思い(実用上あんまり使い物になりませんし)、自動判別するように
しました。
これで、EUCやUTF-8のHTMLでもボタンを押して変換する必要がなくなりました。
(一括変換のウィンドウからもチェックボックスをなくしました)

次に取得即変換ですが、正規表現や変換オプションが同じものが使えるHTMLを
取得する際に、いちいち変換開始ボタンを押さなくてもいいようにと考えてつけました。
文字コード自動判別もそうですが、省けるアクションはなるだけ省けるようにして
使い勝手を向上させようという方向です。
# 後はdatファイル名まで自動で確定できればバッチコマンド的に動作させることが
# 可能なのですがこれがなかなか難しい・・・今後の研究課題です

220 ◆/vmukiyuzw:2005/11/03(木) 16:26:35
バージョンアップしました。(0.6.1)
・変換前処理で改行コード(Enterキー)が入力できないバグを修正。
・HTMLソース等で64kb(65,546バイト)以上入力できないバグを修正。

今回は不具合対応のみです。

一個目のは単純なバグで、Enterキーを受け付けるかどうかというプロパティ
(WantReturnsプロパティ)というのがあるのですが、なぜかこれだけOFFに
しちゃってました。
(しかし後処理でも同じコンポーネントを使っているのになぜ前処理だけ変えて
しまったのかは不明です。デフォルトではONなのに・・・酔っぱらってたのかなw)

二個目ですが、使用しているコンポーネント(というかそれの継承元である
RichEditコントロール)に、デフォルトで64kbまでしか入力できないという制約が
あり、MaxLengthプロパティというのを適切な値に設定しておかないといけな
かったようです。
(プログラム板のくだすれDelphiスレで教えていただきました。
http://pc8.2ch.net/test/read.cgi/tech/1126590039/879-882
これで、昔から疑問に思っていた「HTMLソース欄に直接コピペすると途中で
切れる」現象も解決できたと思います。

221名無しさん:2005/11/06(日) 13:48:08
お助け下さい。
下記の過去ログをdat変換したくて、このスレの正規表現も片っ端から試してみましたが
どれも歯が立ちません。
http://makimo.to/2ch/pc7_software/1095/1095427149.html
htmltodatのバージョンは0.6.1です。よろしくお願いします。

222 ◆/vmukiyuzw:2005/11/06(日) 15:05:03
>>221さん
にくちゃんねる(makimo.to)のdatは>>83の方法、または>>158の方法で取得できます。

どうしてもhtmltodatで変換したいんだったら>>210の方法で・・・と書こうとして正規表現に
抜けがあるのを見つけました。
ということであらためて・・・
変換結果式欄に
$4<>$2$3<>$5<>$6<>
と指定した上で(一覧に「makimo.to」というのが出てくるはずなのでそれを選べばいいです)、
正規表現は
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
でできると思います。

223 ◆/vmukiyuzw:2005/11/06(日) 15:12:05
>>222
ああ、まだ漏れが・・・
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
にしてください・・・

224221:2005/11/06(日) 15:37:58
>>223
できました。
素早いお返事、ありがとうございました。

225 ◆/vmukiyuzw:2005/11/06(日) 19:04:45
バージョンアップしました。(0.6.2)
・文字コード自動判別をオプションで指定できるよう修正。

文字コードはHTML中のmetaタグのcharsetを見て判別しているのですが、
稀にcharsetで指定された文字コードと実際の文字コードが異なるケースが
あるようなので、一応オプションでON,OFFできるようにしました。
基本的にはONのままで使用して問題ないと思います。

226名無しさん:2005/11/07(月) 02:01:16
http://www.geocities.jp/karc304/gurps-basic/17th.html

バージョン0.6.2でこのURL変換しようとすると、
読み込み行とバッファサイズばかりが増えてしまい、
変換行がさっぱり増えてくれません。
やがてhtmltodatが固まってしまいました。

このhtmlはdat2htmlの0.32fpで変換されたもののようなので、
>>152に書かれている正規表現を使用したのですが、
正規表現が間違っているせいなのでしょうか?
挙動がちょっとおかしかったので、バグかもしれないと思い報告に来ました。

227663:2005/11/07(月) 02:45:02
>>226さん
これではどうでしょう(管理人さんでなくてごめんなさいです)

m#<DT>([0-9]+) :<font color=green>(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</b>(?:</A>)?</FONT> :(.*?)<DD> ?(.*)<br><br>#mi

228 ◆/vmukiyuzw:2005/11/07(月) 02:56:49
>>226さん
正規表現がおかしいときに挙動不審になるのは仕様です(開き直り)
ところでこれは何となくdat2htmlにスキンを適用して変換したもののような気がする・・・
(気がするだけですが)
とりあえず
m#<DT>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>).*? :(.*?)<DD> ?(.*)<BR><BR>#mi
でどうでしょう。

#なんかどれかの正規表現ととかぶってる気がする

229 ◆/vmukiyuzw:2005/11/07(月) 02:59:29
うわ先に書かれてるし><
そっちでもOKですね
リロードしてなくてごめんなさい663さん

230663:2005/11/07(月) 03:33:26
>>229
いやー、すごいニアミスでした。というか失礼しました。

それだけでは何なので
snapshot(http://snapshot.publog.net)の変換方法について
まとめてみたものを出してみます。

http://www.geocities.jp/mirrorhenkan/snapshot/

↑そんなに試していませんが、beのスレ以外は大体使えるのではないかと思うです。


という事で、htmltodatの要望ですが
be板のDATは文字コードがEUC-JPみたいなので
保存する際の文字コードにEUC-JPも選択出来るようにして頂けたら
・・と思います。

あと、以下 お遊び用の要望なのでそれほど重要ではないのですが
UTF-8でも保存するように出来たら嬉しいです。

DATを直接呼び出してHTML整形表示するjavascriptみたいな事をやっているのですが
IE以外のブラウザでも汎用的に読み込めるようにするには
DATの文字コードをUTF-8にしないといけないみたいなので・・・。
例えば↓これとか。

http://www.geocities.jp/mirrorhenkan/dat2html-3/dat/read-xml.html?key=utf8

ちなみに上のは 以下のDATを読み込んで整形出力しています
http://www.geocities.jp/mirrorhenkan/dat2html-3/dat/utf8.dat

# ・・って、全然htmltodatと無関係ですね

231 ◆/vmukiyuzw:2005/11/08(火) 00:05:02
>>230対応バージョンアップしました。(0.7.0)
・dat保存時に保存する文字コードをSJIS,EUC,UTF-8から選択できるようにした。

しかし実装したものの、SJIS->EUC変換が笑うくらい遅い・・・SJIS->UTF-8変換は
普通に速いんですが・・・
Open Jane Projectの◆184NBKmVW6氏が、一部を高速化したjconvert.pasを公開され
ているようなので、そちらの採用も検討してみます。
(ただ、JaneではSJIS->EUC変換なんて必要ないでしょうから期待薄です・・・
車輪の再発明になってしまうかもしれないけど自力で書くしかないかな・・・)

で、sample.htmlをEUC変換したdatをbe対応版のJaneで読ませてみました。
本文は普通に読めますが、日時・ID欄の曜日が文字化け(というかEUCのまま)します。
エディタでEUCモードで読むと文字化けしないので、これはJaneのバグ(というか今の
be板のdatには曜日はついていないようなので日時・ID欄のEUC->SJIS変換をサボって
いるのでしょう)と思われます。

あと、UTF-8変換したdatですが、エディタで見るとそれなりに出来ているようですが
UTF-8のdatに対応したブラウザとかないので私の手元ではどう検証したものかわかり
ません。
ということで、663さんに検証していただけるとありがたいなと・・・
(指名してしまってすみません)

232 ◆/vmukiyuzw:2005/11/08(火) 00:26:36
>>231
> Open Jane Projectの◆184NBKmVW6氏が、一部を高速化したjconvert.pasを公開され
> ているようなので、そちらの採用も検討してみます。
> (ただ、JaneではSJIS->EUC変換なんて必要ないでしょうから期待薄です・・・
> 車輪の再発明になってしまうかもしれないけど自力で書くしかないかな・・・)

とんでもありませんでした!sjis2eucも対応されていてしかもめっちゃ高速です!凄い!!
感謝の気持ちでいっぱいですが、今日はもう遅いのでバージョンアップは明日にします。
すみません。

233 ◆/vmukiyuzw:2005/11/08(火) 18:45:01
ということでバージョンアップしました。(0.7.1)
・SJIS<->EUC変換に使用するモジュールを変更し変換を高速化。

これでSJIS->EUC変換も実用的な速さになったと思います。
Open Jane Project の◆184NBKmVW6氏に再び感謝します。

あと、正規表現の「read.cgi7.00?」と「sample」に多少の不具合があり
修正しています。自分でregexps.txtに何か追加している方は、申し訳
ないですが手動でマージして下さい。

234663:2005/11/09(水) 20:59:41
ありがとうございます。

とりあえず、各文字コード変換したものを上げてみました。
http://user.ftth100.com/mirrorhenkan/test/read-euc.php?key=sample-euc&amp;st=1&amp;to=1001
http://user.ftth100.com/mirrorhenkan/test/read-utf8.php?key=sample-utf8&amp;st=1&amp;to=1001

datはそれぞれ以下の場所です
http://user.ftth100.com/mirrorhenkan/test/dat/sample-euc.dat
http://user.ftth100.com/mirrorhenkan/test/dat/sample-utf8.dat

どちらも上部の「掲示板に戻る」とかが文字化けしてますが
他は問題無さそうです。
UTF-8のほうのレス番の横が文字化けしてますが
スクリプト側の問題っぽいです(適当にcharsetだけ変えただけですし)

あとbe板はsubject.txtもEUCなのですが
もし可能でしたら「subject.txt作成」でもEUC保存出来たらお願いしますです。


> UTF-8のdatに対応したブラウザとかないので私の手元では
> どう検証したものかわかりません。

「JaneNida」がUTF-8にも対応していますです↓

http://members.at.infoseek.co.jp/koreawatcher/janenida.htm



ません。

235 ◆/vmukiyuzw:2005/11/09(水) 21:26:35
>>234
> UTF-8のほうのレス番の横が文字化けしてますが
> スクリプト側の問題っぽいです(適当にcharsetだけ変えただけですし)
ソース見てみると名前の前や日時の前の全角コロン「:」がSJISのままなので
これが化けるようですね。

> あとbe板はsubject.txtもEUCなのですが
> もし可能でしたら「subject.txt作成」でもEUC保存出来たらお願いしますです。
ん?私の環境ではbe板のsubject.txtはSJISに変換されて保存されているのですが。
(ちなみにJane Style Doe 2.13ですが)
EUCのまま保存するブラウザもあるのでしょうか?

236 ◆/vmukiyuzw:2005/11/09(水) 22:44:43
というか、EUCやUTF-8に変換したdatを作成できるようにしてしまったので、
逆にsubject.txt作成時にSJIS変換もする必要があるような気がしてきました・・・
あと、文字コード自動変換もオプションにしてしまったので、一括変換でのEUC、
UTF-8変換も復活させないとまずいですね。
# 文字コード変換には結構昔からかかわる機会が多いのですが、いつまでたっても
# 面倒だなと思います・・・

237 ◆/vmukiyuzw:2005/11/09(水) 23:20:12
>>235
> ん?私の環境ではbe板のsubject.txtはSJISに変換されて保存されているのですが。
> (ちなみにJane Style Doe 2.13ですが)
> EUCのまま保存するブラウザもあるのでしょうか?
ちょっと補足しとくと、subject.txt作成の用途としては
1.ローカルでdatと同じフォルダに作成してdatを選択するために使う
2.適当なサイトにdatをアップロードして、datの直上のディレクトリにsubject.txtを
 アップロードして、ブラウザからアクセスするために使う
の2通りを想定していて、いずれの場合も普通の2ch用ブラウザではSJISで充分だと
思うわけです。
で、be板のsubject.txtを直接書き換えることなんてできるはずもないので、あとは
ローカルでのsubject.txtがEUCである必要があるのかどうか、という疑問です。

238663:2005/11/09(水) 23:51:31
えーと

subject.txtをbeサーバと同様にeuc-jpにしたい理由ですが
以前「beスレのまとめサイトを作りたいのでプロファイル表示出来ないか」
という人が居られましたので
http://yy14.kakiko.com/test/read.cgi/mirror/1115123243/71
0chスクリプトを改変して表示するような事をやったのですが↓

http://mirrorhenkan.hp.infoseek.co.jp/be/cgi-bin/be/
http://mirrorhenkan.hp.infoseek.co.jp/be/cgi-bin/test/read.cgi/be/1111061495/l50

これ↑はShift-jisに変換したものを使っただけのものでした。
なので、完全にbeと同じように出来たら面白そうだな と。
ただ beと同じくdatをEUCにするとすると、スクリプト側でsubject.txtだけshift-jisだと
面倒な事になりそうなので・・・。beのsubject.txtもEUCみたいですし。

・・というのが理由だったりします。

239663:2005/11/09(水) 23:57:35
補足です

> beのsubject.txtもEUCみたいですし。

beサーバ側のsubject.txtの事です
例えばこれ↓

http://be.2ch.net/be/subject.txt

240 ◆/vmukiyuzw:2005/11/10(木) 00:32:50
>>238
うーむ・・・それだけのことならエディタとか適当な変換ツールで変換してよという気もしますが・・・
どのみち>>236の対応はしないといけないなと思うのでついでにやりますか。
なんか変なUIになっちゃいそうな悪寒がしますが・・・

>> beのsubject.txtもEUCみたいですし。
それはもちろん知ってます。jbbsしたらばでもそうですし。
ただ、ローカルに保存する際に(少なくともJaneでは)SJIS変換されていたので、EUC保存の
必要性に疑問を感じただけです。

241 ◆/vmukiyuzw:2005/11/10(木) 02:07:54
ところで、>>226さんを放置してしまったような気がするんですが
うまくいったんでしょうか?
できれば報告が欲しいです。

242 ◆/vmukiyuzw:2005/11/14(月) 01:36:09
バージョンアップしました。(0.7.2)
・EUCやUTF-8のdatに対応するため、subject.txt作成機能にも文字コード変換を
 追加。
・文字コード自動判別をオプションにしたので、一括変換でのEUC,UTF-8チェック
 ボックスを復活。

>>234-240の流れを受けての各種文字コード変換対応です。
一括変換でもチェックボックスでなくコンボボックスにしたほうがいいんじゃねーのと
いう気もしますが修正が面倒なので次の機会に。

243663:2005/11/27(日) 21:50:54
もの凄く遅くなりましたが、対応ありがとうございました。

あれから色々やってみて、読み込む際にjcode.plを間に絡ませれば
どの文字コードでもShift-jisに変換出来るな、と考えたのですが
perlは何だかよくわかんないので そのままです。。
(phpのほうでは何とかなったんですが)

で、要望です。
(かなりわがままな内容なので 対応出来なくても別に構いません)

スレの1の投稿日時からスレッドのキーを検出して
「キー№.dat」で保存するようには出来ないでしょうか?

日時から対応するキー№を出すものを作ってみたのですが
http://www.geocities.jp/mirrorhenkan/key/key2.html
これを まとめサイトの一括変換に使えないものかと。

例えば、以前こちらで出ていた
http://lime.kakiko.com/korea/log/log01.html
から
http://lime.kakiko.com/korea/log/log50.html

とか

http://sixhot.hp.infoseek.co.jp/sixhot/LogPart01.html
から
http://sixhot.hp.infoseek.co.jp/sixhot/LogPart42.html

などのように、htmlのファイル名がキー№ではない場合
上で書いたような事が出来ればな、と思うのです。

ただ問題は、
秒数まで出ていないスレ とか
エイプリルフールに立てられた「皇紀○○年」とか
等のものですが、
その場合は元HTML名で保存されるようにする

・・とか出来たら有り難いのですが。。

244 ◆/vmukiyuzw:2005/11/28(月) 00:05:06
>>243
> スレの1の投稿日時からスレッドのキーを検出して
> 「キー№.dat」で保存するようには出来ないでしょうか?
検討してみます。
ただ、スレの1の投稿日時とスレッドキーが必ずしも一致するものかどうかが
多少気になります。通常は問題なく一致するんでしょうけど、vipや狼みたいに
スレ立てが異常に多い板の場合、bbs.cgiでどう処理してるかわからないので
一致しない可能性があるような気がします。
まあ一致しなくてもあんまり問題はないのかもしれませんが。

> ただ問題は、
> 秒数まで出ていないスレ とか
> エイプリルフールに立てられた「皇紀○○年」とか
> 等のものですが、
> その場合は元HTML名で保存されるようにする
> ・・とか出来たら有り難いのですが。。
これを判別して元HTML名で・・・ていうほうが難しいですね。
(エイプリルフールのときは皇紀以外にもいろいろありましたよね)

おそらくできるとしたら
1.URLに9桁〜10桁の数字があればそれをファイル名にする
 (これは今でも近いことをやっていますが)
2.それがなければスレの1の日時分秒からファイル名にする
 (このときは秒がないとか皇紀とかはお構いなし)
3.スレの1から変換できないとき(がどういう場合かはまだ確認
 してませんが)は元HTML名をファイル名にする
というアルゴリズムになっちゃうと思います。

245 ◆/vmukiyuzw:2005/11/28(月) 00:18:35
あと、663さんにはトリップをつけていただけるとありがたいなと思います。
(って、このスレが663に達するにはあと何年かかるかわかりませんがw)

246 ◆/vmukiyuzw:2005/11/28(月) 21:22:29
>>244
>  (このときは秒がないとか皇紀とかはお構いなし)
にちょっと補足です。
年月日の前に余分なものが付いていれば・・・等という判定は可能だと思います。
でも、datのファイル名が9〜10桁の数字でないとうまくいかないブラウザもある
ようなので、たとえ元々のキーNoとは食い違うことになっても、9〜10桁の数字に
変換できるものならばしておいたほうがいいんじゃないだろうか、という考えです。

247663:2005/11/28(月) 22:01:40
御返事ありがとうございます。
検討して頂けるとの由、大変有り難いです。

はっきり確かめていないので何ですが、
西暦が二桁のスレもあったかもしれません。

あと、イレギュラーな暦表示ですが
例えば「えまのん」という専用ブラウザでは
Calender.txtとい外部ファイルに対応歴一覧が書いてあって
それで管理しているようでした。

今 Calender.txt を見てみたら

> 皇紀=660
> 娘。暦=3
> 娘。歴=-7

とあり、想像するに
・皇紀から660を引いた数が西暦(西暦1940年=皇紀2600年)
・娘。板が出来てから3年(「暦」)
・娘。が結成されてから7年(「歴」)
という事なのかなー、と。

それが内部処理とどう繋がっているのか判りませんが。。


# トリップ、暫く考えてみます

248 ◆/vmukiyuzw:2005/11/28(月) 22:12:21
>>247
西暦二桁は想定の範囲内なので問題ないです。
皇紀等は、全てのバリエーションが出ているか不明ですし、今後また
同様のイタズラ(?)される可能性もあるのでとりあえず無視の方向で。

249 ◆/vmukiyuzw:2005/12/01(木) 20:43:59
なんかぐぐったらたまたま見つけました。
http://qa.2ch.net/test/read.cgi/argue/1112282670/
やっぱかなりのバリエーションがあるようですね。
# 「ユダヤ暦って6000年近くあるのかよ」という書き込みを見て
# 試しに今テスト中のモジュールで6000年を変換すると
# スレッドキーが12桁になったw

250 ◆/vmukiyuzw:2005/12/08(木) 22:19:31
バージョンアップしました。(0.7.3)
・dat保存時のファイル名を決める際に、URLまたはファイル名に9〜10桁の数字が
 含まれない場合、変換結果のレス1の投稿日時よりファイル名を取得するよう
 修正。
 また、一括変換時にはこの機能を使用するかどうか選択できるようチェック
 ボックスを追加。
・一括変換での文字コード指定をチェックボックスからコンボボックスに変更。
・BREGEXP.DLLを同封するようにした。

>>243- からの流れを受けての修正です。
readmeにもちょっと書いてますが秒がないとか西暦でないとかは考慮してません。
(変なものは無条件で2005年にするという手もあるかなとも思ったんですが・・・
どうせ今後また同様のイタズラ(?)があるような気がするので無視です)

あと、最初のインストールが簡単になるよう、BREGEXP.DLLを配付ファイルに
同封するようにしました。アップデートの際にはあまり関係ありませんが。

251663 ◆red7kKzN/E:2005/12/09(金) 18:48:54
# 暫定トリップつけてみました

>>250
ありがとうございます。
DLしてsample.htmlを変換保存しようとしたら
9桁の数字が出てびっくりしました。
まとめサイトの一括変換に使ってみようと思います。

で、別の要望(というか独り言)なのですが・・

下窓にdat変換されたものが出ますよね。
そこを編集して保存しようとしても、書き換えたものが反映されないみたいなのですが
反映して保存出来るようにはならないものでしょうか?

具体例を出すと、例えば
http://hobby7.2ch.net/test/read.cgi/phs/1117976461/
のスレですが
ミラーサイトが
http://mimizun.com/cgi/dattohtml.pl?http://mimizun.com:81/log/2ch/phs/hobby7.2ch.net/phs/kako/1117/11179/1117976461.dat
で見つかります。
最後の1レスが拾えてないので、その分だけ手打ちで追加出来たら嬉しいな、と。
保存してからエディタで追加するよりは一手間省けますし。
(もちろん上の場合はdatを直接DL出来ますが)

または「変換オプション」の後処理で何とかなるでしょうか。
上のだと

s#$#n\停止しました。。。<>停止<>停止<>真・スレッドストッパー。。。( ̄ー ̄)ニヤリッ#

とかするとか・・。(試してないのでこれでいいのかどうか判りませんが

252 ◆/vmukiyuzw:2005/12/09(金) 20:47:46
>>251
> DLしてsample.htmlを変換保存しようとしたら
> 9桁の数字が出てびっくりしました。
981726540.datとなったと思います。
sample.htmlの本来のスレッドキーは981726544なので、レス1に秒が無いぶんだけずれてます。
まあこういう仕様ですということで・・・

> 下窓にdat変換されたものが出ますよね。
> そこを編集して保存しようとしても、書き換えたものが反映されないみたいなのですが
> 反映して保存出来るようにはならないものでしょうか?
確かに、HTMLソース欄の編集は反映されるのに、dat欄の編集が反映されないのは
手抜きですわな^^;
まあ簡単に対応できると思うのでやります。
(と言いつつ最後の改行の有無とかの処理が意外と面倒な予感がする・・・)

> または「変換オプション」の後処理で何とかなるでしょうか。
> 上のだと
> s#$#n\停止しました。。。<>停止<>停止<>真・スレッドストッパー。。。( ̄ー ̄)ニヤリッ#
> とかするとか・・。(試してないのでこれでいいのかどうか判りませんが
後処理は変換結果の行単位に処理するようにしているのでこの方法では対処できないはずです。

253 ◆/vmukiyuzw:2005/12/10(土) 00:06:32
>>252
> まあ簡単に対応できると思うのでやります。
思った以上に簡単でした(ソースに一行追加しただけ^^;

> (と言いつつ最後の改行の有無とかの処理が意外と面倒な予感がする・・・)
これは特に気にしなくてもdelphiのほうでうまく処理してくれました。
ただ、余分な改行があったりするとブラウザで読んだときに「ここ壊れてます」に
なりますが・・・これは自己責任ということで放置して問題ないと思います。

今日はもう遅いのでUPは明日ということで・・・・

254 ◆/vmukiyuzw:2005/12/10(土) 21:29:43
バージョンアップしました。(0.7.4)
・dat変換結果欄を直接編集しても保存する際に反映されなかったのを、反映する
 よう修正。

直接編集する際には当然、datファイルの形式
名前・トリップ<>メール欄<>投稿日時・ID<>レス内容<>スレタイトル(1レス目のみ)
に従っていないと2ch用ブラウザでは正しく読めないのでご注意ください。

255名無しさん:2005/12/11(日) 01:32:48
大変ありがたく使わせて戴いております。

要望なのですが、
subject.txtを作成する時、保存先のフォルダとして
あらかじめデフォルトとして指定したフォルダか、
前回使用したフォルダが開くようになるかするともっと便利だなと思います

もし気が向いたらご考慮いただければと思います。

256 ◆/vmukiyuzw:2005/12/11(日) 02:04:38
>>255さん
うーむ、「前回保存した」云々を再現するには,iniファイルとか使えばいいんでしょうが
あまりやりたくはないのです。何故かというと、同時にその他のもろもろも保存しなくては
いけない羽目に陥るのがわかっているので、面倒だからできれば避けたいってことでw

で、subject.txtの作成フォルダを固定したい理由はなんでしょう?
subject.txt作成の用途の意図は>>237に書いたんですが・・・それ以外に何か
あるんでしょうか?

# まあ、フォルダ選択のダイアログを出すくらいでよければ簡単なんでやりますけど。

257663 ◆red7kKzN/E:2005/12/11(日) 14:37:50
バージョンアップありがとうございます。
下窓編集が反映されました。

えーと
これは私的な要望なんで、難しかったりしたらそのままで良いのですが、

自分の環境ではhttp://2ch.dumper.jp/がunknownhostで繋がらない事が多いです。
そこにしか満足なログが残っていない場合が結構あるのですが
その場合、いったんプロキシを用いてDLしてローカル呼び出しで変換しているのですが
htmltodatにプロキシ機能があれば
一段階 手間が省けるかな…と。

難しかったり、時間かかるようであれば無理は言わないので
良ければ御一考頂ければ有り難いです。。

258名無しさん:2005/12/11(日) 14:46:11
個人的にはsubject.txt作成時のフォルダ選択時に
フォルダをドロップ&ドロップが使えるようになればと思う。

html変換のときは出来るのに。

259 ◆/vmukiyuzw:2005/12/11(日) 20:25:36
>>257
プロキシの設定自体はプログラム的には案外簡単だったりします。
(実は今でもプロキシ設定のコードはソース中には入っていて、コメントアウトしてます)
問題はUIをどうするかですかね。
やっぱJaneの書き込みウィンドウとかProxomitronみたいにリストから選択できるように
しないといけないかなとか、そうなるとまた別途Proxy.txtみたいな設定ファイルがいるなあ
とかやりだすと、それなりの修正になってしまうわけです。
(テキストボックス一個置いて勝手に入力しろ、だと今晩中にでもできてしまいそうですが)
まあ期待せずにお待ちを。

>>258さん
これもさして難しくはないですが、subject.txt作成でできるのなら一括変換でもできないと
また手抜きと思われるだろうなと。
で、一括変換にはフォルダ指定欄が2つあるので、D&Dされた際にどっちに入れるように
したらいいんだ?というところが悩みどころで。

260名無しさん:2005/12/13(火) 13:02:27
質問です。
http://jbbs.livedoor.jp/bbs/read.cgi/otaku/995/1106468716/
上のスレッドをJaneで見たくてhtmltodatを使ったのですが、
アドレスを入力してHTML取得をした時点で文字化けしています。
どうしたらいいですか?

261 ◆/vmukiyuzw:2005/12/13(火) 17:36:33
>>260さん
「文字コード自動判別」をOFFにして、取得後「EUC->SJIS」ボタンを押して変換して下さい。

# メモ・・・JBBSの過去ログではmetaタグでcharsetが指定されない場合があるようだ・・・
# しかもMIMEヘッダで指定されているわけでもない・・・さてどうしたものか。

262260:2005/12/13(火) 17:47:00
>>261
できました、ありがとうございました!

263 ◆/vmukiyuzw:2005/12/13(火) 19:17:28
charsetが指定されていなくて文字化けする場合の文字コードの見分け方:
無意味な半角カナが多く含まれる→多分EUC
「縺ヲ繧ケ繝ャ繧偵」みたいな難読な漢字が羅列される→多分UTF-8

264 ◆/vmukiyuzw:2005/12/14(水) 20:17:45
>>261
> # メモ・・・JBBSの過去ログではmetaタグでcharsetが指定されない場合があるようだ・・・
とりあえずJBBSの要望スレに書いてみたら対応してもらえました。
既にHTML化済みのものについては変更されることはないでしょうが・・・

265 ◆/vmukiyuzw:2005/12/15(木) 23:15:06
バージョンアップしました。(0.8.0)
・Proxy設定機能を実装。
・subject.txt作成、および一括変換で、フォルダ名のドラッグ&ドロップ機能を
 追加。

Proxy設定は画面の一番上にある「Proxy設定」ボタンを押すと呼び出せます。
使い方はJaneとProxomitronからパクったような感じで・・・まああまり説明しな
くてもわかるだろうと思います^^;
ちなみに、Proxyサーバのアドレス&ポートはProxy.txtというファイルに一覧で
保存できますが、「Proxyを使う」かどうかそのものは保存されないので、申し訳
ないですが起動のたびに設定して下さい。

次にフォルダ名のドラッグ&ドロップですが、>>259で「一括変換のほうが悩み
どころです」と書きましたが、とりあえず
・空いてるほうに上から順に入れる
・両方空いていないときは選択ダイアログを出してどちらに入れるか選択する
ようにしました。「もっといい方法があるよ」とかあったらお教えください。
あと、ドロップされたものがファイルなのかフォルダなのか、というチェックは
してません。間違えて実行したらどうせエラーになるので自己責任で、て感じです。

266663 ◆red7kKzN/E:2005/12/19(月) 19:36:36
>>265
ありがとうございました
ここ数日(というか今年いっぱい・場合によっては来年まで)
多忙にて手をつけられない状態なもので
先に御礼を。。

ふと思ったんですが
dosのコマンドラインのように(ってよくわかんないですが)
「c:\Program Files\htmltodat\htmltodat.exe?url=http://test.com/1234567890.html
みたいにしてHTMLを呼び出すような事が出来たら
janeやtwintailの外部コマンドから直接呼び出せるなーとか思いましたが どうでしょう
(↑スルーして頂いても全然構いませんです)

267 ◆/vmukiyuzw:2005/12/19(月) 20:46:08
>>266
> ふと思ったんですが
> dosのコマンドラインのように(ってよくわかんないですが)
> 「c:\Program Files\htmltodat\htmltodat.exe?url=http://test.com/1234567890.html
> みたいにしてHTMLを呼び出すような事が出来たら
> janeやtwintailの外部コマンドから直接呼び出せるなーとか思いましたが どうでしょう

実を言うと、>>219の最後のほうでちょこっと書いたんですが、以前から構想には入って
いたりします。

ただ、どうせやるなら、単にHTMLを呼び出すだけでなく、dat変換や、あわよくば
dat保存までいっぺんにできたら面白いかなと思ったり(そしたらJaneの外部コマンドで
にくちゃんねるを読めるのと同じようなことができたりしないかなと)。
ただそうなると正規表現とか変換オプション等々も指定できないといけないわけで、
その辺をどうしたもんかな、というあたりが課題なわけです。
まあこれは自分がどの辺のレベルで割り切るかだけの問題で、ご指摘頂いたレベルでも
ある程度使い物にはなるんだろうなとは思うのですが。

268663 ◆red7kKzN/E:2005/12/19(月) 21:14:27
うわすごいですすごいです
その場合 汎用的には
snapshotとdumper.jpとか出来そうですね。

仮想httpサーバと自動コマンドラインが実装されれば
直接dat格納までとか出来そうですね。
ただ、完全に車輪の再生産的そのものですが。

というか、自動コマンドライン変換とか出来れば
proxomitronと組み合わせて
jane等でのdat取り込み格納まで不可能でも無さそうです
(と思うだけです)

269 ◆/vmukiyuzw:2005/12/20(火) 01:28:37
>>267-268についてですが期間的にも内容的にもあまり多くを期待しないでください。
>>267で「課題です」と書いた以外にも、例えばJaneみたいに外部コマンドでスクリプトとか
指定できるものならなんとかなるんですが、そうでないブラウザでは単にどこのフォルダに
保存すればいいのかって事すらまちまちで決定できないと思われます。
いろいろ考えてみても、指定したURLから何らかの手段で思ったとおりのフォルダに保存
することができないブラウザではあまり使い道がないような気がするのです。

270名無しさん:2005/12/29(木) 09:30:00
ここの正規表現がわかりませんorz
http://warota.up.seesaa.net/image/ongaesi.html
divとかspanが入っててもう泣きそうです(;つД`)
皆さんのお力を貸していただければ幸いです

271663 ◆red7kKzN/E:2005/12/29(木) 10:01:11
# ここまでやって時間が来てしまったです

>>270
えーと
中途半端なので何ですが(なら出すなと)

m#<span.+?><a href="menu:\d+">([0-9]+)</a></span> <span class="name_label">名前: ?</span>.*?(?:<a class="name_mail" href="mailto:(.*?)">)?<b>(.*?)</b>.+?投稿日:</span> <span class="date"> ?(.+?)</span></div><div class="mes">(.*?)</div>#mi
・・・ごめんなさい、これだとメール欄の取得が出来ません。
まだまだ修行が必要だ。。

272 ◆/vmukiyuzw:2005/12/29(木) 17:47:43
>>270さん
>>271の663さんのを元に修正してみました。
メール欄の有無であちこちの半角スペースの有無が変わるのでそれを補正しました。
あと、名前欄がトリップの場合に最短一致だと拾えないので?を取りました。

m#<span.+?><a href="menu:\d+">([0-9]+)</a></span> ?<span class="name_label"> ?名前: ?</span>.*?(?:<a class="name_mail" href="mailto:(.*?)">)?<b> ?(.*)</b>.+?投稿日:</span> ?<span class="date"> ?(.+?)</span></div><div class="mes">(.*?) </div>#mi

ブラウザで見たときに最後の</div>#miの前の半角スペースが1個になっちゃうと思いますが
実際には2個です。

# こういうHTMLを見るときは横スクロールありで見たほうが意外と見やすいことに気づいた

273名無しさん:2005/12/29(木) 19:10:56
>>271-272
ありがとうございました
早速偽モナメント3にageて読ませていただいております

274 ◆/vmukiyuzw:2005/12/29(木) 19:18:34
ところで実況とか一部の板で時刻が100分の1秒単位まで表示されるようになってますね。
レス1の投稿日時からdat名を求める処理にもしかしたら影響するかも、と思って早速
テストしてみましたが、特に影響は出なかったので安心しました。

275名無しさん:2006/01/17(火) 17:12:37
htmltodat080を使わせてもらっています。質問なんですがとあるサイトのログをdatにしたんですが
どうもレスの一部が削られているようなのです。例えばここのサイトの
ttp://cp2ch.hp.infoseek.co.jp/
●● 食虫植物を育ててる方のスレッド Part5 ●● ttp://hobby.2ch.net/test/read.cgi/engei/1073146723/
を正規表現「なんだっけ」「DAT2HTML0.26」で変換したところ、例えば>955ですと

今回、洗いざらい全てブチまけてしまって楽になったのは、果たして幸か不幸か…。

以降が消えてしまっているようです。
この他のスレでも所々削られているようなんですがこれは正規表現が正しくないからなんでしょうか?
よろしくお願いします。

276名無しさん:2006/01/17(火) 17:17:10
補足
Janeの外部コマンドでにくちゃんから取得すると
上の>955に関しては正しく出来ているようです。

277663 ◆red7kKzN/E:2006/01/17(火) 17:54:39
# 作者さんでは無くてすみませんです

>>275さん
そのHTMLですが、ブラウザから直接保存したのかどうかわかりませんが
>>5の正規表現とも異なってますしよくわからないのですが
「なんだっけ」「DAT2HTML0.26」のどちらも
終端を「〜<BR><BR>#mi」としているのが
整形されたHTMLと間違ってマッチしちゃってるみたいです。

HTMLのソースでいうと5250-5251行目

<BR>今回、洗いざらい全てブチまけてしまって楽になったのは、果たして幸か不幸か…。
<BR><BR>つーか所詮僕は(後略)

の「<BR><BR>」にマッチしてしまって後が切り捨てられたのではないかと。
で、これにみあった正規表現を考えてみると、こうなるのかなと思うです

m#<DT><A name.+?>([0-9]+)</A> :.*?(?:<A href="mailto:(.*)">)?<B>(.+)</B>.*? ?:(.+?)<DD>(.*)<BR><BR> *?(<DT>|</DL>)#mi

「<BR><BR>」のあとに「半角空欄+<DT>」が来るような正規表現にすれば
上の955の問題は回避出来ると思うです。

278名無しさん:2006/01/17(火) 18:39:04
>>277
早速のレスありがとうございます。
上のサイトからhtmを保存しローカルのファイルをhtmltodatで
読み込んで試しました。
それで、277さんの
m#<DT><A name.+?>([0-9]+)</A> :.*?(?:<A href="mailto:(.*)">)?<B>(.+)</B>.*? ?:(.+?)<DD>(.*)<BR><BR> *?(<DT>|</DL>)#mi
でやってみたらうまく出来ていました。ありがとうございます。


それで要望なんですが今回Janeでスレを読んでいて違和感を感じたので
サイトのhtmと直接比較してレスの欠落に気付いたのですが、こういうのを
自動で検出する機能があればいいなと思いました。

一番良いのは正規表現を自動で生成出来る事なんですけど・・・

では、ほんとに有難うございました。

279 ◆/vmukiyuzw:2006/01/17(火) 22:10:07
# 663さん回答ありがとうございます

>>278さん
> それで要望なんですが今回Janeでスレを読んでいて違和感を感じたので
> サイトのhtmと直接比較してレスの欠落に気付いたのですが、こういうのを
> 自動で検出する機能があればいいなと思いました。
>
> 一番良いのは正規表現を自動で生成出来る事なんですけど・・・

それができればおそらく正規表現自体をユーザが意識する必要ないようにできるでしょう。
しかし現実のHTMLはその性質上あまりにもファジーなわけで・・・。
よいアルゴリズムがあれば是非ご教授願いたいところです。とりあえず私の今のスキルでは実現出来そう
にないです。
ただ言える事は
「出所のはっきりしないHTMLについては既存の正規表現がそのまま使えるとは期待しないでください」
ってとこでしょうか。
# Jane関係のスレだったか、「kakikomi.txtに自分のレス番号を記録できないか」という議論が何度か出て
# 結局「困難」と言われているのを思い出しました(これもdatとHTMLの比較の話です)

280275=276=278:2006/01/17(火) 23:48:27
>>279
素人考えで無理な事言ってすいません。
今回この書き込みが消えているのを見つけてから変換したdatを調べてみたら
結構な数のdatがこうなっていたので思わず書いてしまいました。
やはりケースバイケースで正規表現を書き換えないといけないんですね。
当方、正規表現も理解出来ていないぐらいなのでお力になれず残念です。

281 ◆/vmukiyuzw:2006/01/18(水) 02:31:54
>>279
うあ、
> # Jane関係のスレだったか、「kakikomi.txtに自分のレス番号を記録できないか」という議論が何度か出て
> # 結局「困難」と言われているのを思い出しました(これもdatとHTMLの比較の話です)
は、「datとプレーンテキストの比較の話」でした。勘違い(恥
まあいずれにせよ、加工が入ると比較が難しくなるっていうことで^^;

282 ◆/vmukiyuzw:2006/01/30(月) 01:58:30
バージョンアップしました。(0.8.1)
 ・文字コード自動判別機能を多少強化(metaタグでcharsetが指定されていなくても
  ある程度自動判別出来るようにした)。
 ・「EUC->SJIS」「UTF8->SJIS」ボタンを廃止。代わりに「ソース文字コード」の
  コンボボックスと「->SJIS変換」ボタンに変更。
 ・一括変換でhtm,html以外の拡張子も指定できるようにした。

文字コード自動判別については、
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/49
で書いたものを実装してみました。
(まあ、Unicodeとかiso-2022-jpとかは2ch形式のHTMLでは今のところ見たことが
ないので実装してませんが)

「EUC->SJIS」「UTF8->SJIS」ボタンについては、他とUIをそろえるためと、今後の
拡張性を考えコンボボックスに変更しました。

あと、一括変換での拡張子指定は、
http://yy14.kakiko.com/test/read.cgi/mirror/1115123243/310-314
あたりで出てきた話題を実装したものです。
まあ使い道としては適当にupされたdatのキーを元のdatキー名に変換するとか
文字コードを変換するとかかなあ・・・まあお好きにお使いください。
ちなみに自分で書いたもののコピペですが

> 正規表現:m#(.*?)<>(.*?)<>(.*?)<>(.*?)<>(.*)#
> 変換結果式:$1<>$2<>$3<>$4<>$5
> これだけだとdatの最後に<>が3つくっついて変になるので
> 後処理:s/<><><>/<>/
> これで一括変換かける。

283 ◆/vmukiyuzw:2006/02/08(水) 22:53:13
http://yy14.kakiko.com/test/read.cgi/mirror/1114936246/483-484
今までbeコードについては手を抜いていましたが、これを読んで由々しき事態だなと思い
調べてみました。
663さんのコードがそのまま使えるかなと思ったのですが、DAT2HTMLではどうしてるのかなと
調べたところ、be関数の引数の数が2chとは違う
(<a href=javascript:be(26098733,1);>のようになっている)ので、両方に対応できるよう
以下のようにしました。

s#<a href=javascript:be\((\d+)(?:,\d+)?\);>\?(\#*) *?</a>#BE:$1-$2#gi

当面、beコードを含むHTMLを変換する際は、基本的には上記の正規表現を変換オプション→
前処理に貼り付けるようにしてください。
(でないとbe対応2ch用ブラウザでbeプロフィールを表示できません)

大抵のHTMLでは上記のでいけると思います。
今後、もっと汎用性が確認できたら内部に組み込もうかなとも考えています。

※p2.chbox.jpのHTMLについては上記は使えませんが、それは
 http://www.geocities.jp/mirrorhenkan/snapshot を参照ください

284 ◆3551601012:2006/02/15(水) 22:36:46
いちおmakimo.toの正規表現も載せて見てはどうでしょうか?

285 ◆/vmukiyuzw:2006/02/15(水) 22:57:24
>>284さん
>>222-223に書いてますが・・・
デフォルトで付けているregexps.txtにも入れてみてはという意味ですかね?

286 ◆/vmukiyuzw:2006/02/20(月) 00:03:42
Beのユーザープロフィールがどどーんと変わったよ。
http://live22x.2ch.net/test/read.cgi/news/1140353755/

早速見てみましたがHTML上は特に変更ないようです。
2ch用ブラウザはこれから対応待ちってとこでしょうか・・・

287 ◆/vmukiyuzw:2006/02/28(火) 23:05:01
「株」についてですが、今のところHTMLとdatで違いはないようなので
手を出す必要はないかなと思っています。

288 ◆/vmukiyuzw:2006/03/03(金) 23:01:42
バージョンアップしました。(0.8.2)
 ・HTMLソース欄、正規表現欄、dat変換結果欄、変換オプションの前処理・後処理欄
  に右クリックポップアップメニューを追加。
 ・beコードのHTML->dat形式の変換を内部に取り込み。

ポップアップメニューについては
http://yy14.kakiko.com/test/read.cgi/mirror/1114936246/479
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/56
で出てた話を実装したものです。

beコードについては、>>283 の件を内部に組み込みました。
これでbeコード入りのHTMLを変換する際に>>283 のような前処理を指定する必要は
なくなったと思います。

あと、>>284さんの意見は意味がわからなかったので当面スルーです。
デフォルトのregexps.txtに追加するという話だと、自分で追加・修正してる方に修正を
強要してしまうことになるかもしれないので、なるべくならやりたくはないのです。

289 ◆/vmukiyuzw:2006/03/03(金) 23:44:29
あと余談ですがこんなサイトを見つけました
ttp://www.dll-files.com/dllindex/dll-files.shtml?riched32
9x系のOSで、全選択→コピーってやるとriched32.dllのエラーに
なってしまう方は試してみるといいかも知れません。
(自分で試したわけではないので全くの無責任です^^;)

290 ◆/vmukiyuzw:2006/03/12(日) 00:47:35
ちょっと仕様で悩んでることがあります。

前処理のw コマンドで保存するファイルの指定について
http://yy14.kakiko.com/test/read.cgi/mirror/1114936246/542,544
みたいなリクエストがあって、ちょっと考えてみたのですが
ファイル名に置換ワードを使うという前提で
$FILE →今までどおりhtmltodat.exeと同じフォルダに保存
$PLAINFILE →フォルダ名を付加しない。なので使うときはフルパスを付加することが必須
$SELECTFILE →ファイル選択ダイアログを出して選んでもらう
$ORGFILE →元ファイルと同じフォルダに保存する
とか考えました。

悩んでるのは
(1)こんなもんでよいのかと。
(2)「元ファイルと同じフォルダに保存する」って、URLを指定された場合には
どうするのかと。($FILEか$SELECTFILEとどちらかの同じ動作にするか)
(3)URLが指定された場合、やっぱファイル名は9-10桁のスレッドキーにした
ほうがいいのかと。

等々、まあくだらないことばかりかもしれませんが相談に乗っていただけると
ありがたいなと思います。

291663 ◆red7kKzN/E:2006/03/12(日) 22:21:25
# 要望したのは自分ですが 何書けばいいのだろう・・・

>>290

>(1)
そんなもんでよいです
というか 凄いです。

>(2)
エラーを出せばいいのは
・・・と素人目には思うのですが・・。

>(3)
後処理でもwコマンドが使えたのですか。
選択式に出来れば有り難いのですが・・・。


あと追加要望なのですが(ごめんなさい)

wコマンドで出力するファイルの文字コードも指定出来たら有り難いです。
UTF-8で保存し直したりする機会が増えてきましたので。。

292 ◆/vmukiyuzw:2006/03/12(日) 23:30:39
>>291
レスありがとうございます。

> >(2)
> エラーを出せばいいのは
> ・・・と素人目には思うのですが・・。
確かにそんな程度でもいい気がしますね。

> >(3)
> 後処理でもwコマンドが使えたのですか。
後処理ではwコマンドは使えないです。
(datの一行ごとに作用させてる関係上・・・)

> 選択式に出来れば有り難いのですが・・・。

> wコマンドで出力するファイルの文字コードも指定出来たら有り難いです。
うーむ、このために置換ワードのバリエーションを増やすのは煩雑ですし
使うほうもわかりづらいですね。
(Janeでは$TEXTUとか$TEXTEとか使われてますけど)
wコマンドのオプションで w なんちゃら -utf8 みたいにするか、直前のコメントで
#to_utf8 みたいに指定できるようにするか、どっちかですね。
ともあれ貴重なご意見ありがとうございます。

293 ◆/vmukiyuzw:2006/03/13(月) 02:00:12
どちらも変換オプションに入れてしまえばいいか・・・
オプションも段々ごちゃごちゃしてきたような気もしますがまあいいか

294 ◆/vmukiyuzw:2006/04/01(土) 01:04:28
心配はしてたんですが今年もやられた・・・2006/03/32とは・・・
dat保存する際に「日付または時刻ではありません」のエラーになってしまいます。
ひ(ryのバカヤロー!
忙しいんですが何らかの対処しないといけないようですね・・・

295 ◆/vmukiyuzw:2006/04/01(土) 16:41:11
というわけで急遽バージョンアップしました。(0.8.3)
 ・投稿日が「2006/03/32」となっている場合、投稿日からスレッドキーを求める処理
  が失敗しdat保存する際にエラーとなる場合があるので修正。

というか「2006/03/32」を強制的に「2006/04/01」に変換するようにしただけなんです。
明日「2006/03/33」とかなってたらどうしようw
つーか毎年こういうことに悩まされるのも嫌だな・・・

次に、http://yy14.kakiko.com/test/read.cgi/mirror/1114936246/572
のようなリクエストがきたので前処理の「DUMPER.JPスレタイ除去」を修正してます。
必要な方は上書きして下さい。

あと、>>290-293については急ぐ物件ではないかなと思って後回しにしてしまいました。
ごめんなさい> 663さん

296 ◆/vmukiyuzw:2006/04/02(日) 00:20:24
大体の板は直ったみたいだけどVIPとか未だに「2006/03/33」が出てますね。
これはもうさすがに放置しようかなと。一応エラーにはならないように対処しましたし。

297 ◆/vmukiyuzw:2006/04/10(月) 00:53:44
動画2chなんてものが出来てるようですが・・・
どう対処したものか今のところ全くわからない状態です。
まあ出来たばかりなので過去ログが出来た段階で考えようかと。

298<削除>:<削除>
<削除>

299名無しさん:2006/04/27(木) 00:15:42
単なるクレクレな、こんな質問をしてすみません。
pealの正規表現がぜんぜんわからないんで・・・
3chの過去ログ倉庫にあるスレッドをDAT化したいのですが、
2chの過去ログ倉庫とは形式が違うようです。
ttp://www.3ch.jp/newsvip/kako/112/1121876858.html
これの正規表現を教えてください。

300 ◆/vmukiyuzw:2006/04/27(木) 01:53:21
>>299さん
うーむ、これはどうやってHTML化されたものだろう・・・?
さっぱりわかりませんがHTMLの形式はread.cgi7.00?とほぼ似ているのでちょっと変えて

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)</dt><br><dd> ?(.*?)<br><br></dd>#mi

でいけると思います。他のログに通用するかは自信ありませんが。

301663 ◆red7kKzN/E:2006/04/27(木) 16:19:31
>>299さん
どうしてもhtmlからdatに変換したいというなら別ですが、
3chの場合 そのアドレスの「〜.html」を「〜.dat」に変えればいいです

http://www.3ch.jp/newsvip/kako/112/1121876858.dat

0chスクリプトの過去ログなんかも同様にいけるです(>>180-181)


>>mukiyuさん
悪気は全くないのです
お気を悪くされたら謝ります
ごめんなさい
ごめんなさい

302299:2006/04/27(木) 22:52:32
>>300
ありがとうございました。できました。
なんかすぐ対応してもらってすみませんでした。

>>301
_| ̄|○ソウダッタノカ・・・
それって3chの運営にでも書いてありましたかね・・・
なにしろトップから過去ログ倉庫にもいけないと言うへぼさ加減で>俺
ひとつ勉強になりました。ありがとうございます!

303 ◆/vmukiyuzw:2006/04/27(木) 23:15:33
>>301
「お気を悪くされたら」なんてとんでもないです
htmltodat使わなくてもdatが取得できるならそのほうが効率的ですし
ノウハウを提供頂いて逆にありがたいです

304546:2006/04/30(日) 01:58:44
htmlファイルをdatにhtmltodat0.8.3で変換しようとすると、
変換開始後、数秒してから
「全然ヒットしないので正規表現が正しくないようです」
とエラーが出てしまいます。
(read.cgi7.00?で変換しています)

どうかアドバイスをお願い致します
http://makimo.to/2ch/etc_shop/1060/1060125334.html

WinXPsp1a
JaneIE Viewα051128

305名無しさん:2006/04/30(日) 02:15:40
>>304
ブラウザ上でマウスを右上のほうにもってくと出てくる「DAT」のとこをクリックして「1060125334.dat」で保存

306546:2006/04/30(日) 03:26:09
>ブラウザ上でマウスを右上
す、すみません
どのサイトの、どのページでやったらいいのでしょうか?

307名無しさん:2006/04/30(日) 03:55:53
>>306
>>304のLinkをブラウザで開いて実行すると、
http://makimo.to/cgi-bin/html2dat/html2dat.cgi?etc_shop/1060/1060125334.html
が開かれる

308 ◆/vmukiyuzw:2006/04/30(日) 19:28:18
>>305さんフォローありがとうございます
ちなみにjavascript ONでないといけないのでご注意ください。
にくちゃんねる(makimo.to)のdat化についての話題はこのスレでも何度も出てますので
一度検索してみてください。

309<削除>:<削除>
<削除>

310<削除>:<削除>
<削除>

311663 ◆red7kKzN/E:2006/05/17(水) 22:27:16
些細な要望なのですが宜しいでしょうか。

htmltodatで subject.txtを生成する際の改行コードを
「CR+LF」にして頂けたら嬉しいです。

現状、生成されたsubject.txtの改行コードは
「LF」みたいなので、メモ帳で開くと表示が崩れてしまうです。
(9x系のOSだけかもしれませんが)

エディタを使えばいいだけの話ですが、
ダブルクリックでメモ帳で開いてちょこっと直す事とか
出来たら楽だろうなー、と。

「CR+LF」の改行コードでも
FTPでAsciiモードでアップする際に「LF」に変更するみたいなので
問題無いと思うです
http://ash.jp/code/return.htm

気が向いたら御一考頂ければ嬉しくなりますです


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板