したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1</b><font color=#FF0000>(L44UP/ps)</font><b>:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

169名無しさん:2005/04/26(火) 19:06:29
>>168さん
HTML中に
<META content="MSHTML 6.00.2800.1491" name=GENERATOR>
というのがあるのを見ると、DAT2HTMLで変換した結果をいったんIEで表示し
それをメニューから「名前を付けて保存」で保存したもののようですね。
この方法で保存した場合(以下略。>>161参照)

とりあえず、正規表現「DAT2HTML0.26」をベースにしたのですが、名前欄に
一致させるための「<b>(.*?)</B>」の部分が、トリップつきの名前だと
トリップの前の</B>にマッチしてしまっておかしくなるので、最長一致の
「<b>(.*)</B>」に変えました。(これは他の正規表現にも同じ問題があるかも・・・)

あと、投稿日の前の「:」の前の半角スペースがあったり無かったり数が
まちまちだったりしたので(これはIEの整形・加工の影響)、ここに「*」
を加えました。
結果は以下です。

m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*)</B>(?:</A>|</FONT>) *:(.*?)<DD>(.*)<BR><BR>#mi

170168:2005/04/27(水) 08:45:21
>>169
お手数かけました。

171164:2005/04/28(木) 09:30:21
>166
>167
ありがとうございます
自分もソースをもう一度よく見たら他のと全く違う形式に気づきました。
試してみて、ダメだったら別のHTMLミラーを探して見ます。

172163:2005/04/29(金) 21:56:41
ブラウザをFirefox/1.0.3に変更したら次のようなHTMLが保存できるようになりました。
http://wiki.fdiary.net/2chZelda/?c=plugin;plugin=attach_download;p=sample;file_name=findhtm2.zip

なので今後は、
1 Firefoxを使って2ch検索でhtmlを表示させる
2 「名前を付けてページを保存」の「htmlのみ」で保存。ファイル名はスレ固有の番号。
3 htmltodatでHTMLを呼び出し、EUC→SJISボタンを押す
4 正規表現は「DAT2HTML0.26」を選択し変換。変換が終わったらdatを保存。
5 datの1行目に編集を加え正しいスレタイに変更
という手順で使おうかと思っています。

以上、報告でした。

173</b><font color=#FF0000>(L44UP/ps)</font><b>:2005/05/07(土) 01:43:47
DAT2HTMLについて、ちょっとサポート掲示板をのぞいてきたのですが、
>>152でのタグ位置の変化は、どうやらVer.0.32からのバグ扱いされている
模様です。
最近のバージョン(といってもバージョン番号は正確にはわからないのですが)
では修正されているようですのでご注意ください。
(おそらく正規表現「DAT2HTML0.26」がそのまま使えるとは思うのですが)

174143:2005/05/27(金) 13:28:36
再び失礼致します。
http://jbbs.livedoor.jp/movie/3205/storage/1090591778.html

上記スレッドなのですが、投稿日欄やトリップ欄が壊れた状態で変換されてしまいます。
他の正規表現も試してみましたが、今度はレス番が1つズレるという結果に成りました。
何とか、正常に変換される事は可能なのでしょうか?

175名無しさん:2005/05/27(金) 18:30:43
>>174
EUC->SJISにした後>>63の正規表現で変換できましたよ。
もう一度ログを落とし直してみるとか。

176 ◆/vmukiyuzw:2005/05/27(金) 18:58:50
>>174さん
正規表現「jbbs過去ログ」で一見問題なく変換できた・・・と思ったら
元スレがレス番170まであるのにdatは168行しか変換できません。
調べてみると、元スレのレス番15と19が飛んでいます。

>>166でも書きましたが、htmltodatには透明あぼーんを補う機能など
無いので、その分レス番がずれてしまいます。
対処としては、datに無理やり透明あぼーんを表現する行を突っ込む位しか
思いつきません。
変換後のdatをテキストエディタで開いて、15行目と19行目に

透明あぼーん<>透明あぼーん<>透明あぼーん<>透明あぼーん<>

とか入れてみるとかどうでしょう。

177 ◆/vmukiyuzw:2005/05/27(金) 19:03:06
あれ?トリップの仕様が2chと一緒になったのかな?
今までここでは(L44UP/ps)と名乗っていた作者です。

178175:2005/05/27(金) 19:06:11
確認しなおしたら作者さんの言う通りになってた・・・早とちりすみません。

179143:2005/05/30(月) 17:54:20
>>176
試してみました所、正常に閲覧する事が可能に成りました。
誠に有難う御座います

180名無しさん:2005/07/15(金) 02:32:36
ぜろちゃんねるの過去ログは変換出来ますでしょうか?
一覧やこのスレに出ている例は全て試しましたが、出来ませんでした。
変換したいのは、下のhtmlです。

http://0ch.mine.nu/jikken/kako/104/1043234114.html
http://0ch.mine.nu/jikken/kako/104/1049781744.html

181180:2005/07/15(金) 05:04:16
すみません。自己解決しました。
同じディレクトリにあるdatファイルを取得すれば良いだけでした。
書き込んだついでに一言。
htmltodatには昔からお世話になっております。ありがとうございます。

182名無しさん:2005/09/05(月) 18:30:31
どうもうまくいかないので、宜しければ正規表現を考えて頂けないでしょうか。

こちらです。
http://snapshot.publog.net/dat.php?url=http://ex11.2ch.net/test/read.cgi/news4vip/1119660972/

ところで、上と同じスレですが
http://snapshot.publog.net/html/news4vip/2005/06/25/095612.html
は同じ型(?)なのでしょうか。

183 ◆/vmukiyuzw:2005/09/05(月) 20:41:10
>>182さん
若干余分なものがくっついてますが基本的には「read.cgi7.00?」と似た形をしているので
これをベースに試したところ、日時・ID欄の前のコロンの全角半角が違うだけだったので、
これを変えるだけで基本的には変換できました。

m#<dt>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.*?)</b>(?:</font>|</a>) :(.*?)<dd> ?(.*?)<br><br>(<dt>|</dl>)#mi

但し2点ほど考慮事項が。
1.メール欄に mailto:.sage のように無駄な(?)ドットが必ず一個ついてくるようです。
 これを忠実に再現するなら上の正規表現のままでいいですが、不要だと思われるならば
 mailto:\.? とでもすれば取り除けます。
2.htmltodatではスレタイの情報は<title>タグから取得しているのですが、このスレは<title>タグが
 本来のスレタイではなく 「http://ex11.2ch.net/test/read.cgi/news4vip/1119660972/
 みたいにURLになっちゃっているので、本来のスレタイに打ちかえる必要があります。

> http://snapshot.publog.net/html/news4vip/2005/06/25/095612.html
> は同じ型(?)なのでしょうか。

ソースの見た目は特に違いはなさそうでしたし同じ正規表現で変換できましたけど。

184182:2005/09/06(火) 13:49:49
即答ありがとうございます。datに変換出来ました。
これで、snapshotにしか残っていないスレッドもdat化出来ます。
ありがとうございました。

185名無しさん:2005/09/06(火) 17:04:55
 a

186名無しさん:2005/09/07(水) 17:17:51
afgeae test

187182:2005/09/09(金) 20:43:52
すみません、またお願い出来ませんでしょうか。

http://p2.chbox.jp/read.php?url=http://live20.2ch.net/test/read.cgi/liveanb/1126241150

↑これなのですが、>>182のようなURLでは取り出せないようなのです。
ソースを見てみると、何とも難しそうなのですが、出来ますでしょうか・・・。

188 ◆/vmukiyuzw:2005/09/10(土) 13:52:59
>>187さん
これはp2によるHTMLですかね。
Javascript等のガラガラが入りまくりでhtmltodatとしては非常に
苦手なパターンです。

まず、htmltodatの仕様からくる致命的な不都合が2点。

1.htmltodatでは日時・ID欄は一つのものとしてとらえているので
 日時とIDの間に挟まっているものは取り除けません。

2.htmltodatではメール欄は名前欄より前に「mailto:〜」の形式で
 書かれていることを前提にしているので、このHTMLのように
 名前欄の後ろにしかもプレーンテキストでポンと置かれても
 それがメール欄である事を識別するすべがありません。
 (しかもこの形だと日付欄と区別するのも難しい)

とはいえ、名前欄と本文だけはそれなりに取り出せたので一応
書いておきます。後は申し訳ないですがエディタ等で前処理なり
後処理なりして整形してください。

m#<dt.*?>([0-9]+).+?()<b>(.*) </b>.*?:(.*?)</dt>.*<dd> (.*)<br><br></dd>#mi

あと、レス番が256から始まってますがこれをdat変換してもしょうがないので
「全部」のURLで変換してください。
それからスレタイにも余分なものが付いてますのでご注意を。

189 ◆/vmukiyuzw:2005/09/10(土) 13:59:37
あと、技術的な解決法ではありませんが、サイト管理者さんに
生datでの提供をお願いしてみるというのはどうですかね。
(にくちゃんねるとかは確かこれによりdatの提供もされるように
なったという経緯があったはず)

・・・とふと思ったけどサイトを見に行ってみると既に要望されて
いる方がいらっしゃるようですね。
(しかもスルーされてる模様 orz)

190182:2005/09/10(土) 14:52:39
>>188-189
ありがとうございます!これで充分です。
>>182のようなURLで取り出せないものは、こちらのほうを使わせて頂きます。

191名無しさん:2005/09/10(土) 23:19:50
http://sapporo.cool.ne.jp/morikake/morikake3.html
このhtmlの変換をしたいと考えています。
何だっけ…が一番近いようなのですが、日付のタグやIDのリンクが悪さをするようです。
ログを置き換えて処理しようとしたのですが、IDのリンクがうまく処理できず、煮詰まってしまいました。
ご教授お願いします。

192 ◆/vmukiyuzw:2005/09/11(日) 13:55:42
>>191さん
これも>>189の1と同じ問題で、日時とIDの間に挟まっているアンカータグを
取り除く事ができません。申し訳ないですがエディタ等で前処理なり
後処理なりして整形してください。

m#<DT><A.*?>([0-9]+).+?<B>(?:<A HREF="mailto:(.+?)">)?(.*?)(?:</A>)?</B></FONT><FONT.*?>.*?</FONT><FONT.*?>(.*?)(?:</A>)?</FONT><DD>(.*)<BR><BR>#mi

アンカータグが残っている影響でプレビュー欄が変になりますがご容赦ください。
あとこのHTMLにはスレタイがないのでご注意を。

193名無しさん:2005/09/11(日) 14:36:12
>>189
やあ、(´・ω・`)
オフラインでも保存されたスレが見たいから
dat提供を頼んでみたけどスルーされたのさ 。

多分、182の人はそんな俺の書き込みを見て何か思ったエロイ人。

194 ◆/vmukiyuzw:2005/09/11(日) 18:44:08
>>192
> これも>>189の1と同じ問題で、
>>188の1の誤りでした。失礼。

195191:2005/09/11(日) 20:15:31
>192
どうもありがとうございました。タイトルは分かっているのでなんとかしてみます。

196182:2005/09/16(金) 19:51:41
snapshot(というか「p2.chbox.jp〜」)のスレを
htmltodatで一括変換してみたところ(タイトルが違うのは承知の上で)
8スレ中 dat変換に成功したのは4スレのみでした。。
・・何故なのでしょう?

対象スレ:
(1)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126372408/all
(2)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126372282/all
(3)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126368731/all
(4)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126372069/all
(5)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126378029/all
(6)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126166580/all
(7)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/newsplus/1126363579/all
(8)http://p2.chbox.jp/read.php?url=http://news19.2ch.net/test/read.cgi/news/1126373580/all

このうち、dat変換に成功したのは(1)(2)(6)(8)でした。

197 ◆/vmukiyuzw:2005/09/16(金) 21:53:49
>>196さん
>>188でも書きましたが、p2によるHTMLにはJavascript等のガラガラ(※注:htmltodatから
みると邪魔でしかない要素を勝手にこう呼んでいます)が大量に含まれています。
変換できないHTMLは、このガラガラがあまりに多すぎて、まさにエラーメッセージどおり
「一行が長すぎる」のエラーに引っかかってしまっている状態です。
で、内部バッファのサイズ制限を多少ゆるくして回避できないか試してみましたが、今度は
BREGEXP.DLLの制限(readmeにちょっと書いてますがマッチする文字列長が長すぎると
fatal errorを起こすというもの。直してくださいよBabaさん!てこんなとこで書いても意味
ないですが)に引っかかってしまう始末。

結局のところ、前処理で不要なものを取り除いてしまう以外回避策はないかと思います。
ご自分の掲示板でも既に気づかれていたようですが、<dd id= で始まる行が一番のガン
なので、こいつらを全部取っ払っちゃってください。単に空行に変換するだけでも充分です。

これで(1)〜(8)まで全てエラーが出ないことを確認しましたが、一点だけ問題がありました。
>>188で書いた正規表現ですが、<dd>タグの後に一個半角スペースを付けていたのですが、
あぼーんのあったレスにはこの半角スペースが存在しないためマッチしませんでした。
なので、?を付けて<dd> ? として以下のように修正します。

m#<dt.*?>([0-9]+).+?()<b>(.*) </b>.*?:(.*?)</dt>.*<dd> ?(.*)<br><br></dd>#mi

198182:2005/09/19(月) 20:13:30
御返事遅くなり申し訳ありません。
不具合を取り除く正規表現がなかなか厄介でしたが(ヘタレなので)、何とかなりました。

snapshotのスレも、何とかなりそうです。ありがとうございました。

199名無しさん:2005/09/20(火) 23:24:03
韓国人と仕事で困った事・過去ログ倉庫一覧
http://cool.kakiko.com/korea00/log.html
こちらのログの変換をしようとしたら、
「1行が長すぎるか、正規表現が正しくないようです。」
とでて変換できません。
他力本願で申し訳ありませんが、対応はできないでしょうか?

200 ◆/vmukiyuzw:2005/09/21(水) 09:48:27
>>199さん
このHTMLは何者だろう・・・?
http://lime.kakiko.com/korea/log/log01.html
の一番最後に「名前:Katjusha extender 投稿日:Katjusha extender
倉庫に落ちました。。。 」てのがついていたので、かちゅ〜しゃで
表示したものをHTML保存したものかなあ?

ともあれ、HTMLの形式としては「DAT2HTML0.26」に似ていて、違いは
・日時・ID欄の前が単に全角コロンではなく「投稿日:」と付いている
・名前欄の後の</FONT>タグが省略されることが無い
程度だったので、これをベースにして以下のようなのを書いてみました。

m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*)</B>(?:</A>)?</FONT> 投稿日:(.*?)<DD> ?(.*)<BR><BR>#mi

あと、これらのHTMLにはスレタイの情報がないのでご注意を。

201名無しさん:2005/09/21(水) 21:25:06
>>200
無事変換できました。
スレタイについては、datを編集して対応します。
◆/vmukiyuzwさん、ありがとうございました。

202 ◆/vmukiyuzw:2005/09/27(火) 20:39:13
htmltodatをバージョンアップしました。(0.2.0)
・UTF-8→SJIS変換機能を実装。
・HTTPステータス301,302等の時にエラーにせずリダイレクトするよう修正。
・<title>タグに余分なものが含まれるときにスレタイトルが取得できない
 不具合を修正。
・UIの細かい改善(「URLまたはファイル名」欄でcntl+aで全選択できるよう
 にした、ファイル名のドラッグ&ドロップができるようにした)。

今回の変更点メインは、以前>>137で予告していて、http://2ch.dumper.jp/
への対応を見越してつけた、UTF-8対応です。
http://2ch.dumper.jp/のスレッドは、UTF8->SJIS変換をした後であれば
正規表現「read.cgi7.00?」で変換できるようです。

203 ◆/vmukiyuzw:2005/09/27(火) 20:49:12
>>202
あ、一つ書き忘れてました。
> http://2ch.dumper.jp/のスレッドは、UTF8->SJIS変換をした後であれば
> 正規表現「read.cgi7.00?」で変換できるようです。
のですが、スレタイに「 - DUMPER.JP」というのがくっ付いてきてしまいます。
申し訳ないですが前処理か後処理で取り除いてください。

204 ◆/vmukiyuzw:2005/09/30(金) 22:59:06
またバージョンアップしました。(0.2.1)
・be鯖からの取得が「500 Internal Server Error」になってしまう不具合を
 修正。
・9x系のPCで動かすと正規表現欄やHTMLソース欄の右端が欠けてしまって
 編集不能になる不具合を修正。

ちょっと今回の修正はうまくいってるかどうか自信ありません。
不具合があればご報告ください。

205182:2005/10/03(月) 20:17:24
バージョンアップありがとうございます。
色々試させて頂かせております。

早速ですが、また解決して頂きたいhtmlがあります。

http://f55.aaa.livedoor.jp/~vipper/browjer/projectlog2.html
http://f55.aaa.livedoor.jp/~vipper/browjer/projectlog3.html
http://f55.aaa.livedoor.jp/~vipper/browjer/projectlog4.html
http://f55.aaa.livedoor.jp/~vipper/browjer/projectlog5.html

「〜projectlog1.html」もありますが、これは何とかなりました。
残り4つなのですが、なかなか合致しません。
宜しければ、調べて頂けないでしょうか。

あと、上の4スレとも自分の環境ではhtmltodatでの呼び出しは
文字化けして出来ませんでした。
htmlをDLしてドラッグ&ドロップ(←大変便利です)すると問題無いのですが・・。

206 ◆/vmukiyuzw:2005/10/05(水) 17:49:48
>>205さん
レス遅くなってすみません。
正直手こずりました・・・

名前欄・メール欄のあたりのバリエーションがさまざまで、一発でマッチするパターンが
なかなか見つけられませんでした。
なので、or表現を使いまくって、結果以下のようになりました。

m#<dt.*?>.*?(?:<B>|<FONT.*?>)([0-9]+).+?:(?:<A.*?href="mailto:(.*?)">|<FONT .*?>)(?:<b>| )(.*?) *?(?:</b></font>|</font>|</b></a>|</a>) ?:(.*?) *?<dd.*?> ?(.*?)(<layer|<br> *?<br> *?<A *?id=.*?>|<br> *?<br> *?</d)#mi

かなり複雑な正規表現になってしまったので、変換には結構時間がかかると思います。

あと、文字化けするのはHTMLがgzip圧縮されているためです。(>>43参照)
対処としては
・ログをダウンロードして適当な解凍ツールで解凍(数が多い場合はこれがお勧め)
・ブラウザで表示し、「名前をつけて保存」で保存
・ブラウザで表示し、「ソースの表示」でエディタ等で表示し、保存(これだとHTMLが
 適当に加工されることもないので私としてはお勧め)

htmltodat自体に解凍機能をつけるのは結構大層な改造になってしまうのでできれば
やりたくないのですが、なぜ化けてるのかがわからないのはまずいと思うので、
警告メッセージくらいは出すようにしようかなと思っています。

207182:2005/10/05(水) 20:59:33
>mukiyuさん

ありがとうございます。「|」で4つに分けてあったりして、何とも凄いです。
ちょっと試してみたんですが、本当に変換に時間がかかりますね。

お時間をとらせてしまって、申し訳ありませんでした。
今後共宜しくお願い致します。

208 ◆/vmukiyuzw:2005/10/06(木) 20:56:55
htmltodatをバージョンアップしました。(0.3.0)
・beコード削除機能を実装。
・名前欄とメール欄の位置が逆になっているHTMLに対応するため、メール欄逆転
 機能を実装。
・HTTP受信時にgzip圧縮されたデータを受け取るとエラーになるよう修正。

いろいろとご指摘いただいた182さん(663さんとお呼びしたほうがいいでしょうか?)
に感謝します。

209 ◆/vmukiyuzw:2005/10/13(木) 02:19:26
htmltodatをバージョンアップしました。(0.4.0)
・アンカー削除、beコード削除等を別ウィンドウで表示するよう修正。
・メール欄逆転機能を削除。代わりに、より汎用的に対応できるよう、
 変換結果式を指定できるよう修正。
・変換前処理・後処理機能を実装。

オプションのあたりがごちゃごちゃしてきたのと、今後の拡張性も考え、
別ウィンドウに切り出すようにしました。
でもモーダルではなくモードレスウィンドウなので、表示したまま
メインウィンドウの操作をすることも可能です。

210 ◆/vmukiyuzw:2005/10/13(木) 02:21:30
まず変換結果式欄についてですが、何も入力しなければ今までどおり
$3<>$2<>$4<>$5<>
になります。
名前欄とメール欄が逆転しているようなケースでは、
$2<>$3<>$4<>$5<>
と指定してください。
また、にくちゃんねる(makimo.to)のようにメール欄の表現が複数あるような
ケースでは
$4<>$3$2<>$5<>$6<>
のような指定も可能です。
これを前提としたにくちゃんねるのHTMLの正規表現は

m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>)#mi

でいけると思います。

211 ◆/vmukiyuzw:2005/10/13(木) 02:22:31
次に変換前処理・後処理についてですが、今まで「前処理か後処理で対処して
ください」と書いてきたことのいくらかがこれで対処できるようになると思います。
例えば、>>196-197のようなガラガラについてですが、前処理で

s#<dd id=.*?\n##ig

とでも書けば取り除けます。
>>203で書いたhttp://2ch.dumper.jp/のスレタイとかでも

s#(<title.*?) - DUMPER.JP(</title>)#$1$2#

とか書けば取り除けます。

212 ◆/vmukiyuzw:2005/10/13(木) 02:23:54
あと、後処理については実はあまり有効な使い道を考えてませんw
(前処理があるなら後処理もいるかなーくらいのノリで付けてたりして)
まあ、前処理でもbeコード削除でも取り除けないゴミを除去するくらいには
使えるんじゃないでしょうかね。例えば>>196-197ですがbeコード削除を
しても (p)ID:qEFalaaz0(7) みたいにp2コード?が残っちゃいますよね。
これを取り除くには

s#(.*?<>.*?<>.*?)[(]p[)](ID:.*?)[(].*?[)]#$1$2#

などとすればよいかと思います。

213 ◆/vmukiyuzw:2005/10/13(木) 22:05:41
連日ですがバージョンアップしました。(0.4.1)
・セパレータが<>以外だと正しく変換できない不具合に暫定対応。

現在、変換結果式のセパレータを「<>」以外のもの(カンマ区切りとか)に
されるとうまく動作しません。
で、後処理で変換できるようにしたつもりだったんですが、処理の順番で
うまくいっていませんでしたので、これを修正しました。
例えばかちゅ〜しゃライクなカンマ区切りにしたいような場合だと後処理を
以下のように指定します。
(注:あくまで例であり、このようにすればかちゅ〜しゃで読めるようになると
いうわけではありません)

s#(.*?)<>(.*?)<>(.*?)<>(.*?)<>(.*?)#<b>$1</b>,$2,$3,$4,$5#

214名無しさん:2005/10/16(日) 12:21:57
乙乙です

215 ◆/vmukiyuzw:2005/10/17(月) 18:30:13
バージョンアップしました。(0.4.2)
・HTTP受信時にgzip圧縮されたデータを受け取ると解凍するよう修正。
・変換後処理の欄で改行文字やスペース文字を表示できるようにするのを忘れて
 いたので修正。

今回は不具合対応のみです。
今後の予定としては変換オプションのファイル保存・呼び出し対応等。

216 ◆/vmukiyuzw:2005/10/21(金) 22:48:04
バージョンアップしました。(0.5.0)
・変換オプション中の前処理・変換結果式・後処理をそれぞれファイルに保存・
 一覧選択できるようにした。
・使用しているzlibのバージョンを1.1.3→1.2.3に変更。
・v0.4.2のエンバグ(ローカルHTMLが正しく読めない場合がある等)を修正。

217 ◆/vmukiyuzw:2005/10/21(金) 23:47:01
前バージョン(0.4.2)では、かなり初歩的な、でも致命的なバグを仕込んでしまいました。
ダウンロードされた方々、申し訳ありません。

あと、zlib 1.2.3 に対応したgzip_delphi2.zipを公開されている、Open Jane Project の
◆184NBKmVW6氏に感謝します。

218集計人:2005/10/23(日) 23:17:32
集計人と申します。自サイト"http://www.usamimi.info/~shukeisho/&quot;
内のphpスクリプトで、htmltodat使ってます。
"htmltodatのようなもの"の補足文書がすごい参考になりました。感謝感謝!

219 ◆/vmukiyuzw:2005/10/29(土) 00:37:44
バージョンアップしました。(0.6.0)
・文字コード自動判別機能を実装。
・取得即変換機能を実装。
・変換前処理のちょっとしたデバッグ機能を実装。
・変換前処理・後処理の保存時に不要な改行コードがついてしまうバグを修正。
・その他細かい修正(URL欄でEnterキーを押せば取得動作をするようにした・
 一括変換で変換中止ボタンを押してもそのファイルを処理中は中止できなか
 ったので、メインの変換処理に割り込みをかけられるようにした)

今回の変更点メインは文字コード自動判別です。
もともとは、HTML欄にコピペされた場合に変換するタイミングがわからないので
ボタンで変換するようにしていたのですが、そんな使い方してる人はほとんど
いないだろうと思い(実用上あんまり使い物になりませんし)、自動判別するように
しました。
これで、EUCやUTF-8のHTMLでもボタンを押して変換する必要がなくなりました。
(一括変換のウィンドウからもチェックボックスをなくしました)

次に取得即変換ですが、正規表現や変換オプションが同じものが使えるHTMLを
取得する際に、いちいち変換開始ボタンを押さなくてもいいようにと考えてつけました。
文字コード自動判別もそうですが、省けるアクションはなるだけ省けるようにして
使い勝手を向上させようという方向です。
# 後はdatファイル名まで自動で確定できればバッチコマンド的に動作させることが
# 可能なのですがこれがなかなか難しい・・・今後の研究課題です

220 ◆/vmukiyuzw:2005/11/03(木) 16:26:35
バージョンアップしました。(0.6.1)
・変換前処理で改行コード(Enterキー)が入力できないバグを修正。
・HTMLソース等で64kb(65,546バイト)以上入力できないバグを修正。

今回は不具合対応のみです。

一個目のは単純なバグで、Enterキーを受け付けるかどうかというプロパティ
(WantReturnsプロパティ)というのがあるのですが、なぜかこれだけOFFに
しちゃってました。
(しかし後処理でも同じコンポーネントを使っているのになぜ前処理だけ変えて
しまったのかは不明です。デフォルトではONなのに・・・酔っぱらってたのかなw)

二個目ですが、使用しているコンポーネント(というかそれの継承元である
RichEditコントロール)に、デフォルトで64kbまでしか入力できないという制約が
あり、MaxLengthプロパティというのを適切な値に設定しておかないといけな
かったようです。
(プログラム板のくだすれDelphiスレで教えていただきました。
http://pc8.2ch.net/test/read.cgi/tech/1126590039/879-882
これで、昔から疑問に思っていた「HTMLソース欄に直接コピペすると途中で
切れる」現象も解決できたと思います。

221名無しさん:2005/11/06(日) 13:48:08
お助け下さい。
下記の過去ログをdat変換したくて、このスレの正規表現も片っ端から試してみましたが
どれも歯が立ちません。
http://makimo.to/2ch/pc7_software/1095/1095427149.html
htmltodatのバージョンは0.6.1です。よろしくお願いします。

222 ◆/vmukiyuzw:2005/11/06(日) 15:05:03
>>221さん
にくちゃんねる(makimo.to)のdatは>>83の方法、または>>158の方法で取得できます。

どうしてもhtmltodatで変換したいんだったら>>210の方法で・・・と書こうとして正規表現に
抜けがあるのを見つけました。
ということであらためて・・・
変換結果式欄に
$4<>$2$3<>$5<>$6<>
と指定した上で(一覧に「makimo.to」というのが出てくるはずなのでそれを選べばいいです)、
正規表現は
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
でできると思います。

223 ◆/vmukiyuzw:2005/11/06(日) 15:12:05
>>222
ああ、まだ漏れが・・・
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
にしてください・・・

224221:2005/11/06(日) 15:37:58
>>223
できました。
素早いお返事、ありがとうございました。

225 ◆/vmukiyuzw:2005/11/06(日) 19:04:45
バージョンアップしました。(0.6.2)
・文字コード自動判別をオプションで指定できるよう修正。

文字コードはHTML中のmetaタグのcharsetを見て判別しているのですが、
稀にcharsetで指定された文字コードと実際の文字コードが異なるケースが
あるようなので、一応オプションでON,OFFできるようにしました。
基本的にはONのままで使用して問題ないと思います。

226名無しさん:2005/11/07(月) 02:01:16
http://www.geocities.jp/karc304/gurps-basic/17th.html

バージョン0.6.2でこのURL変換しようとすると、
読み込み行とバッファサイズばかりが増えてしまい、
変換行がさっぱり増えてくれません。
やがてhtmltodatが固まってしまいました。

このhtmlはdat2htmlの0.32fpで変換されたもののようなので、
>>152に書かれている正規表現を使用したのですが、
正規表現が間違っているせいなのでしょうか?
挙動がちょっとおかしかったので、バグかもしれないと思い報告に来ました。

227663:2005/11/07(月) 02:45:02
>>226さん
これではどうでしょう(管理人さんでなくてごめんなさいです)

m#<DT>([0-9]+) :<font color=green>(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</b>(?:</A>)?</FONT> :(.*?)<DD> ?(.*)<br><br>#mi

228 ◆/vmukiyuzw:2005/11/07(月) 02:56:49
>>226さん
正規表現がおかしいときに挙動不審になるのは仕様です(開き直り)
ところでこれは何となくdat2htmlにスキンを適用して変換したもののような気がする・・・
(気がするだけですが)
とりあえず
m#<DT>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>).*? :(.*?)<DD> ?(.*)<BR><BR>#mi
でどうでしょう。

#なんかどれかの正規表現ととかぶってる気がする

229 ◆/vmukiyuzw:2005/11/07(月) 02:59:29
うわ先に書かれてるし><
そっちでもOKですね
リロードしてなくてごめんなさい663さん

230663:2005/11/07(月) 03:33:26
>>229
いやー、すごいニアミスでした。というか失礼しました。

それだけでは何なので
snapshot(http://snapshot.publog.net)の変換方法について
まとめてみたものを出してみます。

http://www.geocities.jp/mirrorhenkan/snapshot/

↑そんなに試していませんが、beのスレ以外は大体使えるのではないかと思うです。


という事で、htmltodatの要望ですが
be板のDATは文字コードがEUC-JPみたいなので
保存する際の文字コードにEUC-JPも選択出来るようにして頂けたら
・・と思います。

あと、以下 お遊び用の要望なのでそれほど重要ではないのですが
UTF-8でも保存するように出来たら嬉しいです。

DATを直接呼び出してHTML整形表示するjavascriptみたいな事をやっているのですが
IE以外のブラウザでも汎用的に読み込めるようにするには
DATの文字コードをUTF-8にしないといけないみたいなので・・・。
例えば↓これとか。

http://www.geocities.jp/mirrorhenkan/dat2html-3/dat/read-xml.html?key=utf8

ちなみに上のは 以下のDATを読み込んで整形出力しています
http://www.geocities.jp/mirrorhenkan/dat2html-3/dat/utf8.dat

# ・・って、全然htmltodatと無関係ですね

231 ◆/vmukiyuzw:2005/11/08(火) 00:05:02
>>230対応バージョンアップしました。(0.7.0)
・dat保存時に保存する文字コードをSJIS,EUC,UTF-8から選択できるようにした。

しかし実装したものの、SJIS->EUC変換が笑うくらい遅い・・・SJIS->UTF-8変換は
普通に速いんですが・・・
Open Jane Projectの◆184NBKmVW6氏が、一部を高速化したjconvert.pasを公開され
ているようなので、そちらの採用も検討してみます。
(ただ、JaneではSJIS->EUC変換なんて必要ないでしょうから期待薄です・・・
車輪の再発明になってしまうかもしれないけど自力で書くしかないかな・・・)

で、sample.htmlをEUC変換したdatをbe対応版のJaneで読ませてみました。
本文は普通に読めますが、日時・ID欄の曜日が文字化け(というかEUCのまま)します。
エディタでEUCモードで読むと文字化けしないので、これはJaneのバグ(というか今の
be板のdatには曜日はついていないようなので日時・ID欄のEUC->SJIS変換をサボって
いるのでしょう)と思われます。

あと、UTF-8変換したdatですが、エディタで見るとそれなりに出来ているようですが
UTF-8のdatに対応したブラウザとかないので私の手元ではどう検証したものかわかり
ません。
ということで、663さんに検証していただけるとありがたいなと・・・
(指名してしまってすみません)

232 ◆/vmukiyuzw:2005/11/08(火) 00:26:36
>>231
> Open Jane Projectの◆184NBKmVW6氏が、一部を高速化したjconvert.pasを公開され
> ているようなので、そちらの採用も検討してみます。
> (ただ、JaneではSJIS->EUC変換なんて必要ないでしょうから期待薄です・・・
> 車輪の再発明になってしまうかもしれないけど自力で書くしかないかな・・・)

とんでもありませんでした!sjis2eucも対応されていてしかもめっちゃ高速です!凄い!!
感謝の気持ちでいっぱいですが、今日はもう遅いのでバージョンアップは明日にします。
すみません。

233 ◆/vmukiyuzw:2005/11/08(火) 18:45:01
ということでバージョンアップしました。(0.7.1)
・SJIS<->EUC変換に使用するモジュールを変更し変換を高速化。

これでSJIS->EUC変換も実用的な速さになったと思います。
Open Jane Project の◆184NBKmVW6氏に再び感謝します。

あと、正規表現の「read.cgi7.00?」と「sample」に多少の不具合があり
修正しています。自分でregexps.txtに何か追加している方は、申し訳
ないですが手動でマージして下さい。

234663:2005/11/09(水) 20:59:41
ありがとうございます。

とりあえず、各文字コード変換したものを上げてみました。
http://user.ftth100.com/mirrorhenkan/test/read-euc.php?key=sample-euc&amp;st=1&amp;to=1001
http://user.ftth100.com/mirrorhenkan/test/read-utf8.php?key=sample-utf8&amp;st=1&amp;to=1001

datはそれぞれ以下の場所です
http://user.ftth100.com/mirrorhenkan/test/dat/sample-euc.dat
http://user.ftth100.com/mirrorhenkan/test/dat/sample-utf8.dat

どちらも上部の「掲示板に戻る」とかが文字化けしてますが
他は問題無さそうです。
UTF-8のほうのレス番の横が文字化けしてますが
スクリプト側の問題っぽいです(適当にcharsetだけ変えただけですし)

あとbe板はsubject.txtもEUCなのですが
もし可能でしたら「subject.txt作成」でもEUC保存出来たらお願いしますです。


> UTF-8のdatに対応したブラウザとかないので私の手元では
> どう検証したものかわかりません。

「JaneNida」がUTF-8にも対応していますです↓

http://members.at.infoseek.co.jp/koreawatcher/janenida.htm



ません。

235 ◆/vmukiyuzw:2005/11/09(水) 21:26:35
>>234
> UTF-8のほうのレス番の横が文字化けしてますが
> スクリプト側の問題っぽいです(適当にcharsetだけ変えただけですし)
ソース見てみると名前の前や日時の前の全角コロン「:」がSJISのままなので
これが化けるようですね。

> あとbe板はsubject.txtもEUCなのですが
> もし可能でしたら「subject.txt作成」でもEUC保存出来たらお願いしますです。
ん?私の環境ではbe板のsubject.txtはSJISに変換されて保存されているのですが。
(ちなみにJane Style Doe 2.13ですが)
EUCのまま保存するブラウザもあるのでしょうか?

236 ◆/vmukiyuzw:2005/11/09(水) 22:44:43
というか、EUCやUTF-8に変換したdatを作成できるようにしてしまったので、
逆にsubject.txt作成時にSJIS変換もする必要があるような気がしてきました・・・
あと、文字コード自動変換もオプションにしてしまったので、一括変換でのEUC、
UTF-8変換も復活させないとまずいですね。
# 文字コード変換には結構昔からかかわる機会が多いのですが、いつまでたっても
# 面倒だなと思います・・・

237 ◆/vmukiyuzw:2005/11/09(水) 23:20:12
>>235
> ん?私の環境ではbe板のsubject.txtはSJISに変換されて保存されているのですが。
> (ちなみにJane Style Doe 2.13ですが)
> EUCのまま保存するブラウザもあるのでしょうか?
ちょっと補足しとくと、subject.txt作成の用途としては
1.ローカルでdatと同じフォルダに作成してdatを選択するために使う
2.適当なサイトにdatをアップロードして、datの直上のディレクトリにsubject.txtを
 アップロードして、ブラウザからアクセスするために使う
の2通りを想定していて、いずれの場合も普通の2ch用ブラウザではSJISで充分だと
思うわけです。
で、be板のsubject.txtを直接書き換えることなんてできるはずもないので、あとは
ローカルでのsubject.txtがEUCである必要があるのかどうか、という疑問です。

238663:2005/11/09(水) 23:51:31
えーと

subject.txtをbeサーバと同様にeuc-jpにしたい理由ですが
以前「beスレのまとめサイトを作りたいのでプロファイル表示出来ないか」
という人が居られましたので
http://yy14.kakiko.com/test/read.cgi/mirror/1115123243/71
0chスクリプトを改変して表示するような事をやったのですが↓

http://mirrorhenkan.hp.infoseek.co.jp/be/cgi-bin/be/
http://mirrorhenkan.hp.infoseek.co.jp/be/cgi-bin/test/read.cgi/be/1111061495/l50

これ↑はShift-jisに変換したものを使っただけのものでした。
なので、完全にbeと同じように出来たら面白そうだな と。
ただ beと同じくdatをEUCにするとすると、スクリプト側でsubject.txtだけshift-jisだと
面倒な事になりそうなので・・・。beのsubject.txtもEUCみたいですし。

・・というのが理由だったりします。

239663:2005/11/09(水) 23:57:35
補足です

> beのsubject.txtもEUCみたいですし。

beサーバ側のsubject.txtの事です
例えばこれ↓

http://be.2ch.net/be/subject.txt

240 ◆/vmukiyuzw:2005/11/10(木) 00:32:50
>>238
うーむ・・・それだけのことならエディタとか適当な変換ツールで変換してよという気もしますが・・・
どのみち>>236の対応はしないといけないなと思うのでついでにやりますか。
なんか変なUIになっちゃいそうな悪寒がしますが・・・

>> beのsubject.txtもEUCみたいですし。
それはもちろん知ってます。jbbsしたらばでもそうですし。
ただ、ローカルに保存する際に(少なくともJaneでは)SJIS変換されていたので、EUC保存の
必要性に疑問を感じただけです。

241 ◆/vmukiyuzw:2005/11/10(木) 02:07:54
ところで、>>226さんを放置してしまったような気がするんですが
うまくいったんでしょうか?
できれば報告が欲しいです。

242 ◆/vmukiyuzw:2005/11/14(月) 01:36:09
バージョンアップしました。(0.7.2)
・EUCやUTF-8のdatに対応するため、subject.txt作成機能にも文字コード変換を
 追加。
・文字コード自動判別をオプションにしたので、一括変換でのEUC,UTF-8チェック
 ボックスを復活。

>>234-240の流れを受けての各種文字コード変換対応です。
一括変換でもチェックボックスでなくコンボボックスにしたほうがいいんじゃねーのと
いう気もしますが修正が面倒なので次の機会に。

243663:2005/11/27(日) 21:50:54
もの凄く遅くなりましたが、対応ありがとうございました。

あれから色々やってみて、読み込む際にjcode.plを間に絡ませれば
どの文字コードでもShift-jisに変換出来るな、と考えたのですが
perlは何だかよくわかんないので そのままです。。
(phpのほうでは何とかなったんですが)

で、要望です。
(かなりわがままな内容なので 対応出来なくても別に構いません)

スレの1の投稿日時からスレッドのキーを検出して
「キー№.dat」で保存するようには出来ないでしょうか?

日時から対応するキー№を出すものを作ってみたのですが
http://www.geocities.jp/mirrorhenkan/key/key2.html
これを まとめサイトの一括変換に使えないものかと。

例えば、以前こちらで出ていた
http://lime.kakiko.com/korea/log/log01.html
から
http://lime.kakiko.com/korea/log/log50.html

とか

http://sixhot.hp.infoseek.co.jp/sixhot/LogPart01.html
から
http://sixhot.hp.infoseek.co.jp/sixhot/LogPart42.html

などのように、htmlのファイル名がキー№ではない場合
上で書いたような事が出来ればな、と思うのです。

ただ問題は、
秒数まで出ていないスレ とか
エイプリルフールに立てられた「皇紀○○年」とか
等のものですが、
その場合は元HTML名で保存されるようにする

・・とか出来たら有り難いのですが。。

244 ◆/vmukiyuzw:2005/11/28(月) 00:05:06
>>243
> スレの1の投稿日時からスレッドのキーを検出して
> 「キー№.dat」で保存するようには出来ないでしょうか?
検討してみます。
ただ、スレの1の投稿日時とスレッドキーが必ずしも一致するものかどうかが
多少気になります。通常は問題なく一致するんでしょうけど、vipや狼みたいに
スレ立てが異常に多い板の場合、bbs.cgiでどう処理してるかわからないので
一致しない可能性があるような気がします。
まあ一致しなくてもあんまり問題はないのかもしれませんが。

> ただ問題は、
> 秒数まで出ていないスレ とか
> エイプリルフールに立てられた「皇紀○○年」とか
> 等のものですが、
> その場合は元HTML名で保存されるようにする
> ・・とか出来たら有り難いのですが。。
これを判別して元HTML名で・・・ていうほうが難しいですね。
(エイプリルフールのときは皇紀以外にもいろいろありましたよね)

おそらくできるとしたら
1.URLに9桁〜10桁の数字があればそれをファイル名にする
 (これは今でも近いことをやっていますが)
2.それがなければスレの1の日時分秒からファイル名にする
 (このときは秒がないとか皇紀とかはお構いなし)
3.スレの1から変換できないとき(がどういう場合かはまだ確認
 してませんが)は元HTML名をファイル名にする
というアルゴリズムになっちゃうと思います。

245 ◆/vmukiyuzw:2005/11/28(月) 00:18:35
あと、663さんにはトリップをつけていただけるとありがたいなと思います。
(って、このスレが663に達するにはあと何年かかるかわかりませんがw)

246 ◆/vmukiyuzw:2005/11/28(月) 21:22:29
>>244
>  (このときは秒がないとか皇紀とかはお構いなし)
にちょっと補足です。
年月日の前に余分なものが付いていれば・・・等という判定は可能だと思います。
でも、datのファイル名が9〜10桁の数字でないとうまくいかないブラウザもある
ようなので、たとえ元々のキーNoとは食い違うことになっても、9〜10桁の数字に
変換できるものならばしておいたほうがいいんじゃないだろうか、という考えです。

247663:2005/11/28(月) 22:01:40
御返事ありがとうございます。
検討して頂けるとの由、大変有り難いです。

はっきり確かめていないので何ですが、
西暦が二桁のスレもあったかもしれません。

あと、イレギュラーな暦表示ですが
例えば「えまのん」という専用ブラウザでは
Calender.txtとい外部ファイルに対応歴一覧が書いてあって
それで管理しているようでした。

今 Calender.txt を見てみたら

> 皇紀=660
> 娘。暦=3
> 娘。歴=-7

とあり、想像するに
・皇紀から660を引いた数が西暦(西暦1940年=皇紀2600年)
・娘。板が出来てから3年(「暦」)
・娘。が結成されてから7年(「歴」)
という事なのかなー、と。

それが内部処理とどう繋がっているのか判りませんが。。


# トリップ、暫く考えてみます

248 ◆/vmukiyuzw:2005/11/28(月) 22:12:21
>>247
西暦二桁は想定の範囲内なので問題ないです。
皇紀等は、全てのバリエーションが出ているか不明ですし、今後また
同様のイタズラ(?)される可能性もあるのでとりあえず無視の方向で。

249 ◆/vmukiyuzw:2005/12/01(木) 20:43:59
なんかぐぐったらたまたま見つけました。
http://qa.2ch.net/test/read.cgi/argue/1112282670/
やっぱかなりのバリエーションがあるようですね。
# 「ユダヤ暦って6000年近くあるのかよ」という書き込みを見て
# 試しに今テスト中のモジュールで6000年を変換すると
# スレッドキーが12桁になったw

250 ◆/vmukiyuzw:2005/12/08(木) 22:19:31
バージョンアップしました。(0.7.3)
・dat保存時のファイル名を決める際に、URLまたはファイル名に9〜10桁の数字が
 含まれない場合、変換結果のレス1の投稿日時よりファイル名を取得するよう
 修正。
 また、一括変換時にはこの機能を使用するかどうか選択できるようチェック
 ボックスを追加。
・一括変換での文字コード指定をチェックボックスからコンボボックスに変更。
・BREGEXP.DLLを同封するようにした。

>>243- からの流れを受けての修正です。
readmeにもちょっと書いてますが秒がないとか西暦でないとかは考慮してません。
(変なものは無条件で2005年にするという手もあるかなとも思ったんですが・・・
どうせ今後また同様のイタズラ(?)があるような気がするので無視です)

あと、最初のインストールが簡単になるよう、BREGEXP.DLLを配付ファイルに
同封するようにしました。アップデートの際にはあまり関係ありませんが。

251663 ◆red7kKzN/E:2005/12/09(金) 18:48:54
# 暫定トリップつけてみました

>>250
ありがとうございます。
DLしてsample.htmlを変換保存しようとしたら
9桁の数字が出てびっくりしました。
まとめサイトの一括変換に使ってみようと思います。

で、別の要望(というか独り言)なのですが・・

下窓にdat変換されたものが出ますよね。
そこを編集して保存しようとしても、書き換えたものが反映されないみたいなのですが
反映して保存出来るようにはならないものでしょうか?

具体例を出すと、例えば
http://hobby7.2ch.net/test/read.cgi/phs/1117976461/
のスレですが
ミラーサイトが
http://mimizun.com/cgi/dattohtml.pl?http://mimizun.com:81/log/2ch/phs/hobby7.2ch.net/phs/kako/1117/11179/1117976461.dat
で見つかります。
最後の1レスが拾えてないので、その分だけ手打ちで追加出来たら嬉しいな、と。
保存してからエディタで追加するよりは一手間省けますし。
(もちろん上の場合はdatを直接DL出来ますが)

または「変換オプション」の後処理で何とかなるでしょうか。
上のだと

s#$#n\停止しました。。。<>停止<>停止<>真・スレッドストッパー。。。( ̄ー ̄)ニヤリッ#

とかするとか・・。(試してないのでこれでいいのかどうか判りませんが

252 ◆/vmukiyuzw:2005/12/09(金) 20:47:46
>>251
> DLしてsample.htmlを変換保存しようとしたら
> 9桁の数字が出てびっくりしました。
981726540.datとなったと思います。
sample.htmlの本来のスレッドキーは981726544なので、レス1に秒が無いぶんだけずれてます。
まあこういう仕様ですということで・・・

> 下窓にdat変換されたものが出ますよね。
> そこを編集して保存しようとしても、書き換えたものが反映されないみたいなのですが
> 反映して保存出来るようにはならないものでしょうか?
確かに、HTMLソース欄の編集は反映されるのに、dat欄の編集が反映されないのは
手抜きですわな^^;
まあ簡単に対応できると思うのでやります。
(と言いつつ最後の改行の有無とかの処理が意外と面倒な予感がする・・・)

> または「変換オプション」の後処理で何とかなるでしょうか。
> 上のだと
> s#$#n\停止しました。。。<>停止<>停止<>真・スレッドストッパー。。。( ̄ー ̄)ニヤリッ#
> とかするとか・・。(試してないのでこれでいいのかどうか判りませんが
後処理は変換結果の行単位に処理するようにしているのでこの方法では対処できないはずです。

253 ◆/vmukiyuzw:2005/12/10(土) 00:06:32
>>252
> まあ簡単に対応できると思うのでやります。
思った以上に簡単でした(ソースに一行追加しただけ^^;

> (と言いつつ最後の改行の有無とかの処理が意外と面倒な予感がする・・・)
これは特に気にしなくてもdelphiのほうでうまく処理してくれました。
ただ、余分な改行があったりするとブラウザで読んだときに「ここ壊れてます」に
なりますが・・・これは自己責任ということで放置して問題ないと思います。

今日はもう遅いのでUPは明日ということで・・・・

254 ◆/vmukiyuzw:2005/12/10(土) 21:29:43
バージョンアップしました。(0.7.4)
・dat変換結果欄を直接編集しても保存する際に反映されなかったのを、反映する
 よう修正。

直接編集する際には当然、datファイルの形式
名前・トリップ<>メール欄<>投稿日時・ID<>レス内容<>スレタイトル(1レス目のみ)
に従っていないと2ch用ブラウザでは正しく読めないのでご注意ください。

255名無しさん:2005/12/11(日) 01:32:48
大変ありがたく使わせて戴いております。

要望なのですが、
subject.txtを作成する時、保存先のフォルダとして
あらかじめデフォルトとして指定したフォルダか、
前回使用したフォルダが開くようになるかするともっと便利だなと思います

もし気が向いたらご考慮いただければと思います。

256 ◆/vmukiyuzw:2005/12/11(日) 02:04:38
>>255さん
うーむ、「前回保存した」云々を再現するには,iniファイルとか使えばいいんでしょうが
あまりやりたくはないのです。何故かというと、同時にその他のもろもろも保存しなくては
いけない羽目に陥るのがわかっているので、面倒だからできれば避けたいってことでw

で、subject.txtの作成フォルダを固定したい理由はなんでしょう?
subject.txt作成の用途の意図は>>237に書いたんですが・・・それ以外に何か
あるんでしょうか?

# まあ、フォルダ選択のダイアログを出すくらいでよければ簡単なんでやりますけど。

257663 ◆red7kKzN/E:2005/12/11(日) 14:37:50
バージョンアップありがとうございます。
下窓編集が反映されました。

えーと
これは私的な要望なんで、難しかったりしたらそのままで良いのですが、

自分の環境ではhttp://2ch.dumper.jp/がunknownhostで繋がらない事が多いです。
そこにしか満足なログが残っていない場合が結構あるのですが
その場合、いったんプロキシを用いてDLしてローカル呼び出しで変換しているのですが
htmltodatにプロキシ機能があれば
一段階 手間が省けるかな…と。

難しかったり、時間かかるようであれば無理は言わないので
良ければ御一考頂ければ有り難いです。。

258名無しさん:2005/12/11(日) 14:46:11
個人的にはsubject.txt作成時のフォルダ選択時に
フォルダをドロップ&ドロップが使えるようになればと思う。

html変換のときは出来るのに。

259 ◆/vmukiyuzw:2005/12/11(日) 20:25:36
>>257
プロキシの設定自体はプログラム的には案外簡単だったりします。
(実は今でもプロキシ設定のコードはソース中には入っていて、コメントアウトしてます)
問題はUIをどうするかですかね。
やっぱJaneの書き込みウィンドウとかProxomitronみたいにリストから選択できるように
しないといけないかなとか、そうなるとまた別途Proxy.txtみたいな設定ファイルがいるなあ
とかやりだすと、それなりの修正になってしまうわけです。
(テキストボックス一個置いて勝手に入力しろ、だと今晩中にでもできてしまいそうですが)
まあ期待せずにお待ちを。

>>258さん
これもさして難しくはないですが、subject.txt作成でできるのなら一括変換でもできないと
また手抜きと思われるだろうなと。
で、一括変換にはフォルダ指定欄が2つあるので、D&Dされた際にどっちに入れるように
したらいいんだ?というところが悩みどころで。

260名無しさん:2005/12/13(火) 13:02:27
質問です。
http://jbbs.livedoor.jp/bbs/read.cgi/otaku/995/1106468716/
上のスレッドをJaneで見たくてhtmltodatを使ったのですが、
アドレスを入力してHTML取得をした時点で文字化けしています。
どうしたらいいですか?

261 ◆/vmukiyuzw:2005/12/13(火) 17:36:33
>>260さん
「文字コード自動判別」をOFFにして、取得後「EUC->SJIS」ボタンを押して変換して下さい。

# メモ・・・JBBSの過去ログではmetaタグでcharsetが指定されない場合があるようだ・・・
# しかもMIMEヘッダで指定されているわけでもない・・・さてどうしたものか。

262260:2005/12/13(火) 17:47:00
>>261
できました、ありがとうございました!

263 ◆/vmukiyuzw:2005/12/13(火) 19:17:28
charsetが指定されていなくて文字化けする場合の文字コードの見分け方:
無意味な半角カナが多く含まれる→多分EUC
「縺ヲ繧ケ繝ャ繧偵」みたいな難読な漢字が羅列される→多分UTF-8

264 ◆/vmukiyuzw:2005/12/14(水) 20:17:45
>>261
> # メモ・・・JBBSの過去ログではmetaタグでcharsetが指定されない場合があるようだ・・・
とりあえずJBBSの要望スレに書いてみたら対応してもらえました。
既にHTML化済みのものについては変更されることはないでしょうが・・・

265 ◆/vmukiyuzw:2005/12/15(木) 23:15:06
バージョンアップしました。(0.8.0)
・Proxy設定機能を実装。
・subject.txt作成、および一括変換で、フォルダ名のドラッグ&ドロップ機能を
 追加。

Proxy設定は画面の一番上にある「Proxy設定」ボタンを押すと呼び出せます。
使い方はJaneとProxomitronからパクったような感じで・・・まああまり説明しな
くてもわかるだろうと思います^^;
ちなみに、Proxyサーバのアドレス&ポートはProxy.txtというファイルに一覧で
保存できますが、「Proxyを使う」かどうかそのものは保存されないので、申し訳
ないですが起動のたびに設定して下さい。

次にフォルダ名のドラッグ&ドロップですが、>>259で「一括変換のほうが悩み
どころです」と書きましたが、とりあえず
・空いてるほうに上から順に入れる
・両方空いていないときは選択ダイアログを出してどちらに入れるか選択する
ようにしました。「もっといい方法があるよ」とかあったらお教えください。
あと、ドロップされたものがファイルなのかフォルダなのか、というチェックは
してません。間違えて実行したらどうせエラーになるので自己責任で、て感じです。

266663 ◆red7kKzN/E:2005/12/19(月) 19:36:36
>>265
ありがとうございました
ここ数日(というか今年いっぱい・場合によっては来年まで)
多忙にて手をつけられない状態なもので
先に御礼を。。

ふと思ったんですが
dosのコマンドラインのように(ってよくわかんないですが)
「c:\Program Files\htmltodat\htmltodat.exe?url=http://test.com/1234567890.html
みたいにしてHTMLを呼び出すような事が出来たら
janeやtwintailの外部コマンドから直接呼び出せるなーとか思いましたが どうでしょう
(↑スルーして頂いても全然構いませんです)

267 ◆/vmukiyuzw:2005/12/19(月) 20:46:08
>>266
> ふと思ったんですが
> dosのコマンドラインのように(ってよくわかんないですが)
> 「c:\Program Files\htmltodat\htmltodat.exe?url=http://test.com/1234567890.html
> みたいにしてHTMLを呼び出すような事が出来たら
> janeやtwintailの外部コマンドから直接呼び出せるなーとか思いましたが どうでしょう

実を言うと、>>219の最後のほうでちょこっと書いたんですが、以前から構想には入って
いたりします。

ただ、どうせやるなら、単にHTMLを呼び出すだけでなく、dat変換や、あわよくば
dat保存までいっぺんにできたら面白いかなと思ったり(そしたらJaneの外部コマンドで
にくちゃんねるを読めるのと同じようなことができたりしないかなと)。
ただそうなると正規表現とか変換オプション等々も指定できないといけないわけで、
その辺をどうしたもんかな、というあたりが課題なわけです。
まあこれは自分がどの辺のレベルで割り切るかだけの問題で、ご指摘頂いたレベルでも
ある程度使い物にはなるんだろうなとは思うのですが。

268663 ◆red7kKzN/E:2005/12/19(月) 21:14:27
うわすごいですすごいです
その場合 汎用的には
snapshotとdumper.jpとか出来そうですね。

仮想httpサーバと自動コマンドラインが実装されれば
直接dat格納までとか出来そうですね。
ただ、完全に車輪の再生産的そのものですが。

というか、自動コマンドライン変換とか出来れば
proxomitronと組み合わせて
jane等でのdat取り込み格納まで不可能でも無さそうです
(と思うだけです)


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板