したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1</b><font color=#FF0000>(L44UP/ps)</font><b>:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

322 ◆/vmukiyuzw:2006/05/29(月) 23:53:11
>>317,321
多分なんとか対応できたような気がします。

前処理:
s#<span class=(.*?)>(.*?)</span> \[(.*?)\] #<span class=$1><a href="mailto:$3" class=mailto>$2 </span></span> #g
変換結果式:
$4<>$2$3<>$5<>$6<> (←これはmakimo.toのデフォどおり)
正規表現:
m#<dt><a href.*?>([0-9]+)</a> :<span .*?>(?:<span title=(.*?) class=sage>|<a href="mailto:(.*?)" class=mailto>)?(.*) (?:</a>|</span>)?</span> :(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/44でメモしていたもの。他にも通用するかは
自信なし)

問題になっていたのは、普通のメル欄表現と、[age] みたいなメル欄表現が名前欄とメル欄の順序が変わって
しまうことで、それにより正規表現だけではどっちが$2(メル欄)か$3(名前欄)か判別できない状態になっている
ことでした。
なので、前処理で [age] みたいなメル欄表現は前もって名前欄とひっくり返しておくことで対応しました。
(後知恵ですが前処理を付けたおかげでこういうケースにも対応できるようになってよかった・・・
使いこなしは難しいなとは思いますけど)

323 ◆/vmukiyuzw:2006/05/30(火) 01:59:43
http://yy14.kakiko.com/test/read.cgi/mirror/1114936246/621
メモウィンドウだとコピペも楽だろうなんでそう思った次第です
まあ実装はいつものごとくのんびりやるので期待せずお待ちください

324 ◆/vmukiyuzw:2006/05/30(火) 02:58:38
http://yy14.kakiko.com/test/read.cgi/mirror/1114936246/620
下部にある過去ログというのが良くわからなかったんですが
そんなに難しいhtmlには思えませんでした
具体的なURLを示していただけると。

325663 ◆red7kKzN/E:2006/05/30(火) 08:57:42
おはようございます
いろいろすみませんです。出がけなので取り急ぎ。

えーと

http://jituwa.gozaru.jp/kakolog/01.html
から
http://jituwa.gozaru.jp/kakolog/25.html
までです。

326 ◆/vmukiyuzw:2006/05/30(火) 19:55:35
>>325
全部を見たわけではないですが、いろんなサイトから集めておられるのか
バリエーションがいくつかあるようですね。なので一発の正規表現で全部
変換するのは無理でしょう。個別に見ていくしかなさそうです。

01.htmlを見ると「sample」に毛が生えた程度のものかと思ったのですが
02.htmlはまた全然違う・・・makimo.toに似てますが微妙に異なりますね。
とりあえず02.htmlにマッチしたパターンです。ご参考まで。
(makimo.toと同じ変換結果式の指定が必要です)

m#<dt>([0-9]+).*?:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class="mailto">)? (.*?)(?:</a>|</span>)?</span> (.*?) ?<br> *?<dd> *?(.*?)<br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi

ブラウザ保存されてる関係だと思うのですが、余分な改行や半角スペースが
入っているので、マッチするパターンを見つけにくくなる傾向があります。
一概には言えませんが「 *?」(半角スペース+アスタリスク+クエスチョン)を
適宜入れることで回避できる場合があります。

# しかし上のパターンを書いてみて、>>319-320の実装はやはり必須だなと
# 痛感しました。正規表現でエラーになるわけではないのに全レス変換できない
# ときに、どのレスが欠けているのか探すのが超面倒くさい・・・

327663 ◆red7kKzN/E:2006/06/01(木) 19:49:16
お手を煩わせて申し訳ありませんです。
参考にさせて頂きます。

> ブラウザ保存されてる関係だと思うのですが、余分な改行や半角スペースが
> 入っているので、マッチするパターンを見つけにくくなる傾向があります。

ふと思ったんですが、ブラウザ毎にトリムされる規則(?)とか判ったら
前処理で

s# +?# #ig

とやるだけで良くなるかもな、とか。(戯れ言です)
・・やはり無理か。。

328 ◆/vmukiyuzw:2006/06/03(土) 00:08:22
>>327
> s# +?# #ig
これは良い案だなと思いました。HTMLでは連続する半角スペースは基本的に
ブラウザの表示上では無視されますから。
ただ、htmltodat的には、マッチするパターンを見つけるのにはそれほど役立たない
ような気もしますね。無駄な半角スペースが除去されたのを想定した上で正規表現を
考えないといけなくなりますし(ってそれはそんなに難しいことではないかな?)。

とにかく作者でありながら未熟者なので、例えばHTMLタグの途中で改行されて
半角スペースが妙に足されてるようなケースに出くわすと「なんでこんなとこで改行すんのよ!」
と思ってしまったりもすることがしばしばあるのです。だからブラウザ保存の変な(?)HTMLが
大嫌いなんです。><
最初の設計から、改行はまず全部とっぱらってからマッチさせるようにしておけばよかった
かもとたまに思うのですが、それはそれで難しいことになりそうで今のまま来てる訳で・・・
まあ今更愚痴ってもしょうがないですが。

329 ◆/vmukiyuzw:2006/06/03(土) 02:52:41
考えてみたら現状では前処理があるので改行やら半角スペースの連続やらを
除くことは可能ですね。
まあそれがどれだけ役に立つかは私にもまだわかりかねますが。

330<削除>:<削除>
<削除>

331<削除>:<削除>
<削除>

332名無しさん:2006/07/06(木) 00:53:13
Level3&ミルクカフェに対応キボーン

333<削除>:<削除>
<削除>

334 ◆/vmukiyuzw:2006/07/09(日) 20:01:48
>>332
対応の意味がよくわかりませんがなんかスレ違いな気が・・・もしかして誤爆でしょうか?
専ブラの作者さんに言うべきことのように思います。

それともこれらに対応する正規表現考えてくれって意味ですかね?それならそれで
具体的なURLを教えていただかないと何ともし難いです。
(それくらいググれよと言われそうですが私はそこまで寛容では無いです)

335<削除>:<削除>
<削除>

336663 ◆red7kKzN/E:2006/07/20(木) 19:26:04
要望というかどうすれば解決するのか教えて頂きたいのですが

http://web.archive.org/web/20030425012552/world2ch.net/test/read.cgi/accuse/1048754153/1-100

↑このhtmlをdat化しようとしています。
正規表現はたぶん

m#<dt>([0-9]+) Name: (?:<font color=green>)?(?:<a href="mailto:(.+?)">)?<b>(.+)</b>(?:</font>|</a>): (.*?)</dt><br><dd> (.*?)<br><br></dd>(<dt>|</dl>)#mi

でいいと思うのですが
元の文のハングル文字が全部「???」になってしまいます。

いったんdat保存して(文字コードUTF-8)、コピペで置換しようとしたのですが
やはり貼り付けると「???」になってしまいます。
(エディタはTeraPadとxyzzyyを使っています)
試していませんが、キリルフォントや繁体字・簡体字中国フォントでも
多分同様に文字化けすると思います。

この場合、どのようにすればよいでしょうか。

337 ◆/vmukiyuzw:2006/07/21(金) 02:10:38
>>336
うーむ、charset=UTF-8を名乗っておきながらUTF-8でない書き込みであるのが原因であろうと
思うのですが、何の文字コードなのかがさっぱりわかりません。
何となくEUC-KRぽい気はするのですが・・・ブラウザはどうやって判定してるんだろう?
とりあえずhtmltodatで判定する術は全く思いつかないです。逆に教えていただきたいくらいで。

338 ◆/vmukiyuzw:2006/07/21(金) 18:34:34
いや、やっぱりUTF-8ですね。xyzzyでソース表示させると表示できました。
でもSJISに無い文字なのでUTF-8→SJIS変換の時点で化けてしまうのですね。

可能性としては、「文字コード自動判別」をOFFにしてSJIS変換させずに
UTF-8のまま読ませてそのままdat変換(dat自体の文字コードもUTF-8でないと
意味無いでしょうから)できないかと試してみました。まあそれなりのdatぽくは
なったのですが、やっぱ内部的に全部SJISで扱ってる関係か、一部化けてしまいます。
こんな小手先の対応ではなくて、内部的にも全てUTF-8で扱うしか対応策はない
わけですがあまりに大きな変更になってしまうため不可能と思われます。
(bregexp.dllまでは手を出せませんし)

というわけで回答としては「ごめんなさいできません」です。

339 ◆/vmukiyuzw:2006/07/21(金) 19:19:52
しかしこういうのができないとなるとUTF-8のhtmlを読めるメリットも
減ってしまうのも事実で・・・というか「UTF-8に対応しています」と
言うこと自体おこがましいというか・・・
確約は全く出来ないですがいつかはやってみたい気はしますね。

340663 ◆red7kKzN/E:2006/07/21(金) 21:38:34
>>338-339
検証ありがとうございます。お時間をとらせてしまって申し訳ありません。

残念ですが、諦めずにxyzzyyでのコピー貼りつけを模索してみます。
こんなページ↓とかありましたし(でも何だかうまくいかない・・・)

http://www.faireal.net/articles/6/08/

# 全く無関係な事ですが
# 上のページとか読むと xyzzyyって「ジジイ」と読むのかな と。

341 ◆/vmukiyuzw:2006/07/21(金) 23:01:57
>>340
現状htmltodatにはSJIS前提の処理が入りすぎてるのでどうがんばっても
無理でしょうね
てかいっそxyzzyでhtmltodat的処理を書いてしまうというのはどうでしょう?
2ch用ブラウザを作ってしまえるほどの能力を持つエディタですし。
(て自分ではあんまりやる気が無いので書いてるだけですが)

342 ◆/vmukiyuzw:2006/08/27(日) 00:24:35
バージョンアップしました。(0.8.6)
 ・beコードの仕様変更に対応した(つもり?)。

beコードの仕様がころころ変わっていてどうしたものかと考えていたのですが
どうやらなんとなく落ち着いたようなので対応しました。
具体的には、前は#の数で表されていたものがBRZ(1000)とかに変わったので
どちらにも対応できるよう修正しただけです。多分今後大きな変更がなければ
このままでいけるのではないかと。

あと>>319-320は全然手を出せてません。まあ真面目にやれば出来るんでしょうけど
「ある物を表示するのは簡単だけどない物を表示するのは案外面倒」だなと。

あと>>338-339は何をどうしてやればできるのかもわからない状態です。
申し訳ないです。

343 ◆/vmukiyuzw:2006/10/21(土) 17:49:09
バージョンアップしました。(0.8.7)
 ・正規表現にマッチせずdatに変換できないレスがあった場合、警告ウィンドウを
  出して該当レス番号を表示するようにした。

>>319-320を受けての修正ですが補足しておきます。

HTMLでは、一つのスレの中でも、一レス毎に見ていくと
・メール欄の有無
・名前欄の内容(デフォルトの名無しvsコテハン、トリップ等々)
・その他いろんな要素
により、形式が多少異なるものが混在しているのが普通です。

で、そのどれにもマッチするように正規表現を考えていくのですが
見落としてしまうことも当然あります。

こういうときはエラーになるべきなのでしょうが
正規表現の書き方によっては中途半端にマッチしてしまって
変換自体は成功してしまうことがままあります。
その場合は大抵、元のHTMLのレス数 > 変換結果のdat行数 となります。
(変換できていないレスが存在する)

では取りこぼしたレスはどれか?と調べようと思うと、HTMLとdatをいちいち見比べて
確認するしかなかったので、結構大変でした。
この確認を楽に出来るようにしたのが今回の修正です。

344 ◆/vmukiyuzw:2006/10/21(土) 17:58:47
さらに補足です。

正規表現が不十分でレスを取りこぼしたのではなく、
実際にレス番号が欠けているケースもあります。
いわゆる「透明あぼーん」状態です。

※これは2chでは基本的に発生しないはず(サーバ側でレスを物理削除するとそれ以降の
 レスは番号が前に詰められる)なのですが、JBBSでは板管理者の設定で透明あぼーんに
 することができます。例えば>>174-176

こういうケースは正規表現をいじってもどうしようもないので、>>176で書いたような
対処しかないと思われます。
レス番号が飛んだことがわかるのなら自動で補うこともできるのではと思われるかも
知れませんが、取りこぼしなのか透明あぼーんなのかを識別するのが難しそうだなと
思います。

345名無しさん:2006/11/14(火) 17:26:25
924 名前:水先案名無い人 投稿日:2006/11/14(火) 15:58:00 ID:uG63LS5u0
すみません、htmltodatをwindowsMeで動作確認取った方はいますか?
snapshotのログを変換したいんですが…


925 名前:659 ◆659BBSUzlk 投稿日:2006/11/14(火) 17:16:22 ID:OUGFpUIf0 ?2BP(111)
実際試してみて不具合がなければそれでいいんじゃないですかね

346 ◆/vmukiyuzw:2006/11/14(火) 20:23:34
これはマジレスすべきなのかどうなのかよくわかりませんが・・・
Meでも動くはずですよ。実際私のサブマシンはMeですし。
もし使ってみて不具合があれば報告ください。

347名無しさん:2006/11/17(金) 14:13:02
>このプログラムを使って発生した損害に関しては、一切の責任を負いません。
>使用、配布に制限はありません。自由にお使いください。
>動作の保証はありません。
>動作を確認したOSは、Windows XPのみです。

ここを早急に直すべきかと

348 ◆/vmukiyuzw:2006/11/17(金) 19:40:02
まあどういうレベルなら「動作を確認した」と言えるかという話になりますが
個人的にはXP以外の環境では充分にテストしたわけではないと思っているのです。
(サブマシンのMe環境も普段ほとんど使いませんし、たまたま使ってみたら動いたという感じなので・・・)
なのでreadmeの記述自体を変更する必要はないと考えます。

とはいえ環境に依存するような処理を意図的に入れるようなことはしてませんので
他の環境でも大抵動いてしまうだろうなと思うわけで・・・
>実際試してみて不具合がなければそれでいいんじゃないですかね
が一番自分の気持ちを代弁してくださってるかなと。

349名無しさん:2006/11/22(水) 01:29:54
つまり、投げやりと

350 ◆/vmukiyuzw:2006/11/22(水) 21:12:10
はい、もともと自分で使う用に適当に作ったものですから
それを「投げやり」と言われれば返す言葉はないです。

しかし、具体的に「ここが上手く動かない」とか指摘されれば
何らかのアクションは取れると思うのですが、
そういうのが全くないままに文句だけを言われても
どうしようもないのは理解していただけるでしょうか。

351名無しさん:2006/11/25(土) 01:24:47
ザ掲示板のスレををdat化したいのですが
http://thebbs.jp/
正規表現を教えていただけないでしょうか?

352 ◆/vmukiyuzw:2006/11/25(土) 02:39:15
>>351
非常に困る点が一つ・・・

そこのbbsではレスの最初が1からではなく0から始まっているようで・・・
2ch標準のdatてのはレスは当然1から始まっているので
0のレスを無視すると0のレスは当然読めませんし、一つずらすことにすれば
レスアンカーがずれます。

「2ch互換の板とは言えないからhtmltodatが扱える領域じゃないです」とは
あまり言いたくはないのですが、うまく扱える案が思いつかないのですが正直なところです。

353 ◆/vmukiyuzw:2006/11/27(月) 23:49:55
こちらの板向きの話なので引用させてください。

http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/175

>> s#(<title.*?) - DUMPER.JP(</title>)#$1$2#
> を
>> s#(<title.*?) - 2ちゃんねるみらー(</title>)#$1$2#
> に変えるとマッチしない。なんでだ・・。。

s#(<title.*?) - 2ちゃんねるみらー(</title>)#$1$2#k

のようにkオプションを付ける必要があります。

kオプションは文字を日本語(SJIS)として扱うためのものです。
(perlには存在しないbregexp.dllの独自拡張機能)

自分の書く正規表現でもついサボって付けてなかったりすることが多いのですが、
大抵はうまくいくけれど今回のように問題が出る場合もあるようです。

具体的には、"2ちゃんねるみらー"の"ー"の2バイト目が"["(16進で5B)にあたるため
正規表現の"["と解釈されてしまって、エラーとなるようです。

多分このように2バイト文字の2バイト目が正規表現の文法とぶつかるようなケースが
まずいのだと思うのですが、具体的にどの文字だとダメかとか調べるのも大変なので、
日本語にマッチさせるような正規表現を使う場合は基本的にkオプションを付けるように
お願いします。

# 今までは日本語は"投稿日:"ぐらいしか使ってなかったので問題なかった模様。
# 今後気をつけます。

354 ◆/vmukiyuzw:2006/11/27(月) 23:58:07
というか日本語の有無に関わらず無条件でつけることにしても
問題はないはずですが。
(パフォーマンスへの影響とかはわかりませんが)

355663 ◆fnwcOWFi56:2006/12/02(土) 15:53:50
いつもお世話になっています。
また要望です。

前処理で、特定の文字が出てきたら
それを別の文字に変換するような事とか出来ないでしょうか。

makimo.toさんの所のhtmlをdat化させたいのですが
他スレのリンクが
・同サーバ・同板の場合
<a href="../1127/1127911361.html">../1127/1127911361.html</a> <br>
・別板の場合
<a href="../../be_be/1106/1106239080.html">../../be_be/1106/1106239080.html</a>

とあるので、下の前処理をつけました。

s#<a href="JavaScript:be\((\d+)\)">\?(\#*)</a>#BE:$1-$2$3#gi
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://server\.2ch\.net/test/read\.cgi/board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig

356663 ◆fnwcOWFi56:2006/12/02(土) 16:04:41
# そのままコピペしたので最初のbe処理まで入ってしまったです

上の前処理の2行目
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://server\.2ch\.net/test/read\.cgi/board/$2/$3#ig

このコード中の「server」と「board」は
スレッド毎に違うので、その都度書き換えないといけないです。

コード自体を毎回書き換えるのは煩雑なので
例えば「$server」「$board」として

$serverに「ex13」
$boardに「gline」

が入るようにするような事とか出来ませんでしょうか。

357 ◆/vmukiyuzw:2006/12/03(日) 01:46:45
>>356
とりあえず、変換オプションにテキストボックスを2つ追加して
$serverと$boardの値をそれぞれ指定できるようにするとかでしょうか?
一括処理のときは一括にする範囲で工夫してもらうとして・・・

# makimo.toさん自身のhtml2dat.cgiではどうやってるのかがわかれば
# いいんでしょうけど・・・

358 ◆/vmukiyuzw:2006/12/03(日) 10:52:37
ところで、beの前処理は内部に組み込んだはずなのに
書かれてるってことは効いてないのかな

と思って調べてみるとやはり考慮漏れで効いてませんでした。
合わせて直します

359 ◆/vmukiyuzw:2006/12/03(日) 17:28:28
バージョンアップしました。(0.8.8)
 ・変換オプションに$server、$board入力欄を追加。
  前処理スクリプト中に「$server」「$board」の文字が現れると
  入力された値に置換してから処理する。
 ・be前処理の考慮漏れを修正。

1つめについてはほぼ>>356の通りですが、前処理に
$server\.2ch\.net/test/read\.cgi/$board/
みたいに書いて、$serverに「ex13」$boardに「gline」と入力し、変換処理を行なうと
ex13\.2ch\.net/test/read\.cgi/gline/
と解釈して処理します。

2つめについては、考慮漏れ。
<a href="JavaScript〜 みたいにクォーテーションが付くケースを漏らしてました。
これで、前処理にbeの処理を入れる必要はなくなったはず。

あとついでに、>>353に関連して添付の前処理「DUMPER.JPスレタイ削除」を修正し
差し替えてます。

360663 ◆fnwcOWFi56:2006/12/03(日) 18:15:50
>>359
早い・・ありがとうございます。

書いてから「bbspink.comのケースもあったなあ」という事を忘れていましたが
上の場合だと
$server = ex13.2ch.net とか
$server = pie.bbspink.com 等に指定すれば良さそうです。

ありがとうございました。

361名無しさん:2006/12/04(月) 01:04:36
はじめまして!あの正規表現の対応を御願いできませんか?自分でしたところ、5時間かかってもできなかったので
断念・・・。makimo.toのログですが、上記にあったmakimo用の正規表現じゃ変換できませんでした・・・。


zipで纏めたhtmlです・・・。
http://winplus.or.tp/uploader01/upload.php?down=450
pass: 2ch
よろしく御願いします。

362663 ◆fnwcOWFi56:2006/12/04(月) 08:02:42
横からごめんなさい

>>361
ブラウザ保存されたhtmlみたいなので、空白や改行があってマッチしないです。
ちょっと見る気力がないので

makimo.toさんの元htmlなら
http://makimo.to/2ch/pc7_affiliate/1161/1161168474.html

●正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mik

●前処理
s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3$4#ig

●$server/$board
それぞれpc7/affiliate

●変換結果式
$4<>$2$3<>$5<>$6<>

●後処理
s#\#http#ttp#ig
s#([^h])ttp(://[^a-z0-9])#$1$2#igk


大量にある過去ログURLが記載してある
レス7のところでかなりもたつきますが
これでいけると思うです。

363663 ◆fnwcOWFi56:2006/12/04(月) 08:35:34
追記
zipで固めたほうのhtmlをdat化させたいなら
正規表現を下のと差し替えればいいかも。

m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi

あと前処理に下のを追加

s#(<br>) *#$1#ig

364名無しさん:2006/12/04(月) 16:59:10
>>363
おお!ありがとうございます。無事変換できましたが、なぜかわかりませんが、レス番20あたりからすべて
mailto:のリンクが貼られた状態で青くなってました。

365663 ◆fnwcOWFi56:2006/12/04(月) 17:40:50
うーむ

これでどうでしょう

m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class="?sage"?>|<a href="mailto:(.*?)" class="?mailto"?>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|(?:</dd>)?</dl>)#mik

366名無しさん:2006/12/04(月) 18:52:29
すげぇ。出来ました!。・゚・(ノ∀`)・゚・。ありがとー。
29chが閉鎖する前に必要なログ保存できそうです・・・。
ほんとうにありがとうございます。

367名無しさん:2006/12/05(火) 14:07:28
同じくmakimo.toのログなんですが上記の正規表現で変換できません。
http://makimo.to/2ch/log_musicj/959/959833697.html

どのように修正したらよろしいのでしょうか?

368663 ◆fnwcOWFi56:2006/12/05(火) 14:37:22
>>367
ぱっと見て「投稿日:」というのがそのhtmlにはあって
それでマッチしないのかなと思ったのですが

googleで「959833697」を検索すると、
既にhtml化されたものがありますので
どうしてもmakimo.toさんのhtmlからdat化させたいなら別ですが
そうでないのなら、下のDLしたほうが速いです

http://piza.2ch.net/log/musicj/kako/959/959833697.html

datはこちら

http://piza.2ch.net/log/musicj/kako/959/959833697.dat

369名無しさん:2006/12/05(火) 15:37:14
なるほど。それは気がつきませんでした。
お手間を取らせて済みませんでした。

370名無しさん:2006/12/07(木) 09:48:53
htmltodatで変換したdatをjaneで読み込むと
スレッド表示時でスレタイトル前に半角シャープが入ってしまいます。
現在はidxから修正していますが1つ1つだと大変なので
設定で修正するにはどのようにすればいいでしょうか?

371663 ◆fnwcOWFi56:2006/12/07(木) 10:50:15
>>370さん
>>362で変換したdatを
自分のJaneDoe View α Build ID: 0511280214で読み込んでみましたが
タイトル前に半角シャープはついてなかったので
URLとどのJaneなのか教えて頂けないでしょうか。

372663 ◆fnwcOWFi56:2006/12/07(木) 11:28:08
# 勘違いだったかも

>>370
makimo.toさんの所のhtmlとは書いておられないので
そうでなかったら わかんないです。。

373 ◆/vmukiyuzw:2006/12/08(金) 01:04:45
>>370さん
状況がよくわからないので以下の情報が欲しいです。
・URL
・使用した正規表現
・変換オプション(前処理・後処理等)を指定してる場合はその内容

374370:2006/12/08(金) 11:26:16
情報不十分で申し訳ないです。
http://makimo.to/2ch/pc8_avi/1164/1164172579.html
使用した正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> (.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mi
前処理makimo.to
s#<span class=(.*?)>(.*?)</span> \[(.*?)\] #<span class=$1><a href="mailto:$3" class=mailto>$2 </span></span> #g
w debug.txt
後処理なし
変換結果式makimo.to
$4<>$2$3<>$5<>$6<>
OpenJane α 0.1.12.2 を使っています。

375 ◆/vmukiyuzw:2006/12/08(金) 22:14:36
>>374
試しましたが再現しません。
htmlの時点でそもそもスレタイに半角シャープは付いていないので
datに変換しても入りませんしJaneで読ませても当然入りません。

・・・で思ったのですが、もしかして、半角「シャープ」じゃなくて
半角「スペース」ではないのですか?

半角スペースなら確かに入ります。htmlの時点から入ってます。
でもこれはmakimo.toでhtml化された時点で無駄に付加されたものっぽいです。
これを除去したいということであれば、前処理に

s#(<title>) ?(.*?) ?(</title>)#$1$2$3#i

とでも付け足せばよいかと思います。

376370:2006/12/09(土) 15:21:32
仰るとおり「シャープ」ではなく「スペース」の勘違いでした・・・。
前処理の設定方法で半角スペースも取れました。
お返事ありがとうございました。

377名無しさん:2006/12/09(土) 23:10:32
【疑問】今さら聞けない家事・料理【質問】39
http://2ch/ms/human5.2ch.net/test/read.cgi/ms/1117079913/1

前スレ
【疑問】今さら聞けない家事・料理【質問】38
http://human5.2ch.net/test/read.cgi/ms/1115798098/
の部分は

にくちゃんねるのHTMLでは、

 【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html

になっていて、リンクで該当するスレッドにいけるのですが

htmltodatでにくちゃんねるのHTMLをdatに変換すると

【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html

のままで、リンク先にはいけません。

htmltodatでにくちゃんねるのHTMLをdatに変換すると

 【疑問】今さら聞けない家事・料理【質問】37
../1113/1113750788.html
の部分を

【疑問】今さら聞けない家事・料理【質問】37
http://human5.2ch.net/test/read.cgi/ms/1113750788/

に変換できるようにするためには
どうしたらよいのでしょうか。


●正規表現
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class=sage>|<a href="mailto:(.*?)" class=mailto>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br><dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|</dl>)#mik

●変換結果式
$4<>$2$3<>$5<>$6<>

に設定して使っています。

どうかよろしくおねがいします。

378名無しさん:2006/12/10(日) 05:13:27
>>377さん
試してないので何ですが
htmltodatの新バージョンを(DLしてないなら)DLして
>>362を試してみて下さい
($server/$boardはそれぞれhuman5/msを指定)

379名無しさん:2006/12/23(土) 21:46:32
パー速vip
http://ex14.vip2ch.com/part4vip/
保管庫にあるhtmlをhtmltodatでdat化するには、どのような正規表現
にすればいいんですか。

380名無しさん:2006/12/24(日) 00:27:38
>>379さん
専用ブラウザにそのURLを外部板として登録すれば
そのまま読み込めるのではないかと思うのですが
それでは駄目でしょうか。

381名無しさん:2006/12/24(日) 07:31:04
>>380
http://ex14.vip2ch.com/part4vip/kako/116/1161445050.html
これで登録しても
http://ex14.vip2ch.com/part4vip/
になり現行のスレしか表示されません
Jane Styleのアドレスに
http://ex14.vip2ch.com/part4vip/kako/116/1161445050.html
を入力してもログ取得できません、
ニュース速報(VIP)@避難所の過去ログはできたんですが
htmltodatで変換はできませんか、
ここで相談することではありませんがお願いします。

382名無しさん:2006/12/24(日) 08:54:56
>>381
これでどうでしょう

m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mi

383名無しさん:2006/12/24(日) 09:07:45
>>382
ありがとうございますできました

384名無しさん:2006/12/28(木) 13:37:35
処女はお姉さまに恋してる第43話
http://makimo.to/2ch/bbspink-idol_hgame2/1151/1151736029.html

>>362の前処理にある「2ch\.net」を「bbspink\.com」に、$server/$boardにそれぞれidol/hgame2を入れて変換して
みたのですが、テンプレにあるエロゲー作品別板から他所の板(2ch.netだけでなくbbspinkの板も)へのURLがうまく
変換できません。
どのようにすれば良いのでしょうか?

385名無しさん:2006/12/28(木) 21:53:07
>>378
いそがしくてなかなかお返事できなくて申し訳ありません。

>>362
でやったらうまく変換できました。
大変ありがとうございました。

これからも宜しくお願いします。

386 ◆/vmukiyuzw:2006/12/28(木) 22:23:38
>>384さん
makimo.toでのbbspink.comのログに関しては

(1)同じ板内へのリンク:../1150/1150506092.html
(2)2ch.netの別板へのリンク:../../game9_gal/1139/1139744135.html
(3)bbspink.comの別板へのリンク:../../bbspink-idol_hgame/1149/1149173250.html

・・・ということみたいです。で、2ch.netのログとの扱いの違いは

(1)2ch.netと同じ形式。ただし変換結果は当然bbspink.comにする必要あり。
(2)2ch.netと同じ形式。ただし(1)とは逆で変換結果は2ch.netにする必要あり。
(3)鯖名の前にbbspink- の文字列がつくようだ。変換結果はもちろんbbspink.com。

間違いはあるかもしれないけどおおむねこんな感じかと。
これを踏まえ>>362の前処理を書き換えるには・・・
・・・申し訳ない今日はエネルギー切れです。自力で考えるか、わかる人回答してあげて下さい。

387 ◆/vmukiyuzw:2006/12/28(木) 23:52:01
・・・と言いながらももうちょっとがんばってみよう・・・
まず>>362の前処理は以下のとおり

s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.2ch\.net/test/read\.cgi/$board/$2/$3$4#ig

1行目は2ch.netかbbspink.comかに関係ないのでそのままでOK
2行目と4行目は「\.2ch\.net」を「\.bbspink\.com」に修正すればOK
問題は3行目ですが>>386の(3)のとおりbbspink-があるかないかで
bbspink.comなのか2ch.netなのかが変わってきます。
(bbspink.comのスレだが中に2ch.netに対するリンクがありうるので無視するわけにはいかない)
なので2つに分けてしまいましょう。

s#(>)\.\./\.\./bbspink-(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.bbspink\.com/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig


結局まとめるとこんな感じでしょうか

s#(/\d+\.html)\.html(</a>)#$1$2#ig
s#(>)\.\./\d+?/(\d+?)\.html(</a>)#$1http://$server\.bbspink\.com/test/read\.cgi/$board/$2/$3#ig
s#(>)\.\./\.\./bbspink-(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.bbspink\.com/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\.\./(.+?)_(.+?)/\d+?/(\d+?)\.html(</a>)#$1http://$2\.2ch\.net/test/read\.cgi/$3/$4/$5#ig
s#(>)\.\./\d+?/(\d+?)\.html(?:\.html)?(?:\#)?([^<]+?)?(</a>)#$1http://$server\.bbspink\.com/test/read\.cgi/$board/$2/$3$4#ig


ちなみに3行目、4行目はこの順番でないとダメです
なぜなら、4行目の(.+?)_はbbspink-pieにもヒットしてしまうので3行目で先に変換しておかないと
2ch\.netにみなされてしまいまずいことになるからです

388 ◆/vmukiyuzw:2006/12/31(日) 01:11:47
makimo.toの過去ログに関しては、663 ◆fnwcOWFi56 さんが書いてくださった
>>362 でおおむね変換できるものと思います。
※ただ、2ch.netではなくbbspink.comの過去ログに関しては
 前処理を>>387のものにする必要があると思います。
 (正規表現等は>>362のものでOKかな?)

しかし、makimo.toのログにはあまりにいろんなバリエーションがありますので、
(なんせ620万スレッドを超える過去ログを保有しているらしいですから)
>>362でも>>387でも変換できないパターンがあると思うのです。
それらに個別に対応するには自分ひとりのパワーではあまりに不足に思えますし
他の方にサポートをお願いするにも限界があるかなと思いますし・・・。

----------------------------------------------------------------------------
なので、正直言うと、今年末でmakimo.toが閉鎖して、どうしようもなくなって
一息つくまではできるだけレスとかせず逃げ回っていようと思っていたのです。
それしかできることは思いつかなかったので・・・
----------------------------------------------------------------------------

しかし、実際にはmakimo.toさん側でもいろいろ規制をかけられたりして
無制限にHTMLがダウンロードされることもなく、結果ここにも質問が殺到したり
することもなかったので、まあホッとしたという感じです。

明日(てもう今日か)帰省するので今年最後の書き込みです。
皆様よいお年を。

389名無しさん:2006/12/31(日) 21:08:09
遅くなりましたが、mukiyuさんありがとうございました。
他のスレも何個か見ましたが、問題はなさそうです。

390名無しさん:2006/12/31(日) 21:12:29
名前が抜けてしまいましたが>>389=384です。

391名無しさん:2007/01/06(土) 01:37:31
htmltodat0.8.8を使っています
立ち上げるとhtmltodatの枠の部分が小さく表示されdat保存ボタンがあるところまで表示されません。
スクロールバーを使わなくては下まで表示されないのです。
同様に変換オプションや一覧表示なども下まで表示されません。
改善策はあるのでしょうか?

392名無しさん:2007/01/06(土) 09:35:13
>>391
俺も同様。ただし自宅のWin98で。

職場のWin2000では正常に表示される。

参考までに。

393 ◆/vmukiyuzw:2007/01/06(土) 15:55:45
>>391さん
原因のひとつらしき点を修正してみましたが、環境による問題なので
十分に検証することが出来ません。
なので、以下の暫定版で動作確認して結果報告いただけたらありがたく思います。
>>392さん他同様の現象が出る方にも)

http://mukiyu.hp.infoseek.co.jp/htmltodat/htmltodat0.8.8.1.zip

中身はhtmltodat.exeだけです。
今お使いのバージョンをバックアップした上で上書きしてお使いください。

394名無しさん:2007/01/07(日) 05:22:39
この保管ログが上手く変換できません…
ttp://search.mimizun.com:82/cgi/dattohtml.pl?http://mimizun.com:81/log/2ch/sec/pc8.2ch.net/sec/kako/1153/11531/1153128180.dat

『read.cgi7.00?』とかで変換はできるのですが「<><>」が「[]&nbsp;投稿日:」になってしまいます…


…「直接datで落せば」とか言われるのは判ってますが、
是非上手い変換スクリプトをおながいします

395391:2007/01/07(日) 09:22:29
もう遅れましたが、自分はXPです。

396391:2007/01/07(日) 09:24:33
>>393
すみません。EXEをアボーン設定しているのでレスが見えませんでした。
確認してみます。

397名無しさん:2007/01/07(日) 09:26:51
>>393
改善されました。ありがとうです!

398 ◆/vmukiyuzw:2007/01/07(日) 18:05:42
>>394さん
663 ◆fnwcOWFi56 さんが別のところで考えてくださったそのままのコピペですが

m#<dt.*?>([0-9]+).+?<b>(?:.+?"mailto:(.+?)">)?(.+?)(?:</a>)?</b></font> ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi

ちなみに
> …「直接datで落せば」とか言われるのは判ってますが、
何故わざわざhtmltodatを経由したいのか参考までに教えていただきたく思います。

399 ◆/vmukiyuzw:2007/01/13(土) 17:16:04
さて、>>393の件ですが>>391さん以外からは動作報告があがってないようですね。
98/Me系での動作確認が取れればそのまま正式バージョンにしようかと思っていたのですが
当面ペンディングですかね。
まあ次にバージョンアップする機会があればそのときに一緒に入れてしまうと思いますが。

400名無しさん:2007/01/13(土) 20:12:55
>>393 >>399
>>391さんと同じXPですがきちんと表示されるようになりました。
ありがとうございました。

401名無しさん:2007/01/16(火) 22:45:39
要望です。
クッキー・User-Agent・ベーシック認証に対応して頂けないでしょうか。

クッキーの件ですが
remix2ch(http://contents-factory.net/remix2ch/)さんや
makimo.toさんの所でクッキー送信が必要な場合があります。

User-Agentですが
http://pita.paffy.ac/さんのdatを直接取得したい時や
●ログイン時などでMonazillaを使いたい場合があります。

ベーシック認証ですが
p2のhtml取得時に必要な場合がありますので(滅多にないですが)
あったら嬉しいです。


どこまで突っ込んで書いたらよいのかわからないので
簡単に書いたです。
詳細は下記で

http://yy14.kakiko.com/test/read.cgi/mirror/1158402994/450-451n

以上、宜しくお願い致します。

402 ◆/vmukiyuzw:2007/01/17(水) 21:48:13
>>401さん
いずれもHTTPリクエストヘッダで指定される内容ですね。

他にも指定したいものが出てくるかもしれませんし
(例えばリファラを要求されるサイトとかあるかもしれませんし)
汎用的に任意のヘッダ要素を追加指定できるようなメモウィンドウでも
付けましょうかね。
具体的にどんな形式で指定すべきかは、まあどのみち
proxomitron等でモニターして自分で調べないといけないと思うので、
使う側にお任せということで。
こんなとこでいかがでしょう。

ところで、>>401であげられてる例の半分くらいはhtmlというより
datを直接取得したい場合のような気がしますね。
「htmltodat」なのにdatを直接取得してどうするという話ですが
今では変換処理を経由せず前処理で直接ファイル保存ができるように
なってるのでそれを使っていただければいいかと思います。

(以前この機能がなかったときにはたわむれにdat→dat変換の
正規表現を書いたこともありましたが)

403663 ◆fnwcOWFi56:2007/01/17(水) 23:02:37
>mukiyuさん
是非その線でお願いします。
もう一ついいでしょうか。

subject.txt作成の時
旧形式のdatをまとめる場合が結構ありますので(私だけかな)
区切り記号(デリミタというのでしょうか)を
「<>」と「,」を選べるようにして頂けないでしょうか。

404 ◆/vmukiyuzw:2007/01/18(木) 00:18:11
>>403
んーと、ちょっと確認が。

旧形式のdat(カンマ区切り)からsubject.txtを作るのはいいとして、
subject.txt自体は現行の形式(「<>」で区切られている)でいいですよね?

※というのも、monazillaの資料を見ていると、subject.txt自体にも旧形式
 (カンマ区切り)のものが存在するようなのです。ので一応念のため。

あと旧形式のdatってデリミタの「,」と区別するためにdat中に現れる「,」を
「@`」に変換してますよね。
これもsubject.txt作成時には「,」に戻す必要がありますよね。

(アットマークが半角か全角か定かでない・・・自分の記憶では全角なのですが
monazillaの資料だと半角なのです。念のため両方変換するか)

405663 ◆fnwcOWFi56:2007/01/18(木) 20:37:29
> mukiyuさん

> subject.txt自体は現行の形式(「<>」で区切られている)でいいですよね?

いいですいいです。

アットマークですが
確か全角みたいです。(「,」)
>>386のdatとかそうですし。

http://piza.2ch.net/log/musicj/kako/959/959833697.dat

406 ◆/vmukiyuzw:2007/01/20(土) 20:31:16
バージョンアップしました。(0.8.9)
 ・「proxy設定」ボタンを削除し、代わりに「受信オプション」を追加。
  proxy設定機能は受信オプション設定内にまとめるようにした。
 ・受信オプション設定に「HTTPヘッダ追加」欄を追加。
  Cookie,User-Agent,Authorization等のヘッダを任意に指定できるようにした。
 ・subject.txt作成で、旧形式のdat(カンマ区切り形式)からもsubject.txtを
  作成できるようにした。
 ・特定の環境下で、フォームの内容が枠に収まらずスクロールバーが出てしまう
  不具合を修正。


まず「HTTPヘッダ追加」についてですが、>>401-402のとおり
HTTPリクエストヘッダに任意の行(RFC邦訳を見ると「ヘッダフィールド」と
呼ぶみたいですが)を追加するためのものです。
例えば

Cookie: text=dat<>1<>0<>false<>mycss=<>0<>0<>3000<><><><>
User-Agent: Monazilla/1.00(htmltodat/0.8.9)

のような感じでヘッダに含めて送信したい内容をそのまま指定します。
また、変換オプションの前処理等と同様、保存・呼び出しが可能です。
(拡張子は'.hdr')

※ちょっと内部処理の話なのですが、デフォルトで存在するヘッダ行に
 単純に行を追加するだけなので、デフォルトの行を上書きすることは
 基本的には出来ません。
 但し、User-Agentだけは例外で、(変更したい要望があったので)
 上書きできるようにしています。
 もし、他に上書きしたい行がある場合は(あんまりないとは思いますが)
 要望していただければ検討します。


次にsubject.txt作成の旧形式dat対応ですが、旧形式と現行形式を混在させて
処理することは出来ません(まあ単に判別が面倒だからなのですが・・・)。
フォルダを別にして処理する等して対処をお願いします。


最後の不具合の修正については、>>391-392で報告いただいて>>393
対応した(つもり)のものですが、まだあまり自信がないので、
まだ不具合があればご報告ください。

407663 ◆fnwcOWFi56:2007/01/20(土) 21:12:14
>mukiyuさん

ありがとうございます。
今日は不調なので後日試させて頂きます。

408663 ◆fnwcOWFi56:2007/01/21(日) 12:41:37
試してみたです

出来ました!
凄いです!
ありがとうございました!

409 ◆/vmukiyuzw:2007/01/23(火) 00:37:53
ちょっとスレ違いなのですが
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1061022990/15

htmltodat自体もvistaで動くのかという気もするのですが
まあ何とかなるのではと思います。
JaneLogMoverは内部でOSが2000/XP系か98/Me系かを判定して
処理を分岐しているので、そろそろ対応を考えておかないと
まずいかなと思ったわけです。
というわけで情報お持ちの方はよろしくお願いします。

410名無しさん:2007/01/24(水) 17:56:55
http://ex14.vip2ch.com/part4vip/kako/116/1166959235.html

このスレを変換しようと>>382で書かれている正規表現を使用したのですが
途中でエラーになります。ちゃんと変換できる方法はありますか?

411663 ◆fnwcOWFi56:2007/01/24(水) 19:08:05
>>410さん
「:」と日付の間の半角スペースが無いのが原因みたいです。下のでどうでしょう

m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>): ?(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik

412 ◆/vmukiyuzw:2007/01/24(水) 19:58:44
>>410-411さん
私の環境では>>382の正規表現で正常に変換できましたが。

>>411(663 ◆fnwcOWFi56)さんの

> 「:」と日付の間の半角スペースが無いのが

ですが、これが無くても結果に無駄な半角スペースがつくだけで
エラーにはならないと思うのです。
htmlソースをざっと見てみましたが:と日付の間に半角スペースは
見当たりませんし。

・・・で、推測ですが、いったんブラウザで表示させたものを
「名前を付けて保存」として保存したhtmlを変換しようとしてませんか?
もしそうであれば、htmltodatにURLを直接入力してhtmlを取得して
やってみてください。
※過去にも何度か書きましたがブラウザの機能で保存すると
 htmlが適当に加工・整形されてしまうので、正規表現は
 変えないといけなくなる場合があります。

あと、スレタイに余分なものがついているので、

s#(<title>.*?)@VIPService過去ログ倉庫(</title>)#$1$2#ik

と入れて整形したほうがいいんじゃないでしょうか。

413 ◆/vmukiyuzw:2007/01/24(水) 20:20:42
ちょっと言葉足らずでした。

s#(<title>.*?)@VIPService過去ログ倉庫(</title>)#$1$2#ik

と「前処理」に入れて整形したほうが〜

です。

414名無しさん:2007/01/25(木) 00:22:43
>>411-413
ありがとうございます
>>411さんの正規表現でできました
その後>>382で試したところエラーになりました
前処理は役に立ちました
ありがとうございました

415 ◆/vmukiyuzw:2007/01/25(木) 08:52:05
>>414さん
解決したのでもう見ておられないかもしれないですが・・・
>>411でも書きましたが>>410のURLは>>382の正規表現で私のとこでは
うまくいくのです。
同じURLを同じ正規表現で処理してエラーになったりならなかったりする
というような状況は経験に無いので、以下の点だけ確認させてください。

・環境(OS、htmltodatのバージョン)
・エラーの内容(多分「一行が長すぎるか正規表現が正しくありません」だと
 思うのですがもしそれ以外だったらその内容)
・エラーが出たときの、「読込行:xxxx/変換行:xxxx/バッファサイズ:xxxx」
 (画面左下、「dat変換結果」欄の下に表示されているはず)の内容

以上、よろしければお願いします。

416名無しさん:2007/01/25(木) 10:37:03
http://search.mimizun.com:82/perl/dattohtml.pl?http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat

みみずん検索のdatを変換するには、どのようにすればよいのでしょうか?
よろしければ、ご教授ください。

417名無しさん:2007/01/25(木) 15:31:10
>>415
OS XP Media
htmltodat 0.8.9
エラーの内容「一行が長すぎるか正規表現が正しくありません」
「読込行:176/変換行:0/バッファサイズ:10100」

こうなりました

418 ◆/vmukiyuzw:2007/01/25(木) 21:12:33
>>416さん
URLの先頭から dattohtml.pl? までを削って
http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat
にすれば直接datを落とせます。

どうしてもhtmlから変換したいということなら
>>398 でできると思います。

419 ◆/vmukiyuzw:2007/01/25(木) 21:25:00
>>417さん
ご報告ありがとうございます。
申し訳ないのですが最後にもう一点だけ確認していただけないでしょうか。

>>382の正規表現の最後に k を付けて

m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik

これでもエラーになるでしょうか?

420416:2007/01/25(木) 21:59:16
>>418
ご回答いただき誠にありがとうございます。
また、よく調べもせずに安易に質問して申し訳ございませんでした。

421名無しさん:2007/01/25(木) 22:23:09
>>419
同じエラーになりました
読込行100を過ぎたあたりからスピードが遅くなっています


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板