したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

864名無しさん:2015/03/30(月) 23:24:01
>>855-856
ありがとうございます。
多少の定義の変更が必要でしたけどほぼうまくいきました。
したらば自体何度か仕様変更があったようで定義も修正する必要があるでしょうけど、
ヒントは得たのでそれはその時おいおいやることにします。
以下でテストしました。

メンテナンス告知スレッド
http://jbbs.shitaraba.net/bbs/read.cgi/computer/10298/1071739838/
テストその1
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1024130759/
テストその3
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1117200553/
テストその4
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1117201019/

テストその1のスレで文字化けする以外はおおむね満足な結果です。
文字化けは使用してるライブラリの所為でしょうがないのかな?

現時点で保存したprmです。

コメント:
# したらば過去ログをrawmode.cgiが返すのと
# 同様の形式に変換する

前処理:
# アンカーではないリンクのタグ除去
s#<a href="h[^>]+>([^<]+)<\/a>#$1#migk
# 旧仕様のID欄をrawmode.cgi仕様に置換
s#<font size=1>\[ ([^ ]*) \]<\/font>#ID:$1#migk

アンカー削除:
false

透明あぼーんを補う:
true

変換結果式:
$1<>$3<>$2<>$4<>$5<>

後処理:
# スレタイをrawmode.cgi仕様の位置へ移動
s#(\d+?<>.*?<>.+?)(\sID:([^<]+?))?(<>[^\r]+?)\r\n#$1$4<>$3\n#ig
# 透明あぼーん補完時の文字列除去
s#透明あぼーんかも<>##gk

正規表現:
m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</A>|</FONT>)(?: 投稿日)?: ?(.*?)(?:<BR>)?<DD>(.*) ?<BR><BR>#mik


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板