したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

807 ◆/vmukiyuzw:2014/10/19(日) 20:13:28
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1038409548/198,206

↑で実験しているのは、Fiddlerっていうツールを使って
ローカルプロキシ経由でのhtmltodat的処理を試しているものですが
htmltodatの「read.cgi7.00?」の正規表現をベースにスクリプト化したものを
使っています。
で、このスクリプトを弄っているうちに、read.cgiからのhtmlを
生datとほぼ一致するdatに変換できるようになりました。
ので、その成果(というほどのものでもないか)をこちらにもフィードバックしておきます。
>>799,801 への修正という形になります。


コメント:
# 2chのログでhtml化されているがdatに残っていないものを変換。
# 元datに近づけるためアンカー削除はオフにし
# 後処理で不要なもののみ削除する。

URLの変換:
s#http://(.+?)/test/read\.cgi/(.+?)/(\d+)/?.*#http://$1/test/read.cgi/$2/$3/#

アンカー削除:
false

プレビューを表示しない:
true

後処理:
# アンカータグ削除(レスアンカーに対するタグは削除しない)
s#<a href="http.*?>(.*?)</a>#$1#igk
# BE周りの処置
s#<img src="http://(img\.2ch\.net/.+?)">#sssp://$1#igk
# 以下はhtmltodatの内部処理に組み込まれているので不要
#s#<a href=.?javascript:be\((\d+)(?:,\d+)?\).*?>\?(.*?)</a>#BE:$1-$2#igk

正規表現:
m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd>(.*?)<br><br>(<dt.*?>|</dl>)#mi


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板