したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1</b><font color=#FF0000>(L44UP/ps)</font><b>:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

684名無しさん:2012/04/06(金) 16:13:27
お世話になります。

2ちゃんねるの国(その120)、具体的にはhttp://2chland.net/gcomic/1113225299.html
2ちゃんねるのエリート(その141)、具体的にはhttp://elite2ch.info/gcomic/1128762503.html

以上のスレを.dat化したいのですが、お力添えよろしくお願いします。

685 ◆/vmukiyuzw:2012/04/06(金) 20:28:56
>>684さん
説明の都合上まず「その141」 elite2ch.info の方からいきます。
実はこのサイト、自分は以前別のルートで見つけていて、ちょっと気になる点があったので
正規表現他を調べてメモっておいたものでした。

気になる点というのは、このサイトのHTMLにはレス番号(htmltodatでは$1でマッチさせるもの)
が存在せず、<ol><li>タグでレスに連番が振られているのです。
(<ol>タグの後の<li>タグは1からの連番として表示される)

これはhtmltodatでは想定していないことなので、どうしたものかと思いましたが、レス番号以外のもの
にマッチさせても仕方がないので、とりあえず$1をダミー(何にもマッチさせない)にしてみました。
プレビュー欄にレス番が表示されないという若干の不都合はありますが、dat変換自体は問題なく
できるようです。


正規表現:
m#<li><span>()(.*?) ?\[ ?(.*?) ?\] ?(.*?)</span>\s*<p> ?(.*?) ?<br></p>#mi

前処理:
# 日付とIDの間に何かあると邪魔なので除去
s#</span><span>##igk
# レス中の不要なタグを除去
s#<em>##igk
s#</em>##igk
s#<strong>##igk
s#</strong>##igk
s#<img .*?>##igk
# <br />タグに対応していない専ブラへの対応
s#<br />#<br>#igk
# 後ガラガラがいっぱいあるので地道に除去
s#\r\n\s*<a .*?</a>##igk
s#<object .*\r\n##igk
s#<param .*\r\n##igk
s#<embed .*\r\n##igk
s#<iframe .*\r\n##igk
s#<div .*\r\n##igk

変換結果式:
$2<>$3<>$4<>$5<>
(↑メール欄逆転)



次に「その120」 2chland.net ですが、HTMLソースを見てみると「その141」とそっくり。
正規表現他も上と共通でいけると思います。

(実際には細かい差異はあったのですが上の正規表現はその差分を吸収したものにしています。
前処理も「その120」には不要なものもあって多少冗長なのですが特に問題はないと思います)


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板