したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

197 ◆/vmukiyuzw:2005/09/16(金) 21:53:49
>>196さん
>>188でも書きましたが、p2によるHTMLにはJavascript等のガラガラ(※注:htmltodatから
みると邪魔でしかない要素を勝手にこう呼んでいます)が大量に含まれています。
変換できないHTMLは、このガラガラがあまりに多すぎて、まさにエラーメッセージどおり
「一行が長すぎる」のエラーに引っかかってしまっている状態です。
で、内部バッファのサイズ制限を多少ゆるくして回避できないか試してみましたが、今度は
BREGEXP.DLLの制限(readmeにちょっと書いてますがマッチする文字列長が長すぎると
fatal errorを起こすというもの。直してくださいよBabaさん!てこんなとこで書いても意味
ないですが)に引っかかってしまう始末。

結局のところ、前処理で不要なものを取り除いてしまう以外回避策はないかと思います。
ご自分の掲示板でも既に気づかれていたようですが、<dd id= で始まる行が一番のガン
なので、こいつらを全部取っ払っちゃってください。単に空行に変換するだけでも充分です。

これで(1)〜(8)まで全てエラーが出ないことを確認しましたが、一点だけ問題がありました。
>>188で書いた正規表現ですが、<dd>タグの後に一個半角スペースを付けていたのですが、
あぼーんのあったレスにはこの半角スペースが存在しないためマッチしませんでした。
なので、?を付けて<dd> ? として以下のように修正します。

m#<dt.*?>([0-9]+).+?()<b>(.*) </b>.*?:(.*?)</dt>.*<dd> ?(.*)<br><br></dd>#mi


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板