したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1116名無しさん:2025/08/17(日) 11:43:04
datを紛失してるおーぷん2chのスレのhtmlを変換しようとしたところ「HTTP/1.1403 Forbidden」で返されてしまいます

対象のURL
https://wktk.open2ch.net/test/read.cgi/aimasu/1536494026/

作成した正規表現は以下ですがうまくいきません
m#<dt.*?>\s*<a.*?>.*?<font.*?>(?:.*?<b>([^<]+)</b>)?.*?</a>.*?<font.*?>(.*?)ID:([A-Za-z0-9\-\+\./]{8})<br>.*?</font>.*?<dd.*?>(.*?)<br>#mik

御助力お願いします

1117 ◆/vmukiyuzw:2025/08/20(水) 01:24:35
>>1116さん
対象のURLを汎用ブラウザ(chrome)で開こうとしてみたのですが
なんか最初だけ「あなたはロボットですか?」みたいなメッセージが
出て別に何もしなくてもしばらくするとスレッドが表示されたのですが
クロール除けなのか何なのか直接のアクセスに制限をかけてるようですね。

多分一回接続に成功したらcookieで以降のアクセスを許可するように
なってると思われますががhtmltodatにはそれに対応する仕組みはないので
多分403を回避するのは難しいと思います。
ブラウザで表示された内容をHTMLソース表示してhymltodatにコピペして
変換できんかと試みたのですが、この方式では(htmltodatの作りの
せいですが)「前処理」が使用できないのでうまいこといかなくなってます。

今は一旦htmlをローカルにダウンロードしていろいろやってますが
意外に難物で…時間かかってしまうかもしれません。

1118 ◆/vmukiyuzw:2025/08/20(水) 02:48:27
てか、おーぷん2chて今存在するサイトであり
アクセスできる専ブラもありますよね?
こちらで扱うべき案件なのかなという気もしています…

1119名無しさん:2025/08/20(水) 23:01:31
お返事ありがとうございます

おーぷんでの専ブラの件ですが
人間の証明フィルタがかかってる状態では基本的にスレを取得できないのと
https://wktk.open2ch.net/test/read.cgi/aimasu/1536494026/



https://wktk.open2ch.net/aimasu/dat/1536494026.dat

の様にdatそのものが消えてしまっているスレはフィルタ以前にも専ブラで取得できない為
htmlから何とかdat化と専ブラでの読み込みが出来ないかと試みていた次第です

こちらでもブラウザでHTMLを保存しhtmltodatでローカルファイル読み込みなど試みてますが
ハング状態に陥ったりと上手くいきません

1120 ◆/vmukiyuzw:2025/08/21(木) 03:37:31
>>1119さん
申し訳ないです。
確かに現状「人間の証明フィルタ」?(クロール除けなのでしょうが)の
おかげで専ブラではアクセスできないようですね。
引き続き取り組んでみますが時間かかるかもしれません。ご容赦ください。

(白内障とやらで視力が低下してPC扱うのも割と難儀な事になってます^^;
手術が必要なのですが多分数日はお風呂に入れないことになるので
夏の間は見送ろうと思ってます^^;)


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板