したらばTOP ■掲示板に戻る■ 全部 1-100 最新50 | メール | |

htmltodatサポートスレッド

1</b><font color=#FF0000>(L44UP/ps)</font><b>:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。

844名無しさん:2015/03/26(木) 07:40:35
>>843
横からごめんなさい。(◆/vmukiyuzwさんではありません)
D&Dはとりあえず読むための方法ですね。
その板はどのツリーに、何という名前で登録しましたか。
例えば、 外部板
        └宇宙の星
というように登録したのだとしたら、(適当でごめんなさい)
\JaneXeno\Logs\2ch\外部板\宇宙の星 という感じのフォルダがあるはずです。
コンピュータからこのフォルダを開いて、ここにファイルを移動します。
よくわかんなければ、外部コマンドに
%板フォルダを開く=explorer "$LOCALDAT\.."
と書いて、板一覧で右クリックし、「板フォルダを開く」をクリックすれば、フォルダが開きます。

845名無しさん:2015/03/26(木) 22:00:18
>>844さん、アドバイスをありがとうございます。
その通りに実行したのですが、やはりスレは真っ白で何も表示されませんでした。
(コマンドも登録しましたが実行されませんでした)
やはり特殊な過去ログ倉庫に入っているスレだからでしょうか。

板登録は、 その他
         └宇宙の星
というふうにしました。

846名無しさん:2015/03/27(金) 00:08:01
2chで途中までログを持っているスレで使用するには
一旦ログを削除してからhtmltodat-convert2.wsfを実行するしか方法はないのでしょうか?

847名無しさん:2015/03/27(金) 00:54:04
質問というか要望というか、です。

1、スレタイの挿入位置を任意のところにしたいのですがデフォで出来ますか?
2ch形式と違いしたらばではスレタイがレス1の末尾でなくその1つ前のブロックなので、
正規表現と変換結果式を工夫してみたり、後処理の中で出来ないかと試したのですが一向にうまくいきません。
もしスレタイ挿入が後処理のあとなのでしたら、変換結果式の中で$titleのような形で指定できるようにしてほしいです。

2、上に関連してですが、したらばのタイトルは<h1>タグの方が本来のタイトルなのでそちらから取得するようにしてほしいです。
前処理でのスレタイ補正も考えたのですが、スレタイや板名次第では面倒なことになるので。
より汎用的にするなら変換結果式の中で$h1titleのような形で指定できたらと思います。

3、datを保存するときに文字エンコードを変更したいのですがどこで指定できますか?
readmeに書かれている「保存文字コード」を探したのですが見つけられません。
少なくともdat保存時のダイアログには表示されてないのです。

一応使用環境はOSはXP SP3、専ブラはChaikaです。

よろしくお願いします。

848844:2015/03/27(金) 07:52:24
>>845
・Windowsのバージョンは?
・Jane2ch.exeの場所は?
 ショートカットから起動しているなら、それを右クリックして「リンク先」をここにコピペしてください
・JaneXenoの設定-【パス】の「ログとボード一覧のフォルダ」をコピペしてください
・その板の現行スレの一覧は見えていますか?
・取得した現行スレはありますか?
・外部コマンドをまだ削除していなければ、スレ一覧で右クリックして「板フォルダを開く」が見えますか?

> やはり特殊な過去ログ倉庫に入っているスレだからでしょうか。
そんなことはないです。

849845:2015/03/27(金) 18:16:11
>>848さま

・Windowsのバージョンは?
Windows7 Home Premiun SP1

・Jane2ch.exeの場所は?
C:\Users\***\Documents\Jane Xeno\Jane2ch.exe

・JaneXenoの設定-【パス】の「ログとボード一覧のフォルダ」をコピペしてください
今見たら白紙状態でした。どう設定すべきでしょうか?(もしやこれが問題!?)

・その板の現行スレの一覧は見えていますか?
はい、見えています。

・取得した現行スレはありますか?
ありません。

・外部コマンドをまだ削除していなければ、スレ一覧で右クリックして「板フォルダを開く」が見えますか?
見えます。クリックしたところ、ちゃんと目的のところまでファイルが開きました!
datをそこにコピーして開いてみたのですが、
(・∀・)サテオシゴト・・・          ε三三三三(; ・∀・)鯖マデオツカイ
HTTP/1.1 400 Bad Request
( ・∀・)(・∀・ )オツカイオワリ 三三三三3
(・∀・∀・)
(・∀・)ナンカエラーダッテ HTTP/1.1 400 Bad Request
(・∀・)カンリョウ!!
というエラーで読むことはできませんでした。

850 ◆/vmukiyuzw:2015/03/28(土) 02:33:29
ちょっと忙しくて離れてた間にあちこちでいっぱいレスがついてる・・・^^;
とりあえずややこしそうなのから行ってみよう。

>>847さん
そもそも、したらばのログを変換してChaikaで読みたいという話なんですよね?
Chaikaの仕様をよく知らないのでわからないとこもあるんですが、
読みたいログはしたらばの現行(生きてる)ログ?それとも過去ログ?
現行ログにしてもhtmlで取得する(read.cgiを使う)方法と
したらば独自のrawmode.cgiを使う方法があるのですがどちらですか?
(貴方の書き方ではどれにでも判断できる気がしてよくわかりません)

変換したいURLのサンプルを(できれば複数)示していただきたく。
また、欲しい結果の形式も通常の2chのdat形式と違うような気もするので
その場合はそれも示していただければと。

1と2についてはまずはそこからってとこで。
3については、確認なんですがChaikaではしたらばのログはEUCのまま
ログを保存してるんですかね?
大抵の専ブラは2chと同様に扱いたいためSJISに変換して保存してるのが
ほとんどだと思うんですが、Firefoxのプラグインだからその辺あまり
頓着しなくてもできるってことなのかな?

851848:2015/03/28(土) 07:40:32
>>849
そうそう、パスにユーザ名が入っていたら伏せてください、って書くの忘れました
ちゃんと***にしてくれてよかったです
ログとボード一覧のフォルダも、(空欄のこともあります)と書いておいたほうが親切でしたね

\Program Filesフォルダ絡みだと超めんどくさいんで、とりあえずそうでなくてよかった

現行スレの一覧が見えるなら、外部コマンドで開いたフォルダにsubject.idbとsubject.txtが
あるはずなのですが、ありますか? 他にファイルはありますか?
フォルダ名は「宇宙の星」で、フォルダのプロパティの「場所」は、
「C:\Users\***\Documents\JaneXeno\Logs\2ch\その他」となっていますか?

以下を試してみてください
・スレ一覧で「宇宙の星」板を開いていたら、閉じる
・レス欄でそのスレを開いていたら、削除する
 フォルダにコピーしたdatは消えると思います
・あらためて、(JaneXenoにではなく)フォルダにdatファイルをコピーする
・「宇宙の星」板を開く
これでスレ一覧の一番下にそのスレが出てくるはずなのですが…

852848:2015/03/28(土) 07:44:36
はっ、◆/vmukiyuzw さんが!
>>850
>>844,848,851

853848:2015/03/28(土) 07:51:18
ミスった…>>852

>>850
>>844,848,851 です。
差し出がましいとは思いましたが、htmltodatとは関係ない所でつまづいてるっぽかったので…
JaneXenoユーザなのでこのくらいは。
chaika使っていればそちらもお手伝いできるんですが、そうじゃないのでさっぱりです。

854847:2015/03/28(土) 22:53:44
>>850
まず確認不足による事実誤認があったので一部撤回します。

>>847の2について現行、過去ログ問わずh1タグが本来のスレタイだと思ってましたが、過去ログではh1タグ自体がないのですね。
てっきりしたらば共通仕様としてあるものとばかり思ってました。
また仮にh1タグの方を使いたい場合でも前処理で本来のタイトルを削除後h1タグをtitleタグに置換すればいいだけと気づきました。

そういうわけで2については撤回します。申し訳ない。

で変換したいのは過去ログです。
ただChaikaと他の専ブラのdatの扱い方が根本的に違うので、どこのスレと指定する必要はないかな。
なんせ、

> 大抵の専ブラは2chと同様に扱いたいためSJISに変換して保存

これに驚きました。多くの専ブラがそういう仕様だったなんて。
テストがてら入れていたJaneXenoで試したら確かに。
Chaikaは最後までofflaw2対応を見送り続けるぐらいに公式ないし準公式な公開情報を尊重し実装してるので、
2ch仕様に変換済みのdatの保存は基本無しの方向です。
(尤も今回のAPI騒動のおかげで封じてきたWebスクレイピングを次回以降の大型アップデートで実装予定ですが)
ですのでサイトから取得したものはそのまま保存し、表示の都度然るべき変換を行ないます。
すなわち

したらば仕様
文字エンコード:EUC-JP
レス番号<>名前欄<>メール欄<>日付<>レス本文<>スレタイ<>ID

のままdatファイルとして保存しています。
このスレならば
http://jbbs.shitaraba.net/bbs/rawmode.cgi/computer/1929/1038588508/
をダウンロードしたのと同じですね。
なので文字エンコード指定とスレタイ位置指定が出来ればということです。

あと追加でprmファイルの読み書きダイアログがやや小さく思います。
初めて開いたときボタン類が見えなかったため使い物にならないと判断してしまいました。
ウインドウを広げればいいだけだったんですが出来れば修正願います。
一応開いた直後のスクショです。
http://light.dotup.org/uploda/light.dotup.org164419.png

855 ◆/vmukiyuzw:2015/03/28(土) 23:31:30
>>854さん
自分でもchaika使って調べてみて、だいたいお書きになった状況だろうなと
想像していました。

で、まず文字エンコードについてですが
htmltodatのウィンドウの何もない場所(例えばプレビュー欄の右上など)
をダブルクリックすると今まで見えなかったボタン等がいろいろ出現すると思います。
そのうち、一番下の欄、「prmファイル」のボタンの右に
「保存文字コード」というリストボックスが現れますので、そこで「EUC」を選択してください。
その状態のままdat保存するとEUC形式になります。

なんでそんな隠し機能になってるかというと>>784参照
つまり、SJIS以外で保存するブラウザがあるとは思っていなかったからです。

で、
> レス番号<>名前欄<>メール欄<>日付<>レス本文<>スレタイ<>ID
については次レスで。

856 ◆/vmukiyuzw:2015/03/28(土) 23:47:18
>>855続き。
後処理で、ID欄を削ってdat一行の最後に付け直すようにしてみました。
スレタイの付加は後処理より前にやっています。
実際に必要なのはスレタイの位置指定ではなくIDの場所移動だったみたいです。
ただ、テキスト上では変換結果を確認したのですが、私のほうで
htmltodatで変換したdatをchaikaで読む方法がまだわからず・・・
確認していただけたらと思います。(できたら教えてください)


コメント:
# したらば過去ログをrawmode.cgiが返すのと
# 同様の形式に変換する

変換結果式:
$1<>$3<>$2<>$4<>$5<>

後処理:
s`(\d+?<>.*?<>.*?)(\sID:(.+?))(<>.+?)\r\n`$1$4<>$3\n`ig

正規表現:
m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</A>|</FONT>)(?: 投稿日)?: ?(.*?)(?:<BR>)?<DD>(.*) ?<BR><BR>#mik

857849:2015/03/28(土) 23:59:33
>>851さま、原因がわかりました。
htmltodatでHTML化、dat化した時に、スレタイである日本語そのままのファイル名で保存されており、
再起動するとそれが文字化けして読み込み不可能となっていたのです。
http://www2.atchs.jp/spacestar/oldkako/を見るとスレッドID項目がありましたので、
その数字にファイル名を書き換えて、>>851さまの
>>以下を試してみてください を実行したところ、成功しました。

外部コマンドで開いたフォルダにはsubject.idbとsubject.txtがあり、
例の文字化けしたdatファイルとidxファイルがありました。
それを削除して、ファイル名を変更したdatファイルをコピーし、
「宇宙の星」板を開いたら目的のスレが出てきました。
今度は再起動しても問題なく読めます。

過去ログ倉庫に移動された際に、**********.datという、従来のような
ファイル名ではなくなったためだと思います。

作者である◆/vmukiyuzwさま、そして救済に入ってくださった851さまには
とんだお騒がせをしてしまい申し訳なく思います。すみませんでした。
お付き合いいただきまして本当にありがとうございました。

858 ◆/vmukiyuzw:2015/03/29(日) 00:10:59
>>855さらに続き。

>>854
> あと追加でprmファイルの読み書きダイアログがやや小さく思います。
> 初めて開いたときボタン類が見えなかったため使い物にならないと判断してしまいました。
> ウインドウを広げればいいだけだったんですが出来れば修正願います。

これ、もともとXPの環境で開発してて、win8.1の環境に移植したときに一回発覚したので
その時に修正したんですが(>>800)、まだ出るんですか。
お使いのOS及びhtmltodatのバージョンをよろしければお教えください。
(といってもいろんな環境でテストできる状況でもないので修正できるかどうかはわからないです)

859 ◆/vmukiyuzw:2015/03/29(日) 00:17:26
>>857さん
問題解決したようでよかったです。
>>851さん
私が留守の間に丁寧にサポートしていただきありがとうございます!

860 ◆/vmukiyuzw:2015/03/29(日) 00:39:23
さてここまでの残件は
>>846さんですか。

htmltodat-convert2.wsfについてはすでにいろんなところで話に上がっていて
まとめページを書いてくださってる方もいて
http://pastebin.com/0QDr9S8v
私が語れることはあまりないと思うんですが

途中までログを持っているスレでhtmltodat-convert2を使うと
その時点で取得済みのログは上書きされるはずなので
「一旦ログを削除してから」という動作は必要ないと思いますよ。
上の参考スレにもありますが、再描画、もしくはいったん閉じて開きなおす
でいいと思います。

861名無しさん:2015/03/29(日) 03:31:57
要望です

解像度の低いディスプレイだとウインドウ下部が見切れて
マウスでの操作が出来ません
下部の見えないボタンは現在キーボードから操作しています

スクロールバー等での対応出来ればお願い致します

862名無しさん:2015/03/29(日) 11:46:47
>>860
そのまとめページにも

>※ 一度でも該当スレを開いたことがある場合は、事前にログ削除して、a)、c)の手順で実行すればレス内容が表示されないということは起きない
>※既に開いたことがある場合は、ログ削除しないと「ここ壊れています」と表示される場合がある

とあります。
スレの再描画はやっていますが差分は表示されません。
一度ログを削除してから実行すると全部取得できるのですが。

とここまで書いた後でいろいろ試してみてわかったのですが、
どうやら該当スレの板のスレッド一覧を更新しないとダメな様です。

つまりお気に入りや最近読み込みから該当スレを開いて差分取得を試みるとスレの再描画やスレの開き直しをやっても差分は表示されない。
コマンドを実行した後に該当スレの板のスレッド一覧を更新してからスレの再描画やスレの開き直しをすると差分が表示される。
もしくは該当スレの板のスレッド一覧を更新してからコマンドを実行してスレの再描画やスレの開き直しをすると差分が表示されるみたいです。

863名無しさん:2015/03/29(日) 12:42:09
途中までログを持っているスレは
メモ欄のプレビューでいけるかと・・・

864名無しさん:2015/03/30(月) 23:24:01
>>855-856
ありがとうございます。
多少の定義の変更が必要でしたけどほぼうまくいきました。
したらば自体何度か仕様変更があったようで定義も修正する必要があるでしょうけど、
ヒントは得たのでそれはその時おいおいやることにします。
以下でテストしました。

メンテナンス告知スレッド
http://jbbs.shitaraba.net/bbs/read.cgi/computer/10298/1071739838/
テストその1
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1024130759/
テストその3
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1117200553/
テストその4
http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1117201019/

テストその1のスレで文字化けする以外はおおむね満足な結果です。
文字化けは使用してるライブラリの所為でしょうがないのかな?

現時点で保存したprmです。

コメント:
# したらば過去ログをrawmode.cgiが返すのと
# 同様の形式に変換する

前処理:
# アンカーではないリンクのタグ除去
s#<a href="h[^>]+>([^<]+)<\/a>#$1#migk
# 旧仕様のID欄をrawmode.cgi仕様に置換
s#<font size=1>\[ ([^ ]*) \]<\/font>#ID:$1#migk

アンカー削除:
false

透明あぼーんを補う:
true

変換結果式:
$1<>$3<>$2<>$4<>$5<>

後処理:
# スレタイをrawmode.cgi仕様の位置へ移動
s#(\d+?<>.*?<>.+?)(\sID:([^<]+?))?(<>[^\r]+?)\r\n#$1$4<>$3\n#ig
# 透明あぼーん補完時の文字列除去
s#透明あぼーんかも<>##gk

正規表現:
m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</A>|</FONT>)(?: 投稿日)?: ?(.*?)(?:<BR>)?<DD>(.*) ?<BR><BR>#mik

865名無しさん:2015/03/30(月) 23:28:24
>>856
残念ながら板フォルダにdatを放り込むだけではChaikaのデータベース(storage.sqlite)には自動登録されないのでスレ一覧には表示されません。
一応今後の実装予定で何らかの形で登録しやすくするらしいですが。
手動での登録は現状sqliteを扱えるソフト、あるいはFirefoxのアドオンSqlite Managerを利用しますが今回は割愛。

とりあえず見るだけに限定しての話。

1、板フォルダはChaikaサイドバーの板一覧から板を選択、スレ一覧を表示。
2、右上のツールを押すとあらわれる「ログディレクトリの表示」で開く。
または、
1、同じサイドバーの右上のアイコンを押して「フォルダを開く」メニューからログフォルダを開く。
2、該当の板フォルダを探し出して移動。どれを開くべきかはフォルダ名で類推できると思うので割愛。

3、datを板フォルダに放り込みスレのリンク(多くは/read.cgi/なリンク)をChaikaで開く。

開くときは右クリックのChaikaメニューを利用するか、
Chaikaオプションの「ブラウザ」にあるスレッドリダイレクタをonにしてリンククリック。

>>858
OSは>>847で書いた通りXP SP3です。htmltodatのバージョンは0.11.6です。
またシステムフォントをMeiryoKe(ただしフォント名はMSゴシック系に改編)に変更しています。
このフォント変更の影響なのかボタン等の文字が切れて表示されるソフトがあったことを思い出しました。
どのソフトだったかまでは思い出せませんが、確かResourceHackerで修正したと記憶しています。
参考になったら幸いです。

866 ◆/vmukiyuzw:2015/03/31(火) 00:08:23
>>864-865さん
私がChaikaの使い方をあまり知らない中、
ご自分で努力いただきありがとうございます。
Chaikaのデータベース登録はこれから研究してみます。

> テストその1のスレで文字化けする以外はおおむね満足な結果です。
> 文字化けは使用してるライブラリの所為でしょうがないのかな?

そんなスレを引用されるとは・・・
そのスレは昔自力でプロキシ的動作をするソフトを作っていて
そこから文字コードの変換をテストしていたものなんです。
文字化けするかどうかをテストしていたんで文字化けは当然なんです。

あと、
> あと追加でprmファイルの読み書きダイアログがやや小さく思います。

これはこちらで確認できる環境を作る自体がなかなか難しく。
>>861さんの要望なんかも類似の問題の気がするのですが
しばらく時間を頂きたく思います。

867861:2015/03/31(火) 01:45:40
>>866
宜しくお願い致します

868名無しさん:2015/04/01(水) 04:55:26
画面が小さいモバイルPCで起動すると画面からボタンがはみ出してしまい、
下部の「prmファイル」「dat保存」のボタンが押せないのですが、
どうすれば良いのでしょうか?

OSはWin7です。解像度は最大で1024x600までしか出せず、
フォントサイズを小にしても表示し切れません。
幸い、VGA出力端子が付いているので外部ディスプレイに繋いで
なんとか使っている状態です。

よろしくお願いします。

869名無しさん:2015/04/01(水) 06:23:59
>>868

>>861,866

870名無しさん:2015/04/01(水) 09:24:38
>>868
見切れている部分がどの程度なのか分からないけど

タスクバーを自動的に隠す設定にしてみるとか
 タスクバー右クリック - プロパティ

タイトルバーをモニターの外にはみ出させるとか
 Alt+Space - 移動(M) - ↑キー

キー操作でサブウィンドウを表示させるとか
 prmファイル(R) = Alt+R
 dat保存(S) = Alt+S

こんなんじゃアカンのだろうか

871861:2015/04/01(水) 10:22:41
>>870
まー取り敢えずありがとう
でもアカンから要望してるんだよ
親切でレスしてるのは分かるけど自分の力量の範囲にしようよ
まして確認できないものを無理して答えなくてもよいと思う

例えばタスクバーを自動的に隠すはタイトルバーの幅では追いつかない
ウインドウを移動しての対処はウインドウが自動的に最大化してしまう
見えないものをショートカットで操作する事が想像出来ないのかな

上記後出し情報は作者さんの力量を考えてあえて書いてない
初心者にレスするなら必要な情報かも知れないが
こういったものを創れる作者さんだからね

ウインドウが見切れる事例は他にもあるから検索すれば分かるはず

872名無しさん:2015/04/01(水) 17:28:39
なんだこいつ

873名無しさん:2015/04/03(金) 16:58:16
お邪魔します。

以下のしたらばログ倉庫の
http://jbbs.shitaraba.net/bbs/storage.cgi/otaku/5678/
スレッドをdatファイルにしたいです。

前処理と後処理は必要でしょうか?(その場合どれを選べばいいでしょうか)
また、正規表現は「jbbs過去ログ改」で間違いないでしょうか。

874 ◆/vmukiyuzw:2015/04/04(土) 00:13:00
>>873さん
えーと、基本的には前処理も後処理も必要ないはずですし
正規表現もそれで問題なくdat変換できると思うのですが
ここに質問してこられたからには何かうまくいかなかったんですかね?
その場合、お使いの専ブラの種類・バージョン、あとdatファイルを
どうやって取り込もうとしたかなど教えていただければアドバイス
できるかもしれません。

>>861さん、>>868さん
解像度の低い(or低くできる)環境というのが今私の周りになくて
ようやく来週には調達できるかなという感じです。
また、本業のほうがこのところかなり忙しく
プログラム修正のほうにまとまった時間をなかなか取れない状況です。
申し訳ないですが気長にお待ちいただければと思います。

875名無しさん:2015/04/04(土) 04:39:50
>>874
873です。先程は正規表現が違うとのエラーでできなかったのですが、
もう一度試したら無事dat化できました。
ありがとうございました。

876 ◆/vmukiyuzw:2015/04/10(金) 23:51:56
htmltodatをバージョンアップしました(0.11.7)
 ・解像度の低いディスプレイで使用する場合に画面下部が見切れてしまう問題の
  対処として、スクロールバーを出せるよう修正。
  また、それに伴いいくつかのフォームの位置・サイズ等の属性を修正。

そんなに色々な環境でテストできたわけでもないので若干推測を含むのですが。
解像度の低いディスプレイでは起動すると右端にスクロールバーが見えるようになると思います。
(環境によってはこのスクロールバー自体見切れてしまうかもしれません)
また、このスクロールバーで下までスクロールしても画面下部まで見られないかもしれません。

ウィンドウを最大化するとスクロールバーが見切れずに見えるようになると思います。
この状態だと画面下部までスクロールできると思います。
ちょっと一手間二手間必要なのはお許しください。

解像度に合わせて適宜リサイズして自動でディスプレイに収まるようにするのが本当はいい方法なんでしょうが
なにせ最初からそういう想定をせずに作っていたもので今から変えるとなると結構大変で・・・
とりあえずこんなものでお許し頂けないかと。

あと、>>854さんからご指摘があったprmファイル読み書きウィンドウが小さい(ボタンが見えない)件ですが
該当するかもと思われる件があったので修正してみました。
ただこちらの環境では不具合自体を再現できず直ってるかどうかを確認できないため
ご確認いただければ幸いです。

>>871さん
私は万年素人のサンデープログラマーなんで過大評価しないでください。
情報があればぜひ教えていただきたいです。

877861:2015/04/11(土) 00:23:45
>>876
お忙しいところお手数をお掛けしまして申し訳ありませんでした
私の環境では最下部のボタン操作が出来るようになりました
有難う御座います

昔から利用させて貰ってましたが最近の仕様変更で更にお世話になっています
革めて有難うございます

何か気づいた点がありましたらお役に立てるか分かりませんが
私で宜しければご協力させて頂きたいと思います

878854:2015/04/11(土) 13:01:34
>>876
0.11.7確認してみました。
prmのダイアログは問題ありませんね。
http://light.dotup.org/uploda/light.dotup.org170296.png

ただ本体の方が起動直後こんなことになってます。
http://light.dotup.org/uploda/light.dotup.org170297.png

0.11.6まではこんな感じでした。
http://light.dotup.org/uploda/light.dotup.org170301.png


あちらを立てればこちらが、といったところでしょうか。
とりあえずこれまで通り0.11.6を使うことにします。

879 ◆/vmukiyuzw:2015/04/11(土) 21:57:24
>>878さん
> あちらを立てればこちらが、といったところでしょうか。

うーむ、確かにそれに近い状況かもしれません。
なんとか両方立てられないかと考えた結果、以下の人柱バージョンを作ってみました。
一応目指したのは
・解像度が十分な環境であれば今までどおり一番下のボタンまで表示される
・解像度が低く全体を表示できない環境であればウィンドウを最大化すれば
 スクロールバーで一番下のボタンまで表示される

自分の環境(一応8.1、XPの2台でいろんな解像度で試しているつもり)では
うまく表示されるようなのですが、いろんな環境の方にお試しいただければと思います。

http://mukiyu.g.ribbon.to/cgi-bin/download2.cgi?name=htmltodat0.11.8&amp;url=htmltodat0.11.8b.zip

htmltodat.exeファイルのみ入ってます

880861:2015/04/11(土) 23:27:05
>>879
ご苦労様です

うちの2台(解像度が高と低)で確認しました
どちらも特に問題ありませんでした

881854:2015/04/12(日) 03:30:09
>>879
今度は大丈夫なようです。
http://light.dotup.org/uploda/light.dotup.org170653.png

ありがとうございました。

882 ◆/vmukiyuzw:2015/04/12(日) 04:05:36
>>861=880さん、>>854=881さん、ご確認いただき本当にありがとうございます。

多分htmltodatをよく使っていただいてる方からのコメントなんで間違いないとは思うのですが、
もうちょっと他の方からのコメントも待ちたいなというのと
もう少し弄ってみたいかなという部分があるんで正式リリースはちょっとお待ちください。

883名無しさん:2015/04/12(日) 05:27:37
そもそも漠然と小さい画面だからと要望を出す馬鹿がいるから困るんじゃなかろうか
せめて自分の環境がどのような解像度と縦横比なのかぐらい書いてもらえよ
http://www.a-ain.net/2click/pc/pc_081siryo_gamen.html

884 ◆/vmukiyuzw:2015/04/19(日) 01:30:24
2ch.netのread.cgiでftp://の書き込みをしたら読めなくなるバグがなかなか修正されないようなので
何かできないか考えて、とりあえずびんたん(スマホ用の2chビューア)からdat変換するのを考えてみました。
ただ、残念ながらread.cgiとは違い過去ログは読めないようです。
また、メール欄の情報が存在しないため欠落してしまいます。


コメント:
# びんたんの読み込みをdatに変換してみる

URLの変換:
s`http://(.+?\.2ch\.net)/test/read\.cgi/(.+?)/(\d+)/?.*`http://bintan.ula.cc/test/read.cgi/$1/$2/$3`

前処理:
# スレタイ置換
s`<title>.*?</title>``
s`<div class="topic_name_inner_left">\s*?<p>(.*?)</p>`<title>$1</title>`i
# レス1だけ形式が違うので他と合わせる
s`<span\ id="read_one_body(?:.|\s)*?<span>\s:\s(.*?)</span>`<a\ class="respop">1</a>.<b>$1</b>`i
s`<div\ style="clear:both;"\ class="topic_date">(.*?)</div>(?:.|\s)*?(<div\ class="honbun">.*?</div>)`$2<font>$1</font>`i

アンカー削除:
false

変換結果式:
$3<>$2<>$5<>$4<>

後処理:
s`<a\ href=.*?>``ig
s`</a>``ig

正規表現:
m`<a\ class="respop".*?>
(\d+) # レス番
</a>.+?<b>
() # メール欄情報は存在しないためダミーに
(.*?)</b> # 名前欄
.*?<div\ class="honbun">
(.*?) # レス本文
</div>.*?<font.*?>
(.*?) # 投稿日 一般的なhtmlと違いレスの後ろに付いている(よって変換結果式で引っくり返しが必要)
</font>`mikx

885名無しさん:2015/04/20(月) 13:41:26
htmltodatが急に使えなくなって、取得すると「2ちゃんねる専用ブラウザをご利用の皆さまへ」が表示されるんだけど、
対策されたかな?

886名無しさん:2015/04/20(月) 14:27:30
>>885
UA変えてダメ?

887 ◆/vmukiyuzw:2015/04/20(月) 22:34:03
>>885さん
サーバによっては大丈夫なところもあるようですが確かにエラーになるところもありますね。
>>886さんのおっしゃるようにUAの問題のようなので、適当に変えてもらえれば回避できるかと。

htmltodatでUAを変更するには、受信オプション - HTTPヘッダの追加 のところで
User-agent: なんたらかんたら
と指定してください。
汎用のwebブラウザのUAを指定しておけばかなり安全なんじゃないですかね。
例えばIE11のUAであれば(うちの環境でですが)
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; LCJB; rv:11.0) like Gecko
こんな感じです。

# UAを色々弄ってテストしてみたのですが、現バージョンでの
# User-Agent: Monazilla1.00 (htmltodat/0.11.1)
# てのがエラーになるようです。(0.11.0とか0.11.2にしてもエラーにはならない)
# てことは2ch側でピンポイントではじく対象UAのリストに入ってることなのね・・・なんか複雑

888885:2015/04/21(火) 20:33:41
>886, 887
User-agent 設定したら使えるようになりました、ありがとうございました

889名無しさん:2015/04/29(水) 02:30:44
>>887
いつもツールを使わせていただきありがとうございます。
すみません、どうしても回避できません。
先月までは何も問題なく使えていました。

htmltodat起動
受信オプションクリック
httpヘッダ追加ボタンクリック
User-Agentとコピペ&OKクリック
下の欄にUser-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; LCJB; rv:11.0) like Geckoをコピペ&OKクリック
htmltodatを再起動し、受信オプション、一覧表示と、User-Agentとクリックし、上記コピペがあることを確認し、閉じる
Janeの右クリックからwscript "$BASEPATHhtmltodat-convert2.wsf" "$LINK" "htmltod"を使うがご利用の皆様へ表示
試しにコピペをUser-Agent:抜きとかやってますが、駄目でした。

どこか間違っていたら教えてください。

Win7Pro、C:\Progra~1\Jane\jane2ch.exe Jane3.81、自動車板
log C:\Jane
当該過去ログ削除済

890 ◆/vmukiyuzw:2015/04/29(水) 03:30:06
>>889さん
多分勘違いがいくつかある気がするんですが。

「受信オプション」の内容はhtmltodatの全体で保存されるのではなく
各prmファイルに保存される仕組みになっています。
また、「受信オプション」から「追加」で設定するものは
「HTTPヘッダの追加」欄に入力した内容に名前を付けて保存するためのものなので
「追加」をクリックして出てきた入力ボックスにUser-Agentを入力しただけでは
何の意味もありません。(そこに入力した名前でファイルが作られるだけ)

てなわけで、お使いのprmファイルは「htmltod.prm」でしょうか?これをお使いなら
・htmltodat起動
・「prmファイル」ボタンで「htmltod.prm」ファイルを読み込む
・受信オプションからhttpヘッダ欄にお書きになった「User-Agent: 〜」を入力&OKクリック
(追加ボタンを押すのではないですよ?そこ間違えないように)
・再び「prmファイル」ボタンで「htmltod.prm」ファイルを(上書き)保存

これでいけると思うんですがどうでしょう。

891名無しさん:2015/04/29(水) 14:11:59
>>890
htmltod.prm=任意の名前.prm
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

http://anago.2ch.net/test/read.cgi/software/1426520789/614
>htmltodat.exeを起動
>左下3番目prmファイルボタン→入力欄を右クリックして貼り付ける
>保存ボタン→任意の名前.prmと名づけJane2ch.exeと同じフォルダに保存する
>htmltodat.exeを閉じる

892名無しさん:2015/04/29(水) 15:10:40
今まで使えていたのに使えなくなったのでスレに来たら解決法が書いてあったので試しました

が、駄目です
2ちゃんねる専用ブラウザをご利用の云々言われて見れません

HTTPヘッダの追加:
User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; LCJB; rv:11.0) like Gecko

という内容でPRMファイルを作りJane2ch.exeと同じフォルダに保存しました
なのでこのフォルダにはPRMファイルが2つ入っています
その後Janeを再起動しログを削除し再度コマンドを実行してみたのですが変わらず見れませんでした
UAを変えて自分の環境のものを入力してみたのですが意味はなかったです
足りないことは何でしょう?

893名無しさん:2015/04/29(水) 17:41:36
新しくprmファイルを作るんじゃなくて
今まで使ってたprmファイルに追記する形になるんだよ

894名無しさん:2015/04/29(水) 17:43:02
なるほどn

895名無しさん:2015/04/30(木) 19:48:25
困ってたらこのスレにたどり着きました
>>890の手順で解決しました
有り難うございました!

896 ◆/vmukiyuzw:2015/05/01(金) 01:26:27
UA絡みの問題で2ch.netからエラーを返されるケースが多発しているのかな?
>>892さんは多分解決したかな?
>>889さんはどうだろう。

近々、>>879あたりを反映したバージョンアップをする予定ですが
その際UAも変更すると思うので、この問題は解消するかも。
でも2ch.net側からは「はじくUA」のリストに入れられてるぽいので
>>890みたいな対処をかましておいたほうがいいかもです。

897名無しさん:2015/05/02(土) 01:26:37
横からだけど受信オプション設定のHTTPヘッダ一覧にあるUA変更1だけでいまのところ問題なしです

898名無しさん:2015/05/15(金) 23:26:52
2ちゃんねる専用ブラウザをご利用云々が増えてきたなぁ…

899名無しさん:2015/05/15(金) 23:56:14
どこかのスレで見たが専ブラの独自UAは弾くらしい。
非対応専ブラはお断りってことなんだろう。

900名無しさん:2015/05/16(土) 00:39:48
ち、相変わらずイライラさせるw
コレだからアメリカのストリップバーの経営者上がりは…w
たとえ独善的でも、妙な感覚の上に成り立ったひろゆきの新しさのほうが まだ面白かった…w

901名無しさん:2015/05/16(土) 10:37:59
FC2のようにならないためだから仕方ない。
サーバ>アメリカ
経営者>アメリカ

902名無しさん:2015/05/16(土) 12:30:04
>> 900
だよな。ひろゆきは自分しか儲からないような仕組みであってもユーザーの自由っていう哲学を持ってやってた。
今のJIMクソには哲学も何もありゃしない。自分以外のすべてが不自由を感じていても金さえ独占できればあいつは満足するんだろうな。

>> 901
FC2もしれっと鯖や登記をアメリカじゃなくて日本が国交結んでるかどうかも怪しい中南米の島国にでもすればよかったのにな。
AnyDVDのアンティグア・バーブーダみたいにさ。

903 ◆/vmukiyuzw:2015/05/28(木) 01:30:34
http://anago.2ch.net/test/read.cgi/software/1427376861/983-985
htmltodatはもともと2chのread.cgiを読むために作ったツールじゃないので。
むしろ2chで読めないスレを読むために何とかしようと作ったものなんで
こういう言い方されるのは正直むかっとしました。

でも、UAでmonazillaをかたるのには特にこだわりはないし
適当に変えてもいいんでしょうが、
その適当なUAの相手に迷惑かけるなんてことはまさかないでしょうが
ちょっと気持ち的に抵抗があるのです。
なので、問題がある方は
>>887あたりで対処していただけないかと。
(今後気持ちが変わるかもしれませんが)

904名無しさん:2015/05/28(木) 03:26:07
Monazilliaが弾かれるわけじゃなくてhtmltodatが弾かれてるのが現実なのに
Monazilliaを問題にするのは相当なこだわりがあるように見受けられますが?
使う人の利便性を考えたら、Monazilliaを名乗るのはこだわり次第として、
htmltodatを入れるのは止めておいたほうが良くはありませんか?

905 ◆/vmukiyuzw:2015/05/28(木) 04:07:07
>>904さん
Monazillaにもhtmltodatにも何のこだわりもありません。
>>887で対処できるのに何の文句があるの?て感じですが
次のバージョンでは文句出ないようになんか考えます。

906名無しさん:2015/05/28(木) 13:13:48
User-Agent: Mozilla/4.0

でいんじゃね?

907名無しさん:2015/05/28(木) 17:42:31
受信オプション設定のHTTPヘッダ一覧
UA変更1がUser-Agent: Mozilla/5.0
なんだからそれでいいじゃん

908 ◆/vmukiyuzw:2015/05/28(木) 19:57:18
バージョンアップしました(0.11.8)
 ・前バージョンの解像度問題の対処が不十分だったため再度修正。
 ・User-Agentの変更。

メインの変更は>>879でやった人柱バージョンの正式リリースですが
ここんとこ問題になってたUser-Agentもとりあえず変更しました。

「とりあえず」というのは、前バージョンまでの「htmltodat」を含むUAが
ピンポイントではじかれたんであれば、今バージョンでのUAも
対策される可能性がないとは言い切れないと思うのです。
まあそのときはそのときでまた考えるしかないんですが。

909名無しさん:2015/05/28(木) 22:33:35
大感謝祭

910名無しさん:2015/06/06(土) 03:45:47
バージョン0.11.8だけど、誤検出王のNortonで「WS.Reputation.1」が検出されて消されちゃいましたよ
復元して対象外にしたけど

911名無しさん:2015/06/27(土) 17:48:36
なくなってしまったワイワイカキコの板のスレをInternet Archiveから取得してみようとしているのですが
変換が上手くいきません

↓例
https://web.archive.org/web/20090924202521/http://yy700.60.kg/yaruo/kako/1249/12499/1249978566.html

まず、URLを指定して「HTML変換」を押すと
「IOHnadler value is not valid」
というエラーが出てしまいます。

しかたないのでHTMLをデスクトップに保存して
「一覧表示」からひとつずつ試しましたが
変換できないか、変換できたDATのサイズが元板から取得したDATとサイズが合いません
(ワイワイカキコが生きていた頃に取得したDATと、そのスレのInternet Archiveのページを変換したDATとを比較)
>>119の方のを試してみてもダメでした

正規表現のどの部分をいじればいいのでしょうか?

912名無しさん:2015/06/27(土) 18:46:58
>>911
html2datはhttpsに対応していないはず。(ですよね?)
httpで取得すれば「IOHandler value is not valid」はでない。

そのまま取得あるいはダウンロードすると本来はUTF-8で開くはずがcharsetのせいでShift_JISで開く。
ローカルで
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
と、charsetをUTF-8に変えて保存し直すこと。

913 ◆/vmukiyuzw:2015/06/28(日) 23:02:35
>>911さん

>>912さんのご指摘のとおり、htmltodatは現状httpsには対応していないので
URLをhttp://に修正して取得してください。

で、charsetのせいで文字コード変換がうまくいかないのも
>>912さんのご指摘の通りなのですが、もう少し楽に対処する方法が。

・htmltodatを起動後、ウィンドウ上の何もないところ(例えばプレビュー欄の右上など)
 をダブルクリックする。今まで見えなかったボタン等がいろいろ出現する
・ウィンドウ最上段、「文字コード自動判別」チェックボックスをオフにする
・URLを入力しHTML取得
・URL欄の下の「ソース文字コード」で「UTF-8」を選択
・その右の「->SJIS変換(J)」(ちょっとわかりにくいけどボタンです)を押す

これで手動(?)文字コード変換ができます。
(文字コード自動変換をサポートしてなかった時の名残の機能)
# 文字コードはcharsetを見なくても自動判別できると考えられるため
# いっそ一切見ない方法も今後検討します

以上をやった上で、>>911のURLのHTMLの形式は
2chのread.cgiと同じみたいなので正規表現としては
「read.cgi7.00?」が使えるんじゃないでしょうか。
もしくは元datにより近づけるには>>807のほうがいいかもです。

914名無しさん:2015/07/01(水) 23:24:28
おーぷん2ちゃんねるの変換はどのようにしたらいいのでしょうか?
http://awabi.open2ch.net/test/read.cgi/news4plus/1396515469/
なのですが

915 ◆/vmukiyuzw:2015/07/02(木) 01:18:38
>>914さん
htmltodatで変換してdatを得ることはもちろん可能だと思うのですが
それ以前におーぷん2ちゃんねるって基本的に2chのdatと互換ですよね?
お使いの専用ブラウザによって方法はいろいろかもしれませんが
open2ch.netを読める設定にすればhtmltodatは不要だと思うのですが。

私の環境ではボード一覧取得のURLを
http://kita.jikkyo.org/cbm/cbm.cgi/20.p0.m0.sc.op/-all/bbsmenu.html
にしてるのですが(scやおーぷんも読める設定)、
>>914のURLは何も意識せずとも読めましたけど。

そういうのがしたくなくてどうしてもhtmltodatで変換したいということなら
またご相談ください。

916914:2015/07/06(月) 00:37:15
>>915
あれ?取れますか
JaneViewで取得できなかったので質問させてもらったんですが、どうやらおま環だったようですね
ありがとうございます

917名無しさん:2015/07/06(月) 02:21:21
>>916
URLを変えただけじゃダメでボード一覧にopen2chのエントリがちゃんと設定されてないとダメ
具体的には、板一覧の更新を実行(更新されなかったらCTRLキーを押しながら実行)

918 ◆/vmukiyuzw:2015/07/06(月) 21:33:05
>>916
数種類の専用ブラウザでいろいろ試してみたのですが
Jane系では>>914のスレはdat落ち扱いになる?ようで、
http://awabi.open2ch.net/test/read.cgi/news4plus/1396515469/ のURLでなく
http://awabi.open2ch.net/news4plus/kako/1396/13965/1396515469.dat のURLでアクセスしようとして
エラーになるみたいです。(subject.txtに存在するかどうかでアクセスするURLを読み替えている)
他の専ブラではボード一覧を変えなくても読めたりボード一覧を>>915にするだけで読めたりするので、
Jane系でのURLを読み替える動作は、こういう場合はあまりうまくないような感じです。

とりあえず、専ブラで直ではないですがdatを取得する方法としては、
>>914のようなおーぷん2ちゃんねるのスレは汎用ブラウザで開くと一番下にdatへのリンクがあるんで、
そこからダウンロードする方法があります。
(おーぷんでの過去ログの扱いがよくわかってないので常に通用する方法かどうかわかりませんが)
htmltodatでやるなら以下の手でURLだけ読み替える方法もあります。


コメント:
# おーぷん2ちゃんねるを変換その1(URLのみ)

URLの変換:
s`(http://.*?)/test/read\.cgi/(.*?)/(\d+)/.*`$1/$2/dat/$3.dat`

dat変換をしない(前処理のみ行う):
true



あと、htmlから変換するための正規表現等も一応考えてみました。
おーぷん独自の仕様を把握し切れてないので抜けがあるかもですが。


コメント:
# おーぷん2ちゃんねるを変換その2(HTMLを変換)

URLの変換:
s`(http://.*?/test/read\.cgi/.*?/\d+/).*`$1`

プレビューを表示しない:
true

後処理:
# ID周りのごちゃごちゃを処理
s`<span\ (?:class=_id\ )?val=.*?><a\ .*?>(.*?)</a>(?:<font\ .*?>)?(\(.*?\))?.*?</span>`$1$2`ig

正規表現:
m`
<dt\ res="?(\d+) # レス番
.+?(?:mailto:(.+?)>)? # メール欄
<b>(.+?)</b>(?:</font>|</a>)+ # 名前欄
\ ?:(.*?) # 投稿日・ID
<dd.*?>\ ?(.*?)<br><ares.*?> # レス本文
`mikx

919名無しさん:2015/07/20(月) 03:20:31
UAがUser-Agent: Mozilla/5.0だと弾かれるようになったので
個人の汎用ブラウザのUAにしてdat取得には一応成功したのですが
右側のプレビューとdat変換結果枠の下のスレ数とかが出ていた部分が
なにも表示されなくなりました

これを直すことはできますか?

920 ◆/vmukiyuzw:2015/07/20(月) 19:35:34
>>919さん

> 右側のプレビューとdat変換結果枠の下のスレ数とかが出ていた部分が
> なにも表示されなくなりました
> これを直すことはできますか?

変換オプションの「プレビューを表示しない」をオフにしてください。
(二重否定表現になっちゃってややこしいですが「表示する」にするということです)
デフォルトではオフ(false)なので、多分prmファイルでオン(true)に指定されてるのかなと思います。

以前、prmファイルを使ってスクリプト等から呼び出せるように修正した頃に
プレビューの表示処理はちょっと重いしスクリプト等から呼ぶ場合は不要だなと思ったので
オプションでオンオフできるようにしたのです。(>>785参照)


しかしまあ、>>908で変更したUAが

> UAがUser-Agent: Mozilla/5.0だと弾かれるようになったので

になっちゃったのは気づいてませんでした。懸念していた通りのことが起きてしまった。
当たりさわりのなさそうなものにしたつもりが、それでもアウトなんですかね。
自力でUAを変更できる手段は一応用意してるとはいえ、今後どうしたものか。

921名無しさん:2015/07/20(月) 21:19:19
UAはIEの設定かデフォルトブラウザの設定を引っ張ってきたらどうかな

922 ◆/vmukiyuzw:2015/07/21(火) 03:14:29
>>921
ブラウザのUAなんてプログラムソースにハードコーティングされてるようなものじゃないんですか?
私が無知なので申し訳ないんですがそれを外から引っ張る方法をご存じなら是非ご教示いただきたく。
一応レジストリを検索してみて、IEのUAかなと思われるエントリはあったのですが
Monazilla/4.0 とかになってたんでこれ実際に動いてるものじゃないんじゃないのって思いました。

923 ◆/vmukiyuzw:2015/07/21(火) 03:23:18
>>922
ハードコーティング→ハードコーディング
Monazilla→Mozilla
眠いんでいろいろ間違え気味です

924名無しさん:2015/07/21(火) 22:46:42
IEのUAは以下の説明を参照されたし。
https://msdn.microsoft.com/en-us/library/ms537503(v=vs.85).aspx
https://msdn.microsoft.com/ja-jp/library/ms537503(v=vs.85).aspx (日本語。若干情報が古い)
https://msdn.microsoft.com/en-us/library/ff986085(v=vs.85).aspx (IE9での変更部分)
https://msdn.microsoft.com/en-us/library/hh869301(v=vs.85).aspx (IE10〜Edge)

925919:2015/07/22(水) 02:46:31
>>920
遅くなりましたがありがとうございます
無事解決しました

926 ◆/vmukiyuzw:2015/09/09(水) 00:49:00
また2ch.netのread.cgiで読めない不具合が起きているようなので
>>884のびんたんからの変換を修正してみました。
(自分にできそうなのはそんくらいしかないので・・・)
最近あちこちの板で見かける、名前欄にいろんな送信元の情報?を含んで
表示されるケースに対処できてなかったので修正しました。


コメント:
# びんたんの読み込みをdatに変換してみる ver.2

URLの変換:
s`http://(.+?\.2ch\.net)/test/read\.cgi/(.+?)/(\d+)/?.*`http://bintan.ula.cc/test/read.cgi/$1/$2/$3`

前処理:
# スレタイ置換
s`<title>.*?</title>``
s`<div class="topic_name_inner_left">\s*?<p>(.*?)</p>`<title>$1</title>`i
# レス1だけ形式が違うので他と合わせる。名前欄の内容にspanタグが含まれることがあるのでそれとぶつからないよう注意
s`<span\ id="read_one_body(?:.|\s)*?<span>\s:\s(.*?)</span>\s*</div>\s*</div>`<a\ class="respop">1</a>.<b>$1</b>`i
s`<div\ style="clear:both;"\ class="topic_date">(.*?)</div>(?:.|\s)*?(<div\ class="honbun">.*?</div>)`$2<font>$1</font>`i

アンカー削除:
false

変換結果式:
$3<>$2<>$5<>$4<>

後処理:
s`<a\ href=.*?>``ig
s`</a>``ig

正規表現:
m`<a\ class="respop".*?>
(\d+) # レス番
</a>.+?<b>
() # メール欄情報は存在しないためダミーに
(.*?)</b> # 名前欄 </b>を複数含む場合があるため単に最短一致ではなく後続<div class="honbun">のみマッチさせる
\s*?<div\ class="honbun">
(.*?) # レス本文
</div>.*?<font.*?>
(.*?) # 投稿日 一般的なhtmlと違いレスの後ろに付いている(よって変換結果式で引っくり返しが必要)
</font>`mikx

927 ◆/vmukiyuzw:2015/09/10(木) 22:54:02
>>926
これで変換したdatを専ブラで読んでみるとなぜかレスアンカーがリンクにならない・・・
調べてみると、例えば>>1のようなレスアンカーは本来html上では&gt;&gt;1と表現されるべきものが、
びんたんではそのまま>>1と出力されているのがまずいみたいです。
(むか〜し昔read.cgiでもあった事象です。>>72-78あたり)

とりあえずの対処として、後処理の最後に以下を足して下さい。


s`>>`&gt;&gt;`ig

928名無しさん:2015/09/17(木) 14:19:08
>>927
>>924から組み立てているのかどうかは判らないが
IEコンポーネントを使ってるブラウザDountRAPTは自動的にUAを初期化してる
ソースも公開されてるので興味があれば調べてみては?

929 ◆/vmukiyuzw:2015/09/18(金) 01:05:32
>>924さん>>928さん
アドバイスありがとうございます。
技術的にどうすればいいかはある程度イメージはあるんですけど
あんまりやる気は起きないってのが正直なとこです。

前から書いてますがUAを自力で変える手段は提供してますし
それを使えないような方はそもそもこのソフトを使えないんじゃないかと思います。
こういう言い方はちょっとどうかとも思いますが
もともと万人が使えることを目指したものでもないんで。

930 ◆/vmukiyuzw:2015/09/22(火) 00:31:49
びんたんが吐くhtmlが微妙に仕様変更されてて
>>926-927 ではうまく変換できなくなっているようなので修正しました。


コメント:
# びんたんの読み込みをdatに変換してみる ver.3

URLの変換:
s`http://(.+?\.2ch\.net)/test/read\.cgi/(.+?)/(\d+)/?.*`http://bintan.ula.cc/test/read.cgi/$1/$2/$3`

前処理:
# スレタイ置換
s`<title>.*?</title>``
s`<div class="topic_name_inner_left">\s*?<p>(.*?)</p>`<title>$1</title>`i
# レス1だけ形式が違うので他と合わせる。名前欄の内容にspanタグが含まれることがあるのでそれとぶつからないよう注意
s`(<a\ class="respop".*?>1</a>\ :\ )(.*?)\ :\ `$1<b>$2</b>`i
s`<div\ style="clear:both;"\ class="topic_date">(.*?)</div>(?:.|\s)*?(<div\ class="honbun">.*?</div>)`$2<font>$1</font>`i

アンカー削除:
false

変換結果式:
$3<>$2<>$5<>$4<>

後処理:
s`<a\ href=.*?>``ig
s`</a>``ig
s`>>`&gt;&gt;`ig

正規表現:
m`<a\ class="respop".*?>
(\d+) # レス番
</a>.+?<b>
() # メール欄情報は存在しないためダミーに
(.*)</b> # 名前欄 </b>を複数含む場合があるため単に最短一致ではなく後続<div class="honbun">のみマッチさせる
.*?<div\ class="honbun">
(.*?) # レス本文
</div>.*?<font.*?>
(.*?) # 投稿日 一般的なhtmlと違いレスの後ろに付いている(よって変換結果式で引っくり返しが必要)
</font>`mikx

931名無しさん:2015/12/09(水) 00:05:11
すみません
質問させてください

http://hanabi.2ch.net/test/read.cgi/anichara2/1447210834/
このスレが12/2の438までは上手く変換できてたのですが
それ以降設定を弄ってないのに「一行が長すぎるか正規表現が正しくないようです」とでるようになりました
HTMLは取得できています
正規表現は12/2以前もそれ以降も0.26その2を使っています
自分が見ている他のスレは同じ仕様(0.26その2)で変換できていてこのスレだけ引っかかりました

どこを直したらいいでしょうか

http://2chdays.net/anichara2/dat/1447210834.dat
これで583までは取得できたのですが残りができませんでした

932名無しさん:2015/12/09(水) 00:11:42
追記
どうやらhanabi.2ch.netだけおかしくなるみたいです

933 ◆/vmukiyuzw:2015/12/09(水) 00:47:05
>>931さん
えっと、このスレでは話題に上がってなかったんでスルーしてたのですが
2chの一部のサーバでread.cgiの仕様変更があって返ってくるhtmlの形式が
ガラッと変わっています。
なので従来の正規表現等では変換できないケースが出ています。

で、次レスで一応対応したつもりの正規表現等を紹介しておきます。
ただ、それ以前に若干の疑問が。

正規表現「0.26その2」とは「DAT2HTML0.26その2」のことですよね?
それはそもそも2chのread.cgiに対応しているものではないはずなんですが。
その時点でなんか勘違いがあるんではないかと不安になります。

934 ◆/vmukiyuzw:2015/12/09(水) 00:55:19
read.cgi 06系対応版。
05系と統一できないか考えてたのですがちょっと難しそうなので
とりあえずそのまま出します。使う側で使い分けが必要なのは
申し訳ないです。


コメント:
# 2chのread.cgiからの出力を変換-20151208
# 2chのcgi仕様変更(06系)に対応
# まだ今後の推移が読めないので様子見バージョン

URLの変換:
s#http://(.+?)/test/read\.cgi/(.+?)/(\d+)/?.*#http://$1/test/read.cgi/$2/$3/#

アンカー削除:
false

後処理:
# BE周りの処置
s#<img src="http://(img\.2ch\.net/.+?)">#sssp://$1#igk
s#</div><div class="be .*?><a href="http://be\.2ch\.net/user/(\d+).*?>\?(.*?)</a># BE:$1-$2#ig
# jump.2chは無駄なので取っ払う
s#<a href="http://jump\.2ch\.net.*?>(.*?)</a>#$1#igk
# フルパスを相対パスに変換(やらなくても問題ないかもしれないが一応昔の仕様に合わせる)
s#<a href="http://.*?\.2ch\.net/(test/read\.cgi/.*?/\d+/\d+)#<a href="../$1#igk
s#<a href="http.*?>(.*?)</a>#$1#igk
# お絵かき機能のimgタグを除去
s#<img src="(.*?)">#$1#igk

正規表現:
m#<div\ class="number">([0-9]+).+?<div\ class="name"><b>(?:<a\ href="mailto:(.*?)">)?(.*?)(?:</a>)?</b></div><div\ class="date">(.*?)</div><div\ class="message">(.*?)</div>#mi

935名無しさん:2015/12/09(水) 15:11:45
横からですがありがとうござます。
やっと自作PC板のdatが取得できますた・・・

936 ◆/vmukiyuzw:2015/12/09(水) 22:56:18
えーと、従来のread.cgiも変更されてるので対応しておかないといけませんね。

元々正規表現「read.cgi7.00?」の発展形としてやってきたものなんですが
現在のread.cgiのバージョンは 05.02.02だって?
うーん、なんか巻戻ってるけどあまり気にしないことにしよう・・・
とりあえず>>934のものは06系、このレスのもの(従来のものの発展形)は05系と呼んで区別することにします。
>>807>>822あたりからの変更になります。


コメント:
# 2chのread.cgi 05系からの出力を変換-20151209
# 元datに近づけるためアンカー削除はオフにし
# 後処理で不要なもののみ削除する
# メール欄デコード処理は不要になったので削除
# バナー広告にマッチしないよう正規表現を修正

URLの変換:
s#http://(.+?)/test/read\.cgi/(.+?)/(\d+)/?.*#http://$1/test/read.cgi/$2/$3/#

アンカー削除:
false

後処理:
# アンカータグ削除(レスアンカーに対するタグは削除しない)
s#<a href="http.*?>(.*?)</a>#$1#igk
# BE周りの処置
s#<img src="http://(img\.2ch\.net/.+?)">#sssp://$1#igk
# 以下はhtmltodatの内部処理に組み込まれているので不要
#s#<a href=.?javascript:be\((\d+)(?:,\d+)?\).*?>\?(.*?)</a>#BE:$1-$2#igk

正規表現:
m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd>(.*?)<br><br>(<dt.*?>|</dl>|<div)#mi

937931:2015/12/11(金) 17:40:58
/vmukiyuzwさん

ありがとうございます
>>934でいけました

DAT2HTML0.26その2の件はかなり昔に何かでdat化できなかったときに
これを試したら出来てたのでそのままにしてました
いままで不便なく2ちゃんもdat化できてたのでほっておいたという次第です

938 ◆/vmukiyuzw:2016/03/18(金) 00:23:22
最近2ch.netの一部の鯖でhtmlベースでの過去ログが取得できない不具合が出ているようですが。
2ch.netでdat落ちしていても2ch.scで拾われてるケースが多いので、これをなんとかできないか
考えてみました。

最初、単に2ch.netでのURLを2ch.scのURLに読み替えればいいかと考えたのですが
鯖名(xxx.2ch.netのxxxの部分)が異なる場合もあるので単純には変換できない。
どうしたものかと考えたのですが、ふと気づいたのは
2ch.scに拾われてるということは、取得先を2ch.netから2ch.scに切り替えた「ログ速」でも
かなりの確率で拾われていると考えられます。

となるとhtmltodatにも出番がありそうです。「ログ速」からの変換は>>820
Jane系であればhtmltodat-convert2のスクリプトも使えます。

939名無しさん:2016/03/18(金) 01:32:08
頑張ってください!

940名無しさん:2016/03/31(木) 02:40:07
>>938
お疲れ様です、いつも利用させてもらってます

>>820の方法で echo鯖(軍板)のdat落ちのログを変換して
jane style ver3.81 に落とし込むことができ
jane styleに表示は可能ですが、改行?がされておらず(横方向に長い)
非常に読みにくい表示になってます

この状況の改善は可能でしょうか、よろしくお願いします。

941名無しさん:2016/03/31(木) 07:05:33
>>940
ログ速の?URLを貼ってください

942名無しさん:2016/03/31(木) 11:28:42
質問です
今は存在しない外部掲示板のdatを取得することは可能でしょうか?
ちなみに太陽板というなりきり掲示板でした

943 ◆/vmukiyuzw:2016/03/31(木) 21:50:29
>>940さん
>>941さんのおっしゃるとおりで、具体的なURLを示して頂かないと検証できません。
ただ、URLはログ速のものでなくても元スレ(2ch.netのもの)でもいいです。
>>820のパラメータの中でURLを読み替えるようになっているので)


以下は推測にすぎないのですが。
改行がされていない?という状況だと、レス内の<br>タグが何らかの理由で
削除されてしまっているのではないかと思います。
>>820をそのまま使用していた場合そんなことにはならないはずですが
以前、JaneでReplaceStr.txtを使用していた場合に
このスレの表示の一部が変更されてしまい、パラメータをコピペする際に
内容が変わってしまって不具合が起きたということがありました。
今回のケースもそれかもしれないという気がします・・・

>>820をJaneStyleからではなく、IE等の汎用ブラウザからコピペしても
同じ結果になるか試してみてください。


新着レスの表示


名前: E-mail(省略可)

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)

掲示板管理者へ連絡 無料レンタル掲示板