[
板情報
|
カテゴリランキング
]
したらばTOP
■掲示板に戻る■
全部
1-100
最新50
|
メール
|
1-
101-
201-
301-
401-
501-
601-
701-
801-
901-
1001-
1101-
この機能を使うにはJavaScriptを有効にしてください
|
htmltodatサポートスレッド
1
:
</b><font color=#FF0000>(L44UP/ps)</font><b>
:2002/11/30(土) 01:48
QA・要望等受け付けるかもしれない(?)スレッドです。
作者にスキルがないのでできないことが多いかとは思います。
417
:
名無しさん
:2007/01/25(木) 15:31:10
>>415
OS XP Media
htmltodat 0.8.9
エラーの内容「一行が長すぎるか正規表現が正しくありません」
「読込行:176/変換行:0/バッファサイズ:10100」
こうなりました
418
:
◆/vmukiyuzw
:2007/01/25(木) 21:12:33
>>416
さん
URLの先頭から dattohtml.pl? までを削って
http://mimizun.com:81/log/2ch/hgame2/idol.bbspink.com/hgame2/kako/1163/11635/1163503512.dat
にすれば直接datを落とせます。
どうしてもhtmlから変換したいということなら
>>398
でできると思います。
419
:
◆/vmukiyuzw
:2007/01/25(木) 21:25:00
>>417
さん
ご報告ありがとうございます。
申し訳ないのですが最後にもう一点だけ確認していただけないでしょうか。
>>382
の正規表現の最後に k を付けて
m#<dl><a.+?>\t([0-9]+) 名前:(?:<font color="forestgreen">|<a href="mailto:(.+?)">)<b>(.*?)</b>(?:</a>|</font>):(.+?)<dd>(.+?)</dl>(<dl>|<hr)#mik
これでもエラーになるでしょうか?
420
:
416
:2007/01/25(木) 21:59:16
>>418
ご回答いただき誠にありがとうございます。
また、よく調べもせずに安易に質問して申し訳ございませんでした。
421
:
名無しさん
:2007/01/25(木) 22:23:09
>>419
同じエラーになりました
読込行100を過ぎたあたりからスピードが遅くなっています
422
:
◆/vmukiyuzw
:2007/01/26(金) 22:11:01
>>421
さん
再度のご報告ありがとうございます。
残念ながら、エラーになる原因がわからないです。
>>411
がOKで
>>419
がエラーになる理由もわかりません。
(正規表現上での違いは一箇所しかないのです・・・でもそこが
エラーになる原因とは考えにくいのです)
これ以上はおそらく環境の問題だと思うのですが、
>>421
さんのPCを
直接触らせていただくくらいしか調べる方法が思いつかないので、
この件は申し訳ないですがいったん中断にさせてください。。。
もし他に何か思い当たる点があればご報告頂きたくお願いします。
423
:
◆/vmukiyuzw
:2007/02/09(金) 23:29:31
>>422
の続きですが
このスレ自体をブラウザで表示した際に、
>>419
のように書いたな正規表現が
ワードラップの関係で途中で改行されて、そこに不要な半角スペースが
入ってしまう可能性があるようです。
ブラウザの文字サイズを最小にするか表示領域の横幅を最大にして
改行されない状態でコピペするとうまくいくかもしれません。
424
:
◆/vmukiyuzw
:2007/02/10(土) 00:01:46
makimo.to(にくちゃんねる)のhtmlを現状でdat化する方法を
まとめておこうかな。
・「受信オプション」-「HTTPヘッダの追加」で
Cookie: text=dat<>1<>0<>false<>mycss=<>0<>0<>3000<><><><>
または
User-Agent: Monazilla/1.00 (htmltodat/0.8.9)
を指定する。
・該当のURLを入力してHTML取得(この時点でdat形式で取得されるはず)
・「変換オプション」-「前処理」で
w $SELECTFILE.dat
を指定する。ついでに「dat変換をしない(前処理のみ行う)オプションを
チェック。
・「変換開始」ボタンを押すとファイルの保存ダイアログが出てくるはず。
で任意のフォルダにdatを保存。
現状ではログを7日間しか保持されていないそうなので、それ以前にdat落ちした
ログとかでは無理ですが、そうでなければこちらの方法のほうが簡単だと思うので。
425
:
◆/vmukiyuzw
:2007/02/10(土) 02:34:36
>>424
の方法はちょっと保留にさせてください。
なんかdatの最後にゴミがくっついてくる場合があるようで・・・
にくちゃんねる側の不具合の可能性もあるのですが
gzip圧縮で転送されてくるのでhtmltodat側での解凍の
不具合である可能性もあります。
調査します。
426
:
◆/vmukiyuzw
:2007/02/10(土) 15:24:41
バージョンアップしました。(0.8.10)
・gzip解凍の際に結果にゴミがついてしまうバグを修正。
・受信データの最後が改行コードであった場合に、改行コードが欠落して
しまうバグを修正。
今回は不具合対応のみです。
どちらも結構前からあったバグだと思われますが、
gzip解凍のゴミ:gzip圧縮されたデータを扱うこと自体が少なかったと
思われるのと、html→dat変換に必要ない部分は基本的に見ていないので
問題とはならなかったと思われます。
改行コードの欠落:これもhtml→dat変換には関係ない部分ですので
発覚しなかったと思われます。
いずれも、
>>424
の方法で直接datを取得しようとして「何か変だ・・・」
と思い調べてみると発覚したものです。
改行コードの欠落については、ブラウザによっては問題なく読めるものも
あったのですが、最後1レスを認識しなくなるブラウザもあったので
対応しました。
427
:
名無しさん
:2007/02/18(日) 13:13:05
http://kiritsukegomen.hp.infoseek.co.jp/log/jisaku1145017036.html
のログを変換しようとすると、「1行が長すぎるか正規表現が正しくないようです」
となって読み込みが途中で止まってしまいます。
ここの他のログはread.cgi7.00?で変換できたのですが、このログだけダメです。
正規表現をどう変えればいいのでしょう?
428
:
663
◆fnwcOWFi56
:2007/02/18(日) 15:15:50
>>427
さん
makimo.toさんのhtmlをブラウザ保存したものみたいなので
下の正規表現で何とかなるかもです
m#<dt>([0-9]+) 名前:<span .*?>(?:<span title="(.*?)" class="?sage"?>|<a href="mailto:(.*?)" class="?mailto"?>)? ?(.*) (?:</a>|</span>)?</span> ?(.*?) <br>(?:</dt>)?<dd> *?(.*?) <br> *?<br> *?(<a name.*?>|</tl>|(?:</dd>)?</dl>)#mik
前処理その他は
>>362
でいいのかも
429
:
427
:2007/02/18(日) 16:44:04
早速ありがとうございます。
>>362
の$boardを変更するとうまくいきました。無料サポありがとうございます。
430
:
<削除>
:<削除>
<削除>
431
:
663
◆fnwcOWFi56
:2007/03/09(金) 19:24:26
いつもお世話になっております。
また要望よろしいでしょうか。
後処理でもwコマンドを使えるようにしては頂けないでしょうか。
現状ではwコマンドは前処理でのみ使えるのですが
後処理でも使えるなっていれば有り難いです。
例えばdatの保存先フォルダを自動取得して
それが
C:\My Documents\Nida070202\Logs\2ch\案内\ガイドライン\1165245437.dat
だった場合
後処理でwコマンドが使えたら
w C:\My Documents\DoeView051128\NidaUTF8\Nida070202\Logs\2ch\案内\ガイドライン\1165245437.dat
とやれば、dat変換完了と共に該当フォルダに保存出来るので嬉しいのですが。
もし可能でしたらお願い致します。
432
:
◆/vmukiyuzw
:2007/03/09(金) 22:38:04
なるほどそういう用途がありましたか。目からウロコです。
実は現状の仕様は
・前処理:読み込んだHTML全体に対して作用するようになっている
・後処理:変換結果のdatの一行ずつに作用するようになっている
ので、単純に前処理と同じように処理したのではたとえばdatが1001行あれば
wコマンドでの保存処理も1001回行うことになってしまい非常に効率が悪い
ことになってしまいます。
・・でも考えてみると、前処理と後処理で仕様が異なっているのには
特に深い理由はなく、
・前処理:相手にするHTMLがどんな形式かわからない。ので一行ずつ処理するのは
意味がない可能性があるので、全体に作用するようにした
・後処理:dat形式に整形された後なので形式はわかっている。であれば一行ずつ処理
するほうが簡単かなと思った
ということだったりします。
で、後処理のほうも前処理同様一行ずつではなく変換結果全体に作用するように
仕様変更すればいいのかもなのですが、今の仕様を前提に後処理を使っている人が
もしいたら困られるかもしれないです。(まずいないだろうとは思うのですが・・・
大抵代替手段はあると思いますし)
なのでしばらくペンディングにさせてください。
仕様変更されたら困ると言う方がおられればご報告ください。
433
:
663
◆fnwcOWFi56
:2007/03/23(金) 20:19:37
# ペンディングの件理解しました
# お気が向いた時にお願い致します
毎回すみません。
再び要望と正規表現を教えて頂きたく思います。
まずは要望ですが
各種設定をURLに含めるタイプのものに対応して頂けないでしょうか。
具体的な例をあげると
例えば下のスレッド
(1)
http://s.s2ch.net/test/-/wwwww.2ch.net/news4vip/1174582871/1-1001
これだと「省17」等で省略されたり
ID・AASのリンクがついてしまっています。
最下部の設定(「設」)で変更すると
設定はクッキーではなくURLに含まれてしまうようです。
とりあえず下記
(2)
http://s.s2ch.net/test/---.uaY!FROM=&mail=&color=000000+efefef+0000FF+0000FF+FFFFFF&size=3&NG_NAME=&NG_MAIL=&NG_DATE=&NG_MESSAGE=/wwwww.2ch.net/news4vip/1174582871/1-1001
つまり、省略やその他設定を変更するには
URLの
「〜test/-/server.2ch.net/〜」
を
「〜test/---.uaY!FROM=&mail=&color=000000+efefef+0000FF+0000FF+FFFFFF&size=3&NG_NAME=&NG_MAIL=&NG_DATE=&NG_MESSAGE=/server.2ch.net/〜」
に変えればいいみたいです。
見たところ、この文字列は他でも大体同じようなので
htmltodatのほうで対応しては頂けませんでしょうか。
つまり、例えば(1)のURLを入力実行すると
(2)のURLで送信取得するというように。
434
:
663
◆fnwcOWFi56
:2007/03/23(金) 20:41:44
次に、これのdat化について教えて頂けないでしょうか。
URL再掲
http://s.s2ch.net/test/---.uaY!FROM=&mail=&color=000000+efefef+0000FF+0000FF+FFFFFF&size=3&NG_NAME=&NG_MAIL=&NG_DATE=&NG_MESSAGE=/wwwww.2ch.net/news4vip/1174582871/1-1001
これに対する正規表現を考えてみたのですが
メール欄の箇所がうまくマッチしないです。
いちおう考えてみたものは下記
m#(?:<form action=i>|<br><br>)([0-9]+):<font color=forestgreen><b> </b>(.+?)<b> </b></font>(?::(.+?))?:(.+?) <br>(.+?)(<br><br>)#mik
変換結果式はメール欄逆転で。
途中の数レスが変換出来ないですが
beリンクの箇所のようなので、前処理で何とかなると思うです。
問題はメール欄で
メール欄未記入の場合
</font>:2007/03/23(金) 02:01:11.88 ID:hWYzwspD0 <BR>
メール欄に記入されている場合
</font>:sage:2007/03/23(金) 02:22:50.98 ID:CU23YYu/0 <BR>
というように
「</font>」と「:(日付)」の間にメール欄が(ある場合は)入るのですが
これはどのように切り分ければ良いのでしょうか。
435
:
◆/vmukiyuzw
:2007/03/24(土) 00:34:13
>>433
htmltodat流にやるなら、やっぱ正規表現を指定して変換するとかでしょうかね。
たとえば
s#(
http://s.s2ch.net/test/)-(.*)
#$1---.uaY!FROM=(中略)NG_MESSAGE=$2#
みたいな感じで。
>>434
多少強引ではありますが以下のようなのでどうでしょう。
m#(?:<form action=i>|<br><br>)([0-9]+):<font color=forestgreen><b> </b>(.+?)<b> </b></font>(?::([^/]+?))?:(.+?) <br>(.+?)(<br><br>)#mik
単にコロンとコロンの間にマッチさせようとすると、時刻表示の中のコロンに引っかかって
おかしくなってしまうので、[^/]+?としてみました。
(スラッシュ(日付表示の中に登場する)以外の繰り返し+コロンにマッチさせることで
結果的に時刻表示中のコロンにマッチさせるのを避けている)
これでもメール欄中にスラッシュがあるとまずいのですがまあそんなのは
レアケースだろうということで。
436
:
◆/vmukiyuzw
:2007/03/24(土) 01:01:53
よく考えるとメール欄中にスラッシュというのは本来の使い方からすると
決してレアケースではないはずですね^^;
まあそういう使い方が現状ではレアケースってことで。
437
:
663
◆fnwcOWFi56
:2007/03/24(土) 17:49:31
即レスありがとうございます
> (スラッシュ(日付表示の中に登場する)以外の繰り返し+コロンにマッチさせることで
> 結果的に時刻表示中のコロンにマッチさせるのを避けている)
目からウロコでした。こういう使い方も出来るとは勉強になりました。
URLを正規表現で指定して変換するような機能ですが
あったら嬉しいです。
2chのURLを入力してsnapshotの該当URLに変換するとしたら
s#(http://.+)#
http://p2.chbox.jp/read.php?url=$1/all
#i
とか。
やって頂けたら嬉しいです。
438
:
◆/vmukiyuzw
:2007/03/24(土) 23:58:30
URLを正規表現で変換するような機能なら多分受信オプションに追加して
他のオプションと同様選択とか追加とかできるようにする感じですかね。
しかしまあ個別にオプションを指定するのは汎用的かもしれませんが
面倒かもしれないなと思う今日この頃。
まとめていっぺんに指定(とか保存)とかできるようにしたほうがいいのだろうな
しかしどうやってやればいいのかと考える次第です。
439
:
名無しさん
:2007/03/30(金) 09:50:52
えと、2ch DAT落ちスレ ミラー変換機 ver.4 で検索してその22に目的のスレありました。
その22:ttp://namahage.dip.jp/public/2ch_s/read.asp?url=
http://pc8.2ch.net/test/read.cgi/cg/1147348472/
変換方法教えてもらえませんでしょうか。
スレ違いだったらすみません。
440
:
439
:2007/03/30(金) 11:08:10
色々ググって解決しました。
生禿さんとこは以下でいけるようです。
お騒がせしました。
正規表現
m#<dt>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b> ?(.*?)<dd> ?(.*?)<br><br>(<dt>|</dl>)#mi
前処理
s#(<title>.+?) ?\(\d+\)(</title>)#$1$2#
s#<font color="red">生禿あぼーん</font>#あぼーん#igk
s#(<b>)ナナシ(</b>)#$1$server$2#igk
$server
名無しさん@お腹いっぱい。
441
:
◆/vmukiyuzw
:2007/04/01(日) 15:56:47
# 今年のエイプリルフールは特に何もないようなので・・・
バージョンアップしました。(0.8.11)
・受信オプション設定に「URLの変換」を追加。
・変換オプション・後処理の仕様を変更。
出力結果のdat一行ずつに対して作用するようにしていたのを、出力結果全体
に対して作用するよう修正。
また、前処理と同様のwコマンドを追加。
URLの変換については
>>433
,
>>435
,
>>437
参照。
後処理の仕様変更については
>>431-432
参照。
もし変更の影響が出た場合は、sコマンドの最後にgオプションとか付ければ
大抵回避できると思います。
442
:
名無しさん
:2007/04/05(木) 00:57:05
スイマセン。よろしいでしょうか
http://jbbs.livedoor.jp/computer/6306/storage/1169464997.html
上のURLをjbbs過去ログの正規表現で変換しようとしたのですが
[1行が長すぎるか、正規表現が正しくないようです]
と出てしまいます。(他の過去ログも同じ)
自分がやった方法は
1、URLをコピペしてHTML取得
2、一覧表示からjbbs過去ログを選ぶ
3、変換開始 ←ここで[1行が〜]
と出てしまいます。
ちなみに上記以外はどこもいじっていません…
解決策があればお願いします。
443
:
◆/vmukiyuzw
:2007/04/05(木) 01:30:23
>>442
さん
jbbsの過去ログの形式が微妙に変更されているようですね。
あわせて正規表現を以下のように変更してみました。
m#<DT><A.*?>([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<B> ?(.*?) ?</B>(?:</A>|</FONT>)(?: 投稿日)?: ?(.*?)(?:<BR>)?<DD>(.*) ?<BR><BR>#mik
一応、以前の形式とも互換性を取れるようにしたつもりです。
444
:
名無しさん
:2007/04/05(木) 01:48:50
>>443
夜更けにこのような迅速な対応…感謝します!!
早速使わせていただきました、datも問題なくばっちり一発でしたww
本当にありがとうございますm(__)m
445
:
名無しさん
:2007/04/11(水) 18:19:42
私も
>>442
の、[1行が長すぎるか、正規表現が正しくないようです]
のエラーが出て変換出来ませんが、
>>442
とは別なようでした。
2ch DAT落ちスレ ミラー変換機 ver.4の、その9のsnapshotなんですが
以下のようなアンカの多いレスで失敗しています。
>1>2>3>4>5>6>7>8>9>10
>11>12>13>14>15>16>17>18>19>20
>21>22>23>24>25>26>27>28>29>30
>31>32>33>34>35>36>37>38>39>40
>41>42>43>44>45>46>47>48>49>50
>51>52>53>54>55>56>57>58>59>60
>61>62>63>64>65>66>67>68>69>70
>71>72>73>74>75>76>77>78>79>80
>81>82>83>84>85>86>87>88>89>90
>91>92>93>94>95>96>97>98>99>100
このような場合はどうすればいいのでしょうか?
446
:
445
:2007/04/11(水) 18:28:40
アンカだけでなくURLリンクも多く貼られていると同様です。
447
:
445
:2007/04/11(水) 18:30:02
アンカだけでなくurlリンクも多く貼られていると同様です。
448
:
◆/vmukiyuzw
:2007/04/11(水) 20:21:10
>>445
さん
ミラー変換機その9(snapshot)の変換方法は
http://www.geocities.jp/mirrorhenkan/snapshot/
にまとめられてますが、もちろんこの手順通りに行った結果で
エラーになってるんですよね。
とりあえず、アンカーの多いスレ、URLリンクの多いスレの
(snapshotでの)URLを教えていただけると何とかできるかもしれません。
449
:
445
:2007/04/12(木) 09:18:03
>>448
殿、よろしくです。
ミラー変換機その9のものでもちゃんと変換されるものもありますし、IEでsnapshot開いて
該当スレをフィルタしたものをローカル保存したものであればちゃんと変換されますから
間違いは無いと思います。
ここの605
http://p2.chbox.jp/read.php?host=tmp6.2ch.net&bbs=download&key=1169907405&ls=all
ここの2、3
http://p2.chbox.jp/read.php?url=http://tmp6.2ch.net/test/read.cgi/download/1170602478/all
「read.cgi7.00?」でうまくいかない
http://web.archive.org/web/20050312081450/http://fun.kz/test/read.cgi/tech/1084697545/
450
:
名無しさん
:2007/04/12(木) 20:03:44
『2ch DAT落ちスレ ミラー変換スクリプトについて考える掲示板』
の649、651のにすると上手く変換できたようです。ありがとうです。
fun.kzとアンカーのは変換できましたが、urlリンクの方はfatal error
で失敗します。
ここの2、3
http://p2.chbox.jp/read.php?url=http://tmp6.2ch.net/test/read.cgi/download/1170602478/all
451
:
名無しさん
:2007/04/12(木) 20:36:38
アンカーもurlリンクのも変換できました。
向こうの652殿ありがとうです。◆/vmukiyuzw殿も <(_ _)>
452
:
451、445
:2007/04/12(木) 21:19:02
『snapshotのスレをdat化する試みについて』
更新されたんですね。(仕事早いなぁ)
更新されたのをコピペして新たにdat化しました。
ありがとうです。
453
:
名無しさん
:2007/04/17(火) 11:05:38
いつも便利に使わせていただいております
subject.txtの作成機能なのですが、
>>237
の2の場合で
当方不精なのもので、フォルダに関係の無いdatファイルが散らばっていることが多々あります
そこでアップロードしたサイトのディレクトリにあるdatから
subject.txtをローカルに生成するようなことはできますでしょうか
subject.txt生成機能自体が、メインでないとは存じますが
よろしければお願いします
454
:
◆/vmukiyuzw
:2007/04/17(火) 20:23:19
>>453
さん
うーむ、ちょっと難しい・・・
というのは、httpのプロトコルでは特定のサイトのディレクトリにある
ファイルの一覧を取得する方法が基本的にはないのです。
(http://なんたらかんたら/*.dat みたいにワイルドカードみたいなのは
使えないですよね)
で、ftpのプロトコルであればファイル一覧を取得できると思うのですが
htmltodatに付けようと思うとけっこうな改造になってしまう上、
労多くして実り少ないというか・・・
というわけで適当なftpツールでローカルにダウンロードして
subject.txt作成して頂く、というあたりで手をうってもらえないでしょうか。
(あ、「アップロードしたサイト」という文言から、ftpでのアクセスくらいは
許可されているはずと勝手に解釈して書いてますが、そうでなかったら
すいません)
455
:
名無しさん
:2007/04/18(水) 15:24:18
いつもお世話になっております。
このスレ
http://www.geocities.jp/log_matome/log/o7/1143077159.html
をdatにしたいのですが正規表現の一覧のどれを使っても変換できません。
「1行が長すぎるか正規表現が正しくないようです」と出てしまいます。
read.cgi7.00?ですと、変換は始めるのですがなかなか進まずそのうち固まってしまいます。
変換方法を教えていただけないでしょうか。
456
:
名無しさん
:2007/04/18(水) 16:33:52
>>455
さん
dat2htmlの形式が微妙に変更されているようですね。
あわせてDAT2HTML2.6の正規表現を以下のように変更してみました。
m#<DT>(?:<A.*?>)?([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>) :(.*?)<DD>(.*)<BR><BR>#mik
一応、以前の形式とも互換性を取れるようにしたつもりです。
>mukiyuさん
ほんの出来心で
>>443
を真似させて頂きました
ごめんなさい怒らないで下さい
457
:
◆/vmukiyuzw
:2007/04/18(水) 20:17:53
DAT2HTML0.32gというとこにデジャヴを感じたので、過去ログを探して見ると
>>151-152
,
>>173
で出ている話題ですね。
おそらくDAT2HTML0.32限定の問題と思われますが
>>456
さんの正規表現だとどちらでも対応できるのでこの方が良いですね。
> ほんの出来心で
>>443
を真似させて頂きました
真似されて困るほどオリジナリティのあるレスを書いてるとも思わないので
怒らないでくださいとか言われてもそもそも怒りようもないというか
逆に回答レス付けていただいて感謝するのみです。
458
:
455
:2007/04/19(木) 00:24:34
>>456-457
迅速な対応ありがとうございます。
無事変換できました。
本当にどうもありがとうございました。
>>457
以前に出ていたものだったのですね。すみませんでした。
459
:
◆/vmukiyuzw
:2007/04/19(木) 01:00:43
>>458
> 以前に出ていたものだったのですね。すみませんでした。
いえ、確かに既出の話ではありますが、2年近くも前の話でもありますし
そもそものんびりやってるスレなんで、私としては「過去ログ読め」とか
言う気は全くないのです。たまたま思い出したので書いただけで。
で、以前に出ていたもの(
>>151-152
)よりも
>>456
のもののほうが
汎用的で優れていると思うのでこちらのほうがお勧めだと思うのです。
460
:
名無しさん
:2007/04/19(木) 19:11:05
こっちに書いとくです
http://ex20.2ch.net/test/read.cgi/gline/1175735168/77
で出た
http://2ch.pop.tc/log/06/09/28/1555/1095611913.html
のdat化もさせるようにすると
下のようになるのではないかと思うです
m#<DT>(?:<A.*?>)?([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>) ?:(.*?)<DD>(.*)<BR><BR>#mik
461
:
◆/vmukiyuzw
:2007/04/20(金) 00:58:25
>>460
さん
この正規表現はDAT2HTMLの最新版(現時点では0.33hかな)に対応したもので
かつ以前の形式とも互換性が取れるようになっているものですね。
わざわざありがとうございます。
しかし変わった点は日付欄の前の全角コロンの前の半角スペースの有無だけですか。
htmltodatサイドから見るとこういう細かい変更を都度キャッチアップしていくのはとても
面倒なのですが、それはあくまでもこちら側の都合なのでどうしようもないですね。
なるたけ変更に強いような正規表現を書けるよう精進するしかないかな・・・
462
:
名無しさん
:2007/04/24(火) 04:22:38
すみません。2ch DAT落ちスレ ミラー変換機 ver.4
の、その23の変換はどのようにやれば良いのでしょうか?
463
:
663
◆fnwcOWFi56
:2007/04/24(火) 08:21:38
>>462
さん
デスクトップ2ch(
http://2chsearch.info
)のdat化は下記でどうでしょう
例:
http://www.2chsearch.info/?s=old&b=news4vip&d=1174091695
受信オプション→HTTPヘッダ
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
正規表現
m#<div.+?>([0-9]+) :<span.+?><b> ?(.+?)</b></span>\[(.*?)\] 投稿日:(.+?)<br><div.+?> ?(.+?) ?</div><br></div><br>#mik
前処理
s#(<title>)デスクトップ2ch:.+?:(.+?</title>)#$1$2#ik
変換結果式
メール欄逆転
これで出来ると思いますが留意点が二つ。
1 User-AgentからPCか携帯かを判別しているようで、
上のHTTPヘッダを付けないと携帯用ページ(40までしかない)を返してくるようです。
なのでUser-Agentを忘れないようにして下さい。
2 上の例だとレス1が 「(コピペ略)」というリンクになっていますが
dat化してもそのままです。
これはどうしようもないので各自で何とかして下さい(リンク先等を見て)。
464
:
◆/vmukiyuzw
:2007/04/24(火) 22:29:16
>>463
いつもありがとうございます。
ちょっと気になったのは名前欄に関してですが、VIPやニュー速の
ランダム名無しであれば細字になるはずなので前後に</b>,<b>がつくはずですが
このサイトではそもそも削除されているようですね。
前処理や後処理で加工するのも面倒そうですし、まああきらめるしか
ない感じですかね。
465
:
462
:2007/04/25(水) 13:54:46
ありがとうです。
>>463
様
「(コピペ略)」は切り貼りでもします。
しかし『デスクトップ2ch』って変ですね。1001で終わりのスレで
1040まで出てくるし。途中に「(コピペ略)」が挿入されてるのかな。
466
:
◆/vmukiyuzw
:2007/05/16(水) 22:45:38
バージョンアップしました。(0.8.12)
・変換オプションの前処理・後処理で不要な改行が含まれているとエラーになる
不具合を修正。
・前処理・後処理欄等の使い勝手を少し修正。
マウスでしか選択できなかったのをキーボード操作で選択できるようにした。
今回はまあ細かい修正のみです。
一つ目は、読み込んだ行が空行かどうか確認せずに行の一文字目を参照していたために
アクセス違反が起きてしまうという初歩的なバグなんですが、コンパイル時点で
ワーニングもなく参照できてしまう言語仕様もどうなんでしょうねえというか。
責任転嫁するなよと言われそうですが。
二つ目は、一覧が表示されて矢印キーで選択してリターンキーで確定、みたいな
動作を想定していたのですが、これも言語仕様上矢印キーの時点でイベントが
発生してしまって思ったような動作にならなかったので、まあ多少小細工して
なんとかできるようになりました。
キーボード派の方やスクリプトで操作したい方に利用していただければ。
あと、
>>442-443
に関連して「jbbs過去ログ」、
>>455-456
,460-461に関連して「DAT2HTML0.26」
の正規表現をそれぞれ修正しています。(regexps.txt上)
必要な方は申し訳ないですが自力でマージしてください。
467
:
663
◆fnwcOWFi56
:2007/08/15(水) 16:32:29
要望です。
「スレッドタイトルを取得しない」オプションを付けて頂けないでしょうか。
一度に全レス表示出来ないスレッドをdat化する際、
「1-10」「11-20」「21-30」等でそれぞれdat化して連結させたいのですが
dat化する時、「1-10」のもの以外にもスレタイが付いてしまいます。
それでは具合が悪いので、スレタイが付かないようにオプションで付いていたら
有り難いです。
具体的には下記とかで。
http://yy14.kakiko.com/test/read.cgi/mirror/1186175383/19-20n
以上、御検討の程 宜しくお願い致します。
468
:
◆/vmukiyuzw
:2007/08/16(木) 02:01:09
>>467
スレタイが付くというのはdatの行最後(5フィールド目)に付くという意味ですよね?
1-10以外(というか実際には1だけですけど)のものにスレタイがつくと何か問題あるのですか?
確かにdatの形式としては不正だとは思いますが、大抵の2chブラウザでは読み飛ばして
くれると思うので実害はないと思うのですが。
問題あるのであれば後処理で削るという手があると思います。
5番目の<>と\nの間を削ればいいんじゃないでしょうか。
というわけでオプションで機能追加しないといけない必要性がよくわからないです。
469
:
◆/vmukiyuzw
:2007/08/16(木) 02:26:04
>5番目の<>と\nの間を削ればいいんじゃないでしょうか。
4番目の間違いでした
470
:
663
◆fnwcOWFi56
:2007/08/18(土) 18:21:44
>>468-469
その通りで実害はなかったので
>>467
の件取り下げさせて下さい。
失礼しました。
で、別件の要望です。(毎回すみません)
datへの一括変換時に、同名ファイルが存在した場合
現状では「上書き」「保存しない」の二つだけなのですが
「別名で保存」というような選択肢を加えて頂けないものでしょうか。
例えば「1234567890.dat」が存在していた場合は
「1234567890[0].dat」で保存、というように。
471
:
663
◆fnwcOWFi56
:2007/08/18(土) 18:43:58
この機能が欲しい理由ですが
携帯用ページのスレッドをdat化したい時に
あったらラクだなと思ったもので。
http://www.geocities.jp/mirrorhenkan/2ch-i/
上記のページで書いたのですが
「1-10」「11-20」[21-30」等でしか表示出来ない携帯サーバの場合
それぞれのファイルをDLして
datに一括変換させて(ファイル名はそれぞれのレス1の日付からリネーム)
別個スクリプトでファイル名からソートしたテキストファイルを作成して
そのテキストファイルを元に連結すればdatになるのですが
秒数まで表示しないスレッドでなおかつ流れが速いものの場合
同名ファイルが幾つも出てきてしまうです。
例えば下記とか。
http://live.2ch.net/test/read.cgi/endless/1035922530/
これの2ch-imodeでのミラーはこちら
http://2ch-i.net/&/live.2ch.net/endless/1035922530/
これなどはレス数が640なので64個のファイルをDLして変換結合するのですが
同名ファイルになってしまうものが4つ出てしまうので困ってしまうのです。
レス1の日付から生成したファイル名でソート結合していますので
オリジナルファイル名.datでやるのは却って大変です。
で、同名だった場合に「別名で保存」オプションがあったら
例えば
「1234567890.dat」と「1234567890[0].dat」の比較処理等が実に簡単になるのです。
以上のような理由がありますので
一括変換の際の「別名で保存」オプション(名前はどうでもいいのですが)
を、是非実装して頂けたら実に嬉しいです。
472
:
◆/vmukiyuzw
:2007/08/18(土) 22:15:34
まあ難しい話ではないですがこれもいまいち実装するほどのことかなとの
感が否めないです。
自分がやるなら、元ファイルをソートできるようにリネームするアプローチを取るかな?
せっかく「1-10」「11-20」と連番が付いているのですし
最終的にはスクリプトでソートする意図のようなので
そのまえにスクリプトで数字の桁数をそろえてしまえばいいのでは?
473
:
◆/vmukiyuzw
:2007/08/18(土) 22:50:20
ところで、2ch自体でもそうですが
「1-10」が「0001-0010」となっていてもアクセスできますよね。
(まあCGIがそう働いてくれてるだけのことですが)
であればローカルのファイルをリネームするよりURLの一覧のほうを
そう変えてしまうほうがより簡単かもしれませんね。
474
:
名無しさん
:2007/08/25(土) 15:09:43
ほ
475
:
名無しさん
:2007/09/16(日) 18:48:48
御返事遅れて申し訳ないです
>>471
のページの方法で何とかなったと思うです。
さて、早速なのですが
下記3つのhtmlにマッチする正規表現を教えて頂けないでしょうか。
http://●.sarashi.com/htmltodat/1187190494.html
http://●.sarashi.com/htmltodat/1165245437.html
http://●.sarashi.com/htmltodat/1137198532.html
メール欄が日付(+ID)の右にあり、どうもマッチしないです。
下のような正規表現を考えてみたのですが
正規表現
m#<hr>([0-9]+):(.+?):(.+?)(?:\[(.+?)\])?<br>(.*?)(<hr>)#mki
前処理
s#(<title>)29-(.+?</title>)#$1$2#ik
変換結果式
$2<>$4<>$3<>$5<>
メール欄が無い場合にはマッチしないのです。
どこがよくないのでしょうか?
また、前処理でまだ色々やらなければいけないと思うのですが
とりあえずスレッドタイトルだけつけてみたら
どうも機能してないみたいです。
どこがまずいのか教えて頂けないでしょうか?
476
:
名無しさん
:2007/09/16(日) 18:49:58
>>475
で出したURLですが
「●」を「mirror」に変えて読み出して下さい。
477
:
◆/vmukiyuzw
:2007/09/17(月) 00:11:24
変換結果式を入れなければ(順番はおかしいですが)正しく変換されるので
変換結果式の処理にプログラム側にバグがあるようです。
でもぱっと見た限りではどこがまずいのかわからない・・・
時間があるときに見てみますが、とりあえず変換結果式を使わず後処理で
s#(.*?)<>(.*?)<>(.*?)<>(.*?)\n#$2<>$3<>$1<>$4\n#igk
とかで対処できないでしょうか。
(やってることは変換結果式と同じはずなんですがなぜ結果が異なるのか
まだわかりません)
なお、NGワードは設定していないので伏字でないと書けない理由はわかりません。
478
:
◆/vmukiyuzw
:2007/09/17(月) 01:00:39
原因はわかりました。
変換結果式で変換するときも内部的にはsコマンドで変換しているのですが
$4はふつう日付ID欄で空白なことはないだろってことで(.*?)でなく(.+?)にしてました。
しかし$4にメール欄(空欄あり)がきてしまったのでマッチしなかったようです。
まあ次の機会にでも修正します。ちょっと副作用が怖いですが。
479
:
名無しさん
:2007/09/17(月) 19:39:31
>>477-478
ありがとうございます
対処法がわかれば何とかなりそうです。
とはいえ、やはり変換時のプレビュー表示が気になりますので
お時間のある時にツール内部の対処をして頂ければ嬉しいです。
480
:
◆/vmukiyuzw
:2007/09/17(月) 20:54:16
>>479
たいした修正でもないので片付けちゃいました。
バージョンアップです。(0.8.13)
・変換オプションの変換結果式が正しく作用しない不具合を修正。
今回の修正は
>>477-478
の不具合の対応のみです。
481
:
名無しさん
:2007/09/24(月) 15:23:13
23chのスレッドに貼られてるリンクが経由してしまいます
482
:
◆/vmukiyuzw
:2007/09/24(月) 23:42:51
>>481
すみません、私の能力では解読不能です。
・具体的なURL
・使用した正規表現
・発生する(困っている)事象
についてもう少し詳しく書いていただけると
何とかできる可能性もありますけど。
483
:
名無しさん
:2007/09/27(木) 02:29:47
お世話になります
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku1.html
これとdatにしたいのですが、どのようにすればいいのでしょうか?
484
:
◆/vmukiyuzw
:2007/09/27(木) 20:43:37
>>483
さん
HTMLの形式を見るとかつてのmakimo.to(にくちゃんねる)のログを
HTML形式で保存したもののようですね。
このスレでの最新の情報としては
>>362
でどうでしょうか。
485
:
名無しさん
:2007/09/29(土) 02:01:33
ありがとうございます。上記のアドレスは問題なくdat化できました
が、下記のがうまくいきませんでした。
宜しくお願いいたします
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku2.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku3.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku4.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku5_1.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku5_2.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku6.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/keiyaku7.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/002.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/003.html
http://rosemarylove.hp.infoseek.co.jp/keiyaku/log/004.html
486
:
◆/vmukiyuzw
:2007/09/29(土) 19:15:08
>>485
そこのサイトのログはいろんなところから集められたもののようで
1種類の正規表現で全部変換するのは無理です。
とはいっても何種類かのパターンに分類できるようで。
・keiyaku2.html
・keiyaku3.html
・keiyaku4.html
・keiyaku5-2.html
・002.html
・003.html
↓
m#<dt><a.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</b>).*?:(.*?)<dd>(.*)<br><br>#mi
・keiyaku5-1.html
↓
m#<dt><a.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</font>).+?<span class="date"> ?(.*?)</span></div><dd>(.*)<br><br>#mi
・keiyaku6.html
・keiyaku7.html
↓
m#<a href="menu.+?">([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+)</b>(?:</a>|</span>).+?<span class="date"> ?(.*?)</span></div><div class="mes">(.*)</div>#mi
・004.html
↓
既存の正規表現「read.cgi7.00?」か「DAT2HTML0.26」
でそれぞれ変換できると思います。
# 各ログの元の出所が知りたいところではあります
487
:
名無しさん
:2007/09/30(日) 01:30:52
>>486
大変お世話になりました
ログの出元はわかりません、もうしわけないです。
ありがとうございました!
488
:
名無しさん
:2007/10/05(金) 18:02:19
このスレをdatで欲しいのですがどのような正規表現や加工を行えばよいのでしょうか?
http://mentai.2ch.net/whis/kako/994/994109037.html
ご教示よろしくお願いします
<各URL>
http://academy2.2ch.net/test/read.cgi/whis/994109037/
http://mentai.2ch.net/test/read.cgi/whis/994109037/
Jane Doe Style 2.7.5.0
htmltodat 0.8.13
489
:
名無しさん
:2007/10/05(金) 18:12:08
あれ?上のURLで開けてしまいました。
多分Janeを再起動したことより開けたのだと思います
という事で自己解決してしまったのですが、
時折スレを補完してるサイトで
ttp://uploader.fam.cx/img/u27240.jpg
が上部に付いてる形式でそのまま補完してるところがあります
そういった場合の整形方法を後学のため教えていただけますか?
490
:
◆/vmukiyuzw
:2007/10/05(金) 19:45:52
>>488-489
さん
http://mentai.2ch.net/whis/kako/994/994109037.html
↑
こういうURLで2ch側でhtml化されているものは基本的にはdatでも
保存されてますので大抵の2ch専用ブラウザでは読めるはずです。
(最後「html」を「dat.gz」にすればdatとして読める)
datが入手できずhtmltodatを使う必要がある場合は正規表現「sample」で。
> ttp://uploader.fam.cx/img/u27240.jpg
> が上部に付いてる形式でそのまま補完してるところがあります
datに変換する上では無視されますので事前整形等の必要は
ないはずですが。
491
:
名無しさん
:2007/10/05(金) 20:12:18
>>490
>>488
については多分Janeのバグ(といっても全く実害の無いレベルのもの)だったのかと思います
色々試した後のJane再起動でいつの間にか直ってました
スレ汚しでホント恥ずかしいです
以前(確か2004〜05年頃だったかな?)、見かけたスレ補完庫の中に
いわゆるu27240.jpgの過去ログ.htmlで保存してて、htmltodatで変換出来ない物があり
今回恥の上塗りついでに質問しました(黄色いジャージを着た女性のバナーがあったので多分大人の時間の半角板だと思います)
もしもう一度そこに出会うことがあったなら、現在のverでかつ
◆/vmukiyuzwさんから教えていただいた『正規表現「sample」』で行ってみたいと思います
◆/vmukiyuzwさんありがとうございました
492
:
◆/vmukiyuzw
:2007/10/17(水) 23:26:38
htmltodatをバッチコマンド的に動作させる構想を持っていたのですが
以下の理由で見送りたいかなと思っています。
・かなり大きな修正になってしまうため自分のスキルが足りない
・もしできたところで、外部スクリプトの助けを借りずには動かすことは
困難と思われる。今でさえ使うのは簡単ではないのにさらにハードルを
あげると、使いこなせる人はほとんどいなくなると思う
・p2todatを使えばできることが多いと思うのでそっちを使ったほうが楽
てなとこでしょうか。
まあ自分は自分のできる範囲で地道にやっていこうと思います。
493
:
663
◆fnwcOWFi56
:2007/10/21(日) 11:50:07
いつもお世話になっております。
早速ですが下記URL
http://www.23ch.info/test/read.cgi/morningcoffee/1192437916/
正規表現は「read.cgi.7.00?」で変換出来ますし
読んでみても問題なさそうな感じがしますが
変換直後に
「レス 60-372 の間が変換できていません」
と出ます。
実用上問題は無さそうな感じはしますが
何故このメッセージが出るのでしょうか?
494
:
663
◆fnwcOWFi56
:2007/10/21(日) 12:24:59
あ
自分の正規表現を変えてあったのが原因みたいでした
m#<DT.*>(?:<A.*?>)?([0-9]+).+?(?:<A HREF="mailto:(.+?)">)?<b>(.*?)</B>(?:</A>|</FONT>) ?:(.*?)<DD>(.*)<BR><BR>#mik
上のものに変えていたのですが
元々のものに直してみたらエラーが出なくなったです。
>>493
は取り消させて下さい。
失礼しました。
495
:
◆/vmukiyuzw
:2007/10/21(日) 21:28:45
>>493-494
m#<DT.*>
ここが最長一致になっている(*の後に?がない)のが原因だと思われます。
「レス 60-372 の間が変換できていません」のエラーは$1が連続した数値かどうかで判断しているのですが
ご指摘のスレの場合、たまたま371番目のレスが名前欄が60-で始まるIPアドレスになっており
最長一致のためここを$1であると解釈してしまったようです。
(プレビュー欄を見ても371番目のレス番が60になっている)
まあ難しい部分で仕方ないかなと思います。
496
:
663
◆fnwcOWFi56
:2007/10/22(月) 18:56:34
なるほど、疑問氷解です。
ありがとうございました。
497
:
<削除>
:<削除>
<削除>
498
:
663
◆fnwcOWFi56
:2007/11/18(日) 12:48:15
要望ばかりで何ですが
また要望です
透明あぼーんされたレスの箇所を
わかるような形でdat化出来るようにして頂く事は出来ないでしょうか。
例を出すと
http://www.geocities.jp/futasuke5/bbs/1061523335_part1
この↑スレッドですが「read.cgi.7.00?」でdat化できますが
設置された方が荒らしレスを削除してアップしているようです。(例えばレス54など)
ですので
もしレス番で欠けているものがあったら
例えばその箇所に
「あぼーん<>あぼーん<>あぼーん<>あぼーん<>」
等を置換(?)出来るようにして頂けたら有り難いです。
失礼しました。
499
:
◆/vmukiyuzw
:2007/11/18(日) 22:02:05
>>498
(「面倒だと思われるのでしたらいいです」ということですので)
多少面倒なんで、気が向いたらそのうちという事にさせてください。
「jbbs過去ログ」とか利用されている方は結構こういう経験されて
いるかなとも思うのでそちら方面からニーズが出てきたらまた考えます。
500
:
名無しさん
:2008/01/03(木) 12:04:49
年始から失礼します。今年もよろしくお願いします。
http://makimo.to:8000/i/d.cgi/livebase/2ch.net/live24/1187671540/
http://makimo.to:8000/i/d.cgi/livebase/2ch.net/live24/1187693406/
こいつをdatにするには、どうしたらいいでしょうか。
501
:
◆/vmukiyuzw
:2008/01/04(金) 00:23:31
>>500
さん
これは私よりも 663 ◆fnwcOWFi56さんの領域ではないかと。
で、こちらで考えてくださっているのでご確認ください。
http://yy14.kakiko.com/test/read.cgi/mirror/1186175383/412-
502
:
◆/vmukiyuzw
:2008/01/04(金) 21:59:51
>>
http://jbbs.livedoor.jp/bbs/read.cgi/computer/21256/1164941934/521
きっちり線引きなんてできないとは思いますが
少なくともミラー変換機で取得できる範囲に関しては
私より663さんのほうが優れてると思います。
今回の500の質問についても、調べようと思ったら
663さんの板ですでに回答出てましたし。
ご自分で見つけられたミラーなので、私より先に
正規表現等考えられてるケースが大半です。
本来の私の領域はというとやはりニッチなとこです。
もともと個人的なまとめサイトあたりをターゲットに
してましたから。
503
:
名無しさん
:2008/01/21(月) 04:19:56
初めまして。便利なツールでよく使わせて貰ってます。
早速ですが質問です。
http://fllaykunan.run.buttobi.net/kakolog/index.html
なるところがありまして、比較的新しいところ
http://fllaykunan.run.buttobi.net/kakolog/M003.html
については「read.cgi7.00?」で変換可能なのですが、
古めの
http://fllaykunan.run.buttobi.net/kakolog/1001.html
http://fllaykunan.run.buttobi.net/kakolog/1012.html
などが変換できません。
名前欄やメール欄、日付の形式などの書き方が違うせいだと思われますが、
このような場合の変換式はどうなるのでしょうか?
よろしくお願いします。
504
:
◆/vmukiyuzw
:2008/01/22(火) 01:25:27
>>503
さん
正規表現:
m#<DT><A.+?>([0-9]+).+?<b>(.*)</b></FONT>\[(.*?)\] :(.*?)<DD> (.*)(:? <BR><BR>|<font)#mik
変換結果式:
$2<>$3<>$4<>$5<> (←「メール欄逆転」)
このHTMLはDAT2HTMLでJane風のスキン(メール欄が[ ]で見える)を被せて
変換したもののように思えます。
たぶんこのサイトでメール欄が名前欄の後に [sage] とかなってるスレには
ほぼ適用できるかもです(保証はしませんが)。
あと1001.htmlは最後の1レスがちょっと変ですがこれは元からそうなので
ご容赦ください。
(この1レスをそれなりに処理するためだけに正規表現の最後に|<fontを入れました)
505
:
503
:2008/01/22(火) 04:23:46
>>504
とても迅速な対応ありがとうございました。
おかげさまで無事変換できました。
506
:
◆/vmukiyuzw
:2008/01/27(日) 02:54:10
外部コマンド Part6
http://jane.s28.xrea.com/test/read.cgi/bbs/1200747725/103
htmltodatのレス1からdatファイル名を算出する機能がもしかしたら使えるかなと思って
試してみたのですが、出てきたのは微妙に違うスレ番号。
htmltodatのバグかも知れないと思い調べてみたのですが、よくよく見ると
レス1の投稿日の日時とJaneで表示されるsince(スレ立て日時)がぜんぜん違います。
他にもいくつかのスレを見てみましたがどれも違っている模様。
なぜこういう現象が起きるのかはわかりませんが、少なくとも「Jane総合掲示板」では、
レス1の投稿日時とdatのスレ番号は一致するとは限らない(というか基本的に
一致しないのか?)ようです。
まあ外部板ですしそういうことがあっても仕方ないのかもしれません。
ということでhtmltodatとしても外部板ではこの機能(レス1からdatファイル名を算出する機能)
は保証しません、と言うしかないです(うまくいく外部板もあるかもしれませんが)。
507
:
名無しさん
:2008/02/19(火) 04:47:53
初めまして、お世話になります
dat2Xhtmlからのdat化は可能でしょうか?
具体的には以下のスレッドをdat化したいのですが
正規表現がわかりません
http://www10.atwiki.jp/pv-3?cmd=upload&act=open&pageid=15&file=1152788885.html
Jane Doe Style 2.76
508
:
◆/vmukiyuzw
:2008/02/19(火) 21:53:17
>>507
さん
dat2XHTMLというのは寡聞にして知りませんでした。
Macもサポートしてるのかと思って見てみたらJavaで作られてるようですね。
いつ頃作られたのだろう?なかなか興味深い。
ともあれ、HTMLの形式としては比較的シンプルなように見えたのでやってみたのですが
レス番ポップアップ機能を使えるようにするためにレス本文中に若干余計なものが入っており
それを取り除くのに若干前処理が必要となりました。
正規表現:
m#<div>([0-9]+)<a id.+?<span class="name">(.*?)</span>(?:<span class="mail"> ?&lt;(.*?)&gt; ?</span>)?<span class="time"> : ?(.*?)</span></div><div class="res">(.*) </div><p />#mik
※↑ブラウザの表示の関係で化けてしまうので2箇所の全角アンパサント(&)は半角に変えてください
前処理:
s#<a href="\#res.*?"resClear\(\)">##igk
変換結果式:
$2<>$3<>$4<>$5<> (←メール欄逆転)
509
:
507
:2008/02/20(水) 02:24:06
無事dat変換に成功しJaneで認識できました。
ありがとうございました!
510
:
名無しさん
:2008/03/08(土) 17:15:38
はじめまして。
変換方法read.cgi7.00?でdatファイルを作りました。
変換方法は、そのスレで聞いて選びました。
ギコナビVersion バタ56(1.56.2.724)<IE>6.0.2800.1106
のログフォルダにそのdatファイルを入れると、
取得したログは1001で、1001まで読むことが出来るのですが、
なぜかギコナビのカウント数が違う数字で出ます。
中にはカウント0の物もあります。もちろん1001までログはあるので読めるのですが、
読めるのだから問題なければいいのですが、そのうちカウント数のログまでしか読めなくなる……
なんて事にはならないか心配です。
もしかしたら、
>>85
さんと症状が似てるのかもしれませんが、
再起動しても変わりませんでした。
だれか、教えてください。
511
:
◆/vmukiyuzw
:2008/03/08(土) 23:32:08
>>510
さん
もしdat変換が正しくできているのであればこれはhtmltodatの問題ではなく
ギコナビ側の問題になると思うのですが・・・
私自身ギコナビを常用していないのではっきりしたことはいえないのですが
カウント数が違うとかいうのは既得のログがありそれに上書きしたような
状況じゃないんでしょうか。であれば.idxファイルとの不整合が出ていることが
考えられます。(どうすれば整合性が戻せるのかはわかりませんが)
> そのうちカウント数のログまでしか読めなくなる……
そのようなことは考えにくいので実害がなければ気にしないのが一番ですかね。
もしどうしても気になるならギコナビのスレで聞かれたほうがいいかもしれません。
512
:
510
:2008/03/09(日) 14:05:57
>>511
さんありがとうございます。
おっしゃるとおり既得のログがあって、先に削除してから貼り付けたのですが
なぜかもともと持ってたカウント数のままでした。
ログが消えることが無いようでしたら、このままでいいかなと思ってます。
ありがとうございました。
513
:
名無しさん
:2008/03/14(金) 03:26:06
これらのスレをdatで欲しいのですがどのような正規表現や加工を行えばよいのでしょうか?
http://x96.s35.xrea.com/log34/1.html
http://x96.s35.xrea.com/log23/1.html
ご教示よろしくお願いします
Jane Doe Style 2.7.6.0
htmltodat 0.8.13
514
:
◆/vmukiyuzw
:2008/03/14(金) 20:07:11
>>513
さん
正規表現:
m#<dt><a name.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)</dt><dd> (.*?) <br><br></dd>#mik
しかしこれはどうやってHTML化したものか、微妙に独特な代物で出所が気になります。
結果吐かれるHTML自体はシンプルなんで正規表現を書くのは簡単でしたが。
515
:
名無しさん
:2008/03/15(土) 01:38:21
>>514
ありがとうございました。
無事変換できました。
516
:
名無しさん
:2008/03/19(水) 15:51:39
2chではないのですが、このタイプの変換はできますでしょうか?
ttp://www.alfheim.jp/~narikiri/narikiri/TheSun/kako/1120/1120999050.html
ヨロシクお願いします。
新着レスの表示
名前:
E-mail
(省略可)
:
※書き込む際の注意事項は
こちら
※画像アップローダーは
こちら
(画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります)
スマートフォン版
掲示板管理者へ連絡
無料レンタル掲示板