そこの「Million_seeker」と「まあ、待て屋。」使いのあなた! 大量のターゲットをぶちこんでいると、依頼分が出たかどうかわかりにくくありませんか? そんなあなたのために、依頼分が出たかどうかチェッカーをお送り致します。

1. 準備

1.1. フリーソフトのダウンロード

1.1.1. 「Million_seeker」の場合

1) grep win32 (Vector に登録されているソフトウェア )
2) Sed LOGOS 版 (Vector に登録されているソフトウェア )
3) Million_seeker 用チェックコマンド (三分で作ったバッチファイル )

 ダウンロードしたら、解凍して出てきた grep.exe と SED.EXE と miri.bat を「Million_seeker」のフォルダにコピーします。

1.1.2. 「まあ、待て屋。」の場合

1) まあ、待て屋。用チェックコマンド

 ダウンロードした mlc.exe を「まあ、待て屋。」のフォルダにコピーします。

1.2. 検索ターゲットファイルの編集

1.2.1. 「Million_seeker」の場合

 以下のような感じで、seek.txt ファイルの依頼分の後ろにマークをつけます。 ターゲットの文字列とマークの間は、スペースかタブで区切ってください。 ターゲットの文字列とかぶらないようにしましょう。 以下の例では、マークとして vip と neta を使用しています。

 ^SANBAKA+    vip
 ^Cureha+     vip
 ^ccsakura    neta
 

1.2.2. 「まあ、待て屋。」の場合

 以下のような感じで、target.txt ファイルの依頼分の後ろにマークをつけます。 マークの先頭文字は、必ず # にして下さい。 # の後ろに空白をあけてもいけません。 一行に一ターゲットだけ書くようにして下さい。 ターゲットの文字列とマークの間は、スペースかタブで区切ってください。 ターゲットの文字列とかぶらないようにしましょう。 以下の例では、マークとして #vip と #neta を使用しています。
 ^SANBAKA     #vip
 ^Cureha      #vip
 ^ccsakura    #neta
 

2. レッツチェック!

 コマンド プロンプトを起動して、「Million_seeker」( あるいは、「まあ、待て屋。」) のフォルダに移動します。そして、チェックコマンドを実行します。

2.1. 「Million_seeker」の場合

 C:\Documents and Settings\nota>cd C:\Million_seekerP4
 C:\Million_seekerP4>miri vip
 SANBAKA... : #******** (^7完)
 Cureha.... : #******** (^6完)
 C:\Million_seekerP4>miri neta
 ccsakura.. : #******** (^8完)
 C:\Million_seekerP4>
 

2.2. 「まあ、待て屋。」の場合

 C:\Documents and Settings\nota>cd C:\mty20041018
 C:\mty20041018>mlc vip
 ◆SANBAKA... #********  (** ** ** ** ** ** ** **/00) (先頭7完:^SANBAKA:vip)
 ◆Cureha.... #********  (** ** ** ** ** ** ** **/00) (先頭6完:^Cureha..:vip)
 C:\mty20041018>mlc neta
 ◆ccsakura.. #********  (** ** ** ** ** ** ** **/00) (先頭8完:^ccsakura.:neta)
 

3. おまけ

3.1. ワンポイント

 窓の手の「右クリック」タブで、「任意のフォルダーからコマンドプロンプトを可能にする」にチェックを入れとくと便利だよ!

3.2. 「まあ、待て屋。」用ログコンバータ

 帰りの電車でなんとなくつくってみた。 今は後悔している。

 Before
  ◆KTA.XsILr2 #E:=\_^  (82 64 3A 81 81 5C 5F 5E/00)
  ◆FZ9/TP1b/U #E:=逅痼 (82 64 3A 81 81 E7 90 E1/80)
  ◆6Kh3Ytmic2 #E:≠衣噫 (82 64 3A 81 82 88 DF 9A/80)
  ◆EMrpezajXs #E:≠癶9  (82 64 3A 81 82 E1 A0 39/00)

 After
  ◆KTA.XsILr2 #E:=\_^  (82 64 3A 81 81 5C 5F 5E/00) (先頭3完:^KT?[./]:4)
  ◆FZ9/TP1b/U #E:=逅a  (82 64 3A 81 81 E7 90 E1/80) (先頭4完:^FZ[5-9][./]:4)【置換】
  ◆6Kh3Ytmic2 #E:≠衣噫 (82 64 3A 81 82 88 DF 9A/80) (末尾4完:mic2$:5moji)
  ◆EMrpezajXs #E:≠癶9  (82 64 3A 81 82 E1 A0 39/00) (位置指定なし4完:peza:)
 
 鳥屋に「mlc.exeは、アレだからソレになってまずいぞ。」って指摘されちゃった。 というわけで、cygwin なしでもいけるようにしたよ。

 このソフトウェアは、鬼車を使用して作成しています。 Oniguruma 2006/05/29 (C) K.Kosako

ダウンロード

3.3. target.txt -> seek.txt コンバータ

 「まあ、待て屋。」の target.txt を「Million_seeker」の seek.txt にコンバートします。 「まあ、待て屋。」の正規表現風表現(和良)を展開するツールとしても使えます。 マーク付けにも対応しています。

 引数を指定しない場合、カレントディレクトリの target.txt を読みます。 標準出力に垂れ流してるから、適当にリダイレクトしてね。

 オプションも用意しました。 t2s -? で確認できます。

 途中で飽きちゃったので、つくりはかなり適当です。 ヘンなものや変わったものを食べさせると、簡単に吐いちゃいます、コアを。(和良

 「Million_seeker」用ログマネージャ対応のマークを出力するための -e オプションを追加しました。 ついでに、不要なタブを吐かないように変更しました。

ダウンロード (2006/08/25 更新)
^B[8-9][0-9]W[5-6][0-9]H[8-9][0-9] を t2s で展開したもの 8000 ターゲット分だよ。
 C:\target2seek>type test.txt
 ^[0-3][a-c]kk   #mark1
 [1bc]sk #mark2
 bc[0-9]$        #mark3
 1?6     #mark4
 C:\target2seek>t2s test.txt
 ^0akk*  mark1
 ^0bkk*  mark1
 ^0ckk*  mark1
 ^1akk*  mark1
 ^1bkk*  mark1
 ^1ckk*  mark1
 ^2akk*  mark1
 ^2bkk*  mark1
 ^2ckk*  mark1
 ^3akk*  mark1
 ^3bkk*  mark1
 ^3ckk*  mark1
 1sk*    mark2
 bsk*    mark2
 csk*    mark2
 >bc2*   mark3
 >bc6*   mark3
 1.6*    mark4
 1/6*    mark4
 106*    mark4
 116*    mark4
 126*    mark4
 <中略>
 1A6*    mark4
 1B6*    mark4
 1C6*    mark4
 <中略>
 1a6*    mark4
 1b6*    mark4
 1c6*    mark4
 <中略>
 1z6*    mark4
 C:\target2seek>type eop.txt
 mia[0-9]$       #5moji
 C:\target2seek>t2s -e eop.txt
 >mia2*  /M5moji
 >mia6*  /M5moji
 C:\target2seek>
 

3.4. 「Million_seeker」用ログマネージャ

 いつ完成するのか誰にもわからない「Million_seeker」用ログマネージャ。 深い意味は無いけど、スナップショットを公開していっちゃう。 だんだん機能が追加されていくよ、多分。wwwwwww miri.bat のかわりに使えるようになるよ、いつかは。

3.4.1. スナップショット 1 (seek.txt チェッカー) (ソースの行数:1053, 2006/07/12)

 引数なしで起動すると、seek.txt の内容をチェックします。 「Million_seeker」よりも、ターゲットの整合性のチェックを厳しくしています。 -t オプションを指定して、別のファイルをチェックすることもできます。

ダウンロード

 ダウンロードした mlm-ss1.exe を「Million_seeker」のフォルダにコピーします。

 コマンド プロンプトを起動して、「Million_seeker」のフォルダに移動します。 そして、おもむろに mlm.exe を実行します。

 C:\Documents and Settings\nota>cd C:\Million_seekerP4
 C:\Million_seekerP4>mlm-ss1
 タゲだぶりカナ? ^Genesis/* と genesis/
 末尾文字違反です。(40 行目の「123456789b」)
 C:\Million_seekerP4>mlm-ss1 -t C:\target2seek\seek.txt
 タゲだぶりカナ? ^maborosi と ^maborosi+
 末尾文字違反です。(46 行目の「>12345+」)
 

3.4.2. スナップショット 2 (seek.txt チェッカー & 特殊検索振り分け) (ソースの行数:1406, 2006/07/16)

 スナップショット 1 よりも、ターゲットの整合性のチェックが賢くなりました。

 依頼分チェッカーのマークを拡張して、ログの振り分けも可能になりました。 スナップショット 2 では、特殊検索分の振り分けしかできません。

 「Million_seeker.log」を、マークに従って指定したファイルに振り分けます。 -l オプションで、「Million_seeker.log」以外のログファイルを振り分けることもできます。

 マークで指定されていない分は、「mlm.txt」ファイルに出力します。 -o オプションで、出力するファイルを変更することもできます。

 出力ファイルは、全て追加書き込みです。

 seek.txt 内の特殊検索オプションの行に、マークと出力先指定を書きます。 マークは「/Mマーク」、出力先は「/O出力先」のように指定します。 出力先は、その行の最初のマークに関連付けられます。 ですので、出力先のみを指定しても意味がありません。

 -t オプションを使って、振り分けルール記述専用ファイルをつくるのもいいかもしれません。

 seek.txt 例 1
 特殊検索分を全部別々のファイルに出力。
 絶対パスでの指定もできます。

 [0] 全数 /Mzens /O全数.txt
 [1] 二構 /Mniko /O二構.txt
 [2] 飛石 /Mtobi /O飛石.txt
 [3] 回文 /Mkaib /O回文.txt
 [4] 山彦 /Myama /O山彦.txt
 [5] 双連 /Msour /O双連.txt
 [6] 最長 /Mlong /O最長.txt
 [7] 最短 /Mshor /O最短.txt
 [8] ぼる /Mboru /OZ:\ごみ\ぼるじょあ.txt

 seek.txt 例 2
 飛石や回文は、ひとつのファイルに出力。
 [2]の行で、「tkys」というマークに「飛回山双.txt」という出力先を関連付けています。
  その後は「tkys」マークをつけるだけで、「飛回山双.txt」に出力されます。

 [0] 全数 /Mzens /O全数字.txt
 [1] 二構 /Mniko /O二構.txt
 [2] 飛石 /Mtkys /O飛回山双.txt
 [3] 回文 /Mtkys
 [4] 山彦 /Mtkys
 [5] 双連 /Mtkys
 [6] 最長 /Mls   /O長短.txt
 [7] 最短 /Mls
 [8] ぼる /Mboru /Oぼるじょあ.txt

 seek.txt 例 3
 いったん関連付けられたマークと出力先の関係は、かわることはありません。

 [2] 飛石 /Mtkys /O飛回山双.txt
 [3] 回文 /Mtkys
 [4] 山彦 /Mtkys /O山彦.txt ← この出力先指定は無視されます。
 
 実行例 1
 Million_seeker のログファイル「Million_seeker.log」を、
 タゲファイル「seek.txt」に従って振り分けます。
 出力先指定の無いタゲの分は、「mlm.txt」に出力します。

 G:\mirilogmgr> mlm-ss2

 実行例 2
 Million_seeker のログファイル「Million_seeker.zaiko001」を、
 タゲファイル「seek-grouping.txt」に従って振り分けます。
 出力先指定の無いタゲの分は、「new_Million_seeker.log」に出力します。

 G:\mirilogmgr> mlm-ss2 -l Million_seeker.zaiko001 -t seek-grouping.txt -o new_Million_seeker.log
 
ダウンロード

3.4.3. スナップショット 3 (seek.txt チェッカー & 特殊検索振り分け) (ソースの行数:1437, 2006/07/17)

 ダブりメッセージがうざかったので、オプションを追加しました。

 -s オプションでダブりのチェックをしなくなります。

 -w オプションでダブりメッセージをファイルに出力できます。

 実行例 1
 ダブりメッセージを出力しません。

 G:\mirilogmgr> mlm-ss3 -s

 実行例 2
 ダブりメッセージを「ダブり.txt」ファイルに出力します。

 G:\mirilogmgr> mlm-ss3 -w ダブり.txt
 
ダウンロード

3.4.4. スナップショット 4 (基本機能を全て実装) (ソースの行数:1705, 2006/07/25)

 通常ターゲットの振り分けもできるようになりました。

 -h あるいは -? オプションを指定すると、オプションの一覧を表示できます。

 miri.bat の代わりに使えるようになりました。 バッチだと遅い上に関係ないものまで拾っていたりしましたが、C 言語で実装することにより高速化と動作の確実化ができています。

 実行例 1
 オプションの一覧を表示します。

 G:\mirilogmgr> mlm-ss4 -h
 mlm [-t filename] [-l filename] [-o filename] [-w filename] [-s] [-h] [-?] [mark]
  -t filename : 使用するターゲットファイルを指定します。
                デフォルトは、seek.txt です。
  -l filename : 使用するログファイルを指定します。
                デフォルトは、Million_seeker.log です。
  -o filename : 振り分け指定無し分の出力先を指定します。
                デフォルトは、mlm.txt です。
  -w filename : ダブりメッセージを出力するファイルを指定します。
                デフォルトでは、標準エラー出力に出力します。
  -s : ダブりのチェックをしません。
  -h : このメッセージを表示します。
  -? : このメッセージを表示します。
  mark : ヒットしたかチェックしたいマークを指定します。
         マークを指定したときには、ダブりのチェックはしません。
         マークを指定したときには、振り分けはしません。

 実行例 2
 「VIP」というマークを付けたターゲットの分が出ているかチェックします。

 G:\mirilogmgr> mlm-ss4 VIP
 KpSon/GOkU : #XXXXXXXX (>8文字)
 3SHRUNdcEk : #XXXXXXXX (^6完)
 J.Bird1ti6 : #XXXXXXXX (^6完)
 
ダウンロード

3.4.5. スナップショット 5 (VIPDOORD4s 用) (ソースの行数:1718, 2006/07/26)

 -d オプションを指定すれば、文字数の違うターゲットをダブりとみなさないようにしました。

ダウンロード

3.4.6. スナップショット 6 (付箋機能を追加) (ソースの行数:1834, 2006/07/31)

 ターゲットに付箋を付けられるようにしました。 「/P付箋」のように指定します。 ヒットした時に、そのターゲットに付けた付箋が表示されます。 いつの依頼分なのか、などのメモにどうぞ。

 seek.txt 例 1
 ^..........	/MVIP /Ovip.txt 出力先指定用ダミータゲ
 ^ERINGI+	/MVIP /Mnoauto /PVIP:2006/07/27:ra8@s31.xrea.com
 ^Ginsama+	/MVIP /Mnoauto /PVIP:2006/07/29:◆3SHRUNYAXA
 ^KI/CHI/GAY	/MVIP /Mnoauto /PVIP:2006/08/11:晒し
 
 実行例 1
 「VIP」というマークを付けたターゲットの分が出ているかチェックします。

 G:\mirilogmgr> mlm-ss6 VIP
 ERINGI.... : #XXXXXXXX (^6完) (VIP:2006/07/27:ra8@s31.xrea.com)
 
ダウンロード

3.4.7. スナップショット 7 (seek.txt 再構成 第一段階) (ソースの行数:2170, 2006/08/14)

 -r オプションを追加しました。 ターゲットファイルからダブり分を除いて、seek-new.txt に出力します。 ダブり分は、seek-dif.txt に出力します。

 とりあえず動くようになった段階ですので、ダブりの検出能力は低いです。 あと、バグを見つけたら教えてね。

 実行例 1
 ターゲットファイル「seek-w.txt」内のダブり分を振り分けます。
 ただし、文字数の違うターゲットはダブりとみなさないようにします。

 G:\mirilogmgr> mlm-ss7 -t seek-w.txt -r -d
 35 ターゲット読み込んで、32 ターゲットに展開。
 3 個ダブりがあったよ。

 G:\mirilogmgr>dir seek-*.txt 
 ドライブ G のボリューム ラベルがありません。
 ボリューム シリアル番号は 3820-4861 です

 G:\mirilogmgr のディレクトリ

 2006/08/14  10:41                2,803 seek-w.txt
 2006/08/14  16:26                2,781 seek-new.txt
 2006/08/14  16:26                   22 seek-dif.txt
               3 個のファイル                 5,606 バイト
               0 個のディレクトリ 1,719,449,544,192 バイトの空き領域
 
ダウンロード

3.4.8. スナップショット 8 (seek.txt 再構成 第一段階のバグ修正) (ソースの行数:2174, 2006/08/14)

 seek.txt 再構成機能実装時に、チェックモードにバグを混入してしまっていたのを修正しました。 seek-dif.txt に行数も出力するようにしました。

ダウンロード

3.4.9. スナップショット 9 (マークの出力) (ソースの行数:2189, 2006/09/15)

 -m オプションを追加しました。 -m オプションを指定すると、通常ターゲットの振り分けファイルへの出力時に、マークも出力します。 特殊検索分には対応していません。

ダウンロード

3.4.X. 今後の予定

  1. 上書きオプション
  2. コードの整理
  3. 共通部分の括りだし
  4. ミリの詳細な仕様をテスト
  5. それなりのテスト
  6. Unified Tripper のログ形式への対応

3.5. CopyMaker

 target.txt に入れるものを日夜考え続けているトリップマニアたちへ。 思いついた単語をどんどん突っ込んでいくという、従来の方式に限界を感じている病気な人たちへ。 CopyMaker はそんなバカどもの福音となるであろう。wwwww

 一部の逝っちゃってる変態がやってることを、パンピー Lv.5 にもできるようにする、これが CopyMaker の使命。 CopyMaker で貴方の target.txt も二倍、三倍、いや、百万倍とかにも!?

 単語リストの入ったふたつのファイルを引数として与えてやると、単語を合体させたターゲットを生成し、「cm.txt」ファイルへ出力します。 ファイルをひとつだけ指定すると、ふたつめも同じファイルを指定したものとみなします。

 合体できる単語は、3 〜 7 文字のものに限られます。 その範囲外の単語や、トリップとして成り立たないものは、自動的にポイされます。 ポイしても、特にエラーメッセージなどは表示しません。

 オプションもいくつか用意してありますので、cm -h として確認してください。

 実行例 1
 F:\copymaker>type month.txt
 Jan.
 Feb.
 <中略>
 Dec.

 F:\copymaker>type day.txt
 1st
 2nd
 <中略>
 31th

 F:\copymaker>cm month.txt day.txt
 month.txt から、12 個読み込んだにょろ。
 day.txt から、31 個読み込んだにょろ。
 もしかすると、372 個ぐらいできちゃうにょろよ。
 タゲをつくりまくるにょろ!
 ふ〜、がんばったにょろよ?
 372 個もつくったにょろよ?

 F:\copymaker>more cm.txt
 ^Jan.1st+
 ^Jan.2nd+
 <中略>
 ^Dec.30th+
 ^Dec.31th+

 実行例 2
 F:\copymaker>type sei.txt
 suzuki
 Tanaka
 Horie
 Kinomoto
 
 F:\copymaker>type mei.txt
 Tarou
 yui
 Aya
 Sakura
 
 F:\copymaker>cm -d -u -m name sei.txt mei.txt
 sei.txt から、3 個読み込んだにょろ。
 mei.txt から、4 個読み込んだにょろ。
 もしかすると、36 個ぐらいできちゃうにょろよ。
 タゲをつくりまくるにょろ!
 ふ〜、がんばったにょろよ?
 19 個もつくったにょろよ?
 
 F:\copymaker>type cm.txt
 ^SuzukiYui+     /Mname
 ^Suzuki.Yui+    /Mname
 ^Suzuki/Yui+    /Mname
 ^SuzukiAya+     /Mname
 ^Suzuki.Aya+    /Mname
 ^Suzuki/Aya+    /Mname
 ^TanakaYui+     /Mname
 ^Tanaka.Yui+    /Mname
 ^Tanaka/Yui+    /Mname
 ^TanakaAya+     /Mname
 ^Tanaka.Aya+    /Mname
 ^Tanaka/Aya+    /Mname
 ^HorieTarou+    /Mname
 ^HorieYui+      /Mname
 ^Horie.Yui+     /Mname
 ^Horie/Yui+     /Mname
 ^HorieAya+      /Mname
 ^Horie.Aya+     /Mname
 ^Horie/Aya+     /Mname
 
 F:\copymaker>
 
V1.0 ダウンロード
V1.1 ダウンロード

3.6. 末尾埋めツール

 検索速度とターゲット数によっては、「Million_seeker」の最低5文字制限では少なすぎる場合があります。 そんな時、このツールによって最低文字数を引き上げることができます。 指定したより短い単語には、後ろに「.」、「/」を付加します。 -h オプションで(ry

 悪意のあるコードが混ざってると考えてる人がいるようですので、信用できない人は使わないようにしましょう。(和良

 飛石モードと山彦モードでは、5文字以下の単語のみが対象となります。 6文字以上の単語は無視します。

 実行例 1
 F:\VIPDOORD4s>type sei.txt
 123get
 aa
 cat
 nasu
 Suzuki
 Tanaka
 horie
 Kinomoto
 
 F:\VIPDOORD4s>VIPDOORD4s sei.txt
 
 F:\VIPDOORD4s>type VIPDOORD4s.txt
 ^123get.+
 ^123get/+
 ^aa.....+
 ^aa/////+
 ^cat....+
 ^cat////+
 ^nasu...+
 ^nasu///+
 ^Suzuki.+
 ^Suzuki/+
 ^Tanaka.+
 ^Tanaka/+
 ^horie..+
 ^horie//+
 ^Kinomoto+

 F:\VIPDOORD4s>VIPDOORD4s -2 -s 2 sei.txt

 F:\VIPDOORD4s>type VIPDOORD4s.txt
 ^.a.a.+
 ^a.a.+
 ^/a/a/+
 ^a..a..+
 ^.c.a.t.+
 ^c.a.t.+
 ^/c/a/t/+
 ^c..a..t..+
 ^.n.a.s.u.+
 ^n.a.s.u.+
 ^/n/a/s/u/+
 ^n..a..s..u+
 ^.h.o.r.i.e+
 ^h.o.r.i.e.+
 ^/h/o/r/i/e+
 
V1.6 ダウンロード (2006/11/13 更新)

3.7. いろんな辞書から seek.txt を作ってみよう

3.7.1. カーネギー・メロン大学の発音辞書 (英単語)

 まずは、辞書ファイルをダウンロードして解凍します。 解凍すると、「c0.6」という名前のファイルができます。

 辞書ファイルを末尾埋めツールを使って、seek.txt 形式にします。 下の実行例では最低七文字にして先頭大文字にしていますが、各自でお好きなように指定してください。 この状態だとダブりがかなりありますので、「Million_seeker」用ログマネージャでダブり分を排除します。

 F:\dic>VIPDOORD4s -7 -u c0.6

 F:\dic>mlm-ss9 -t VIPDOORD4s.txt -r
 特殊検索、オールオフ!
 ヘッドマスター、オン!
 160659 ターゲット読み込んで、133376 ターゲットに展開。
 27283 個ダブりがあったよ。
 5000 行目まで処理しました。
 <中略>
 160000 行目まで処理しました。
 

 これで、ターゲット数 133,376 個の seek-new.txt のできあがり! あとは自分の seek.txt に追加するだけ!

3.7.2. モナッシュ大学の日本語固有名詞辞書 (ローマ字)

 まずは、辞書ファイルをダウンロードして解凍します。 解凍すると、「enamdict」という名前のファイルができます。

 以下のフリーソフトをダウンロードします。
1) DELEOF (Vector に登録されているソフトウェア )
2) UNIQ (Vector に登録されているソフトウェア )
3) Super Sort (Vector に登録されているソフトウェア )
4) Sed LOGOS 版 (Vector に登録されているソフトウェア )
5) enam.bat (私が三年間寝ないで必死に作ったバッチファイル )

 変換に必要なファイルを、ひとつのフォルダにまとめます。
1) enamdict
2) deleof.exe (DELEOF を解凍すると出てくる)
3) UNIQ.COM (UNIQ を解凍すると出てくる)
4) SSORT.EXE (Super Sort を解凍すると出てくる)
5) SED.EXE (Sed LOGOS 版) を解凍すると出てくる)
6) enam.bat
7) VIPDOORD4s.exe
8) mlm-ss9.exe

 あとは enam.bat を実行するだけ!

 F:\enam>dir
  ドライブ F のボリューム ラベルは Data です
  ボリューム シリアル番号は 3F3F-14F0 です
 
  F:\enam のディレクトリ
 
 2006/10/22  15:27       <DIR>          .
 2006/10/22  15:27       <DIR>          ..
 1992/09/22  23:46                3,816 SSORT.EXE
 2006/10/18  23:20           24,942,949 enamdict
 1998/10/25  01:00               36,864 deleof.exe
 1997/01/08  13:35                8,600 UNIQ.COM
 1992/06/17  11:00               25,108 SED.EXE
 2006/10/18  11:23               27,136 mlm-ss9.exe
 2006/10/17  19:05               20,992 VIPDOORD4s.exe
 2006/10/22  15:36                  214 enam.bat
                8 個のファイル          25,065,679 バイト
                2 個のディレクトリ  11,069,063,168 バイトの空き領域
 
 F:\enam>enam
 
 F:\enam>deleof enamdict tmp1
 deleof Ver.1.00 (C) 1998 Yoshihisa Suzuki/Aaron-Japan
 
 変換は成功しました。
 
 F:\enam>sed -e 's/ /\n/g' -e 's/\//\n/g' tmp1  1>tmp2
 
 F:\enam>del tmp1
 
 F:\enam>VIPDOORD4s -7 tmp2
 
 F:\enam>del tmp2
 
 F:\enam>ssort  0<VIPDOORD4s.txt 1>tmp1
 SSORT   Version 4.1e    by Riddle ][
 Merging...                      8
 Completed!
 
 F:\enam>del VIPDOORD4s.txt
 
 F:\enam>uniq tmp1
 TMP1.ORG ≠?[32m→ TMP1?[37m
 
 F:\enam>mlm-ss9 -t tmp1 -r
 特殊検索、オールオフ!
 ヘッドマスター、オン!
 280571 ターゲット読み込んで、263393 ターゲットに展開。
 17178 個ダブりがあったよ。
 5000 行目まで処理しました。
 <中略>
 280000 行目まで処理しました。
 
 F:\enam>del tmp1
 
 F:\enam>
 

 これで、ターゲット数 263,393 個の seek-new.txt のできあがり! あとは自分の seek.txt に追加するだけ!

3.7.3. アイドル人名辞書

 まずは、ここへ行って、一番下にある idc200608a.lzh をダウンロードして解凍します。 解凍して出てくるファイルのうち、使用するのは seimei ファイルだけです。

 いつものやつを用意してください。 散々出てきていますので、リンクは省きます。
sed, ssort, uniq, VIPDOORD4s, mlm-ss9, cm

 今回はいつものやつに加えて、kakasi が必要となります。 Win32 用 バイナリパッケージをダウンロードして、README-ja.win32 にしたがってインストールしてください。

 さらに、私の渾身の作もダウンロードしてね。
idic.bat
namae.bat

 さて、全部揃ったら、あとはバッチを実行するだけ!

 F:\idic>idic
 
 特殊検索、オールオフ!
 ヘッドマスター、オン!
 8034 ターゲット読み込んで、7917 ターゲットに展開。
 117 個ダブりがあったよ。
 5000 行目まで処理しました。
 
 F:\idic>namae
 
 sei.txt から、2443 個読み込んだにょろ。
 <中略>
 1109136 個もつくったにょろよ?
 
 F:\idic>
 

 これで、ターゲット数 7,917 個の idic.txt と 1,109,136 個の seimei.txt ができあがります。

3.7.4. まとめ

 ここまで読んだ賢いあなたたちなら、上記の方法を応用して、いろんな辞書を seek.txt 用に変換できるよね? Vector の各種辞書カテゴリとか行けば、いろいろな辞書があるよ。 もちろん、ググって探せばすんごいのもあるかもね!

 変換の基本は、こんな感じカナ?
1) sed で後の処理がしやすいように、フォーマットを整える。
2) sort して uniq して、単純なダブりを排除する。
3) 漢字とかひらがななら、kakasi でローマ字に変換する。
4) VIPDOORD4s で seek.txt 形式に変換する。
5) 余裕があれば、mlm でダブりを排除する。
6) 最終兵器の CopyMaker を発動してみたり。

 sed がちょっととっつきにくいかもしれないけど、そんなに難しいものでもないし、エディタとかで代用もできるよね。 私は普段こんなようなことを、Cygwin 上でやってるんだよね。 sort も uniq も sed も揃ってるし。

 さあ、みんなもゴミタゲを入れまくって、ワケワカなトリップを量産しよう!(和良

3.8. 特殊検索分からお宝を探そう

 特殊検索オプションを有効にしたはいいけど、ヒット数が多すぎてみる気がおきないあなた! VIPDOORD4s と mlm をうまく使えば、意味のありげなものだけ取り出せるよ。

 手順としては、こんな感じカナ?
1) VIPDOORD4s で単語リストから、特殊検索風タゲをマーク付きで生成。
2) 特殊検索分も通常タゲに基づく振り分けをさせるために、mlm をだますようにログを細工する。
3) mlm でピックアップ!

 F:\VIPDOORD4s>VIPDOORD4s -s 2 -s 4 -s 5 -m special mei.txt
 F:\VIPDOORD4s>sed -e 's/ (.*/ (13完)/' 特殊検索分.txt > work.txt
 F:\VIPDOORD4s>mlm-ss9 -t VIPDOORD4s.txt -l work.txt special
 
以上


戻る