nDiki
2005年3月9日 (水)
■ bogofilter が日本語 spam メールを弾けなくなったのでDB作り直し

最近 bogofilter が日本語 spam メールをほとんど弾かなくなってきている。 英語や中国語のspamメールはきちんと弾いているのだけれども。
チェックしてみると逆に積極的に non-spam 判定されている spam メールもある。
前回設定を見直した時、procmail から bogofilter を呼び出した際に -u オプションでどんどん新規登録するようにしたのだが、どうもこれで誤登録を重ねてしまっているようだ。
spam メールも non-spam メールも最終的には全て目視でチェックしており、不適切な振り分けがあった場合は手動で再学習させるようにしている。 spam メールが bogofilter -u で spam として振り分けられなかった場合
- non-spam 判定されている -> bogofilter -Ns で一旦 undo してから登録
- unsure 判定されている -> bogofilter -s で登録
とするべきで当初そうしていたのだが、最近横着をしてすべて -s してしまっていた。
どうもこれでspamに特有な語が non-spam 側のテーブルにも残ってしまい、結果 non-spam 側に判定が傾きがちになってしまったようだ。そうこしているあいだに -u でどんどん誤登録が進んでしまったと思われる。
手動ではもはやDBをいい塩梅にもっていけなさそうなので、DBを作り直し。 26,000件の spam メールの登録をしかけて、就寝。
- Clam AntiVirus + procmail でウイルス除去 (2004-12-11)
- bogofilter のDB作り直し (2004-12-12)
- bogofilter から bsfilter に乗り換え (2005-07-09)
- Google AdSense (2004-07-03)
- [ Debian ] bogofilter の db が壊れた (2003-12-19)
■よく検索されるキーワード
torrent(114) ドラマ(32) thinkpad(30) x31(29) windows(28) perl(24) wiki(23) linux(22) 動画(21) 画像(16) usb(16) バッグ(16) ノート(15) debian(15) 壁紙(15) 書き方(13) 使い方(12) リフィル(12) 冷蔵庫(12) ほぼ日手帳(12) 修理(12) インストール(11) mp3(11) apache(11) dropbox(11) porter(11) 方眼(10) exzile(10) 作り方(10) 手帳(9) 提案書(9) a6(9) chrome(9) ダイソー(8) xorg(8) hdd(8) ヨドバシカメラ(8) 万年筆(8) ヨドバシ(8) tc-1(8) nikon(8) 古川小百合(8) 写真(8) スーベレーン(7) cvs(7) 無料(7) アレグラ(7) centos(7) google(7) アジェンダ(7) カメラ(7) 映画(7) 三条まゆみ(6) firefox(6) ibm(6) so905ics(6) うなぎ(6) 櫻井翔(6) 秋葉原(6) ダウンロード(6) 2ちゃんねる(6) 腕時計(6) truecrypt(6) 無料動画(6) gtd(6) minolta(6) スーツ(6) skype(5) 今江千佳(5) 無印(5) 時計(5) キーボード(5) シャープ(5) バッグインバッグ(5) 本名(5) ニューヨーカー(5) レビュー(5) fmアンテナ(5) subversion(5) 日本語(5)■注目キーワード
購入 買った 発売日 フリー 無料 価格 値段 作り方 選び方 方法 設定 サンプル ダウンロード セール 限定 在庫 予約 穴場 比較 検証 レビュー 感想 評価 評判 使用感 使ってみた 口コミ 最新 MP3 動画 Torrent 解説 意味 用語集 参考文献 お薦め お勧め おすすめ 便利 Blog ブログ mixi 待受画面 修理Process Time: 0.171677s / load averages: 0.31, 0.45, 0.33
nDiki by WATANABE Yoshimasa (profile)
Powered by DiKicker
Base theme by Nana (for tDiary)



スポンサード リンク