トップ(最新) | <前 | 次>

nDiki : spam

スポンサード リンク

Related term

2004年12月12日 (日)

bogofilter のDB作り直し このエントリーを含むはてなブックマーク

昨日 ClamAV を設定したので、bogofilter の DB からウイルスメール登録の undo をかけた。 結果、うまくフィルタリングができなくなった。

しょうがないのでDBを一旦削除し、約19,000ある過去spamメールを登録し直す。 が、フィルタリングしない。

あれ?

bogofilter -t でチェックをしてみても spamspam と判定していない様子。

でいろいろいじったところ non-spamメールの方の登録が全く無いと駄目のようだ。 さっき作り直したDBは削除してしまったので、non-spam をある程度登録した後に spamメール約19,000を登録し直し。 かなり時間がかかってしまったが、これで元通りきちんとフィルタリングできるようになった。

ついでに今回からは procmail から呼び出す bogofilter に -u オプションを設定して、どんどん DB を強化する事にする。 なので、今までは誤認識した場合は -s / -n で新規登録のみしていたところを、今後は -Ns / -Sn で undo してから登録するようにする必要あり(本当は spam として振り分けなかった場合 non-spam か unsure のどちらかなので、後者の場合は -Sn ではなく -n にすべき)。

スポンサード リンク


[ 12月12日全て ]

2004年12月31日 (金)

私的10大ニュース2004 [ web ] このエントリーを含むはてなブックマーク

今年の大事件、マイブームなど。

@ Web 日記DiKicker に。

2月22日hns から DiKicker へ移行。 自分で開発しているので好きなように改良ができて楽しい。 比較的すんなり安定したので最近はあまりコードをいじらず。

@ WiKicker 安定。後半は spam がひどい。

WiKicker の方も安定し、(管理をのぞいて)必要な機能もだいたい実装された感じ。 秋ぐらいから NaneyOrgWiki の方にも spam 的な書き込みが多発。 パターンによる書き込み拒否の実装で年末それなりに収束しつつある感じ。

Memcached によるキャッシュ効果は絶大だった。

@ SNS

orkutmixi に登録。 前者はそれほどはまらずフェードアウト。

mixi の方は結構面白い。

というのが遊んでみるのに良かった。

ついついチェックしてしまうのは

の存在。 オフィスで広まったことで楽しさも増した。

来年の今ごろも継続しているだろうか? 今後カスタマイズ機能とかが充実してくれると嬉しい。

(SNSではないが)Gmailの方は登録したけどまだ活用できていない。

@ Google AdSense

導入。 USの小切手からの入金用にシティバンクの口座を開いたものの、シティバンクには数ヶ月後に4拠点閉鎖の命令がくだるなど安心できない状況ではある。


[ 12月31日全て ]

2005年1月1日 (土)

久しぶりの低速回線で spam メールウイルスメールの邪魔臭さを再認識 このエントリーを含むはてなブックマーク

最近はADSLで(速度という点で)気にならなくなっていた spam メール・ウイスルメールであるが、PHS の 32K だとウザさ百倍。

とりあえずしばらくは fetchmail の設定で30000バイト以上は fetch しないように設定。

spam メールウイルスメールのフィルタリングはローカルで充分で、サーバ側では必要ないなと思っていたのだがこういう状況だと確かにサーバ側ではじきたくなるな。


[ 1月1日全て ]

2005年2月11日 (金)

こんな spam メールがきた このエントリーを含むはてなブックマーク

           M
          M M MM                 MMMMMM
     MMMMMMM  MM       MMMMMM              MMMM
          MM  MM            M             M   M
          MM  MM            M   MMMMMMMM  M   M
          M   MM    M      M        M        MM
          M   MM    M      M        M       MM
         M    MM   M      M M       M      M
        MM    MM MM      M   M     M      M
      MMM      MMM     MM    MM   MM      MMMMMM

 http://*******.**/~***/


   M          MM              M                MM
   MM         MM    MM      MMMMM    MMM MMMMMMMMMM       MMM
   MM         MM  MM MM    MMMMMMM   MMM MMMMMMMMMM       MM
 MMMMMM    MMMMMMM MM      MM   MM   MMMM    MM   MM     MM
 MMMMM     MMMMMM          MM   M   MM MM    MM    MM   MM
  MM MMMMM   MM MMMMMM     M        MM MM    MM    MM   MM
  MM MMMMM   MM MMMMMM     M       MMM MMM   MM     MM MM
  MM         MM            MM   MM MMMMMMM   MM     MM MM
 MMM         MM            MM   MM MMMMMMMM  MM      MMM
 MM  M      MM  MM         MMMMMM MM     MM  MM      MMM
 MM MMMMMMM MM  MMMMMM      MMMMM MM     MM  MM       M
 MM   MMMMM MM   MMMMM        M

 http://***.**********.***/

(URLは伏せ)。


[ 2月11日全て ]

2005年3月9日 (水)

bogofilter日本語 spam メールを弾けなくなったのでDB作り直し このエントリーを含むはてなブックマーク

最近 bogofilter日本語 spam メールをほとんど弾かなくなってきている。 英語や中国語のspamメールはきちんと弾いているのだけれども。

チェックしてみると逆に積極的に non-spam 判定されている spam メールもある。

前回設定を見直した時procmail から bogofilter を呼び出した際に -u オプションでどんどん新規登録するようにしたのだが、どうもこれで誤登録を重ねてしまっているようだ。

spam メールも non-spam メールも最終的には全て目視でチェックしており、不適切な振り分けがあった場合は手動で再学習させるようにしている。 spam メールbogofilter -u で spam として振り分けられなかった場合

  • non-spam 判定されている -> bogofilter -Ns で一旦 undo してから登録
  • unsure 判定されている -> bogofilter -s で登録

とするべきで当初そうしていたのだが、最近横着をしてすべて -s してしまっていた。

どうもこれでspamに特有な語が non-spam 側のテーブルにも残ってしまい、結果 non-spam 側に判定が傾きがちになってしまったようだ。そうこしているあいだに -u でどんどん誤登録が進んでしまったと思われる。

手動ではもはやDBをいい塩梅にもっていけなさそうなので、DBを作り直し。 26,000件の spam メールの登録をしかけて、就寝。


[ 3月9日全て ]

2005年7月9日 (土)

bogofilter から bsfilter に乗り換え このエントリーを含むはてなブックマーク

spam メールprocmailbogofilter (with nkf + KAKASI) しているのだが、以前からちょっと挙動が変である。 すり抜けてきた spam メールをあらためて、bogofilter で判定してみると spam メール判定になることがしばしば。

ということで、Mew を 4.2 にアップデートしたついでに spam フィルタを bsfilter にかえてみることにした。

sid のパッケージはちょっと古いので、tarball を持ってきて /usr/local の下に展開。

@ procmail

.procmailrc に以下を追加:

 #------------------------
 # bsfilter
 #------------------------
 :0 HB:
 * ? /usr/local/bsfilter-1.0.7/bsfilter/bsfilter
 $HOME/Mail/newspam/.

@ Mew

それから Mew の方は /usr/local/bsfilter-1.0.7/mua/mew4/ の下の emacs.el と mew.el をロードするようにしておく。

  • inbox に spam メールがきたら、Summary mode で 'ls'。
  • (procmail の振り分けで)newspam に ham メールがきたら、Summary mode で 'lh'。

今回は収集済みの spam メールをまとめて登録することなく、新着のもののみポチポチ登録しているのだがそれでも十分振り分けてくれる。

使い始めの感蝕としては、 bogofilter より bsfilter の方が積極的に spam メール判定になっている感じだ。bigram による傾向なのかな?


[ 7月9日全て ]

2006年2月21日 (火)

[ WiKicker ] コメントをパターンでチェック このエントリーを含むはてなブックマーク

WiKicker では書き込み禁止パターン指定機能をつけてあって、特定の文字列または正規表現にマッチしたページデータを保存しても無視されるようになっている。

spam 対策の機能なのだが、実装してからも spam は止まない。 ブラックリスト方式はまあいたちごっこではあるが、それにしても正規表現にマッチしているはずのものまで書き込まれている。あれ?

まてよ、たしかコメントフォームからの追記はそういえばチェックしていなかったような(いや実はかなり前から薄々気がついていたのだが、ついついその場は手作業で SPAM を削除して済ましてしまっていたのだ)。

しかしやっぱり面倒だし、コメント書き込みもチェックしないと片手落ちだなと思い実装。 といってもまあ変更してみると、10数行程度だったりするのだが。

むしろ、テストコードの追加の方がよっぽど多かったり。


[ 2月21日全て ]

2007年1月13日 (土)

[ WiKicker ] spam検索エンジン対応に noindex、nofollow を追加 このエントリーを含むはてなブックマーク

@ <a rel="nofollow">

相変わらず www.naney.org 上の WikiForum (NaneyOrgWiki) にも毎日のようにリンク spam 書き込みがある。

気がつき次第削除と、その URL や関連キーワードの書き込み禁止文字列ブラックリストへの登録を行っているが、手間でしょうがない。

これらのリンク先に貢献するのは腹立たしいのでリンク (A 要素)へ

 rel="follow"

属性をデフォルトで設定するように WiKicker を書き換えた。 ようやく。

@ <meta name="robots" content="noindex,nofollow">

あわせて、検索エンジン対応もしていおくことにした。

編集ページや履歴ページは検索エンジンに登録してもしょうがないので、インデックスから除外されるように HTML の HEAD に

 <meta name="robots" content="noindex,nofollow">

を追加するように修正。

クエリ付きの URL のページで noindex した場合、クエリ無しや他のクエリを持つ URL のページまで一緒にインデックスから外されてしまわないかちょっと心配で、今まで保留にしていたのだけれど、Wikipedia などを見ても大丈夫のようだ。


[ SEO ]


[ 1月13日全て ]

2007年3月14日 (水)

[ DiKicker ] ロック獲得リトライをさらに減らす このエントリーを含むはてなブックマーク

相変わらずここ最近 www.naney.org の負荷が上がり気味。 今日は Referer spam の爆撃もきていた様子。

DiKicker の挙動やログを見ていて気がついたのだが、さばききれなくなるのはどうも記事更新チェックの時間が長いからのようだ。 排他ロック獲得ループの回数が今の設定でも長い。

どのみち負荷が高い場合は共有ロックの方が勝ち気味で、排他ロックできなくて終わることが多いはずなので、思いきってもっとリトライの回数を減らしておいた。

それとロック獲得ループの中で「結局ロックできなかった時」に余計に1回 sleep() していたのでこれを削除。


[ 3月14日全て ]

2007年4月5日 (木)

サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を待つようにした このエントリーを含むはてなブックマーク

www.naney.org を収容しているサーバの負荷が高い状態。

  1. Referer spam 弾きを強化。
  2. 1日半前ぐらいに1度リブートしたようで、Memcached が起動していなかったので起動。

という対処をしたけれどそれでもなかなか負荷が落ちつかない。

傾向としては SpeedyCGI のバックエンド側(speedy_backend)が MaxBackends まで起動して処理が追いつかないと、起動しているフロントエンド側 (speedy) がどんどん増えてしまうという状況のようだ。

DiKicker の高速化も順次着手しているのだけれど追いつきそうにもないので、loave average が高い時は頑張らずに無条件に 503 を返すように修正して対応(以前 hns の時にも同じことをした)。

本当は SpeedyCGI フロントエンドの数に応じて負荷の軽い処理に切り換える等工夫したいんだけれど、フロントエンドの数を取得する方法は簡単にはなさそうなんだよなあ。


Referer spam は # がお好き? このエントリーを含むはてなブックマーク

Referer spam が相変わらずきている。 今まで個別に .htaccess で拒否している。

ところでログを見ていてしばらく前から気になっていたのだが、なぜだか知らないがうちにくる Referer spam

 http://www.example.com/#

のような最後に # がついた(通常は送られてこない) Referer URL を送ってきている。

サヨウナラ。

 SetEnvIf Referer "http://[^/]+/#" denyreferer
 deny from env=denyreferer

[ 4月5日全て ]

スポンサード リンク

■よく検索されるキーワード

torrent(109) x31(45) thinkpad(31) 動画(29) 提案書(26) mp980(24) 手帳(24) windows(23) linux(23) 画像(21) 使い方(21) リフィル(21) debian(20) usb(20) tc-1(19) perl(19) 筆まめ(18) 壁紙(17) ほぼ日手帳(16) 冷蔵庫(14) ドラマ(13) wiki(13) 書き方(12) ダイソー(12) システム手帳(12) 宮根誠司(12) ノート(11) so905ics(11) 無印(11) バッグインバッグ(11) 映画(11) 設定(10) 修理(10) 宮根(9) ssh(9) a6(9) ほぼ日(9) 黒田征太郎(9) バッグ(9) gmail(8) 感想(8) (8) f-01a(8) メモリ(8) gtd(8) ブログ(8) nikon(8) allinanchor:*.torrent(8) ボールペン(7) 方眼(7) ポイント(7) 4c(7) ヨドバシカメラ(7) ケース(7) twitter(7) apache(7) ht-01a(7) ヨドバシ(7) ubuntu(7) truecrypt(7) n-02a(7) 作り方(7) minolta(7) af(6) インストール(6) ガントチャート(6) mp3(6) zippo(6) hdd(6) emacs(6) レビュー(6) カバー(6) vq1005(6) 日本語(6) ハクキンカイロ(6) 無印良品(6) グレゴリー(6) 交換(6) nikkor(6) pixus(6)

この日記のはてなブックマーク数 Add to Google RSS

Process Time: 0.08397s / load averages: 0.33, 0.24, 0.22
nDiki by WATANABE Yoshimasa (profile)
Powered by DiKicker
Base theme by Nana (for tDiary)