nDiki : spam
スポンサード リンク
Related term
2004年12月12日 (日)
■ bogofilter のDB作り直し

昨日 ClamAV を設定したので、bogofilter の DB からウイルスメール登録の undo をかけた。 結果、うまくフィルタリングができなくなった。
しょうがないのでDBを一旦削除し、約19,000ある過去spamメールを登録し直す。 が、フィルタリングしない。
あれ?
bogofilter -t でチェックをしてみても spam を spam と判定していない様子。
でいろいろいじったところ non-spamメールの方の登録が全く無いと駄目のようだ。 さっき作り直したDBは削除してしまったので、non-spam をある程度登録した後に spamメール約19,000を登録し直し。 かなり時間がかかってしまったが、これで元通りきちんとフィルタリングできるようになった。
ついでに今回からは procmail から呼び出す bogofilter に -u オプションを設定して、どんどん DB を強化する事にする。 なので、今までは誤認識した場合は -s / -n で新規登録のみしていたところを、今後は -Ns / -Sn で undo してから登録するようにする必要あり(本当は spam として振り分けなかった場合 non-spam か unsure のどちらかなので、後者の場合は -Sn ではなく -n にすべき)。
- Clam AntiVirus + procmail でウイルス除去 (2004-12-11)
- bogofilter から bsfilter に乗り換え (2005-07-09)
- bogofilter が日本語 spam メールを弾けなくなったのでDB作り直し (2005-03-09)
- [ Debian ] bogofilter の db が壊れた (2003-12-19)
- Google AdSense (2004-07-03)
2004年12月31日 (金)
■ 私的10大ニュース2004 [ web ]

今年の大事件、マイブームなど。
@ Web 日記を DiKicker に。
2月22日に hns から DiKicker へ移行。 自分で開発しているので好きなように改良ができて楽しい。 比較的すんなり安定したので最近はあまりコードをいじらず。
@ WiKicker 安定。後半は spam がひどい。
WiKicker の方も安定し、(管理をのぞいて)必要な機能もだいたい実装された感じ。 秋ぐらいから NaneyOrgWiki の方にも spam 的な書き込みが多発。 パターンによる書き込み拒否の実装で年末それなりに収束しつつある感じ。
@ SNS
orkut、mixi に登録。 前者はそれほどはまらずフェードアウト。
mixi の方は結構面白い。
というのが遊んでみるのに良かった。
ついついチェックしてしまうのは
の存在。 オフィスで広まったことで楽しさも増した。
来年の今ごろも継続しているだろうか? 今後カスタマイズ機能とかが充実してくれると嬉しい。
(SNSではないが)Gmailの方は登録したけどまだ活用できていない。
@ Google AdSense
導入。 USの小切手からの入金用にシティバンクの口座を開いたものの、シティバンクには数ヶ月後に4拠点閉鎖の命令がくだるなど安心できない状況ではある。
- mixiに登録 (2004-11-19)
- 21:00 [ nDiki ] hnsからDiKickerへ (2004-02-22)
- mixi 用として DiKicker に RSS生成機能を追加 (2004-11-21)
- 私的10大ニュース2003 (2003-12-31)
- [ WiKicker ] Memcachedのメモリ使用量 (2004-02-15)
2005年1月1日 (土)
■ 久しぶりの低速回線で spam メール・ウイルスメールの邪魔臭さを再認識

最近はADSLで(速度という点で)気にならなくなっていた spam メール・ウイスルメールであるが、PHS の 32K だとウザさ百倍。
とりあえずしばらくは fetchmail の設定で30000バイト以上は fetch しないように設定。
spam メール・ウイルスメールのフィルタリングはローカルで充分で、サーバ側では必要ないなと思っていたのだがこういう状況だと確かにサーバ側ではじきたくなるな。
- メールボックスを Gmail に集約 (2007-08-08)
- Clam AntiVirus + procmail でウイルス除去 (2004-12-11)
- bogofilter のDB作り直し (2004-12-12)
- 私的10大ニュース2003 (2003-12-31)
- bogofilter が過敏になってきた (2003-09-22)
2005年2月11日 (金)
■ こんな spam メールがきた

M
M M MM MMMMMM
MMMMMMM MM MMMMMM MMMM
MM MM M M M
MM MM M MMMMMMMM M M
M MM M M M MM
M MM M M M MM
M MM M M M M M
MM MM MM M M M M
MMM MMM MM MM MM MMMMMM
http://*******.**/~***/
M MM M MM
MM MM MM MMMMM MMM MMMMMMMMMM MMM
MM MM MM MM MMMMMMM MMM MMMMMMMMMM MM
MMMMMM MMMMMMM MM MM MM MMMM MM MM MM
MMMMM MMMMMM MM M MM MM MM MM MM
MM MMMMM MM MMMMMM M MM MM MM MM MM
MM MMMMM MM MMMMMM M MMM MMM MM MM MM
MM MM MM MM MMMMMMM MM MM MM
MMM MM MM MM MMMMMMMM MM MMM
MM M MM MM MMMMMM MM MM MM MMM
MM MMMMMMM MM MMMMMM MMMMM MM MM MM M
MM MMMMM MM MMMMM M
http://***.**********.***/
(URLは伏せ)。
- 久しぶりの低速回線で spam メール・ウイルスメールの邪魔臭さを再認識 (2005-01-01)
- Referer spam は # がお好き? (2007-04-05)
- MAILPIA による Twitter リプライチェック (2008-11-18)
- Gmail へのメールボックス移行で spam 誤判定と転送問題にぶつかる (2007-08-11)
- Windows 上での Apache 2.0.53 では PATH_INF... (2005-04-10)
2005年3月9日 (水)
■ bogofilter が日本語 spam メールを弾けなくなったのでDB作り直し

最近 bogofilter が日本語 spam メールをほとんど弾かなくなってきている。 英語や中国語のspamメールはきちんと弾いているのだけれども。
チェックしてみると逆に積極的に non-spam 判定されている spam メールもある。
前回設定を見直した時、procmail から bogofilter を呼び出した際に -u オプションでどんどん新規登録するようにしたのだが、どうもこれで誤登録を重ねてしまっているようだ。
spam メールも non-spam メールも最終的には全て目視でチェックしており、不適切な振り分けがあった場合は手動で再学習させるようにしている。 spam メールが bogofilter -u で spam として振り分けられなかった場合
- non-spam 判定されている -> bogofilter -Ns で一旦 undo してから登録
- unsure 判定されている -> bogofilter -s で登録
とするべきで当初そうしていたのだが、最近横着をしてすべて -s してしまっていた。
どうもこれでspamに特有な語が non-spam 側のテーブルにも残ってしまい、結果 non-spam 側に判定が傾きがちになってしまったようだ。そうこしているあいだに -u でどんどん誤登録が進んでしまったと思われる。
手動ではもはやDBをいい塩梅にもっていけなさそうなので、DBを作り直し。 26,000件の spam メールの登録をしかけて、就寝。
- bogofilter から bsfilter に乗り換え (2005-07-09)
- bogofilter のDB作り直し (2004-12-12)
- Clam AntiVirus + procmail でウイルス除去 (2004-12-11)
- bogofilter が過敏になってきた (2003-09-22)
- [ Debian ] bogofilter の db が壊れた (2003-12-19)
2005年7月9日 (土)
■ bogofilter から bsfilter に乗り換え

spam メールは procmail で bogofilter (with nkf + KAKASI) しているのだが、以前からちょっと挙動が変である。 すり抜けてきた spam メールをあらためて、bogofilter で判定してみると spam メール判定になることがしばしば。
ということで、Mew を 4.2 にアップデートしたついでに spam フィルタを bsfilter にかえてみることにした。
sid のパッケージはちょっと古いので、tarball を持ってきて /usr/local の下に展開。
@ procmail
.procmailrc に以下を追加:
#------------------------ # bsfilter #------------------------ :0 HB: * ? /usr/local/bsfilter-1.0.7/bsfilter/bsfilter $HOME/Mail/newspam/.
@ Mew
それから Mew の方は /usr/local/bsfilter-1.0.7/mua/mew4/ の下の emacs.el と mew.el をロードするようにしておく。
- inbox に spam メールがきたら、Summary mode で 'ls'。
- (procmail の振り分けで)newspam に ham メールがきたら、Summary mode で 'lh'。
今回は収集済みの spam メールをまとめて登録することなく、新着のもののみポチポチ登録しているのだがそれでも十分振り分けてくれる。
使い始めの感蝕としては、 bogofilter より bsfilter の方が積極的に spam メール判定になっている感じだ。bigram による傾向なのかな?
- メールボックスを Gmail に集約 (2007-08-08)
- bogofilter のDB作り直し (2004-12-12)
- Twitter ベイジアンフィルタプロキシ (2007-12-29)
- Clam AntiVirus + procmail でウイルス除去 (2004-12-11)
- Gmail へのメールボックス移行で spam 誤判定と転送問題にぶつかる (2007-08-11)
2006年2月21日 (火)
■ [ WiKicker ] コメントをパターンでチェック

WiKicker では書き込み禁止パターン指定機能をつけてあって、特定の文字列または正規表現にマッチしたページデータを保存しても無視されるようになっている。
spam 対策の機能なのだが、実装してからも spam は止まない。 ブラックリスト方式はまあいたちごっこではあるが、それにしても正規表現にマッチしているはずのものまで書き込まれている。あれ?
まてよ、たしかコメントフォームからの追記はそういえばチェックしていなかったような(いや実はかなり前から薄々気がついていたのだが、ついついその場は手作業で SPAM を削除して済ましてしまっていたのだ)。
しかしやっぱり面倒だし、コメント書き込みもチェックしないと片手落ちだなと思い実装。 といってもまあ変更してみると、10数行程度だったりするのだが。
むしろ、テストコードの追加の方がよっぽど多かったり。
- [ WiKicker ] spam と検索エンジン対応に noindex、... (2007-01-13)
- はてなダイアリーキーワード自動リンクAPI (2004-02-05)
- [ WiKicker ] 自動InterWiki (2004-02-09)
- [ WiKicker ] 書き込みをパターンでチェック (2004-12-13)
- [ WiKicker ] URI抽出正規表現修正 (2004-07-24)
2007年1月13日 (土)
■ [ WiKicker ] spam と検索エンジン対応に noindex、nofollow を追加

@ <a rel="nofollow">
相変わらず www.naney.org 上の WikiForum (NaneyOrgWiki) にも毎日のようにリンク spam 書き込みがある。
気がつき次第削除と、その URL や関連キーワードの書き込み禁止文字列ブラックリストへの登録を行っているが、手間でしょうがない。
これらのリンク先に貢献するのは腹立たしいのでリンク (A 要素)へ
rel="follow"
属性をデフォルトで設定するように WiKicker を書き換えた。 ようやく。
@ <meta name="robots" content="noindex,nofollow">
あわせて、検索エンジン対応もしていおくことにした。
編集ページや履歴ページは検索エンジンに登録してもしょうがないので、インデックスから除外されるように HTML の HEAD に
<meta name="robots" content="noindex,nofollow">
を追加するように修正。
クエリ付きの URL のページで noindex した場合、クエリ無しや他のクエリを持つ URL のページまで一緒にインデックスから外されてしまわないかちょっと心配で、今まで保留にしていたのだけれど、Wikipedia などを見ても大丈夫のようだ。
[ SEO ]
- DiKicker の出力する HTML コードを小さく (2006-10-05)
- Wiki ではロボット除けをしてはいけない (2007-01-21)
- DiKicker に grep 検索機能を追加 (2007-02-02)
- Debian GNU/Linux に Hyper Estraier 1.2... (2006-05-31)
- WiKicker における PageName 最長文字数 (2006-06-10)
2007年3月14日 (水)
■ [ DiKicker ] ロック獲得リトライをさらに減らす

相変わらずここ最近 www.naney.org の負荷が上がり気味。 今日は Referer spam の爆撃もきていた様子。
DiKicker の挙動やログを見ていて気がついたのだが、さばききれなくなるのはどうも記事更新チェックの時間が長いからのようだ。 排他ロック獲得ループの回数が今の設定でも長い。
どのみち負荷が高い場合は共有ロックの方が勝ち気味で、排他ロックできなくて終わることが多いはずなので、思いきってもっとリトライの回数を減らしておいた。
それとロック獲得ループの中で「結局ロックできなかった時」に余計に1回 sleep() していたのでこれを削除。
- サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を... (2007-04-05)
- [ DiKicker ] lock 待ちの sleep 忘れ (2004-05-08)
- さらにサーバ負荷状態悪化。対応に追われる。 (2006-03-04)
- nDiki のレスポンスが悪くなってきたので DiKicker 修正 (2006-08-29)
- [ DiKicker ] 語リストを Term DB に保持 (2006-11-21)
2007年4月5日 (木)
■ サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を待つようにした

www.naney.org を収容しているサーバの負荷が高い状態。
という対処をしたけれどそれでもなかなか負荷が落ちつかない。
傾向としては SpeedyCGI のバックエンド側(speedy_backend)が MaxBackends まで起動して処理が追いつかないと、起動しているフロントエンド側 (speedy) がどんどん増えてしまうという状況のようだ。
DiKicker の高速化も順次着手しているのだけれど追いつきそうにもないので、loave average が高い時は頑張らずに無条件に 503 を返すように修正して対応(以前 hns の時にも同じことをした)。
本当は SpeedyCGI フロントエンドの数に応じて負荷の軽い処理に切り換える等工夫したいんだけれど、フロントエンドの数を取得する方法は簡単にはなさそうなんだよなあ。
- [ DiKicker ] ロック獲得リトライをさらに減らす (2007-03-14)
- www.naney.org サーバ断続的にダウン (2006-04-30)
- [ Perl ] Log::Log4perlのはまりどころ (2004-03-02)
- 私的10大ニュース2004 [ web ] (2004-12-31)
- サーバ高負荷状態につき DiKicker 機能修正とサーバ設定変更 (2006-03-03)
■ Referer spam は # がお好き?

Referer spam が相変わらずきている。 今まで個別に .htaccess で拒否している。
ところでログを見ていてしばらく前から気になっていたのだが、なぜだか知らないがうちにくる Referer spam は
http://www.example.com/#
のような最後に # がついた(通常は送られてこない) Referer URL を送ってきている。
サヨウナラ。
SetEnvIf Referer "http://[^/]+/#" denyreferer deny from env=denyreferer
- こんな spam メールがきた (2005-02-11)
- サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を... (2007-04-05)
- Rubric でプライベート SBS を立てるも 0.140 では日本語に不具合 (2006-07-22)
- [ DiKicker ] ロック獲得リトライをさらに減らす (2007-03-14)
- Referer spam (2004-10-12)
スポンサード リンク
■よく検索されるキーワード
torrent(109) x31(45) thinkpad(31) 動画(29) 提案書(26) mp980(24) 手帳(24) windows(23) linux(23) 画像(21) 使い方(21) リフィル(21) debian(20) usb(20) tc-1(19) perl(19) 筆まめ(18) 壁紙(17) ほぼ日手帳(16) 冷蔵庫(14) ドラマ(13) wiki(13) 書き方(12) ダイソー(12) システム手帳(12) 宮根誠司(12) ノート(11) so905ics(11) 無印(11) バッグインバッグ(11) 映画(11) 設定(10) 修理(10) 宮根(9) ssh(9) a6(9) ほぼ日(9) 黒田征太郎(9) バッグ(9) gmail(8) 感想(8) 娘(8) f-01a(8) メモリ(8) gtd(8) ブログ(8) nikon(8) allinanchor:*.torrent(8) ボールペン(7) 方眼(7) ポイント(7) 4c(7) ヨドバシカメラ(7) ケース(7) twitter(7) apache(7) ht-01a(7) ヨドバシ(7) ubuntu(7) truecrypt(7) n-02a(7) 作り方(7) minolta(7) af(6) インストール(6) ガントチャート(6) mp3(6) zippo(6) hdd(6) emacs(6) レビュー(6) カバー(6) vq1005(6) 日本語(6) ハクキンカイロ(6) 無印良品(6) グレゴリー(6) 交換(6) nikkor(6) pixus(6)■注目キーワード
購入 買った 発売日 フリー 無料 価格 値段 作り方 選び方 使い方 方法 設定 サンプル ダウンロード 限定 在庫 予約 穴場 比較 検証 レビュー 感想 評価 評判 使用感 使ってみた 口コミ 噂 最新 MP3 動画 意味 お薦め お勧め おすすめ 便利 Blog ブログ mixi 修理 デザイン ビックカメラProcess Time: 0.08397s / load averages: 0.33, 0.24, 0.22
nDiki by WATANABE Yoshimasa (profile)
Powered by DiKicker
Base theme by Nana (for tDiary)



スポンサード リンク