nDiki : www.naney.org
www.naney.org
スポンサード リンク
Related term
2006年10月26日 (木)
■ Web 解析サービス Google Analytics を申し込む

昨年無料サービス開始時には申し込みが殺到して新規登録を一時中止したという経緯があった Google Analytics、当時はそのうち試してみたいと思っていたのだが気がつけばもうすぐ1年だ。
アクセス解析を見るのは結構楽しいもので、周期的に見たいという衝動がくる。 analog やら AWStats やら自作やらで過去にもいろいろ解析してみた経験がある。
会社でも最近アクセスログ解析が話題になっているし、www.naney.org 用に Google Analytics に申し込んでみた。
解析を取りたいページの最後に JavaScript を埋め込むタイプの解析で、404 であったりその他のリソースのアクセス数のチェックには向かないものの、その分 Web サーバのアクセスログ解析では得られない統計を得ることができる。
レポートの種類は豊富で、最初は「あのレポートは、どれだっけ?」と何度もいろいろ見直したりしなければならないぐらい。
アクセス傾向が分かるようになるので、重点的に内容を充実させるべきページを把握してサイトを改良していきたい。
- AWStats 6.0 (2004-05-21)
- www.naney.org のアクセス統計停止 (2004-05-18)
- Google Analytics のデータからよく検索されるキーワードを表... (2007-12-18)
- 本サイトの Referer 統計復活 (2000-11-05)
- [ www.naney.org ] 23:00 明日に移転先サーバの設定完了予定 (2002-01-22)
2007年1月13日 (土)
■ [ WiKicker ] spam と検索エンジン対応に noindex、nofollow を追加

@ <a rel="nofollow">
相変わらず www.naney.org 上の WikiForum (NaneyOrgWiki) にも毎日のようにリンク spam 書き込みがある。
気がつき次第削除と、その URL や関連キーワードの書き込み禁止文字列ブラックリストへの登録を行っているが、手間でしょうがない。
これらのリンク先に貢献するのは腹立たしいのでリンク (A 要素)へ
rel="follow"
属性をデフォルトで設定するように WiKicker を書き換えた。 ようやく。
@ <meta name="robots" content="noindex,nofollow">
あわせて、検索エンジン対応もしていおくことにした。
編集ページや履歴ページは検索エンジンに登録してもしょうがないので、インデックスから除外されるように HTML の HEAD に
<meta name="robots" content="noindex,nofollow">
を追加するように修正。
クエリ付きの URL のページで noindex した場合、クエリ無しや他のクエリを持つ URL のページまで一緒にインデックスから外されてしまわないかちょっと心配で、今まで保留にしていたのだけれど、Wikipedia などを見ても大丈夫のようだ。
[ SEO ]
- DiKicker の出力する HTML コードを小さく (2006-10-05)
- [ WiKicker ] WikiPage のHTMLレンダリング結果のキ... (2004-02-14)
- [ www.naney.org ] LIRS とか (2002-07-20)
- [ WiKicker ] Memcachedのメモリ使用量 (2004-02-15)
- [ Perl ] Log::Log4perlのはまりどころ (2004-03-02)
2007年1月21日 (日)
■ Wiki ではロボット除けをしてはいけない

昨日土曜日から nDiki を含め www.naney.org のアクセス数が激減している。 Google Analytics でみてみると先週の半分以下。 細かくみてみると Google 経由のアクセスが 3分の1になっている。
Google で検索してみると今まで上位であった検索結果がことごとくランク外に。 先週土曜日に行った検索エンジン対応のための一部ページへの robots メタタグの追加とそれらのページへのリンクへの nofollow の追加が裏目に出たらしい。
Wiki の過去のリビジョンのページや編集ページなどが予想以上にサイト全体の PageRank を下支えしていたようだ。
あわててこれらの設定を外す。
元に戻るにはまたそれなりにかかるだろう。 ショック。
[ SEO ]
- Google Analytics のデータからよく検索されるキーワードを表... (2007-12-18)
- Google での順位はだいたい1週間ぐらいで反映される (2007-01-29)
- 「ほぼ日手帳 2006」でトラックワードα版プチコンテスト1位 (2005-12-14)
- Linux で使えるデスクトップ検索ツール Beagle でローカルファイ... (2006-08-08)
- 今日のさえずり - アダルト版 mixi ってしってますか? (2007-12-17)
2007年2月2日 (金)
■ DiKicker に grep 検索機能を追加

DiKicker には自動リンクベースの記事串刺し表示機能があって、同じキーワードを含む記事をまとめて読むことができる。 結構便利なのだが、この機能ではキーワードの設定は Blog の書き手に委ねられている。
社内で DiKicker を一部使ってもらっているのだけれども、それら他人の Blog を読んでいると「あのキーワードで串刺し表示したいな」と思うことがしばしばあることに気がついた。 やはり任意の文字列で串刺し表示する機能が欲しい。
書き手にとっても「自動リンクキーワードにするような文字列ではないけれども、串刺しで読みたい/探したい/見せたい」と思うことが少なからずある。
ということで、検索ベースの串刺し表示機能を実装してみた。
@ grep ベース
実現には全文検索を行う必要があるが「設置・運用の手間」「ディスク容量」という点から、事前にインデックスを生成するような方法は今回は避けようと思う (www.naney.org 上で自分が使う上での制約からくる理由が一番大きかったりする)。
ということで今回は grep 型で実装することにした。 もともと WiKicker の方の検索機能も現在のところ grep 型である。 WiKicker では自前で WikiPage をスキャンしているが、DiKicker では grep コマンドに任せることにした。 こういうのは専用の grep を使った方が速いはず。呼び出しは
grep -Flre $escaped_string dir...
というオプション指定。Web ページとしてのページングなどは、自動リンクによる串刺し表示機能のものを流用。
で試したところ www.naney.org サーバでは、load averages が 1 以下の時でだいたい50秒前後。対象ファイル数は 2800弱。予想より時間がかかる。
ただし1回実行した後、ファイルがファイルシステム/OSのメモリ上にのっている状態では 0.1秒程度で完了する。
検索結果ページの permalink が検索エンジンにそれなりに捕捉されて、定期的にアクセスがあるようになれば、ファイルがメモリにのっている割合が増えるであろうから平均して実用に耐えられる速度が出るかもしれない。
今後は様子をみながら検索結果のキャッシュ等を処理を整備していく予定。
- WiKicker 0.420 リリース - 変更いろいろ (2007-05-30)
- Debian GNU/Linux に Hyper Estraier 1.2... (2006-05-31)
- 自動リンク機能改善による悪影響 (2007-03-07)
- [ WiKicker ] 古くても検索キャッシュを返す (2004-01-20)
- [ WiKicker ] キャッシュまわりにバグ (2004-06-05)
2007年3月7日 (水)
■ 自動リンク機能改善による悪影響

www.naney.org がどうもまた最近重い。
load average が 30 前後まで上がっている。 しばらくするとだんだん落ちついてくるのだが、3 以下になったところでまた 30 前後までまた一気に上がるというのを繰り返している。 load average で振る舞いを変えるのは WiKicker / DiKicker の特徴なので、これはうちが原因かも。
調べてみると SpeedyCGI のフロントエンドのプロセスが順番待ちで大量に起動している。
どうやら先日追加した自動リンクの機能改善にかかわるコード修正による、若干の処理速度の低下がまずいようだ。
速度が上がるようにちょっと修正してみたけれどまだ駄目なようなので、しかたなく単語の連接チェック部分を一時コメントアウトして対応。
今後、自動リンクまわりの更なる高速化がする必要がありそう。
- DiKicker に grep 検索機能を追加 (2007-02-02)
- [ Perl ] Log::Log4perlのはまりどころ (2004-03-02)
- DiKicker の出力する HTML コードを小さく (2006-10-05)
- サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を... (2007-04-05)
- サーバ高負荷状態につき DiKicker 機能修正とサーバ設定変更 (2006-03-03)
2007年3月8日 (木)
■ MSNBot が激しすぎるので deny

ここ数日の www.naney.org サーバ高負荷について様子を見ていたところ、DiKicker の処理がリクエストに追いつかなくなる時には MSNBot が激しくアクセスしてきているようである。
MSNBot のページには robots.txt の Crawl-delay を見ると書いてあるので、以前
User-agent: msnbot Crawl-delay: 20
としておいたのだがどうもこれは効いていないらしい。
ちょっとこの連続リクエストはしんどいし、msn からのアクセスは現状全体の 2.5% 程度なのでしばらく弾くことにする。
- フィード向け AdSense を追加してみた (2008-08-23)
- サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を... (2007-04-05)
- サーバ高負荷状態につき DiKicker 機能修正とサーバ設定変更 (2006-03-03)
- [ DiKicker ] ロック獲得リトライをさらに減らす (2007-03-14)
- [ Perl ] Log::Log4perlのはまりどころ (2004-03-02)
2007年3月14日 (水)
■ [ DiKicker ] ロック獲得リトライをさらに減らす

相変わらずここ最近 www.naney.org の負荷が上がり気味。 今日は Referer spam の爆撃もきていた様子。
DiKicker の挙動やログを見ていて気がついたのだが、さばききれなくなるのはどうも記事更新チェックの時間が長いからのようだ。 排他ロック獲得ループの回数が今の設定でも長い。
どのみち負荷が高い場合は共有ロックの方が勝ち気味で、排他ロックできなくて終わることが多いはずなので、思いきってもっとリトライの回数を減らしておいた。
それとロック獲得ループの中で「結局ロックできなかった時」に余計に1回 sleep() していたのでこれを削除。
- サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を... (2007-04-05)
- さらにサーバ負荷状態悪化。対応に追われる。 (2006-03-04)
- nDiki のレスポンスが悪くなってきたので DiKicker 修正 (2006-08-29)
- [ DiKicker ] 語リストを Term DB に保持 (2006-11-21)
- Google AdSense (2004-07-03)
2007年4月5日 (木)
■ サーバの負荷が高くなったら DiKicker が 503 を返して沈静化を待つようにした

www.naney.org を収容しているサーバの負荷が高い状態。
という対処をしたけれどそれでもなかなか負荷が落ちつかない。
傾向としては SpeedyCGI のバックエンド側(speedy_backend)が MaxBackends まで起動して処理が追いつかないと、起動しているフロントエンド側 (speedy) がどんどん増えてしまうという状況のようだ。
DiKicker の高速化も順次着手しているのだけれど追いつきそうにもないので、loave average が高い時は頑張らずに無条件に 503 を返すように修正して対応(以前 hns の時にも同じことをした)。
本当は SpeedyCGI フロントエンドの数に応じて負荷の軽い処理に切り換える等工夫したいんだけれど、フロントエンドの数を取得する方法は簡単にはなさそうなんだよなあ。
- www.naney.org サーバ断続的にダウン (2006-04-30)
- [ Perl ] Log::Log4perlのはまりどころ (2004-03-02)
- 私的10大ニュース2004 [ web ] (2004-12-31)
- サーバ高負荷状態につき DiKicker 機能修正とサーバ設定変更 (2006-03-03)
- [ DiKicker ] ロック獲得リトライをさらに減らす (2007-03-14)
2007年12月18日 (火)
■ Google Analytics のデータからよく検索されるキーワードを表示するようにした

Google Analytics から1日1回キーワードのレポートを TSV 形式でメールで配信するように設定している。 このデータをもとに「よく検索されるキーワード」を抽出して、nDiki の下の方に表示するようにした。
@ 処理の流れ
- メールで配信された TSV 形式データをファイルに保存する。
- 検索質問とセッション数の組のデータを抽出する。
- 1ワード単位でセッション数を集計する。
- 上位のワードについて、nDiki のキーワードリストにあるか照合する。
- 各ワードについて、対応するリンクを設定してフッタ埋め込み用の HTML フラグメントを生成しファイルを生成する。
- ファイルをサーバにアップロードし、サーバ側でフッタにインクルードする。
1日1回の作業なので、メールからスクリプトにかける部分とアップロードする部分は手動で。
そこそこの処理なので、そこそこの精度なのだけれど傾向は何となくわかる感じだ。
実際にはアクセスログの対象となっているのは nDiki 以外の www.naney.org 内のアクセスも含まれているけれどもまあいいであろう。
@ キーワードの処理
キーワードの処理は細かいことをいうと結構面倒だったりする。
- 複合語の処理: 検索ワード側も、nDiki キーワード側も複合語を含むので空白で区切られた語の扱いが大変。特に検索ワード側は語順が正しいとは限らないし、各語が個別の語を表しているのか否かの判断が難しい。
- 曖昧一致処理: 検索ワード(や nDiki キーワード)が正確な語とは限らないので、曖昧一致させる必要がある。検索エンジン側で曖昧一致させて検索結果に上がっている可能性があるのでその辺りも考慮する必要がある。
などなど。
この辺りは精度を上げようとするといろいろ工夫の余地がって楽しそうではあるな。
- Linux で使えるデスクトップ検索ツール Beagle でローカルファイ... (2006-08-08)
- Wiki ではロボット除けをしてはいけない (2007-01-21)
- Google Analytics から TSV エクスポートしてキーワード... (2007-11-18)
- はてなブックマーク上の最新ブックマークを nDiki に (2005-05-16)
- 「ほぼ日手帳 2006」でトラックワードα版プチコンテスト1位 (2005-12-14)
2008年8月23日 (土)
■ フィード向け AdSense を追加してみた

Google AdSenseで「フィード向け AdSense」が利用可能になったので、nDiki に追加してみた。
Google AdSenseにログインして nDiki の URL を指定してフィードを登録すると、FeedBurner 上にフィードが作成される。
www.naney.org 側では nDiki のフィードへのアクセスがきたら、FeedBurner 上のフィードへリダイレクトするように設定する。 ただし FeedBurner から巡回がきた際にはリダイレクトせずに、nDiki のオリジナルフィードにアクセスさせる。
www.naney.org のトップディレクトリの .htaccess に以下を追加。
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} !FeedBurner
RewriteRule ^diki/d/rss\.rdf$ http://feedproxy.google.com/nDiki [L,R]
思ったよりあっけなく設定終了。
今のフィード URL が既にフィードリーダーに登録してもらっていることを考えて nDiki (DiKicker) に「FeedBurner 向けに別 URL でのフィード出力機能」と「現在のフィード URL からのリダイレクト機能」を追加する必要があるなと思っていたのが、mod_rewrite が使えれば手間無しだった。
nDiki のフィードと同様の内容に広告が挿入されたバージョンのフィードが http://feedproxy.google.com/nDiki で表示されることを確認。
せっかくなので FeedBurner のレポート機能もチェックしてみることにしよう。
- サーバ高負荷状態につき DiKicker 機能修正とサーバ設定変更 (2006-03-03)
- DiKicker の出力する HTML コードを小さく (2006-10-05)
- Rubric でプライベート SBS を立てるも 0.140 では日本語に不具合 (2006-07-22)
- DiKicker に n 年日記機能を追加 (2006-11-03)
- Twitter ステータスを nDiki サイドバーに表示 (2007-11-09)
Related web page
■ Twitter への書き込みを自動的に Skype ムードメッセージに設定する for Windows 半年ぐらい前に Skype for Linux で Twitter への書き込みを自動的に Skype ムードメッセージに設定するスクリプト(記事)を作って cron で 10分毎に更新するようにした。 Windows BOX 上 Skype を使っている時も同様にできるように、Skype4COM を使うバージョンも書いてみた。 D-Bus ではなく Skype4COM を使うようにすることhttp://www.naney.org/diki/d/2008-08-05-Skype.html
■ スクラッチから書き直したくなるプログラマは、書き直したプログラムもまたスクラッチから書き直したくなる。 自分がプログラムをスクラッチから書き直したいと思った時、またスクラッチから書き直したいと言われた時のためにまとめておこう。 @ スクラッチから書き直したい理由 スクラッチから書き直したいと思う理由はだいたいこうだ。 もっと良くできると思うからhttp://www.naney.org/diki/d/2008-06-14-rewrite-the-code-from-scratch.html
GET リクエストのようであるとも言える。漆黒のコーディングは、闇夜に舞う。紳士淑女は刮目してノート PCを見よ。どれだけ多くの血を流そうとも、必ずやを手に入れるという作者の強い意志を感じる。結局、ノート PCしかない。むしろ「パック伝票待ち」大会などと称して、それをたたえるのはどうだろうか。ホームエレクターがそんなに好きなのか。まあ良い。パリの12区あhttp://onosendai.jp/hyoron/hyoron.php?URL=http%3A%2F%2Fwww.naney.org%2Fdiki
■ Twitter ベイジアンフィルタプロキシ Twitter で following が増えてくるにつれて、タイムラインに目を通すのが大変になってきた(という程きちんと見ている訳ではないが)。 さっとタイムラインをなめて面白そうな情報をピックアップしたい時は、「おはよう」とか「風呂入った」とか「トイレ」とかは除外して読みたい(そういう書き込み自体は嫌いじゃないのだが、人生はあまりhttp://www.naney.org/diki/d/2007-12-29-twitter-bsfilter.html
http://www.naney.org/diki/d/2007-04-02-pension.html
で大散財したばかりなので自粛モードのはずなのだが、欲しいものは欲しい。 調整をお願いしてから仕上がりまでの期間を考えるとちょうどクリスマスプレゼントではないか(勝手)。 しばらく前からいろいろ考えた結果欲しいモデルも絞れてきたし、万年筆の世界へ足を踏み入れてみますか。 @ フルハルター 家から歩いて5分ほど。去年からかかっている歯医者の隣のビル。なんhttp://www.naney.org/diki/d/2005-11-04-FULLHALTER.html
http://www.naney.org/diki/d/2007-03-05-mail.html
http://www.naney.org/diki/d/2007-03-01-kanban.html
http://www.naney.org/diki/d/2007-02-28-KPT.html
■ mixi のコミュニティ退会は「好き」を捨てることではない mixi にはご存じの通り「コミュニティ」があり、参加すると自分のコミュニティ一覧に表示されるようになる。 気になるコミュニティにどんどん参加しているうちに、気がつくとかなりの数を登録している人も多いはず。 かくいう自分もその1人である (とはいえ 100台ではあったが)。 コミュニティへの参加目的は以下のhttp://www.naney.org/diki/d/2007-02-18-mixi.html
■よく検索されるキーワード
perl(52) 使い方(36) 提案書(35) windows(35) ドラマ(33) 書き方(30) cvs(28) サンプル(22) linux(21) torrent(20) debian(19) x31(19) 壁紙(19) 作り方(19) アジェンダ(18) 画像(17) 手帳(17) thinkpad(17) tc-1(17) 動画(15) rcs(15) アジェンダとは(15) ナースのお仕事(15) java(15) 桑田佳祐(14) ganttproject(14) 修理(14) gtd(13) 冷蔵庫(13) ほぼ日手帳(13) 桜井華子(12) wiki(12) google(12) 設定(12) tortoisesvn(12) ダイソー(11) ssh(11) apache(11) usb(11) 影舞(11) ウォーターボーイズ2(11) ノート(10) インストール(10) svn(10) ボールペン(9) so905ics(9) cgi(9) 無印(9) 方眼(9) xp(9) バッグインバッグ(9) subversion(9) 市原隼人(9) ヨドバシ(9) centos(9) djunit(8) c#(8) activeperl(8) ミムラ(8) 東京総合車両センター(8) 無印良品(8) make(8) ubuntu(8) 深浦加奈子(8) 写真(8) junit(7) 本名(7) 姉(7) thinkingrock(7) ケース(7) 生年月日(7) 口コミ(7) 山川レイカ(7) チェックリスト(7) 例文(7) つけ麺(6) eclipse(6) web(6) 秋葉原(6) httpd.conf(6)■注目キーワード
購入 買った 発売日 フリー 無料 価格 値段 作り方 選び方 方法 設定 サンプル ダウンロード セール 限定 在庫 予約 穴場 比較 検証 レビュー 感想 評価 評判 使用感 使ってみた 口コミ 最新 MP3 動画 Torrent 解説 意味 用語集 参考文献 お薦め お勧め おすすめ 便利 Blog ブログ mixi 待受画面 相場Process Time: 0.399976s / load averages: 0.31, 0.41, 0.40
nDiki by WATANABE Yoshimasa (profile)
Powered by DiKicker
Base theme by Nana (for tDiary)



スポンサード リンク