nDiki : 検索エンジン

2004年2月14日 (土)

[ WiKicker ] WikiPageHTMLレンダリング結果のキャッシュ

ようやく、HTMLレンダリング結果のキャッシュに着手。 cookie ベースでユーザ毎のカスタマイズ(名前やTZ)があるので、デフォルトのまま表示リクエストのみキャッシュが効くようにする。 キャッシュによる高速化を受けるのでは投稿してくれている常連ではなく検索エンジンから飛んできた一見さんということになるが、サーバの負荷が下がれば間接的に常連さんへのレスポンスも良くなるかと。

変換されたHTMLフラグメントをMemcachedキャッシュ。 最初、キャッシュを有効にすると逆に遅くなってしまって「まいったな」と思ったが、リクエスト処理終了毎にdisconnect_all するようにしたら、キャッシュの効果を体感できるぐらいの速度が出るようになった。

[ 2月14日全て ]

2004年7月19日 (月)

過去の今ごろ

過去の7月19日より。

[ 7月19日全て ]

2005年2月13日 (日)

Bloglines に巡回先の一部を集約

最近急に巡回・チェック先が増えてきてしまった。 挙げてみると

その他もろもろ。

さすがにちょっとしんどくなってきた。 とりあえず RSS まわりを集約したい。 今は Sage を使っているのだけど、未読管理がいまいちうまくできていない。

ということで遅ればせながら Bloglines に登録。 RSSが取れるものはできるだけこちらに集約。

さて、これで巡回が楽になるのか。 それとも巡回先が増えるだけなのか。

[ 2月13日全て ]

2005年6月18日 (土)

[ DiKicker ] キーワードのハイライト表示

指定したキーワードに関する記事を表示する際、日記記事内のそのキーワードをハイライト表示するようにしてみた。 どのような文脈でそのキーワードが使われているか、さっと探せてすこしは便利かな?

配色によっては記事の中で目立ちすぎて読みにくくなりそうだからそこら辺は検討の余地あり。

Referer見て検索エンジンから飛んできた場合は、そのキーワードをハイライト表示するようにも以前からしたいと思っているんだけれど、こちらはまだ未実装

[ 6月18日全て ]

2005年12月14日 (水)

ほぼ日手帳 2006」でトラックワードα版プチコンテスト1位

track feed や feed meter などをサービスしているサイドフィード株式会社から、先週「プログ SEO 専用キーワード分析ツール トラックワード」のアルファテスター募集のメールが届いたので試しに nDiki で利用しておいてみた。

JavaScript コードを貼りつけておくと、そのページが各検索エンジンでどんなキーワードで検索されて閲覧されたかを集計してくれるというもの。 track word サイトの方では検索キーワードごとに、ランキングが表示される。 トップページには「ブロガーが強い 検索キーワード」として、ホットなキーワードがリストアップされる。

α版プチコンテストとして、「ブロガーが強い 検索キーワード」の各ワードでランキング1位を選ぶというもの。 「ほぼ日手帳 2006」というキーワードで nDiki のページトップになったらしい。

まだ利用者が少ないため上位になれただけだと思うがちょっと嬉しい。

関連ページ

[ 12月14日全て ]

2006年5月15日 (月)

すべての情報を共有する。情報閲覧者が判断する。

帰りの東北新幹線で、ウェブ進化論の続きを読む。 興味を持ったのはこれ。

シルバースタインは「こうした情報共有の仕組みをテクノロジーが支える」と語ったが、グーグルの社内情報システムはごく普通のシステムの組み合わせだ。ごく普通のブログや掲示板、社員全員が同じ文章を自由に編集できるウィキ (Wiki) と呼ばれる共同作業用環境、検索エンジンといったものの組み合わせである。-- ウェブ進化論 p.86

社内に Wiki を立てて、周囲を巻き込みつつ情報共有のため基盤と文化を育てようとしている自分にとって「ごく普通のシステムの組み合わせだ。」というのは心強い話である。

本書ではさらに、下記のように続く。

道具自身に新性があるのではなく、すべての情報を共有することを原則に「情報自身の淘汰に委ねるという思想のほうに新性があるのだ。 -- ウェブ進化論 p.86

はてなの近藤氏も2005年7月27日の記事で同様のことを述べている。

ここで大事なのは、「その情報を出すべきかどうか」を情報発信者が判断するのではなく、全ての情報を出しておいて、情報閲覧者が「その情報を読むべきかどうか」を判断すればよい、と考えることです。-- CNET Japan Blog - 近藤淳也の新ネットコミュニティ論:情報の私物化を禁止する

効果的にコラボレーションをして成果を上げていくにはメンバが、積極的に情報をアウトプットし共有していくことが重要である。

しかしながら情報のアウトプットというのはなかなか実行されないものである。 理由はなんだろう。

  1. 情報共有/活用基盤がない。
  2. 情報を共有するという文化がない。
  3. 情報をアウトプットするコストが高い / 高いと感じる。
  4. 情報をアウトプットするメリットを理解できない / 感じられない。
  5. 情報を制限することで権限を維持したいから。

あたりか。

Wiki の次の一手として社内 Blog を立ち上げることにしよう。


[ アウトプット主義 ] [ 読書ノート ] [ opinion ]

[ 5月15日全て ]

2006年5月25日 (木)

小学6年生みんなで音楽感性検索

研究開発している検索エンジンの適用として、小学校の音楽科授業で活用していただく機会をいただいている。 今日はその授業日なので、小学校のある京都へ向かった。 品川を出るとすぐ新幹線の車窓から富士山が見える。 ちょっぴり幸せな気分。

今回は

修学旅行の思い出を PowerPoint を使って発表するにあたり、そのスライドに合わせた BGM を見つけよう」

というのがテーマ。

しかし最近の小学生はすごいな。 PowerPointアニメーションしたり、写真がくるくる回りながら表示されたりといった派手派手なスライドを書いているよ。 この小学校の生徒は課外活動で PDA を持ち歩いてるし。

今回の授業後には「ふりかえり」として PC で感想や意見を提出していたりと、そこらのエンジニアは顔負けである。

[ 5月25日全て ]

2006年5月31日 (水)

Debian GNU/LinuxHyper Estraier 1.2.7 を野良インストールする

DiKicker を使って社内 Blog を始めてから早いものでもう半月ほど経ち、記事もそれなりにたまってきた。

DiKicker にはキーワードによる串刺し表示機能があるものの、検索機能は自前で持っていないため任意の文字列で検索をすることができない。 これだと過去記事が活用されなくなってしまう。

ということでそろそろ検索エンジンをセットアップすることにした。

同じサーバで Namazuインストールして過去メール検索に使用しているが、今回は Hyper Estraier を使ってみることにした。

  • Web クローラが付属されていること
  • P2P連携機能があること

が選択理由。 今回は自分の社内 Blog だけでなく、自分の立てている Wiki (WiKicker) や他人が立てている PukiWiki、静的な HTML ページなどもまとめて検索できるようにしたいという考えがある。 このため複数のサーバに分散したコンテンツを、クローラでインデックス生成できるというのは魅力的である。

P2P連携機能の方は技術的に面白そうということで。

Debian GNU/Linux でのテスト

まずは自分のノート PC 上にセットアップして、いろいろ試してみることにする。 さっそく apt-get で Hyper Estraier をパッケージインストール

estmaster でノードマスタを起動し、ユーザ設定とノード作成を行う。

で次に Web クローラ estwaver の設定をして、ノート PC ローカルの Web サーバのコンテンツをインデックス化してみる。

で、検索

あれ?

検索結果件数が 0。よくみるとインデックスされている文書が 0 だ。 確かに estwaver がモリモリ fetch して登録しているようなのだが……。

しこたま悩んだ末、Debian パッケージHyper Estraier は 1.2.5 でこのバージョンの estmaster は ノードサーバへの登録機能がまだないということにようやく気がついた。

とほほ。

ソースからインストール

ということなので、Hyper Estraier 1.2.7 をソースからインストールすることにした。 Debian パッケージの QDBM だと古いので、こちらもあわせてインストール

今回はパッケージ化せずに /usr/local/hyperestraier-1.2.7 に、とりまとめてインストールすることにしておく。

QDBM
 wget http://qdbm.sourceforge.net/qdbm-1.8.58.tar.gz
 tar zxvf qdbm-1.8.58.tar.gz
 cd qdbm-1.8.58
 ./configure --enable-zlib --prefix=/usr/local/hyperestraier-1.2.7
 make
 make check
 make install
Hyper Estraier
 wget http://hyperestraier.sourceforge.net/hyperestraier-1.2.7.tar.gz
 tar zxvf hyperestraier-1.2.7.tar.gz
 cd hyperestraier-1.2.7
 PKG_CONFIG_PATH=/usr/local/hyperestraier-1.2.7/lib/pkgconfig ./configure --prefix=/usr/local/hyperestraier-1.2.7
 make
 make check
 make install

インストール完了。

最初インストールしたものを実行すると落ちて何だろうと思っていた。 これについては deb パッケージでインストールした関連パッケージを purge してビルドし直しインストールしたら問題なく動くようになった。

メデタシメデタシ。

明日は会社のサーバでも設定しよう。

[ 5月31日全て ]

2007年1月13日 (土)

[ WiKicker ] spam検索エンジン対応に noindex、nofollow を追加

<a rel="nofollow">

相変わらず www.naney.org 上の WikiForum (NaneyOrgWiki) にも毎日のようにリンク spam 書き込みがある。

気がつき次第削除と、その URL や関連キーワードの書き込み禁止文字列ブラックリストへの登録を行っているが、手間でしょうがない。

これらのリンク先に貢献するのは腹立たしいのでリンク (A 要素)へ

 rel="follow"

属性をデフォルトで設定するように WiKicker を書き換えた。 ようやく。

<meta name="robots" content="noindex,nofollow">

あわせて、検索エンジン対応もしていおくことにした。

編集ページや履歴ページは検索エンジンに登録してもしょうがないので、インデックスから除外されるように HTML の HEAD に

 <meta name="robots" content="noindex,nofollow">

を追加するように修正。

クエリ付きの URL のページで noindex した場合、クエリ無しや他のクエリを持つ URL のページまで一緒にインデックスから外されてしまわないかちょっと心配で、今まで保留にしていたのだけれど、Wikipedia などを見ても大丈夫のようだ。


[ SEO ]

[ 1月13日全て ]

2007年1月21日 (日)

Wiki ではロボット除けをしてはいけない

昨日土曜日から nDiki を含め www.naney.org のアクセス数が激減している。 Google Analytics でみてみると先週の半分以下。 細かくみてみると Google 経由のアクセスが 3分の1になっている。

Google検索してみると今まで上位であった検索結果がことごとくランク外に。 先週土曜日に行った検索エンジン対応のための一部ページへの robots メタタグの追加とそれらのページへのリンクへの nofollow の追加が裏目に出たらしい。

Wiki の過去のリビジョンのページや編集ページなどが予想以上にサイト全体の PageRank を下支えしていたようだ。

あわててこれらの設定を外す。

元に戻るにはまたそれなりにかかるだろう。 ショック。


[ SEO ]

[ 1月21日全て ]

About Me

Naney Naney (なにい)です。株式会社ミクシィで SNS 事業の部長をしています。

nDiki1999年1月に始めたコンピュータ日誌を前身とする NaneyWeb 日記(兼パーソナルナレッジベース)です。ちょっとしたノートは nNote にあります。

※内容は個人的見解であり所属組織とは関係ありません。

月別インデックス
Process Time: 0.064058s / load averages: 0.57, 0.57, 0.66
nDiki by WATANABE Yoshimasa (Naney)
Powered by DiKicker