nDiki
2007年12月18日 (火)
■ Google Analytics のデータからよく検索されるキーワードを表示するようにした

Google Analytics から1日1回キーワードのレポートを TSV 形式でメールで配信するように設定している。 このデータをもとに「よく検索されるキーワード」を抽出して、nDiki の下の方に表示するようにした。
@ 処理の流れ
- メールで配信された TSV 形式データをファイルに保存する。
- 検索質問とセッション数の組のデータを抽出する。
- 1ワード単位でセッション数を集計する。
- 上位のワードについて、nDiki のキーワードリストにあるか照合する。
- 各ワードについて、対応するリンクを設定してフッタ埋め込み用の HTML フラグメントを生成しファイルを生成する。
- ファイルをサーバにアップロードし、サーバ側でフッタにインクルードする。
1日1回の作業なので、メールからスクリプトにかける部分とアップロードする部分は手動で。
そこそこの処理なので、そこそこの精度なのだけれど傾向は何となくわかる感じだ。
実際にはアクセスログの対象となっているのは nDiki 以外の www.naney.org 内のアクセスも含まれているけれどもまあいいであろう。
@ キーワードの処理
キーワードの処理は細かいことをいうと結構面倒だったりする。
- 複合語の処理: 検索ワード側も、nDiki キーワード側も複合語を含むので空白で区切られた語の扱いが大変。特に検索ワード側は語順が正しいとは限らないし、各語が個別の語を表しているのか否かの判断が難しい。
- 曖昧一致処理: 検索ワード(や nDiki キーワード)が正確な語とは限らないので、曖昧一致させる必要がある。検索エンジン側で曖昧一致させて検索結果に上がっている可能性があるのでその辺りも考慮する必要がある。
などなど。
この辺りは精度を上げようとするといろいろ工夫の余地がって楽しそうではあるな。
- Linux で使えるデスクトップ検索ツール Beagle でローカルファイ... (2006-08-08)
- Wiki ではロボット除けをしてはいけない (2007-01-21)
- 「ほぼ日手帳 2006」でトラックワードα版プチコンテスト1位 (2005-12-14)
- Debian GNU/Linux に Hyper Estraier 1.2... (2006-05-31)
- はいぱー日記システムで日記を開始 (2001-05-11)
■注目キーワード
購入 買った 発売日 フリー 無料 価格 値段 作り方 選び方 使い方 方法 設定 サンプル ダウンロード 限定 在庫 予約 穴場 比較 検証 レビュー 感想 評価 評判 使用感 使ってみた 口コミ 噂 最新 MP3 動画 意味 お薦め お勧め おすすめ 便利 Blog ブログ mixi 修理 デザイン ビックカメラProcess Time: 0.1448s / load averages: 0.04, 0.23, 0.28
nDiki by WATANABE Yoshimasa (profile)
Powered by DiKicker
Base theme by Nana (for tDiary)




◇ Twitter やってます。この記事が気にいったらぜひ twitter.com/Naney の follower になってください。