iRSSの日記

はてなダイアリーiRSSの日記の続き

blogWatcher API

http://blogwatcher.pi.titech.ac.jp/metablog/

blogWatcherはblogの収集と、更新の監視、また収集したデータを用いたテキストマイニングを行うツールです。

機能もたくさんあって、概要をひろうと

  • ブログ検索

収集したblogをキーワードと日付で検索することができるベーシックな機能

  • バースト検索

短期間に盛り上がった話題を検索する、

  • 評判情報検索

製品名などを入力することで、その製品についてblog中ではどのように言及されているかを自動的に解析、製品の評価に関する部分のみを抜き出すことができる

  • ニュース検索

ニュース検索は、blogから関連するニュース記事を、ニュース記事から関連するblogを検索する機能

等々があります。
詳細は
http://www.lr.pi.titech.ac.jp/blogwatcher/

そして、blogWatcherのすごいのは、APIを提供していることですね。

blogWatcher APIs としてたとえば、ブログ検索API はいかのとおり

ブログ検索API
http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=search&query={searchTerms}&page={startPage}&from={from}&to={to}
searchTerms: クエリ (utf8, URLエンコード)
startPage: ページ数
from: 検索開始期間 (YYYY-MM-DD) to: 検索終了期間 (YYYY-MM-DD)
結果が、最新の物から順にRSSで返ります。

  • RSS検索の例

http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=search&query=RSS&page=1&from=2005-01-01&to=2005-01-31
↑このURLで、2005年1月にRSSについて言及されたブログの一覧がかえってきます。
日を変えて検索すれば、特定の日に、盛り上がったこともわかるようになりますが、いつ盛り上がったかを教えてくれるのが、バースト検索ということになるのでしょうね。

バースト検索API
http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=burst&query={searchTerms}
searchTerms: クエリ (utf8, URLエンコード)

結果は、以下の四つ組をCSVで保持するXML文書が返ります。

日付、頻度、バーストレベル、バーストスコア

http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=burst&query=RSS
↑このURLでRSSの言及暦が得られます。

...2005-11-20,2,0,0 2005-11-21,3,0,0 2005-11-22,3,0,0 ...
<|

取得例は以上のようになるので、この数値をさらに解析する必要はありますね。
標準の検索窓で検索したときに表示されるグラフはこのデータからできてるということのようです。
http://blogwatcher.pi.titech.ac.jp/index.cgi?query=RSS


ということで、本当よくできています、
ひとひねりしてみたいです、

参考
ミュージアムIT情報:歌田明弘 05年12月