blogWatcher API
http://blogwatcher.pi.titech.ac.jp/metablog/
blogWatcherはblogの収集と、更新の監視、また収集したデータを用いたテキストマイニングを行うツールです。
機能もたくさんあって、概要をひろうと
- ブログ検索
収集したblogをキーワードと日付で検索することができるベーシックな機能
- バースト検索
短期間に盛り上がった話題を検索する、
- 評判情報検索
製品名などを入力することで、その製品についてblog中ではどのように言及されているかを自動的に解析、製品の評価に関する部分のみを抜き出すことができる
- ニュース検索
ニュース検索は、blogから関連するニュース記事を、ニュース記事から関連するblogを検索する機能
等々があります。
詳細は
http://www.lr.pi.titech.ac.jp/blogwatcher/
そして、blogWatcherのすごいのは、APIを提供していることですね。
blogWatcher APIs としてたとえば、ブログ検索API はいかのとおり
ブログ検索API
http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=search&query={searchTerms}&page={startPage}&from={from}&to={to}
searchTerms: クエリ (utf8, URLエンコード)
startPage: ページ数
from: 検索開始期間 (YYYY-MM-DD) to: 検索終了期間 (YYYY-MM-DD)
結果が、最新の物から順にRSSで返ります。
- RSS検索の例
http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=search&query=RSS&page=1&from=2005-01-01&to=2005-01-31
↑このURLで、2005年1月にRSSについて言及されたブログの一覧がかえってきます。
日を変えて検索すれば、特定の日に、盛り上がったこともわかるようになりますが、いつ盛り上がったかを教えてくれるのが、バースト検索ということになるのでしょうね。
バースト検索API
http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=burst&query={searchTerms}
searchTerms: クエリ (utf8, URLエンコード)結果は、以下の四つ組をCSVで保持するXML文書が返ります。
日付、頻度、バーストレベル、バーストスコア
http://blogwatcher.pi.titech.ac.jp/api.cgi?mode=burst&query=RSS
↑このURLでRSSの言及暦が得られます。
...2005-11-20,2,0,0 2005-11-21,3,0,0 2005-11-22,3,0,0 ... <| 取得例は以上のようになるので、この数値をさらに解析する必要はありますね。 標準の検索窓で検索したときに表示されるグラフはこのデータからできてるということのようです。 http://blogwatcher.pi.titech.ac.jp/index.cgi?query=RSS ということで、本当よくできています、 ひとひねりしてみたいです、 参考 ミュージアムIT情報:歌田明弘 05年12月