« 2007年03月16日 | top

2007年04月05日

PhrasePicker

コミュニティーエンジンでは、独自に開発しているミドルウェアの
性能テスト、データ収集、そして宣伝のために、
上位のアプリケーションを作って公開していく予定だ。

その第一弾は gumonji で、すでに3年以上、運営を続けている。
宣伝効果もさることながら、重要な技術情報を取得することができている。

今回のエントリで宣伝したいのは、「新語受信ツール」 PhrasePickerだ。

PhrasePickerは、web、おもにブログをクローリングして、
「Webに初めて登場した語」が出てきたら、それをすべてリアルタイムに配信する。
それだけでもけっこう面白い結果が出るのだが、形態素解析エンジンに与える
パターン自体を投稿できるようにすることで、
より意外性のある語句を抽出できるようになっている。
パターンリスト


例えば、私の2005年5月のブログアーカイブから、形態素解析ツールを使って、
「名詞・名詞・名詞」と名詞が3つ並んでいる部分を抜き出してみる。
すると以下のようなリストが出る。

* ネットワーク外部性
* パケットビークル用
* ブロードバンド環境
* 仕事用ネットワーク
* 図形認識ニューロン
* 人あたりコミュニティ
* 入力インターフェイス
* 破壊的イノベーション
* 仮想世界シミュレーション

これらの言葉のうち、「初出のものだけを自動的に抽出し、
しかもWeb全体に適用し、しかも向こうから流れてくるようにしたい。」と考えたのである。
そうすれば、誰かが新しい表現を思いついたときは、
自分がWebを見に行かずとも、向こうから新しい表現が、やってくる。
これは、良いかもしれないと思ったので、すぐに特許を出願してしまった。

言葉や画像だけではなく「初めて登場した何かが全部流れてくる」
というツールに向けてじっくりと進化させて行きたいと思う。

ぜひ、PhrasePickerを、お試しあれ。


次回以降に、PhrasePickerの裏にある仕組みについて話したいと思う。(つづく)

Posted by ringo : 19:16 | TrackBack

« 2007年03月16日 | top