« 好みとは | top

2007年04月13日

PhrasePicker

コミュニティーエンジンでは、独自に開発しているミドルウェアの
性能テスト、データ収集、そして宣伝のために、
上位のアプリケーションを作って公開していく予定だ。

その第一弾は gumonji で、すでに3年以上、運営を続けている。
宣伝効果もさることながら、重要な技術情報を取得することができている。

今回のエントリで宣伝したいのは、「新語受信ツール」 PhrasePickerだ。

PhrasePickerは、web、おもにブログをクローリングして、
「Webに初めて登場した語」が出てきたら、それをすべてリアルタイムに配信する。
それだけでもけっこう面白い結果が出るのだが、形態素解析エンジンに与える
パターン自体を投稿できるようにすることで、
より意外性のある語句を抽出できるようになっている。
パターンリスト


例えば、私の2005年5月のブログアーカイブから、形態素解析ツールを使って、
「名詞・名詞・名詞」と名詞が3つ並んでいる部分を抜き出してみる。
すると以下のようなリストが出る。

* ネットワーク外部性
* パケットビークル用
* ブロードバンド環境
* 仕事用ネットワーク
* 図形認識ニューロン
* 人あたりコミュニティ
* 入力インターフェイス
* 破壊的イノベーション
* 仮想世界シミュレーション

これらの言葉のうち、「初出のものだけを自動的に抽出し、
しかもWeb全体に適用し、しかも向こうから流れてくるようにしたい。」と考えたのである。
そうすれば、誰かが新しい表現を思いついたときは、
自分がWebを見に行かずとも、向こうから新しい表現が、やってくる。
これは、良いかもしれないと思ったので、すぐに特許を出願してしまった。

言葉や画像だけではなく「初めて登場した何かが全部流れてくる」
というツールに向けてじっくりと進化させて行きたいと思う。

ぜひ、PhrasePickerを、お試しあれ。


次回以降に、PhrasePickerの裏にある仕組みについて話したいと思う。(つづく)

Posted by ringo : 2007年04月13日 12:56

トラックバック

このエントリーのトラックバックURL:
https://ce-lab.net/blog/mt-tb.cgi/545

言及リンクのないトラックバックは受け付けない設定にしています。
トラックバックスパムがあまりに多いための処置なので、ご了承ください。