Google の検索

さっそくいろいろ導入してみて検索してみたが、残念な点が2,3見つかった。

  • すでにWWWで書かれているサイトがあったが、Namazu と同様の形態素解析の限界と思えるのだが、(N-gramと違って)、やや長めの単語で見つかった漢字複合語がHITしたとして、その漢字複合語の構成要素である短めの単語では見つからないということがあった。これは、本家 Google でも同様だと思われるし、Google デスクトップ検索のソフトのバイナリーパッケージの小ささからも想像されたことではあるけど。。
  • PDF で文字化けしていた。これは PDF 1.2 で作成されたファイルのようであるが、これも少し残念な点である。

とまぁ、β版だから仕方ないか、、という思いもあるし、本家と同じアルゴリズムは結局かわらないとも思えるので仕方ないかも、、と思えなくもないが。。
MSの方は、N-ram を搭載して欲しいとは思う。
ただし、N-ram 方式では、かなりIndexのサイズがでかくなってしまうような気もする。さあ、どうするのだろう、Google、MS。