e-コレクト

で、大量に雑誌のバックナンバー収録されたDVDを購入。
が、、、しかし、、テキスト抽出が不許可となっているためNamazu化はできない。
うーん。。どの雑誌に何が入っているのかが分からないと、、探し出すのが大変そうだ。。ただ、雑誌のPDF化は、著者の人の好意で収録されていると思うので、ある程度仕方ないのだろうか。。しかも、とても安い値段で提供されているわけだし。
#でもなんだか釈然としない気がする。せめて、Namazu のIndexファイルくらいは、添付してもらっていても良かったような気がするが。。

というのも、やはり10個程度までなパラパラっとPDFファイルをめくって調べるというのもあると思うが、66個となると、これは大変。表紙を見てめぼしをつけるといっても限度があるし。。なんとかしてもらいたいものだが。。。

こういう場合、考えられる方法としては、

  • 雑誌編集社にそういう要望を出す。
  • このPDFファイルを全て一旦出力し、その(マルチページ)のファイルをOCRでテキスト抽出を行う。。まぁ、傾きもないだろうし、キレイな活字となっている筈(原理的に、、そりゃそうだ)なので、かなりの認識率の良さが期待されるのではないか?とも思うが。はたしてそういう面倒なことをやるのはどうだか?という感じもしなくはないが。。