イメージファイルと認識

をやってみようと思って、PDFファイルを、Ghostscript で TIFF(LZW)で、TIFFファイルにして、体験版のOCR ソフトを使ってテキスト抽出するということをやってみたが、うまくいかない。

  • 普通に?(問題はあるが)、テキスト抽出できるPDFファイルをTIFFにしてみたが、OCRソフトで表示してみると、何にも見えず。なんじゃこりゃ。。
  • 別のPDFファイルは、エラーがでて、そもそもTIFFファイルにもできず。

ということで、かなり難しいことが分かった。やっぱりテキスト抽出は難しいものだ。と実感。。