イメージファイルと認識

をやってみようと思って、PDFファイルを、Ghostscript で TIFF（LZW）で、TIFFファイルにして、体験版のOCR ソフトを使ってテキスト抽出するということをやってみたが、うまくいかない。

ということで、かなり難しいことが分かった。やっぱりテキスト抽出は難しいものだ。と実感。。