ブログネタ
プリンタ に参加中!

前回前々回前々々回前々々々回の続きです。

Photosmart 3210aを使用して文書をスキャン、つまり文字のスキャンを行ってみました。特にOCRによるテキスト変換というのを実施してみたかったのです。題材は手元にあった新聞にしました。新聞の1面を4つおりにしたものをスキャン用のガラス板の上に乗せて準備完了です。

スキャンはいつものようにHPソリューソンセンターから行いました。「ドキュメントスキャン」のボタンを押して実行開始です。ファイルの形式をTIFFにして、送信先を「HPドキュメントビューワ」にした以外はデフォルトのまま実行してみました。OCRを使うにはHPドキュメントビューワを使う必要があるようです。

そのまま処理を進めるとHPドキュメントビューワというソフトが自動的に起動するので、そこから「選択した文書をOCRで編集可能なテキストに変換」ボタンを押すことでテキスト変換ができます。出力先のソフトの選択画面が出ますが、我が家ではMicrosoftのWordだけしか選択肢がないので、これを選択しました。ところが、結果を楽しみに待つこと数秒、結果は燦燦たるもので、文字など一つもありませんでした。

デフォルトだと300dpiでスキャンするのですが、これがまずいのではないかと思い次は600dpiでスキャンして同じ手順を実施してみました。今度は結果はまずまずでした。題材に使った新聞には写真も含まれていましたが、写真部分は写真のまま、文字は文字として変換されてきました。確かに間違えている文字もたくさんありましたが、予想以上の出来栄えでした。

新聞は縦書きですが、きちんと縦書きを認識してくれ、その通りに変換してくれました。ただ、段組を超えて縦読みしてしまい、段組の間の横棒は「一」の漢字として認識されてしまいました。このあたりはどうしようもないですね。本気でOCRを使うのであれば段組毎に範囲指定でスキャンしてテキスト変換したほうが良さそうです。ちなみに横書きの題材として国勢調査の調査説明の資料をスキャンしてOCR処理してみましたが、きちんと横書きとして認識されました。

私自身、OCRを使うことはないと思うのですが、これを使うには色々とコツをつかむ必要はありそうです。マニュアルにも「OCRソフトウェアの操作は1つの技能なので、習得するには時間と練習が必要です」と書かれていました。

次にPDF出力も試してみました。PDF出力は簡単です。HPソリューションセンターのスキャン時の出力ファイル形式にPDFを指定するだけです。さきほどの新聞の1/4の紙面をTIFF形式で保存したところ4400Kバイトになりました。TIFF(圧縮)形式で保存するとこれが1200Kバイトにまで小さくなりましたが、PDFにしたところ一気に260kバイトまでになりました。そして読みやすさの点で劣化もありませんでした。ドキュメントはPDFで保存するのが良さそうだということになりますでしょうか。


日本hpのオンラインストア「hp directplus」