スキャナでらくらくPDFをテキストデータに変換する方法
大抵どんな国家試験であっても本当に途方に暮れてしまうくらい試験範囲が恐ろしく膨大で、それだけでも気力が萎えてしまうというのに、そのうえ入力している時間がほとんど取れない方や、入力に自信のない方も大勢いらっしゃるとおもいます。「できることなら手で文字入力ではなく、コピーして貼り付けで問題と解答だけ先に暗記ツールに取り込んでしまって、後からじっくり苦手な問題への補足説明を入力したい・・・」というのが本音のところでしょう。
そこで、そういった方は次のような方法で「膨大な入力作業」を大幅に短縮できると思いますので、ここでご紹介します。
ご用意いただくものは、「Adobe Reader 」の日本語版の最新版と富士通の「Scan Snap S300」というスキャナです。
ただ、「Adobe Reader」も「Scan Snap S300」も当事務所が開発・販売しているものではありません。
また、各ユーザーのパソコンの環境などすべてを把握することもできませんので、やり方がわからないなどの質問に個々にはお答えできませんから、あらかじめ十分承知・納得の上、購入やダウンロードをなさってくださいね。ここではこういう解決策もあるのだというご紹介にとどめさせていただきます。
さて、Adobe ReaderはPDF形式のファイルを表示するソフトですが、これは無償でダウンロードできます。
そして、富士通の「Scan Snap S300」というスキャナは購入していただかなければなりませんが、それほど高価なものではないうえコンパクトな設計になっていますから、入力作業の軽減を目的とするなら、ぜひ揃えておきたい勉強アイテムの一つです。
どのくらいコンパクトか把握していただくために、実物の写真を掲載します。
このスキャナでなくても同じ機能を備えたスキャナは存在するとは思いますが、僕が実際にこの「Scan Snap S300」を使っている関係で、これをお勧めしています。
さて、ここで、従来は紙媒体の問題集からエクセルやワードで使えるようにテキストデータに変換する方法は、主に次のような手順で行う必要がありました。
1)紙媒体の問題集をスキャンし、画像ファイルであるPDFを生成
↓
2)ワードやエクセルに活用できるように、OCRソフト(文字認識ソフト)を使ってスキャンして生成したPDFファイル
中の文字情報をテキストデータに変換(この作業は手作業)
↓
3)誤変換があった場合に修正(この作業も手作業、かなりしんどい)
このように、スキャナのほかにOCRソフトも購入する必要がありましたし、テキストデータを入手するまでに誤変換の修正などの手作業が必要でしたので、大変わずらわしく、実用的ではありませんでした。
しかし、Scan Snap S300を使えば、紙媒体の問題集をスキャンすると、システムが内部的にPDFファイルを生成し、次に、テキスト認識をするように設定しておきさえすれば、自動的にテキスト認識した検索可能なPDFファイルを作成してくれます。
ここで押さえておきたい重要なポイントは、次の3点です。
1.「スキャンボタンの設定」の「読み取りモード」タグの「画質の選択」を「スーパーファイン(より綺麗に読み取ります)」に設定すること。
画質の精度が低いと文字認識がうまくできない可能性があり、また精度が高すぎるとスキャンに時間がかかりすぎてしまうので、「スーパーファイン」がちょうどよいのです。
2.「スキャンボタンの設定」の「ファイル形式」タグの中の「テキスト認識して検索可能なPDFにします」のチェックボックスにチェックし、「テキスト認識する言語の選択」を「日本語」に設定すること
3.問題集は、全てばらしてからスキャンする
※ばらせばコピーなどせずとも、そのまま両面スキャンできる
繰り返しになりますが、テキスト認識した検索可能なPDFファイルは、なんと、Adobe ReaderでPDFファイルを開いている状態で、マウスで抜き出したい文章をドラッグして選択し、コピーしてエクセルやワードなどにテキストデータとして貼り付けることができるのです。
しかも、このスキャンできる用紙のサイズは、標準的な大きさのA4サイズはもちろん、B6版の問題集も拡大コピーなどすることなく、きれいに両面スキャンしてくれるうえ、テキストデータとしても問題なく使用できるので、とても実用的です。
せっかく高機能なスキャナがあるのですから、これらを有効に活用して、まず問題と解説を暗記ツールに取り込んでしまってから、演習の段階で疑問点や弱点をじっくりとあぶり出し、補足入力していくというやり方を選択することもできるわけです。
ご購入は、下記のリンクからどうぞ!