“自炊”データを検索に対応させる設定について

  • このエントリーをはてなブックマークに追加

手早くきれいに自炊して紙媒体は廃棄しペーパーレス化しファイル検索で内容を検索対象にできる文書データ化のご紹介をします。

「自炊」とは、本来は自分の食事を自ら調理することですが、近年は電子書籍に関する俗語として、自ら所有する書籍や雑誌をスキャナを使ってデジタルデータに変換する行為を指していました。“自炊”で検索すると広告の効果もあって、「自炊代行サービス(自分の書籍をデジタル化するサービス)」が上位に上がってきます。ただ、今は書籍でも雑誌でも電子書籍としてほぼ同時に販売される時代になったので、スキャンしてデジタル化する必要もなくなり、本来の「一人暮らしの自炊ご飯」「自炊で貧乏飯」の方が多く上がってきますが(笑)

こちらでは、手早くきれいに自炊して紙媒体は廃棄しペーパーレス化し、単に画像データで残すのではなく、ファイル検索で内容を検索対象にできる文書データ化のご紹介をします。
保管先をiTunesとかGoogleドライブを使ってクラウドにすれば、手軽にスマホやタブレットでも見ることができます。
廃棄を目的としている本であれば綴じ部分をカットして自動両面読み取りのスキャナでデータ化する方法がより早くきれいに残せます。スキャナーは家庭用でも安価で手に入ります。
ここでは「本としても残しておきたい」場合の、本を傷めないようにカメラで撮るとかする方法は割愛します。
スキャンの解像度は150〜300ppiで残せば文字の可読性があるデータになりますが、正確なOCRデータを求める場合、400ppiを推奨しているアプリもあります。
資料データとして残すとして、データに取り込んだだけでは積み上げた本と同じです。
ファイル名を書籍名にするとこも大切ですが、必ず検索に対応させるためのOCR処理をやっておきましょう。
PDFを扱うアプリには概ね機能が付いています。OCR(Optical Character Recognition)とは光学的文字認識のことで、名刺管理アプリやスマホのLINEとか翻訳アプリではカメラと連動して表示するのもこの機能です。
スキャンPDFをOCRでテキスト化する方法
Adobe Acrobatの場合「ツール」の「テキスト認識>このファイル内」を選ぶと「テキスト認識」のウインドウが出るので「すべてのページ」「OK」を押すとのような処理が行われ、完了するとスキャンされた文字が選択()できるようになります。
解像度が甘い場合、「プ」と「ブ」を間違えていたり「思」と「恩」を間違えていたりするので、OCR化したPDFを試しに検索して出ない場合は取り込みの解像度を変えてやれば出るようになります。
また、ノンブル(印刷物のページ順番号)とデータのページ番号がずれている場合は、紛らわしいのでAcrobatなどのアプリでページ番号を変更できます。サムネールを右クリックメニューで「ページ番号」を選び、「接頭辞(必要に応じて)」「開始」にノンブルと同じ数値を入れます。
「先行セクションのページ番号を選択ページまで継続」を選ぶと続きとして埋め込まれていきます。

・古い書籍を電子化したい方
・電子書籍が販売されていない資料を電子化したい方

著作権の問題もありますので無闇に電子化を推奨はできませんが……

ご相談はお気軽にこちらまで!

この記事を書いた人

ターニャPROFILE
グラフィックデザイナーを目指して入った学校ではまだDTPもWEBもない時代。
その後、一向社の制作部に入って数年後に仕事でMacの存在に触れ、会社で初めて使ったツールはMacintosh IIfx(ツーエフエックス)。最初AIのVer.3.0やPSのVer.2.0あたりを必死に学んだ後はなんやかんやで社内では年長者になり、現在もなおツールの進化とアプリの進化にOJT(オン・ザ・ジョブ・トレーニング)中!(笑)
現在の専門はWEBと映像編集など。
  • このエントリーをはてなブックマークに追加

この記事を読んだ人は、こちらの記事も読んでいます。