デジタルブックの作り方
デジタルブックの形式は大きくわけると2種類あります。
テキスト形式と画像形式です。
Amazonや出版社がデジタルブックを販売する場合、小説などはテキスト形式でコミックなどは画像形式で販売します。
これはテキスト形式の方が容量が小さくて済み、文字の大きさを読みやすい大きさに変えても画面の大きさに合わせて自動的に改行してくれ、更に文字で容易に検索することも出来るためです。
しかしこれにもデメリットはあります。
それはページのデザインが崩れてしまうことです。
例えばページをめくったらそこに犯人が! という風に、せっかく作者がページを意識した作りをしていても、行数が増えページの切れ目が変わってしまうと全て台無しになってしまいます。
あるいは、見開きのページに挿絵と台詞が並んでいたのがバラバラになってしまう事もあるでしょう。
自分でデジタルブックを作る場合、小説もコミックも全て画像形式に成ります。
これはOCRで日本語を解析しても望み通りの結果が得られないからです。
今時のOCRは優秀で普通の文章であれば95%程の成績を納められるようですが、小説などにはルビとページ番号が有ることが多く、その付近の解析で失敗してしまいます。
特にルビがあるとそこを横向きの文章だと誤解してしまい、メチャクチャな文章になってしまいます。
ルビに対応したOCRも有るようなのですが高額のためちょっと手が出せません。
ということで技術的・金銭的に画像形式しか選ぶことは出来ないのですが、画像形式にはページのレイアウトや文字フォントを保持できる事や、手書きのメモなどがそのまま残っているなどのメリットもあります。
<追記>
調べたところMeTilTranというソフトを使うとルビやページ番号(ノンブル)を削除することが出来ます。
処理をしたあとOCRにかけたところ飛躍的に誤訳が減りました。
しかしAcrobatのOCRがスカタンで、理解できない事をします。
行間をいじれば対応できそうな気もしますが、それだと透明文字としては?な事になりそうで
純粋にテキストを抜き出す目的ならいいんでしょうけど・・・
色々試してみます。
さて、ではどうやって本をデジタル化するか。
短いですよw
1.本を1枚ずつバラバラにします
2.スキャナでスキャンします(JPG形式で読む場合はここで完了です)
3.PDF化します(スキャンする際に自動でPDF化まで行うことも可能です)
4.必要ならOCRソフトでテキスト化し、画像の上に透明文字を付与します(検索の手助けになります)
以上!
・安くデジタルブックを作る方法
・奮発して楽にデジタルブックを作る方法
戻る