01.はじめに

Created: 2021/07/03
Last Update: 2021/07/03

イントロダクション

本は物理本で読まれますか。それとも電子書籍ですか。

どちらも今のところ一長一短ですが、私は物理本が好きです。 この国では著作権が非常に強力な権利とされていますが、所有権というものは日本国で最強の権利として認められています。 著作者が発表を取りやめたり、社会情勢の変化によって作品が公開できなくなったとしても、持っている限り内容を確認することが可能です。 このため、物理的な本というものは無くならない限りデータが失われないアーカイブとして非常に優れています。

一方、物理的な本というものは、場所を取ります。その上、検索もできません。 このデジタル全盛期になんということでしょう。

本を読んでいるときに思いました。 この読んでいる最中に、頭の上とかテーブルの上から、ビデオで撮影して本の内容をpdfにできたら解決ではないかと。

このプロジェクトでは、文庫本くらいの大きさをカメラで撮影してOCRすることを目指します。 特に、とある科学の超電磁砲(レールガン)とかの、ふりがなが振ってある文章を、 うまく取り込めることを考えます。

OCRの手法について

既に、たくさんの先行研究によりOCRは十分実用的になっています。 いくつか利用できるアプリやサービスを挙げます。

この他にも、いろいろありますが、ローカルで実行するものは日本語精度に不安があり、 精度の高いオンラインのものは、お金を出せばいっぱい使えるという感じです。

もくじへ戻る