OCRはやっぱり大変だ

2/6追記

160ページをスキャンしてとりこむ作業は2時間くらいで終了。
(機械が勝手につけるファイル名をページ番号に直したり、うつりを確認した時間も含めて)
使える卓上スキャナーがないので複合機を占領。
最初の80ページ、ページ番号がきれててやり直したにしては意外とあっさりできた(^^;


補正するのがめんどうなんで、
(白黒だといったんグレースケールになおしていじらないといけない@PSエレメンツ
昔使ってたPS6だと手順を覚えさせて、がーっとファイルを修正する機能があったような…)
複合機の枠消し機能を使ったりしてスキャンしたままのファイルでいけるようにした。


データはTIFF。元データは取っておこうかなと。
画像をPDFにかえたり、
ばらばらのPDFファイルをまとめるフリーソフトもあるんで
その後の作業は楽なはず…。


あとやるとしたら書名索引のページPDFだけOCRで文字を埋め込むかなと。
とにかくどこかをネットでひっかかるようにしたい(笑)


今週中に公開できるか?(゜へ゜;)

    ………

>Hebiさん
修正に40分もかかったのは
OCRの変換にひきずられてあれもこれもとやってしまったせいもあります。
埋め込まれた字の大きさがぼこぼこだったり、「……」が「…●…」となったり
どうでもいいんですけど、ついつい直してしまうと。
PDFの画面を選択したときに反転してしまうので…。
見てくれは切り捨てる部分ですけどね。
ま、そんなことしてたら、終わりませんわな〜


>yumizouさん
誤読部分を探す間に全文うちこめたりしてって感じですかね。
間違い探しも結構しんどいです。
デジタルデータはバックアップは簡単ですよね。


>myrmecoleonさん
私も非常勤という名のバイトなんでこういう仕事が(笑)。
今あるカード目録DBは大学の前身旧制高校のものです。
遡及入力のどのへんが無意味なんですか?

    ………

しかしこの面倒な作業を突破して自力でDBを作ってしまったのが山形大学
他にもあるかもしれませんが、
部長のメールで初めて知って(drfのMLで紹介されていたそうです)すごいなーと。
「手作り電子図書館奮闘記」【PDF】


が、ここにあがっているのはwebcatplusにあがっているのかなーと
高橋文庫の一冊を検索してみたが、所蔵館に入ってない?!
私はここにデータが載るまでの流れがよくわからないのだが、
ILLで依頼するときに頼りにするページのひとつではないかと。
ここになかったらグーグル八分じゃないけど、探しようがないような。
ILLで使えない本だから載せてないのか?
ってか今日勤務先で借りた本(1965年)も出てこないんですけど…(タイトル自体ヒットせず)。
こっちがデータを送っていないということか?


文庫の本はぐぐってもでない。
どーやってたどり着くんだろう。
研究者とか学内の人とか文庫の存在を知ってる人かな〜。


うーーーーむ



2/5--------------------------------------------------
目録をOCRで読んでPDFを検索できるナマズをつかって
目録DBを作ろうという話だが、
あっけなく挫折した。


どれで読み込んだらOCRの誤読が減るかとストップしていた作業を再開。
なんとなく見た目がきれいなグレースケールの
コントラストを強くしたらどうかな…というとこからはじめたのだが、
ほとんどかわらず、
600dpiよりも300dpiくらいのほうが誤読が減るとどこかのサイトでみつけて
白黒でやってみたら、
たしかに600と300では同じページで修正箇所が47→40にはなった。
が、修正にどれだけ時間がかかるか1ページやってみたら
40分もかかった
(内容は10ページスキャンしてtiffをPDFに変換→OCRで読まれたテキストと冊子の目録を
見比べながらPDFに埋め込まれた青色テキストを修正→青色は最後に透明にする)


160ページやるのに、どんだけかかんのかと。


ヒントを求めてブックスキャナーさんのページにいくと
アマゾンがOCRかけっぱなし、つまり修正してないという話があった。
あーーーーーーーー
うーーーーーーーーー
※アマゾンが何をしようとしているのか、実はよくわかってないんですけど。
で、いまさらながらにグーグルブックにいってみたんですが、すごいですね。
ってかPDF?画像の文字に蛍光ペンみたいなのがちゃんとついてる…
ビューワーが開くので、PDFではないみたいなんですが。
なんだこれ。
グーグルはどうやってこれをやってんのかな。
スカラーでもブックでもいいからここに加えてもらいたいけど、
OCRやんないとヒットしなさそうだな…。
漢字で検索すると中国の本とかなにげにヒットしますね。
岩波とか日本の本も出てきますけどね。


うーーーーーーーーーー


係長に相談すると、以前のカード目録のDBを作るときも
OCRをやろうとしたが、手書き文字なので
修正するととんでもない額になるので
あきらめたという話が出た。
えーーーーーーーーーー
(じゃ、今のはDBどうやって動いてんのかな画像でてくるけど)


ということで、私も時間がないので
とりあえず全文検索は見送って
ただのPDFを公開することにした。
書名だけは修正したらひっかかるかなーと思ったりもするのだが、
本だって索引があればページでたどりつけるので、
まーいいかなとも思ったりもした(低い志)

                                            • -

Hebiさん、myrmecoleonさん、コメントどうもです。
そういや勤務先は他大の概要とかみかけません。
県外の博物館とかから送られてくるポスターさえ貼ろうとしませんからね…。
掲示板広いのに。
大学が発行してるパンフや最新の紀要なんかはコーナー作っておいているんですが。
そういえば、どこかの大学図書館サイトで館報のリンクがあったような→筑波大学
ここにさえ送っておけば何とかしてくれるのか?
RSS化で見出しがでたら、読む人、増えるでしょうね。


しかし、今日、TVタックル
社会保険庁が個人の記録をDB化するときに紙の台帳を捨てたことで
いろんな問題がおきてるみたいな話があったんですが、
紙なんですかね。やっぱ頼りになるのは。
これからはどうだかわかりませんが、
PDFも将来拡張子がかわってしまったら、
読めなくなる日も来るかもしれません…。


うーーーー