OCRって・・・


前回の続きです。

どうもサイト内検索にグーグルは使えないようだ。
下位の階層の指定はできないから。→グーグルについて
となるとナマズ


OCRも手探り状態なんで、
白黒・グレースケールで解像度300〜600dpiで試したのだが、
読み取る結果は解像度に関係ないっぽい。
あとからぐぐったらそう書いてあるところがあった |`皿´)ノ
印刷した感じでは白黒が文字がはっきりしているし、
ファイルも軽いのでこのまま行くとしたら、白黒300dpiかな。


しっかし1ページに誤読47か所、これはちょっと。
PDF埋め込みにするより、
読み込んだテキストデータを修正して
テキストのデータの検索にしたほうが早いんじゃないかと思った。
そっちの作り方はまだ調べてないけど。
またはテキストデータ→ワード→PDF(埋め込み)か。


PDFにする前に、画像には手を加えてないので、
画像の処理なんかでどの程度、誤読が減るか試してみようと思う。


しかし、難儀だな〜
館報の作業は来週終わるけど、
HPのリニューアルがな〜


は〜



そういえば職員さんのリポジトリ紹介行脚が続いている。
プレゼンの原稿を用意して、部長に見てもらったりして、
みんながんばっている。
が、学部によって反応はさまざまなようで、
作戦を練り直している。
論文を集めるのはいいけれど、
そのへんのデータの処理とか、
今いる人でできるのか(医学部は論文が多いらしい)、
などなど、いろんなつっこみがあったらしい。
DSpaceもどーすんの?って話はとまったままっす。




ついでにだらだら書くのだが、
今日、「特殊文字が印刷できない!」という学生さんがきた。
隣にウン十台パソコンがおいてあるので、
カウンターに来る人は、紙がありません!とか印刷できません!とか
そういうのがほとんど。
そういえば昨日はネットが見られません!と留学生がやってきて
初めて中国仕様のバイオをみた。
ピンインで入力するのでキーはシンプルにアルファベットしかない。
なんだか意外だった…考えてみればそれしかやりようがないけど(笑)
日本語のわかる中国人留学生に中国語わかるんですか?
と聞かれたのだが、XPも日本語版と同じなのでそんなに迷うことはない。
ついでに検索エンジンは何を使うのか聞いてみたら、
グーグルだそうだ。ホームはヤフーチャイナになっていた。
百度も知ってはいるそうだ。



で、その特殊文字というのは仏語@ワードだったのだが、
その質問は初めてだったので、うーんといってぐぐってみた(笑)
すぐみつかった。
プリンターにフォントがないので文字化けしちゃうわけで
プリンターの設定をみたまんまを印刷するにかえるとちゃんと出てきた。
プリンターにフォントがないから文字化けするというのを
昔聞いた記憶がある、という人はいたのだが、
具体的な対処の仕方を誰も知らなかった(^^;)


ネットがなかったら、どーなってたんだろ。
OCRの作業なんてもろネットを頼ってますが・・・
ってかネットがあれば誰がやっても同じわけか。
は〜