2.2.1 OCRの活用
OCR(光学式文字読取り装置)には定型の帳票や伝票の決められた場所を読取る「伝票OCR」と、契約書や一般紙文書など非定型の文書イメージの情報を全てテキスト化する「文書OCR」に大別される。
大量な申込書など単一帳票のイメージ入力では、「伝票OCR」を利用したインデックス情報の入力が効果的である。例えば申込番号など帳票上の定められた位置に記入されたり、印刷された帳票を特定できる情報をOCRで認識し、インデックス情報として出力すれば、高速に大量の紙文書のイメージ化が可能である。申込書の住所、氏名やその他の属性情報もOCR処理すれば、紙文書に記載された必要情報を全てデータ化でき、メインフレームへのデータ入力などに威力を発揮する。
現在のOCR技術は3千文字以上の手書き漢字の認識や字体に影響を受けない印刷文字の認識(オムニフォント読取りという)を高い認識率で実現しており、金融業界や保険業界などで利用されている。
OCRを利用したインデックス・データ入力の場合は、一般的に連続番号のファイル名を持つイメージ・ファイルと読取られたデータで構成されたインデックス(データ)・ファイルが生成され、文書情報マネジメント・システム上で、イメージとインデックス情報が紐付けられる。
2.2.2 文書OCRによる全文テキスト化
契約書、手順書などのマニュアル類、重要な過去の書類などのイメージ化では、「文書OCR」による全文テキスト化が有効である。読取られたテキスト情報をデータベース化すれば、一般の検索エンジンを利用した文書の全文検索が可能となり、ナレッジ・マネジメント等の情報共有が可能となる。
イメージ化した文書をPDFに変換して活用する場合には、文書OCRによる文字認識結果を文書イメージ上の該当文字の位置に表示するテキスト・レイヤーを利用でき、文書イメージとテキスト情報を一体化して管理でき、オフィス文書と同様の全文検索が可能となる。
2.2.3 帳票の識別
生損保業界などで使用されている帳票は1000種類を超えるといわれている。
従来のOCR技術では帳票種類ごとに設計された読取り用定義ファイルにより、それぞれの読取りフィールドから文字を認識していた。このため、帳票種別ごとに処理を行なう必要があり、複数種類の帳票を混在で処理することが難しかったが、フォーム・プロセッシング技術によりOCR処理を行なう前に、スキャンされたイメージがどの帳票であるかをシステムで判断することができるようになり、数百種に及び帳票の混在処理が可能となった。
これにより、イメージ化の前作業の軽減が可能となっただけでなく、後方処理の自動化をより推進することができるようになった。帳票を識別する技術は、罫線の形状や印刷の特徴など帳票の持つ固有の情報を学習してデータベース化することで可能としている。
2.2.4 バーコード情報などの活用
帳票の管理番号や申込書番号などをバーコードで印刷しておけば、バーコード認識によりスキャニングと同時に瞬時にインデックス情報を得ることができる。バーコードはスキャニング中に帳票の傾きや上下逆転が発生しても正確に認識可能であり、また、読取装置自体も安価なことから単一的なインデックス情報の入力に最適な入力手法の一つといえる。二次元バーコードなどを利用すれば、より多い情報量のインデックス情報を入力することも可能となる。
ミッドレンジのスキャナでは、OCRは対応していないがバーコード読取り機能を持つものが一般的なため、紙しか残っていない文書などのイメージ化もバーコード印刷された管理番号シールを添付して、スキャンすることで、帳票固有のインデックス情報を付けることができる。
前へ一覧へ次へ




