2.1 インデックス情報とは
コンピュータが情報を検索する際に利用する索引のこと。データに含まれる要素によって情報を再構成し、特定の要素からそれが含まれる元のデータを高速検索できるようにするための情報のことを指す。ファイルやデータベースなど、大量のデータを検索する場合には、そのデータの所在を高速に調べることができるように、このインデックス情報を利用する。例えば、文書中のキーワードとして登録された単語がこのインデクス情報に相当する。
2.2 インデックス情報の生成、帳票の識別、文字認識(OCR)、その他の入力手段
文書情報にはPCなどで作成される電子文書(オフィス文書ともいう)と紙文書をイメージ化した電子化文書に分類されるが、文書情報の検索キーとなるのがインデックス情報である。
PC等で作成されたワード、エクセル、パワーポイントなどの電子文書には、メタデータとしてPC保有者のデータ、作成日時等が文書プロパティとして作成時に文書に付加されている。また、組織の文書管理規定に基づいた電子文書のファイル名が設定され、これらの情報と文書本体の情報(テキスト情報)を用いて全文検索が可能である。
一方、電子化文書(イメージ情報)はそのままでは文書イメージの検索を行なうことができないため、何の帳票をイメージ化したのかを電子化文書に付加するインデックス作業が必要となる。オフィスで散発的にスキャンニングする一般文書は個別にファイル名を設定することも可能だか、大量に発生する各種申込書のイメージ入力などでは、高速大量イメージ処理に適したインデック作成手法を考慮する必要がある。
前へ一覧へ次へ




