組織の知カラ
お役立ち記事
紙文書から電子文書へ全文検索で文書を探す

紙文書から電子文書へ全文検索で文書を探す

2022-8-12

年を追うごとにその利活用のため、それまで紙文書で保管されていたものを電子化して電子文書とするケースが増えています。もしかしたら、もう、ほぼ完了した企業もあるかもしれません。今回はそんな紙文書から電子文書にしたときの利活用方法の1つである全文検索について考えてみたいと思います。

紙文書を電子化したら、すぐに探せるようになるか？

■紙文書の電子化はここ数年急速に行われている

DX推進の折、多くの紙文書が電子化されています。（と思います）
そのおかげで多くのファイルが、ファイルサーバーやクラウドドライブなどに保管されるようになりました。
そして、紙文書を電子化するときに採用されるファイル形式は、ほぼPDF形式で透明テキスト付きで作成されることが多いようです。
透明テキスト付PDFとは、見た目は紙文書をスキャンした画像イメージそのものですが、テキスト情報を内部に保持しているため、文書にある文字列から検索する全文検索が可能となります。

■OCR処理によるテキストデータの抽出

しかし、WordやExcelなどの電子ファイルから直接PDF化したのとは異なり、紙文書からPDF化した場合のテキストデータは、OCR（Optical Character Recognition / Reader）処理によって作成されます。
そこで、最初の疑問「紙文書は電子化したらすぐに探せるようになるのか」という答えはテキストを抽出するOCR処理の精度によるとも言えます。
また、そのテキストデータが電子ファイルから直接PDF化されるのと同様の精度があったとしても、今度は再現率は高まるが適合率は低くなる問題（つまりは結果が多すぎて必要なものが取り出せない問題）にも対応する必要があります。

このことから、単純に電子化しただけではすぐに探せるようにはならないという結論になります。しかし、できるだけ良い方向に近づけることができます。

シチュエーションごとに文書を探せない問題を考えてみる

次に、シチュエーションごとに文書を探せない場面を見ていきましょう。

■社内の業務文書を探せない

過去に作成した業務文書を参考にしたり、流用したりする場合に探せなくて結局もう一度作成したりしたことはありませんか？このように確かにあったという確信がありながらも探せない。あるいは、同じような文書がたくさんあってどれが最新かわからないということもあります。

■インターネットで情報を探すとき

インターネットから参考情報を探す場合は、ほとんどの方は検索キーワードを入れて、その1ページ目で評価し、目的のものに近づくために何度かキーワード検索を行っていると思います。

そして、検索で表示されなければ無いものとなります。もっと言えば、1ページ目に表示されなければ無いのと同じです。

検索を利用している人もインターネットの海の中で関連あるものを全て探し出すつもりはありません。少しの水をすくうイメージです。でなければ溺れてしまうでしょう。

■専門のナレッジベースで情報を探すとき

専門のナレッジベースで探す場合は、利用者は正確、かつ、もれなく情報を得たいと思います。情報提供側もそのためにメタデータを整備したり、キーワードを統制したりします。

探せないのをなるべく無くすこと、ナレッジベースをつくるためにかなりのリソースを使うことになりますが、逆に考えればそうする価値があるとも言えます。

探せるようにする工夫

このように場合によって探せない状況は異なりますが、文書を探せるようにするためにはどうしたらいいのでしょうか。

■OCRの精度をあげる

AI-OCRの出現によって、OCRの精度は上がっています。以前はテキスト化できなかったものができるようになりました。AI-OCRは学習したものによって得意不得意が分かれます。文書の内容や形式、時代など同じOCRでも結果が異なりますので、事前に十分に検証するとよいでしょう。

さらに、100％に近い形でテキスト化を行うことが採用するOCRや対象文書によって可能になってきていますが、全ての場合で100％のテキスト化は現在は難しいです。そのため多くのOCRソフトウェアには校正機能があり、間違ってテキスト化しているところを人間の手によって修正することはできますが、人的な労力が必要になるため相当なコストがかかります。

■分類やタグ付けなどで絞り込む

全文検索は結果が多く出すぎてしまうことに難点があります。例えば、当社は文書の電子化プロジェクトを多く手がけていますが、社内文書を探すときに「電子化」で検索したら、大量の文書がヒットしてしまうことになり、さらにそこから選別を行う必要があります。

大量の検索結果を絞り込むには、メタデータが役に立ちます。文書管理でいうメタデータとは、その文書の属性をしめすいくつかの項目で表されたものとなります。

それらの項目は、文書の作成日、作成者、オーナー部門、文書名、保存年、キーワード（タグつけ）などになります。ただし、全ての文書ファイルに対してメタデータを1つずつ作成していくことは、かなりのリソースを要するため現実的ではありません。

しかし、先ほどシチュエーションの1つとしてあげた「専門のナレッジベース」であればその用途や利用頻度から鑑みてメタデータを作成する価値はあるでしょう。つまり、メタデータの作成は選択的に行う必要があります。また、作成したメタデータと文書のPDFを関連付けて検索表示される文書管理システムなどの情報システムも必要になります。

■ファイルサーバーやクラウドドライブではフォルダ階層で分類することが有用

多くの文書は、ファイルサーバーやクラウドドライブで管理されることになります。その場合、効果的なのはフォルダの階層分けを分類として使用することです。
そうすれば、予め階層を絞り込んだ状態で全文検索をかけることができるため、検索時間も短縮できます。

以下の記事では、ファイルサーバーやクラウドドライブのフォルダ分けについて説明しています。

https://alpaca.nichimy.co.jp/news/181

■F値　再現率　適合率

検索結果を評価する観点は2つあります。

1つは、「適合率」で検索でヒットしたものにどれだけほしいものがあったかです。これは「検索結果が出すぎて結局使えない」ということであれば適合率は低いということになります。文書を探している人がピッタリだと感じられる文書が結果表示できることが理想です。
一方で、本当は表示された検索結果以外もまだ必要なものがあるかもしれません。それらも含めてどれだけ結果に反映されたかは「再現率」と言われます。
これらの関係性を表したものが以下の図となります。

適合率と再現率の関係

適合率は、見つかったものに対する必要なものの割合となり、①／①＋②となります。一方で、再現率は、必要なものに対する見つかったものの割合となり、①／①＋③となります。

また、これら2つはバランスを考える必要があり、適合率と再現率の調和平均をとるF値で表されます。

F値　2×（（適合率×再現率）／（適合率×再現率））

今をできるだけよくする現実的な対応が大事

いままで見てきたように、全文検索で全てを解決できるわけではなく、それは文書を探し出す１つの手法に過ぎません。テキスト化の完璧さにこだわるとコストがかさみ結局予算がつかず前に進めないことも起こりえます。
今、使うことも考えて現実的な対応を検討しましょう。
社内の文書は商用データベースを構築するのとは異なり、文書量はそれに比較すれば少なく、電子化により原本の閲覧性は高まるのですから。

■■　まとめ　■■

紙文書を電子化してPDF化した場合は、OCRによるテキスト化は完全ではありません。
コストとのバランスとその利用も考えて、適切な対応を取りましょう。

・文書利用価値を鑑みて、選択的に必要な文書のメタデータを整備する。
・OCRの完璧さをどこまで求めるかを社内で合意をとる。
・文書分類をファイルサーバーやクラウドドライブのフォルダ階層に連動させる。

ご相談のある方はこちら　↓

相談してみる

文書コンサルティング／石川