健康診断表の「医師所見」を効率よくデータ化できないか？

2021年5月12日 2022年3月11日

sec

概要

健康診断表（以下、健診表）は活字で印字されていますが、医療機関により書式が異なるため、そのままOCR処理をしようとすると前処理が煩雑になります。

なるべく手をかけずに個人情報に配慮しつつ、「医師所見」のような１項目のデータ量が多い項目だけOCR処理をするための方法についてご説明いたします。

お客様より

	健診表は活字で印字されているが、医療機関により書式が異なるので入力作業によりデータ化を行っている。
	その中でも「医師所見」は検査項目に比べてデータ量が多く、作業の効率化の余地がある。
	帳票の種類が多く、検査名も医療機関により異なる表記があるので、すべてをＯＣＲ処理するのは難しいとは思うが、作業を効率化するためになにか良い方法はないか？

というご相談をいただきました。

当社でも様々なＯＣＲエンジンを評価・検討させていただきましたが、

	①定型帳票の決まった項目
	②活字で印字されているもの

を処理する場合、

	精度においては入力作業には及びませんが
	処理の効率化の一助になるのではないか？

と考えています。

以上の知見を踏まえ、

	①活字で書かれている
	②医師所見のような１項目のデータ量が多い項目

に絞って、

	ＯＣＲ処理を行い、
	データ入力作業と組み合わせ（ハイブリッド）て運用する

ことで、

効率化が図れるのではないか？

と考えました。

この他配慮すべき点として、

①読み取らせる必要な項目を切り出し、ＯＣＲには定型帳票として処理させる

ＯＣＲが苦手とする帳票解析を行わないようにする

例えば、

名前

生年月日

性別

医師所見

をＯＣＲで処理させる場合は、帳票の中からそれぞれの項目をあらかじめ切り出します。

②クラウドのＯＣＲを利用することを想定し、秘匿化処理の実施

	1枚の健診表から名前、生年月日、性別、医師所見のデータを切り出した場合、個人情報となります。
	個人情報のままクラウドＯＣＲを利用すると個人情報の漏洩が懸念されます。

の対策を講じる必要があると考えました。

具体的には、

	①ＯＣＲで読み取りたい箇所を人間が指定し、必要な項目を切り出す
	②①のデータを機械学習させ、同様の帳票が発生した場合は自動的に読み取り箇所を示唆（サジェスト）する
	③①で切り出されたＯＣＲ対象の項目を当社独自の秘匿化技術「シャッフル」を用いて、秘匿化する。例えば、・Ａさんの名前・Ｂさんの生年月日・Ｃさんの性別・Ｄさんの医師所見から切り出された項目を１枚の帳票にまとめ直しあげ ”架空の”個人の情報を生成します。
	④③で作成された”架空”のＯＣＲ処理対象データをＯＣＲ処理させます。
	⑤④でＯＣＲ処理されたテキストデータを当社のデータエントリーシステム”Super-Entry”シリーズに取り込み、ＯＣＲ処理で用いた画像と見比べて、テキストを修正します。
	⑥⑤で修正されたテキストデータをシャッフル処理前のテキストに”復元”します。・・・Ａさんの名前、生年月日、性別、医師所見に戻す。
	⑦⑥で処理されたテキストと入力作業で得られたテキストデータを結合します。