手軽に使えるOCRサービス「Amazon Textract」を使ってみた

TAG
UPDATE
2019/09/25

Amazon Textractとは？
従来のOCRとの違い
- １．事前設定が不要
- ２．構造化データの抽出が可能
実際に使ってみた
まとめ
さいごに
参考

Amazon Textractとは？

Amazon Textract は、電子化したドキュメントからテキストとデータを自動抽出するサービスです。何百万ものドキュメントでトレーニングされた機械学習モデルによって、高い認識精度を実現しています。ただ、2019年9月24日時点では対応言語は英語のみで日本語の抽出ができないのが残念です。

本サービスの利用にはアマゾンウェブサービス(AWS)のアカウントの取得(無料)が必要で、マネージメントコンソールもしくはAPIから利用できます。料金体系は読み込みページ数に比例した従量課金制で一定期間の無料利用枠があります。

Amazon Textract の料金：
https://aws.amazon.com/jp/textract/pricing/

従来のOCRとの違い

１．事前設定が不要

Amazon Textractは、一般的なOCR製品で必要とされるドキュメント毎の事前設定(項目定義や座標設定等)が不要です。
それによりすべてのドキュメントのコードの維持管理やフォーマット変更への対応が不要になるなど、開発・運用面でのメリットが享受できます。

２．構造化データの抽出が可能

一般的なOCR製品では事前に定義した項目にOCRしたデータをセットします。また注文明細のようなレコード数が不定のデータに未対応のものが多いですが、Amazon Textractはドキュメントの構造を解釈し、構造含めデータ化できます。
例えば、単一項目であればラベル名と入力値をkey-value ペアで、表形式の項目であればヘッダ含め表形式が維持されて出力されます。

<出力結果イメージ１>
※左が読み込んだドキュメント、右がOCR結果
※『フォーム』では、ラベル名と入力値がkey-value ペアで出力される

<出力結果イメージ２>
※『テーブル』では、ヘッダ含め表形式が維持され出力される

実際に使ってみた

下の請求書で検証してみましょう。
請求明細(Details)の項目と金額が対応した一覧データが取得できれば理想的ですね。
請求書のように明細行数が都度変動するドキュメントは、一般的なOCR製品では対応できなかったり、対応できたとしても複雑な設定が必要になります。
Amazon Textractではうまく取得できるでしょうか？早速試してみましょう。