RPAツールだけでOCR機能を実装してみた!
-
TAG
Document Understanding OCR OCR×RPA OCR導入 UiPath -
UPDATE
2021/10/07
目次
①はじめに
RPAとOCRとの関係性
OCRとは「Optical Character Reader/Recognition」の略で、定型書類などの画像データから、文字を読み取り、テキスト化できる技術です。
そのため、主に文書、帳票等の読み取りに使用されます。
また、昨今は正誤結果等を学習して読み取り結果を改善していくAI-OCRという技術も登場しています。
そのような進歩から、定型の文書を読み取るだけでなく、非定型の文書、さらには手書きの文字に関しても使用されることが増えてきています。
OCRツールはRPAと相性がよく、OCRツールが読み取ったデータを用いて、RPAが業務の自動化を行うことができます。
そのような関係性を前提として、OCRツールに接続するためのAPIや部品が用意されているRPAツールが多く存在しています。
また、OCRツールではなく、各RPAツールにOCRが可能となる部品が用意されていることもあります。
OCRツールは読み取り精度・柔軟性ともに高い水準を保ちますが、導入する場合に、導入コストやランニングコストがかかります。
一方、OCRツールより精度は落ちるものの、各RPAツールのOCR機能を用いれば、RPAツールの導入・維持コストのみでOCRを使用することが可能です。
今回は後者の、RPAツール内に用意されているOCR機能に焦点を当てていきたいと思います。
②導入事例
導入背景
私が以前、UiPathによる業務自動化を担ったお客様における事例です。
その際の自動化業務の中に、「契約用書類の集約・印刷」という業務がありました。
RPAの開発は滞りなく進んでいたのですが、開発終盤に「契約書のPDFファイルのうち、必要なページだけ印刷してほしい」という要望が出てきました。
構成が決まっているPDFであれば、ページを指定するなど定型処理としてRPA化するのですが、
・20ページ以上あるうち何ページ目に存在しているか不定
・1枚とは限らず、複数存在している場合もある
という課題が出ました。
採用理由
ページの内容を特定する必要があるため、まずOCRツールの導入を提案しましたが、予算的に導入は現実的でないということになりました。
また、お客様との契約期間が短く、要望を反映する場合は短時間で実装する必要がありました。
そこで私はRPAツールに用意されているOCR機能に着目し、ページの特定が可能か試験を行いました。
結果としてページの特定が可能なレベルで読み取りが可能であったためこの方法を採用し、課題を解決することができました。
比較検討
UiPathには、画像から文字を読み取るアクティビティが存在し、こちらで使用するOCRエンジンを指定するのですが、このOCRエンジンを無料のものにすることで、追加コストゼロで導入可能です。
今回は、無料のOCRエンジンである以下を候補として検討しました。
・Microsoft OCR
・Tesseract OCR
・Tesseract OCR_best
・UiPath ドキュメントOCR
そして、読み取り予定のPDFファイルをいくつか読み取らせたところ、以下のような結果になりました。
OCRエンジン | 読み取り精度 | 読み取り時間(読み取りたいページ) |
Microsoft OCR | ・ある程度大きく、画数の少ない文字は一定精度で読めた ・上記と対照的な文字およびカタカナは精度があまり高くなかった | 30秒前後 |
Tesseract OCR | ・Microsoft OCRとおおよそ同じ精度 | 1分前後 |
Tesseract OCR_best | ・上記2つのエンジンよりも多くの文字を正しく読み取ることができた | 2-3分前後 |
UiPath ドキュメントOCR | ・読み取りたいページの判定に必要な文字を正しく読み取ることができなかった | 読み取り精度上の理由により未計測 |
実際に読み込むとどんな感じ…?
せっかくなので、みなさんにも読み取り結果をお見せできるよう、コラムに記載可能な文章をそれぞれのエンジンに読み取らせてみたいと思います。
ということで、本サイト内のコラムのキャプチャをPDF化したファイルを用意しました。
引用元:システム間のデータ連携はRPAにお任せ! 弊社の事例から見るRPAの利活用!!
速度や精度に関して、同様の結果が得られるでしょうか?
- それとも、異なる結果が得られるでしょうか?
文章部分と画像部分に分けて結果を記載します。
文章部分
OCRエンジン | Microsoft OCR | Tesseract OCR | Tesseract OCR_best | UiPath ドキュメントOCR |
読み取り結果 | の BTC R PA RPA*]X 背 呂 弊 社 で は 、 社 員 の 勤 怠 管 理 に お い て 勤 怠 埋 シ ス テ ム 丨 KING OF TIME ( 以 下 KOT ) 」 を 、 プ ロ ジ ェ ク ト 管 に ERP 「 ZAC 」 を イ 吏 用 し て い ま す 。 ( 参 考 KOT :https://www.kingtime.jp/ ZAC:https://www.oro.com/zac/) KO 丁 は 、 社 員 が 打 刻 を 行 う こ と で 社 員 の 勤 怠 デ - タ ・ 労 働 時 間 の 確 認 、 管 埋 が 可 能 と な る ク ラ ウ ド 型 の 勤 怠 管 理 シ ス テ ム で す 。 ZACti 、 各 社 員 の 参 画 プ ロ ジ ェ ク ト ご と に 工 故 管 埋 や 取 支 埋 等 が 可 能 で あ る 、 プ ロ ジ ェ ク ト 型 の ビ ジ - ス に 非 常 に 彈 み を 持 つ ク ラ ウ 型 の ERP パ ッ ケ - ジ で す . 以 前 は こ れ ら 2 つ の ラ ス テ ム そ れ 宅 れ に 対 し て 、 以 下 の よ う な 作 業 を 行 っ て い ま し た . | のB「C R pA 〝p^.。c〝と(* サ-gス 取卿縄 ニュ一ス 〟^〕ラム 麟伽-〝 ー_ー ーg{g萱謂 ー RPA利用肯昌 弊社では` 社貢の動怠管理において動怠管理システム「 KーNG 。F TーME (以下K。T)」を` プロジェク 卜告理にERp「ZACjを嗣してぃます。 (参考 K。T ‥h〔tpS‥//WWW・k…g廿mejp/ ZAC‥h〔〔DS‥//WWW.。「。.C0爪/ZaC/) K。Tは、 社員が打刻を行うことで社員の動怠デ一タ ・ 労働時間の礦認、 管涅が可能となるクラウ ド型の動怠告理システムです〟 ZACは` 各社員の参画プロジェク 卜ごとに工数管埋ゃ収支筐理等が可能である、 ブロジェク卜型のビジネスに非常に強みを持つクラウ ド型のERPパッケ一ジです. 以前はこれら2っのシステムそれぞれに対して、 以下のょうな作業を行っていました. | の 記 ほ ライ CC R P A RPA・OCR と は ほ 。 サー ビス 。 取り 扱い 製品 ニュ ー ス 。 RPA コ ラム 。 資料 ダウ ン ロ ー ド | swew | 邊 叶 $ | RPA 利 用 導 晴 弊社 で は 、 社 員 の 勤怠 管理 に お いて 勤怠 管理 シス テム 「KING OF TIME (以下 KOT)」 を 、 プ ロジ ェクト 管理 に ERP「ZAC」 を 使用 し て いま す 。 (参考 KOT :https://www.kingtime.jp/ ZAC:https://www.oro.com/zac/) KOT は 、 社 員 が 折 刻 を 行う こと で 社員 の 勤怠 デー タ ・ 労 働 時 間 の 確認 、 管 理 が 可能 と な る クラ ウド 型 の 勤怠 千 理 シタ ステ ム で す 。 ZAC は 、 各 社員 の 参画 プロ ジェ クト ざ ご と に 工数 管理 や 収支 管理 等 が 可能 で ある 、 プ ロジ ェクト 型 の ビジ ネス に 非常 に 強み を 持つ クラ ウド 型 の ERP パ ッ ケ ー ジ で す 。 以前 は これ らち 2 つの シス テム それ ぞ れ に 対 し て 、 以 下 の よ うな 作 挙 を 行っ て いま し た 。. | PBTcRP RPA OCR¿Ia , -E7 RPA354 BTCI dababt RPARURAE #tt7la, OF TIME (ITKOT)JE ☐ (ea KOT https://www.kingtime.jp/ AC:https://www.oro.com/zac/) KOT(a. ZAC(S, 70>r5 NäBIFE EIT1 3.7n-ho>75A 1015M10 101.54Y1 #a aa 1.t12l ZAC ZAC AKIh4 KOT KOT ZAC ZAC ☐ 17Fy ☐ (As-ls) |
読み取り結果 (画像部分) | 勤 怠 作 業 〉 工 数 登 録 作 業 ) 承 認 作 業 BTC に つ い て お 問 い 合 わ せ ・ OCR と は 取 り 扱 い 製 サ - ヒ ス RPA 罸 日 行 う 1 回 1.5 分 程 毎 日 行 う 1 回 1 分 程 0 社 員 2. ど の に ど オ ↓ だ け 画 し て い る か ス カ ZAC ZAC KOT ZAC ロ ボ ッ ト 利 用 前 作 業 フ ロ - (As-Is) | 勤怠作業 》 工数登録{侑業 》 薫言忍薯屓業 冑 讐 碧 ブ管理者ブ 3_それぞ柵システム で賦擢後に承認 / 毎日行ぅ / 毎日行ラ 〇 ー回ー分程 〇 ー回ー_5分程 罠 プ 鵬 プ 2どの尋葦喜璽ブけ 童 台 講 ' L こ ー.抽j` 『脚申縄 参画してー`るヵヽ入カ 寓 「⑬寸 ーZ,\C ー ーーー-ー-ゥ 胞〕 ー甕畦 _ ・"",・ー‥ ー 一踵】 豪 『 虻 K。Tー 弘cー 醸 KOT 狐C ー` 艸 ロホツ 卜利用別作業フロ一 (A$-ー$) | 勤怠 作業 > 。 工数 登録 作業 承認 作業 人 欠 旨 臣 理 者 3. そ れ ぞ れ の シス テム で 確認 後に 承認 / ノ 皇 日 行う / 毎日 行う 〇 1 回 1 分 程 〇 1 回 1.5 分 程 ー 人 | 0: 放 用 人 四 ミ 吉 。 と に 1 計 刻 、 | ティ ポ か 入力 | [6 | 1 なみ cl ーー [@1Izel ー et ンー ご デ 加 誠 こす = 語 証 加 訂 こす ー 証 KoT ご zAc ん ふ KOT 2AC いい に ロボ ッ ト 利 用 前 作業 フロ ー (As-ls) | なし(ドキュメント読み取りのみを行うため) |
このような結果になりました。
結果から見る限り、文章部分が比較的高精度なのはTesseract OCR_best・Microsoft OCR、画像部分はMicrosoft OCRであるように見受けられます。
対象書類や行いたい業務によりますが、読み取り時間・精度の双方から考えると、読み取り精度が比較的高く、また、読み取り時間が短いMicrosoft OCRを採用したいケースが多いのではないでしょうか。
③RPAツールに備えられているOCRについて
どんなRPAツールにOCR機能が備えられているの?
今回、UiPath導入時の事例をもとにお話ししましたが、他のRPAツールでもOCR機能を使用することができるのでしょうか?
シェアが大きく、弊社での導入事例も多い3ツールについて調べてみました。
RPAツール名 | 特徴 |
UiPath | ・複数のOCRエンジンから選択可能 |
BluePrism | ・デフォルトではtesseract OCR(Google社製)エンジンのみ使用可能 |
Automation Anywhere | ・複数のOCRエンジンから選択可能 |
このように、最近のRPAツールにおいては、OCR機能は標準的に備えられていますね。
定型で、手書きでない文章を読み取るのみであれば、これらの機能を用いることも十分検討できます。
UiPathの機能 Document Understandingを試してみた
UiPathには、前項の特徴内で挙げたDocument Understandingという機能があります。
こちらは、機械学習を用いてより柔軟に、正確に、幅広いドキュメントを読み取れ、帳票読み取りなどに高い効果を期待できるとのことです。
早速試してみたいと思います。
※本機能の使用には、開発ライセンス・ロボットライセンスの他に、UiPath CloudPlatFormのライセンスが必要です。
・フロー
なお、今回はフローの作成方法等実装部分については省略させていただきます。
実装方法に関しては、UiPath社社員の方が解説している下記動画が最も分かりやすいと思います。
URL:https://www.youtube.com/watch?v=FiKDaKzqeO4
今回は最低限の読み取りフローを作成し、領収書のPDFを画像として読み取ります。
※PDFの場合、活字として読み取れる場合もあるのですが、題材がOCRということもあり、画像として読み込んでいます。
実行してみると…
あれ?読み取れていません。
※読み取れている場合、左の各項目欄に読み取り結果が表示される。
調べてみると、どうやら白黒のPDFにしたほうが精度が高いようです。早速白黒に変更して再実行。
ある程度読み取ることができました!
手順としては、ここで間違っている部分を修正していく形になります。
実際に使ってみて感じた点は以下の3つです。
①値が表示される範囲の設定は、広く設定しなくてはいけない
→各項目(左の欄)の表示される範囲を設定するのですが、この範囲から文字がはみ出すと絶対に認識されないので、他の項目と被らないレベルで範囲はできるだけ広く設定したほうがよいです。
②PDFは白黒のほうがよい
→他形式のドキュメントがどうかは分かりませんが、今回の結果や他の方の記事などから、PDFはカラーより白黒の方が読み取り精度が上がるようです。
③今回はまだ使いこなせていなかった、慣れれば更なる応用が可能
→今回使ったアクティビティ以外にも、自己学習ができるアクティビティや、ドキュメントがどのフォーマットか分類できるアクティビティなど、読み取り処理に有効な機能が用意されているようです。
また、きちんと使いこなせば、手書きの文字を認識することも可能のよう。(ただし日本語は精度がまだイマイチとのこと)
④おわりに
いかがだったでしょうか。
最近導入事例の多いOCRも、用途のレベル次第ではこのようにRPAツールのみを用いて実装できることが分かりました。
ドキュメントや帳票などの読み取り業務にコストがかかっている方、この機会にRPAツールを導入してみませんか。
弊社ではOCRツール、RPAツール導入のプロが豊富な経験・データから最適なプランをご提案いたします。
関連記事
最新情報をお届けします!
RPAに関する最新コラムやイベント情報をメールで配信中です。
RPA領域でお仕事されている方に役立つナレッジになりますので、ぜび登録してください!
- November 2024 (2)
- October 2024 (3)
- September 2024 (2)
- August 2024 (4)
- July 2024 (1)
- June 2024 (2)
- May 2024 (3)
- April 2024 (1)
- March 2024 (1)
- February 2024 (1)
- January 2024 (1)
- December 2023 (1)