【Microsoft】Computer VisionをAPI 接続してPower Automate(旧Flow)で使ってみた

  • TAG

  • UPDATE

    2019/11/11

Microsoft Computer Visionとは?

Microsoft Computer Visionは、画像の視覚的特徴に応じて分析を行うサービスです。

オブジェクトの分類や顔検出、テキスト抽出等、多様な情報分析機能が提供されています。

なお、テキスト抽出では日本語の読取にも対応しています。

本サービスは、アプリケーションからネイティブ SDK を使用するか、REST API を直接呼び出すことで利用でき、

コンソール等の操作画面は用意されていません。

料金体系は読み込みページ数に比例した従量課金制で一定期間の無料利用枠があります。

 ※ Microsoft Cognitive Services( Microsoft Computer Visionを含む)の料金:

    https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/computer-vision/

 

実際に使ってみた

Computer Visionは前述の通り画面操作で利用することができません。

そこで今回はFlowを使ってAPI接続して検証します。

Flowについては以前のコラムで取り上げておりますのでご参照ください。

 

今回、処理対象は弊社RPAサービス紹介ページより取得してきた

以下のスクリーンショットを画像データにしてテキスト抽出(OCR)を行ってみます。 

 

1.準備

まずはMicrosoft Flowで処理するために、あらかじめ画像データを

Office 365のOneDriveにアップロードしておきます。

次にComputer Vision APIを呼び出せるようにします。

Azureにログインしリソース(Azure上で管理する要素を指します。今回の場合はComputer Vison)を作成します。

作成が完了したらリソースのページを開き、Key1とエンドポイントを控えます。

次にOffice 365にて、画像を読込んでComputer Vision APIを呼出すFlowを作成します。

Computer Vision APIの処理を作成する際にAPI接続情報を聞かれるので、

控えておいたKey1とエンドポイントをAccount KeyとSite URLに設定します。

 

これで準備は完了です。

2.実施

作成したFlowを実行します。

処理時間は画像読込み、Computer Vision API呼出しでそれぞれ1秒ずつ、計2秒程度で完了しました。

3.実行結果

処理結果はFlowの処理結果画面に表示されていますが、

見切れてしまっているので以下にテキストを貼り付けます。

(誤読は赤字に変更し、改行を修正しています。テキスト内容には手を加えていません。)

【出力結果テキスト】

——————————————————————————————————————————————————–

POC\n

POC (P oof of Concept : 概 念 検 証 ) は 、 選 定 し た RPA 製 品 が 実 際 の 業 務 に ど の\n

程 度 適 合 す る の か を 検 証 す る た め の ス テ ッ プ で す 。\n

社 内 で R PA を 検 討 し て い る 業 務 か ら い く つ か の 業 務 を 選 定 し 、 数 週 問 で ロ ボ ッ ト の\n

実 装 を 行 い ま す 。 実 際 に ロ ボ ッ ト を 動 か し て み た 結 果 、 有 効 性 が 認 め ら れ れ ば 本 格\n

的 に R PA を 導 入 し て い く こ と を 計 画 し て い き ま す 。\n

方 で 、 P C の 結 果 、 有 効 性 に 疑 問 が あ れ は RPA ・ OCR 製 品 を 変 更 し た り 、 対 象\n

業 務 を 変 更 し た り と い っ た 対 応 を 行 い 、 本 格 導 入 に 向 け た 課 題 を 事 前 に ク リ ア し ま\n

す 。\n

BTC は 、 さ ま さ ま な R PA 製 品 、 O C R 製 品 を 用 い て ロ ッ ト を 作 っ て き た 経 験 か ら\n

ク イ ッ ク に PO C を 実 現 す る こ と が で き ま す 。

——————————————————————————————————————————————————–

 

検証まとめ

今回の検証では、 一部に”r”が”「”と認識されたり、”一”が”-”になっている等の誤読もありましたが、

対象画像の大部分をテキストとして正確に読取ることができたと言える結果となりました。

ただし、今回は高精度で読取れましたが、画像によっては認識精度が落ちる可能性もあるため、

実業務ではOCRツールをどのように利用すれば効果的かを検討することが求められます。

 

Microsoft FlowがPower Automateとしてリブランド

11/4に「Power Automate」が発表されました。

これは本コラムでも使用したFlowの名称が変更となり、新たにRPA機能が追加されてリブランドされたものとなります。

今回発表されたRPA機能はプレビュー版であり、正式な製品版は2020年上半期に予定されています。

Computer Visionの優位性の一つにOffice 365との親和性が挙げられますが、

今後Power Automateの機能拡充が進むことで、画像認識で取得したテキストを元にWeb検索を

行ってデータ収集をしたり、メールに添付されてきた画像ファイルをデスクトップアプリに入力したり、

といった業務を容易に自動化できるようになるのではないでしょうか。

 

さいごに

今回の検証ではFlowからComputer Vision APIを利用しましたが、

RPAツールによってはComputer Visioin APIを呼出す機能が提供されているものもあります。

どのように実装するかについては、業務を理解した上で最もフィットする組合せを採用することが肝要となってきます。

BTCではRPA、OCRをはじめとする様々な技術を取り入れながら、市場のニーズに応えていきます。

導入実績も多数ございますので、「導入を検討しているがどこから手を付ければよいかわからない」、

「導入したものの期待した効果が得られていない」などお困りのことがございましたらお問い合わせください。

 

参考

・ Microsoft Computer Vision

https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/

・Microsoft Power Automate

https://flow.microsoft.com/en-us/blog/end-to-end-enterprise-automation-with-power-automate-ui-flows/

もっと知りたい方はこちら

ページトップ