自動要約とは(AI・自然言語解析)

TAG
AI RPA 自然言語解析
UPDATE
2019/08/16

自動要約
自動要約とは
自然言語解析のなかでの位置づけ
自動要約の歴史
自動要約を構成する3つの要素
自動要約の分類
自動要約を構成する技術分類
- 文選択
- 文選択の課題
今後

自動要約

現代社会では膨大な量のテキスト情報にアクセスすることが可能となりました。
その反面必要な情報を的確に抽出することは困難となっています。
この問題に対処する方法として、自動要約という処理が存在します。
今回はこの自動要約という技術について、概要をご説明します。

自動要約とは

情報ソースから、要求に合わせて情報を抽出し、重要な内容のみを提示することです。

自然言語解析のなかでの位置づけ

以前AI・自然言語解析～はじめに～というコラムで自然言語解析で使われている技術要素をまとめていました。
自動要約に関しては、形態素解析、文脈解析、構文解析、自動要約が利用されます。

自動要約の歴史

1990年代後半：機械学習ベースで重要文抽出を行う研究が増加
2005年頃から：組み合わせ最適化による自動要約研究が増加
直近：深層学習へ

自動要約を構成する3つの要素

自動要約には以下の要素が関係します。

情報ソース群(数、ジャンル、書き手、etc…)
技術
読者(要求される要約の長さ、ユーザーが選考する情報の有無、etc…)

自動要約の分類

自動要約に関する研究の分類としては、入出力面からみると、以下の項目の組み合わせで決定されます。

要約の使い方

指示的とは、要約元のテキストを読むかどうかの判断をする目的で要約を行うものを言います。
逆に、報知的とは、ニュースのヘッドラインのように要約元を読まずに必要な情報のみ読みたいという目的で要約を行うものを指します。

必要な情報の指定

要約する際に読み手が”この情報”についてまとめてほしいという情報の指定(クエリの指定)があるものが、クエリ依存、ないものがクエリ非依存です。

入力データ

入力データは単純で、要約元のテキストが一つか複数かで分類されます。

手法

抽出的とは、元のテキストを基本的に使用して要約文を作成します。一部不要な部分を削ったり、文のつながりを読みやすくするため修正はしますが、基本的には元のテキストの文を使用します。
生成的とは元のテキストを基に自然言語生成の技術を利用して要約を作成します。生成的手法の方がより高度なため、抽出的な研究の方が進んでいます。

身近な例として、「インタビューの書き起こし」を要約する場合ですと、
全文を読むかどうか判断したい、クエリの指定は無し、入力データは書き起こし1つ、手法は抽出的を使って実現することができます。

自動要約を構成する技術分類

自動要約は以下のの要素の組み合わせで実現されます。

文選択
文短縮
並び替え

文選択

自動要約を構成する技術分類のなかで、”文選択”に関して取り上げます。
文選択とは、入力テキスト中の文章から、何らかの基準をもとに各文の重要度(スコア)を計算し、スコアが上位の文から順に、指定された要約率を達成するまで文を選択することです。
ここでの何らかの基準として利用される情報としては、

テキスト中の単語の重要度
テキスト中もしくは、段落中での文の位置
テキストのタイトルなどその他の情報
テキスト中の手がかり表現
etc…

などをもとに算出されます。

このなかで、2番目のテキスト中の文の位置のみを利用する手法として、古くから新聞記事の要約では有効な手法として利用されてきた、Lead法という手法があります。

Lead法とは、テキストの最初の段落を要約として抜き出す手法です。
とても単純ですが、新聞記事というプロの書き手が書いた文章で、要約の目的が報知的なものというジャンルにおいては比較的有効な手法です。

その他の要素も考慮にいれた最近の技術と、Lead法による文章抽出の結果を以下に示します。

[Lead法]

景気の先行指標とされる工作機械の需要が悪化している。日本工作機械工業会（日工会）が２３日発表した６月の工作機械受注額（確報値）は、外需の約２割を占める中国向けが前年同月比５９・７％減の１１５億円だった。５月の３１・７％減から下落率が拡大した。米中貿易戦争などを受け、企業が設備投資を手控えている。米国や欧州などでも受注悪化が目立ち、世界景気の先行き不透明感が一段と強まっている。

[最近]

景気の先行指標とされる工作機械の需要が悪化している。米中貿易戦争などを受け、企業が設備投資を手控えている。自動車の販売台数減少が影響しているもようだ。日本のある自動車部品メーカーの幹部は「５月以降、中国での受注が想定より入らなくなった」と打ち明ける。飯村会長は１９年の工作機械の受注総額について、現時点の見通しを９月をめどに下方修正する考えも示した。

以下原文からの抽出箇所を赤く示します。

文選択の課題

文選択だけでは、以下のような課題が存在します。

先行詞が消失する
要約率を高くしようとすると歯抜けになりすぎて、内容が捉えにくくなる
重要な文を独立に抜き出すため、抽出された結果が似た文ばかりになる

これらの課題に対応するために、2000年半ばから自動要約を、個別の重要な文の選択ではなく、少数の文の集合で、テキスト全体をできる限り含むように、文集合を選択する、最適化問題(組み合わせ最適化)として再定義するようになりました。最適化問題として定義することができるようになり、数理的に解くことができるようになったことで研究が進みました。
現在はさらに一歩進んで、深層学習を使った手法が研究されています。