AIによる文章要約の実際

2020.02.03 AI

文章要約について

昨今、県庁や市役所などで、AI議事録作成サービスの導入が始まるなど、人が文字に起こしていた作業の時間や負担の削減が進んでいる。こういった働き方の変化・改革が進む中で、単に文字に起こすだけでなく、要点がまとめられた議事録の作成など、文章の要点の抽出・要約といったニーズが多く存在する。
そこで、今回は研究分野で成果を上げている文章要約モデル『Pointer-Generator』を作成し、その要約能力を検証した。

文章要約モデルについて

文章要約についても、他の技術同様にDeepLearningの登場により大きく進んだ。文章要約や翻訳は、文章生成系に属している。文章翻訳を例にとると、Seq2Seq(Sequence-to-Sequence)モデルと呼ばれるモデルを用いて処理を行う。別名Encoder-Decoderとも呼ばれ、Encoderで日本語を処理し、Decoder側で英語への翻訳を行っている。入力された情報はEncoderの隠れ層の値という形で、Decoderに時系列情報を引き継ぐ。

基本的な構造は文章要約も上記の翻訳と同じで、入力がようやく前の文章で、出力が要約後の文章となる。要約を行う場合、事前の学習時に登録された単語辞書(Vocabulary)の単語の組み合わせから、ようやく文章を生成する。そのため、単語辞書に存在しない未知の単語()を入力として与えた場合、文章が正しく要約されないか、未知の単語が反映されていない要約文が生成される可能性がある。

今回用いたモデル(Pointer-Generator)では、確率的に元の文章から未知の単語をコピーするか、単語辞書(Vocabulary)から他の単語を用いるかの選択を行うことで、未知の単語が反映された要約文の生成を行うことが可能となっている。

文章要約モデル(Pointer-Generator)の学習

今回文章要約モデルの学習を行う教師データとして、livedoorニュースのニュース記事を用いた。livedoorニュースは3行の文章要約と本文記事の2段構成となっており、今回は本文記事から3行の文章要約を生成するようにモデルの学習を実施した。学習データとして、9430件の記事を用いた。

文章要約性能検証

今回は作成したモデルを使用し、弊社のホームページに掲載されている事例インタビューの文章に対して、それぞれ要約を行い、翻訳性能の検証を行った。

テスト① ARUHI様インタビュー(リンク

原文:
従来の手順では店舗スタッフが膨大な処理(最大で90種類の組合せ)の整合性をチェックした上で、その内容を業務システムにスタッフが手入力していました。この際、転記ミスが発生する可能性は十分あります。
しかし新たなオペレーションでは、店舗側の業務を大幅に簡略化。スタッフの業務は、実質的に「書類を複合機などでPDF化した後、それを業務システムにアップロードするだけ」になりました。これにより「店舗での転記ミスの根絶」「事務作業の本社への集約」が実現しました。
要約:
業務を大幅に簡略化する「店舗側の業務を大幅に簡略化」。
スタッフの業務は、実質的に「書類を複合機などでpdf化した」とのこと。
「店舗での転記ミスの根絶」「事務作業の本社への集約」が実現。

テスト② ARUHI様インタビュー(リンク

原文:
ARUHIは、2019年3月に「アルヒRPAソリューションズ」というグループ会社を設立しました。これは「他の金融機関からフラット35の審査事務を請負う」ことを主事業とする会社です。このようにRPA+OCRは弊社にとってコスト削減だけでなく、サービス改善や新事業の源となっています。この成功のために、さらにRPA+OCRのノウハウを蓄積を目指しています。
ARUHIは引き続き、お客様に選ばれる住宅ローン金融機関、ひいては住生活総合プロデュース企業として尽力する所存です。BTCにはARUHIの企業価値向上の取組みを、優れた技術、提案、サポートを通じて支援いただくことを希望します。
要約:
2019年3月に「アルヒrpaソリューションズ」というグループ会社を設立した。
これは「他の金融機関からフラット35の審査事務を請負う」ことを主事業とする。
aruhiの企業価値向上の取組みを、提案、サポートを通じて支援を希望した。

テスト③ セーブ・ザ・チルドレン・ジャパン様インタビュー(リンク

原文:
セーブ・ザ・チルドレンは1919年、イギリス人のエグランタイン・ジェブによって創設された、子ども支援活動を行う民間・非営利の国際組織です。彼女は第一次世界大戦で荒廃したヨーロッパで敵味方の枠を超え、栄養不良に苦しむ敵国の子どもたちの援助に取り組むなか、子どもの権利に関する世界初の公式文書とされる「ジュネーブ子どもの権利宣言」を起草。その理念は、現在196の国と地域が批准している国連の「子どもの権利条約」へとつながり、世界に広がっています。
現在、日本を含む29カ国の独立したメンバーが連携し、約120カ国で子ども支援活動を展開。子どもの権利のパイオニアとして、国連や各国政府からもその専門性を認められ、世界中で、子どもを取り巻く環境に変革をもたらしています。
日本では1986年にセーブ・ザ・チルドレン・ジャパンを設立。国内外で行政や地域社会と連携し、子どもたちとともに活動しています。海外では保健・栄養、教育などの分野で活動するほか、自然災害や紛争における緊急・人道支援を実施。また、国内では、子どもの貧困問題解決や子ども虐待の予防などに向けた事業のほか、東日本大震災や熊本地震・西日本豪雨等における緊急・復興支援を通して、子どもの権利を実現する活動を行っています。
要約:
世界初の国と地域が批准している国連の「子どもの権利条約」を紹介している。
現在196の国と地域が批准している国連の「子どもの権利条約」へとつながり、世界に広がっていた。
日本を含む29カ国の独立したメンバーが連携し、約120カ国で子ども支援活動を展開している。

まとめ

今回、検証を行ったPointer-Generatorについて、テスト②の要約結果についていえば、ほぼ人間と比較しても、遜色ないレベルなのではないかと感じた。
他の文章についても、学習データ量による要約精度の問題はあるものの、違和感の少ない文章が生成できており、文章要約モデルが実用可能なレベルになってきていることが分かった。