論文を読んだので軽くメモ程度に。今回読んだのはACL 2020に採択されているExtractive Summarization as Text Matching
(arXiv)。
何をした論文か
- Extractive Summaraization(抽出型要約)において、元の文書と要約との意味の近さを使った手法を提案した。論文中では、従来の文単位で抽出すべきか判断していたもの; Sentence-levelに対して、彼らの提案しているものはSummary-levelとしている。
- 抽出型要約でSummray-levelの抽出が必要かどうかを調査し、Sentnce-levelとSummary-levelでのgapがどのくらいあるのかも測っている。 (ブログでは割愛)
- 彼らの提案した手法は、6つのデータセットでStrong Baselineを越える性能を出した。
手法
基本アイデア
アイデア自体はシンプル(実際の手法もシンプルだけど)。要約されたものは元の文書と似たような意味になるはずという直感を使ったもので、元の文書と要約が意味空間上で近くなることを利用した手法になる。
もうちょっと詳しく
- 文書や要約候補のEmbedding表現にはBERT(RoBERTa)の[CLS]トークンを使用している
- Embedding間の類似度はコサイン類似度を使用
- f(D, C) = cosine(元文書, 要約候補)
- 学習する際に二つのロスを使用
実験結果
- 6つのデータセット(CNN/Daily Mail, PubMed, WikiHow, XSum, Multi-News, Reddit)全部で提案手法の有効性を示した
- CNN/Daily Mailのみ抜粋 (MATCHSUMが提案手法)
分析
ブログでは飛ばしたところを理解してないとわかりにくいのだが、面白い結果だったので紹介しておく。横軸zが小さいものは従来のSentence-levelの要約手法でも解きやすいもので、zが大きいものは従来のSentence-levelの要約手法では難しいものになる。縦軸はベースラインと提案手法のROUGEの差。
見てもらうと分かるように、z=1すなわち従来のSentence-levelの要約手法でも解き易いものに関してはベースラインと差が小さく、zが大きくなるにつれ差が大きくなっている。言い換えると提案のSummray-levelの抽出がちゃんと機能しているということなので、いい分析だなと思った。
気になるポイント
- コサイン類似度を使ってEmbeddingsの近さを測っていたけど、元の文書と正解の要約では、実際どのくらい近いのか気になる。これに関しては言及がなかったように思う。
コメントなし