OpenQA论文阅读(三) Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering
2022-03-02 10:21:18

论文 Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

论文地址https://arxiv.org/pdf/1711.05116.pdf

代码地址https://github.com/shuohangwang/mprc [尚未阅读代码/复现]

备注

这篇论文提出了两个利用多篇文章来产生答案的模型。两者都使用了一种答案重新排序的方法,该方法重新排序由现有的最先进的QA模型生成候选答案。本文提出了两种方法,即基于强度的重新排序和基于覆盖的重新排序,以利用来自不同文章的汇总证据来更好地确定答案。本文模型在三个公开的开放域QA数据集: Quasar-T、SearchQA和TriviaQA的开放域版本上取得了最先进的结果。

image-20220302103345236

问题提出

在对之前的QA系统(Question and Passages(Input)->IR->re-ranker->RC->Answer (Out),详见前文)进行测试时,作者发现了以下两个问题:

image-20220302103535350

  1. 正确答案往往在多篇文章中都有体现,并且与其出现的频率有一定的关系。
  2. 根据之前的方法所匹配的答案部分情况下不能对问题进行完全匹配,所的答案可能智能匹配问题的部分方面(aspect)。

因此,本文提出了两种对候选答案重排序的方法:

  1. A strength-based re-ranker 这种方法主要是为了解决问题1,将候选答案的出现频率进行了考虑。
  2. A coverage-based re-ranker 这种方法主要是为了解决问题2,这种re-ranker将候选答案和包含该答案的文章组合起来,并再次通过网络,分析判断该答案是否完全地匹配问题。

网络结构

1. strength-based re-ranker

有多种实现方法,比如统计频次,置信度等等。

2. coverage-based re-ranker

Passage Aggregation

通过这一步骤,挑选出top-KK 个候选答案,a1,a2,...,aK\mathbf{a_1},\mathbf{a_2},...,\mathbf{a_K} 。对于每个ak,k[1,K]a_k,k\in [1,K], 定义pn,{pnakpn}\mathbf{p_n},\{\mathbf{p_n}| \mathbf{a_k} \in \mathbf{p_n} \}

Measuring Aspect(Word)-Level Matching

自通过LSTM:

Ha=BiLSTM(A),Hq=BiLSTM(Q),Hp=BiLSTM(P)\mathbf{H}^{\mathrm{a}}=\operatorname{BiLSTM}(\mathbf{A}),\mathbf{H}^{\mathrm{q}}=\operatorname{BiLSTM}(\mathbf{Q}),\mathbf{H}^{\mathrm{p}}=\operatorname{BiLSTM}(\mathbf{P})

HaRl×A,HpRl×P,HqRl×Q\mathbf{H}^{\mathrm{a}} \in \mathbb{R}^{l \times A},\mathbf{H}^{\mathrm{p}} \in \mathbb{R}^{l \times P},\mathbf{H}^{\mathrm{q}} \in \mathbb{R}^{l \times Q}

然后定义Haq=[Ha;Hq]\mathbf{H^aq} = [\mathbf{H^a};\mathbf{H^q}]

然后接入match-LSTM,匹配Haq\mathbf{H^aq}Hp\mathbf{H^p},详见前文

COMBINATION OF DIFFERENT TYPES OF AGGREGATIONS

将两个reranker的输出组合起来,筛选最终答案。

实验

结论

开放域QA可以通过显式地结合来自多个检索段落的证据来改进。我们实验了两种类型的再评分器,一种是证据一致的,另一种是证据互补的。这两种评分都帮助我们单独显著提高了我们的结果,甚至更多。我们的结果大大提高了三个开放域QA数据集的最新水平。

虽然我们提出的方法在建模多个段落的并集或共现方面取得了一些成功,但在开放域QA中仍然存在需要推理和常识推理能力的困难问题。在未来的工作中,我们将探索上述方向,我们相信我们提出的方法可以潜在地推广到这些更困难的多通道推理场景。