PSA 谣言检测——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》( 三 ) _生活百科

$\mathbf{H}_{i}=\operatorname{AGGR}\left(\left\{\mathbf{W}_{i}^{j}\right\}_{j=1}^{m_{i}}\right),$
其中，AGGR 运算符可以是 MEAN 或 SUM 。
为了捕获 high-level publisher 的特征，我们对每个 $\mathbf{H}_{i}$ 应用卷积来提取潜在的发布者风格的特征。具体来说，我们使用三个具有不同窗口大小的卷积层来学习具有不同粒度的特征。每一层由F滤波器组成，每个过滤器输出一个特征映射 $\mathbf{f}_{*}=\left[f_{*}^{1}, f_{*}^{2}, \ldots, f_{*}^{L-k+1}\right]$，与$f_{*}^{j}=\operatorname{ReLU}\left(\mathbf{W}_{f} \cdot \mathbf{H}_{i}[j: j+k-1]+b\right)$
其中 $\mathbf{W}_{f} \in \mathbb{R}^{k \times d}$ 为卷积核， $k$ 为窗口大小，$b \in \mathbb{R}$ 为偏差项。我们执行最大池化来提取每个 $\mathbf{f}_{*}$ 的最显著值，并将这些值堆栈以形成一个样式特征向量的 $\mathbf{s} \in \mathbb{R}^{F}$ 。然后，我们将三个 CNN 层产生的 $\mathbf{S}_{*}$ 连接起来，获得 $\tilde{\mathbf{s}}_{i} \in \mathbb{R}^{3 F}$：
$\tilde{\mathbf{s}}_{i}=\text { Concat }\left[\mathbf{s}_{1} ; \mathbf{s}_{2} ; \mathbf{s}_{3}\right] $
Microblog Veracity Prediction我们用相应的发布者风格表示 $\tilde{\mathbf{s}}_{i}$ 来增加微博表示 $\tilde{\mathbf{h}}_{i} \in \mathbb{R}^{n}$ 。最后，我们利用一个全连接层来预测微博的准确性标签 $\hat{\mathbf{y}}_{i}$：
$\hat{\mathbf{y}}_{i}=\operatorname{Softmax}\left(\mathbf{W}_{2}^{\top}\left(\tilde{\mathbf{h}}_{i}+\mathbf{W}_{1}^{\top} \tilde{\mathbf{s}}_{i}\right)\right)$
其中，转换 $\mathbf{W}_{1} \in \mathbb{R}^{3 F \times n}$ 和 $\mathbf{W}_{2} \in \mathbb{R}^{n \times|\mathcal{C}|}$ 。我们还在最后一层之前应用 dropout，以防止过拟合。通过最小化 $\hat{\mathbf{y}}_{i}$ 和真实标签 $y_{i}$ 之间的交叉熵损失来优化模型参数
5 ExperimentsModel Performance

文章插图
我们观察到，MeanText 在 Twitter15 和 Twitter16 上优于现有方法，而 RootText 的准确率仅比 PHEME 上的最佳基线低 0.6% 。由于 PHEME 对每个微博独立贴标签，源帖子将包含最独特的特征。
Effffectiveness of PSA我们提出的PSA方法，将 AGGR 实现为 SUM 或 MEAN，显著增强了 RootText 和 MEAN 基分类器。最佳的 PSA 组合比最佳基线表现更好；它们在 Twitter15 上的事件分离谣言检测准确率提高了19.00%，在 Twitter 16 上提高了 20.61%，在 PHEME 上提高了 2.94% 。与现有的方法不同，PSA 显式地从多个事件中聚合了发布者风格的特性，从而增强了模型学习事件不变特征的能力。因此， PSA能够捕捉到与独特的出版商特征相关的立场和风格，从而导致实质性的性能改进。
Early Rumor Detection

文章插图
即使只有最早的 10% 的评论，PSA 在 Twitter15 上达到 57.53%，在 Twitter 16 上达到60.65%，在 PHEME 上达到46.30% 。请注意，RootText（+PSA）模型在所有截止日期内都保持了稳定的性能，因为它们仅基于源帖子提供即时预测。结果表明，用 publisher style representations 的表示来增强谣言检测模型，达到了效率和有效性。
Cross-Dataset Rumor Detection为了研究 PSA 的泛化能力，在 Twitter15 和 Wwitter16 上进行了跨数据集实验，其中模型在一个数据集上进行训练，在另一个数据集上进行测试。为了进行公平的比较，我们使用了相同的事件分离数据分割。如果来自数据集 $A$ 的训练集和来自数据集 $B$ 的测试集之间存在重叠事件，我们将删除训练集中与这些事件相关的所有实例，并将它们替换为从 $A$ 的测试集中随机抽样的相同数量的非重叠实例。
跨数据集设置本质上更具挑战性，因为训练和测试事件源于不同的时间框架，这可以产生时间概念的转移。然而，表3显示，PSA 在 Twitter15上的基础分类器，在Twitter16上分别提高了12.82%，这进一步证明了PSA对未知事件的通用性。

文章插图
6 Conclusion在本文中，我们系统地分析了基于事件的数据收集方案如何在社交媒体谣言检测基准数据集中创建特定于事件和源的虚假相关性。我们研究了事件分离谣言检测去除事件特定相关性的任务，并通过实证证明了现有方法的泛化能力的严重局限性。为了更好地解决这一任务，我们建议PSA使用聚合的发布者风格的特性来增强微博表示。在三个真实数据集上进行的广泛实验表明，在交叉事件、跨数据集和早期谣言检测方面有了实质性的改进。