论文阅读 : Coordinated Reply Attacks in Influence Operations: Characterization and Detection
协调回复攻击是在网络流言行动和其他协调活动中观察到的一种战术,目的是支持或骚扰目标个人,或影响他们或其追随者。尽管协调回复攻击具有影响公众的潜力,但过去的研究尚未对其进行分析或提供一种方法来防范这种策略。在本研究中,作者以 Twitter 上的影响力行动为背景,描述了协同再攻击的特点。分析表明,这些攻击的主要目标是有影响力的人,如记者、新闻媒体、国家官员和政治家。
https://arxiv.org/pdf/2410.19272
目录
Characterization of Influence Operations
Detection of Influence Operations
Abstract
背景:
协调回复攻击是在网络流言行动和其他协调活动中观察到的一种战术,目的是支持或骚扰目标个人,或影响他们或其追随者。尽管协调回复攻击具有影响公众的潜力,但过去的研究尚未对其进行分析或提供一种方法来防范这种策略。
此研究目标:
在本研究中,作者以 Twitter 上的影响力行动为背景,描述了协同再攻击的特点。分析表明,这些攻击的主要目标是有影响力的人,如记者、新闻媒体、国家官员和政治家。
模型的提出:
作者提出了两个有监督的机器学习模型,一个用于对推文进行分类,以确定它们是否是再次攻击的目标,另一个用于对回复目标推文的账户进行分类,以确定它们是否是协同攻击的一部分。
实验结果
分类器的 AUC 分别为 0.88 和 0.97。这些结果表明,参与回复攻击的账户可以被检测出来,而目标账户本身也可以作为影响操作检测的传感器。
Introduction
背景信息:
社交媒体平台是公民参与的主要环境。由于人们可以方便地获取和消费信息并建立影响力,社交媒体平台在思想交流、政治议程讨论和政治身份发展方面发挥着重要作用。然而,社交媒体平台也会被有组织的团体利用,故意传播误导性信息(Weedon、Nuland 和 Sta- mos,2017 年),人为放大某些内容(Elmas、Over- dorf 和 Aberer,2022 年),或干扰选举(Ferrara 等,2020 年;国家情报总监办公室,2017 年;Neudert、Howard 和 Kollanyi,2019 年)。这些类型的社交媒体利用被称为信息行动或影响力行动(IOs)。
影响行动策略
影响行动是有组织的尝试,通常通过协调的策略来达到特定的效果,如操纵公众舆论(Pamment 和 Smith 2022 年)。影响行动策略包括通过广告或付费数字影响者进行公共关系(Ong 和 Caba˜nes,2018 年);标签劫持扭曲趋势,吸引或分散主流媒体的注意力(Ong 和 Caba˜nes,2018 年);使用不真实和自动化的账户来制造流行性的表象(Elmas,2023 年;Woolley 和 Howard,2018 年);删除违反服务条款的内容,以避免被平台发现(Torres-Lugo 等,2022 年);roll账户(Zannettou等人,2019a)虚假信息和宣传的传播(Woolley和Howard,2018);政治备忘录(Rowett,2018;Zannettou等人,2020;Ng、Moffitt和Carley,2022);以及影响政治事件的 “kompromat ”策略(Wool-ley和Howard,2018)。
国际组织的IO行动
国际组织可以是国家发起的,也可以源于国内或外国(Bradshaw 和 Howard,2017 年)。俄罗斯互联网研究机构(IRA)试图干扰 2016 年美国总统大选,就是外国发起活动的一个典型例子(参议院情报特设委员会,2019 年)。来自中国、巴西和尼日利亚等不同国家的有关国际组织的报告显示,此类活动已成为一种全球性威胁(布拉德肖和霍华德,2017 年;伍利和霍华德,2018 年;布什,2020 年)。
引出正题: 协调回复攻击
在这里,将重点放在协同回复攻击上,即一组账户共同针对特定个人或实体的帖子进行大量回复。这样做的目的可能是压倒目标,推动特定的叙事,或引起参与。在影响力行动中,经常使用协调回复攻击(Matthews and Go- erzen 2019; Bush 2020)。这种策略被用于骚扰,例如在针对澳大利亚第一位女性穆斯林参议员 Mehreen Faruqi 的仇恨言论运动中(Thomas、Thompson 和 Wanless,2020 年);通过不真实的账户扩大影响(Weedon、Nuland 和 Sta- mos,2017 年);以及垃圾邮件、曳引和煽动。
作者的研究问题:
在本文中,首次对 Twitter 报告的影响力行动中的协同回复攻击进行了大规模的定量研究。探讨了采用这种策略的 IO 行为体的目标模式,并介绍了检测这些攻击的目标和参与行为体的方法。提出了以下研究问题:
问题 1:谁是协同回复的目标,吸引此类协同回复的推文具有哪些特定主题?
RQ2:在潜在目标的一组推文中,如何识别那些收到协调回复的推文?
RQ3:给定一组有针对性的推文,如何检测参与协调回复的帐户?
做出以下贡献:
•发现协调回复攻击的主要目标大多是有影响力的人士,例如记者、新闻媒体、国家官员和政治家。大多数目标只受到一次攻击。大多数目标的攻击都是零星的,并且往往集中于特定背景,例如政治。攻击者可能来自目标国家境内或外国。
作者提出了一个分类器模型,用于识别协调回复所针对的推文。该模型不使用任何 IO 特有的特征,因此可用于其他情况。它还可以开发成一种监控和安全工具。
作者提出的第二个模型在检测参与回复攻击的账户方面表现出色。
Related Work
鉴于此前有关协调答复的研究较少,回顾了有关国际组织的一般文献。
Characterization of Influence Operations
影响力运营给社交媒体上的内容审核带来了新的挑战。应对这些挑战的关键第一步是描述信息战参与者的运作方式:他们的策略、动机和参与模式。
Matthews 和 Goerzen(2019)展示了社交媒体中使用的不同的恶搞技术,从狗堆到袜子木偶,以及干预措施。
赞内托等人(2019a) 观察到,与随机用户相比,俄罗斯巨魔在使用 Twitter 时表现出不同的行为。
同一批作者还发现 Twitter 和 Reddit 上的俄罗斯巨魔支持特朗普,而伊朗巨魔则反对特朗普(Zannettou 等人,2019b)。
俄罗斯巨魔分享的图片出现在许多流行的社交网络以及主流和另类新闻媒体上,主要针对俄罗斯、乌克兰和美国(Zannettou 等人,2020 年)。
Dutt、Deb 和 Ferrara(2018 年)分析了 IRA 账户在 Facebook 上购买的广告,并通过聚类和语义分析确定了其随时间变化的活动目标。
Stewart、Arif 和 Starbird(2018)围绕 #BlackLivesMatter 运动调查了俄罗斯巨魔的行为,发现巨魔同时渗透到右翼和左翼政治社区,参与双方的讨论。
Farkas 和 Bastos(2018 年)将与IRA有关的推文人工标注为 19 个不同的类别,以研究IRA的行动是否符合类宣传模型。
Merhi、Rajtmajer 和 Lee(2023 年)发现,参与土耳其 IO 的帐号对大规模关闭具有抵抗力。
Elmas、Overdorf 和 Aberer(2023 年)发现,网络行动者和其他敌对账户经常改名换姓。
斯坦福大学互联网观察站(2021 年)制作了几份描述影响力活动和一系列战术的报告,包括协调回复攻击(布什,2020 年)。这项研究提供了对这种战术的定性描述,而我们在此重点讨论的是检测这种战术的方法。
自动匹配的账户也会进行协调回复攻击;据报道,社交机器人会以有影响力的用户为目标,试图将他们的注意力引向假新闻(Shao 等人,2018 年)。
此类策略的驱动因素可能是经济而非政治动机,例如在操纵加密货币的案例中(Yang 和 Menczer,2024 年)。本文介绍的方法与背景无关,因此可应用于此类活动。
Detection of Influence Operations
文献中已经提出了许多机器学习监督模型,利用欺骗性语言线索(Addawood 等人,2019 年)以及行为和语言特征(Im 等人,2020 年)来检测 IO 行为者,尤其是 Twitter 上的 IRA 巨魔。
Luceri、Giordano 和 Ferrara(2020 年)针对这一任务提出了一个内部强化学习模型。
Alizadeh 等人(2020 年)建立了一个基于内容的分类器,用于检测来自俄罗斯、中国和委内瑞拉 IO 运动的巨魔账户的推文。
Sharma 等人(2021 年)的研究使用生成模型来学习隐藏的群体行为,以识别协调账户。
Ezzeddine 等人(2023 年)提出了一种基于 LSTM 的方法,可根据行为线索识别巨魔账户。
Kong 等人(2023 年)提出了一种区间校验变换器霍克斯架构来识别 IO 操作者。
作者方法的特点:
作者的工作类似于上述使用监督学习方法来识别协调账户的工作。然而,作者设计的功能利用了 IO 参与者的目标行为,特别关注回复/评论互动。
作者的方法不使用任何 IO 特定的功能或情绪线索,因此它可以推广到具有类似参与功能的不同社交媒体平台。
影响行动是协调行动的一种。大量研究探索了无监督方法来检测一般协调行为。
Pacheco 等人(2021 年)提出了一种基于网络的协同检测框架。由于竞选活动同时使用不止一种战术;
Uyheng、Cruickshank 和 Carley(2022 年)提出了一种多视角模块化聚类方法。
Hudson Smith、Ehrett 和 Warren(2024 年)利用叙述和账户特征的相似性建立了贝叶斯模型。
Nwala、Flammini 和 Menczer(2023 年)提出了一种语言框架,将用户行为和内容表示为符号序列,从而找到协调的账户。
与上述方法不同的是,作者并不根据相似的行为对账户进行聚类。作者根据回复的综合特征对单个帖子进行分类,根据元数据和回复活动对单个账户进行分类。
Data Collection
对于目前协调回复攻击的研究,作者使用 Twitter 审核研究联盟从 2018 年 10 月到2021年12月, 这些数据集是 Twitter 声称参与外国影响力行动的被暂停账户的档案。除了账户元数据,数据集还提供了这些账户产生的所有推文。根据 Twitter 的说法,这些数据集中的活动是由单一实体协调的,因此它们为研究提供了基本事实。事实上,如果作者观察到 Twitter 标记为协调的多个账户对单一目标的大量回复,就可以确定协调回复攻击策略已被使用。
Target Dataset
首先,合并所有 IO 的数据集,并保留 IO 帐户对非 IO 帐户的推文的所有回复。将后者帐户称为目标,将 IO 帐户的回复称为 IO 回复。
44,425 个 IO 帐户总共有 17,873,714 条 IO 回复,针对 1,763,084 个不同目标的 15,256,547 条推文。从这些数据中,提取了 15,016 个目标和 96,041 条推文,这些推文收到了来自 IO 帐户的 5 个或更多直接回复。假设这些推文已成为协调回复攻击的目标,并将它们标记为目标推文。五个或更多答复的阈值是任意的;稳健性分析表明,目标推文的检测似乎不受此参数的影响,如稍后讨论的(图 7)。
在进行分析时,目标推文仍可公开获取,因此可以收集到所有回复。无论是在 IO 帐户被 Twitter 删除之前还是之后。我们将这些回复称为正常回复,并将其作者称为正常回复者。由于我们只有 IO 账户的直接回复,因此我们也只考虑正常转载者的直接回复;对回复的回复将被丢弃。除了初始数据中存在的有关 IO 回复的元数据之外,作者还查询 Twitter API3 的 /users/:id、/search/all 和 /tweets/?ids= 来收集有关目标的元数据,目标推文、他们的正常回复以及正常回复者。
在 15,016 个目标中,5,041 个被暂停,3,992 个无法找到(可能是已删除的账户),5,983 个在分析时还活着(2,031 个已验证账户和 3,952 个未验证账户)。在总共 96,041 条目标推文中,43,048 条无法找到,这意味着这些推文可能来自已删除或已停用的账户;18,808 条未经授权访问;34,185 条可访问。在影响力操作案例研究(问题 1)中,考虑了这一目标数据集,即 5983 个目标的 34185 条推文。
Classification Dataset
为了识别协调回复 (RQ2) 和参与此类活动的帐户 (RQ3) 所针对的推文,将有针对性的推文视为正面示例。对于相应的反面例子,最后一次IO 回复后的相同目标的推文作为对照推文。这确保了对照数据中的推文不会收到 IO 帐户的任何协调回复。图 1 说明了数据收集。
与正面例子一样,只保留有五条或五条以上回复的对照推文。此外,为了避免因目标对象的不同活动而产生偏差,从每个目标对象处收集的对照推文数量与目标推文数量相同。具体来说,选择在最后一条 IO 回复之后立即发布的对照推文,但不得少于五条回复。如果无法获得与目标推文一样多的对照推文,会保留最近的目标推文,以确保数据集的平衡。
与目标推文类似,获取了对照推文的所有回复和所有回复者元数据。结果分类数据集包括 3866 条目标推文和 1507 个目标的相同数量的对照推文。正面和负面示例中分别共有 881,918 和 323,378 个回复者。其中包括 IO 和非恶意回复者。在问题 2 中使用了完整的分类数据集,而在问题 3 中,只使用了正面示例(目标推文): 7,670 个 IO 回复者和 874,248 个正常回复者。
RQ1: Targets and Topics
在本节中,将对协同回复攻击进行探索性分析,并对两个特定活动进行案例研究,通过这些案例可以分析目标、目标推文的主题以及活动中采用的其他策略。
对目标元数据的探索性分析(图 2a)显示,目标的追随者(中位数 22,540 人)往往多于关注者(中位数 707 人)。这表明目标可能是有影响力的人。回复攻击往往是有选择性的(图 2b):每个目标只有几条推文被攻击(中位数为一条)。目标推文收到的协调回复中位数为 8 个(图 2c)。然而,有 54 条目标推文收到了超过 1,000 条回复。协同回复往往在目标推文发布后很快出现,中位延迟时间为 3 小时(图 2d)。
为了更好地了解哪些类型的账户被作为目标,作者在一些目标简介中标注了相应的职业或组织类型以及来源国。通过检查每个 Twitter 简介、描述、“Twitter ”所标示的职业元数据来进行手动注释 “公文包图标",并通过谷歌搜索关注者超过一百万的账户。将职业和组织类型分为几大类,如国家官员、新闻媒体和政治家。信息不足的账户被标记为 “不详”。
由于注释过程非常耗时,只关注了两个案例,即目标最多的五个活动中的两个: 塞尔维亚(排名第一,有 1,175 个目标)和埃及(排名第五,有 372 个目标)。在接下来的小节中,将报告每个案例中目标数量最多的 10 个职业/类型和国家。还检查了目标推文,以了解攻击的背景。在预处理中,将目标推文翻译成英文,并删除了停顿词和表情符号。
案例研究:塞尔维亚:
塞尔维亚活动针对的大部分账户(大约 648 个)来自塞尔维亚本土,其余来自巴尔干地区(图 3a)。这表明该运动的重点是影响塞尔维亚境内的公众舆论。图 3b 显示,协调回复攻击主要针对记者 (102)、国家官员 (99)、新闻媒体组织 (76) 和政客 (43)。词移图(Gallagher 等人,2021)突出显示了目标推文中最突出的术语(图 3c),显示竞选活动的重点是武契奇总统、塞尔维亚进步党 (SNS)、2017 年选举、“1 “五百万人的抗议”以及塞尔维亚和科索沃的外交危机。
这些发现与 Bush (2020) 的分析一致,布什报告说,参与塞尔维亚竞选活动的 IO 参与者的主要目标是为总统亚历山大·武 (Alexander Vu) 争取支持。这一点是通过转发武契奇及其政党 SNS 的内容和回复其他账户的支持信息来实现的。这是通过转发武契奇和国家安全局的内容并回复其他账户的支持信息来提高他们的知名度和可见度。IO 账户还针对反对党发布揶揄性推文,并试图通过在他们的帖子中充斥负面评论来诋毁他们。这一策略旨在让公众认为反对党不受欢迎。
案例研究: 埃及
图 4a 显示,埃及活动的大部分目标账户来自多个中东和北非国家,主要是沙特阿拉伯(74 个目标)、埃及(39 个)、阿联酋(36 个)、卡塔尔(30 个)和也门(26 个)。这表明可能发生了国家间袭击。新闻媒体组织 (67)、记者 (52) 和国家官员 (29) 再次成为共同回复的主要目标(图 4b)。对目标推文中常见术语的分析(图 4c)和人工检查再次表明,埃及运动主要关注宗教主题、恐怖主义和时事,如伊朗核协议(2018 年)、也门胡塞运动、苏丹军事政变和穆斯林兄弟会。这些观察结果与 DiResta、Kheradpir 和 Miller(2020 年)的报告相一致,该报告描述了埃及和阿联酋策划的 IO 活动,支持沙特和埃及政府,批评卡塔尔、土耳其、也门和伊朗。
两个案例研究都表明,有影响力的人士,如记者、新闻媒体、国家官员和政治家,是协同回复攻击的主要目标。这些目标可能来自活动发起国以外的不同国家。目标推文的主题取决于特定地区或国家的时事。
RQ2: Tweet Classification
识别收到非真实协同回复的推文是检测协同攻击目标和实施者的第一步。为了应对这一挑战,提出了一种独立于活动的分类器,用于识别以 IO 为目标的推文。同样的方法也可以推广到 Twitter 以外的平台。
Classifier Features
推文分类器利用从推文及其收到的回复中提取的多个特征。让首先关注推文级别的功能,特别是推文参与度。发现 IO 目标推文与对照推文的参与度指标之间存在一些关键差异。如图 5a 所示,针对 IO 的推文收到更多回复(中位数为 31,而对照推文为 22)。另一方面,对照推文收到的转发略多(IO 目标推文的中位数为 84 比 75,图 5b)和更多的点赞(中位数 420 比 250,图 5c)。这表明有机参与产生了更积极的互动和分享,而不真实的活动主要集中在通过回复操纵对话。基于这些观察,使用三个推文级别的特征:回复计数、转发计数和点赞计数。
接下来,考虑回复级特征。这些特征基于表 1 所列的八个属性。每条回复都定义了参与度和质量属性。对于每条回复,延迟也被定义为推文和回复的时间戳之差。相似性旨在捕捉回复中存在的相似叙述,即 “回复 ”与 “推文 ”之间的时间差。不真实参与的共同特征。为此,首先使用 LaBSE 模型(Feng et al. 2020)生成回复的向量嵌入,该模型支持 109 种语言。然后,为同一推文的每对回复计算余弦属性,作为相应向量之间的余弦相似度。
由于目标推文可能会有许多回复,因此这一过程会产生许多属性值,这些属性值必须进行汇总,以获得每条推文的一组特征。就参与、实体和延迟属性而言,每条回复都有一个值。对于相似性属性,每对回复有一个值。在所有情况下,都会将这些值进行汇总,以获得每条推文的单一属性值分布。根据这些分布,计算出以下 12 个汇总统计特征:范围、25/50/75 四分位数、四分位数间范围、最小值、最大值、平均值、标准偏差、偏斜度、峰度和熵。由于对八个属性中的每个属性都做了上述处理,因此分类器中使用的回复级特征总数为 8×12 = 96。包括三个推文级特征在内,分类器总共使用了 99 个特征。
Results
比较了不同的机器学习模型: Logistic Regression、Random Forest、AdaBoost、Decision Tree 和 Naive Bayes。在训练之前,通过 z 分数对输入特征进行标准化。进行了 10 倍交叉验证,以减少训练数据的过度拟合,并在表 2 中报告了各倍的平均精度、召回率和 F1 值以及 AUC。精确度、召回率和 F1 值取决于将模型得分转换为二元分类标签的阈值。对阈值进行了调整,以最大限度地提高不同折叠的平均 F1 值。在下文中,将重点讨论随机森林(有 100 棵估计树),它能产生最好的总体得分。
为了研究不同特征的贡献,采用了两种方法。首先,在单个推文级特征和回复级特征集上训练和测试随机森林。表3给出了使用10倍交叉验证的结果。其次,进行了排列特征重要性测试,该测试通过计算这些特征值被打乱时的准确性损失来衡量特征的重要性(排列)。
为了简化分析,对于每个回复级别属性,对所有相应的特征进行洗牌,而不是单独对每个特征进行洗牌。例如,对于点赞数参与度属性,一次打乱了所有 12 个汇总统计特征。重复此测试 10 次,并记录每次迭代 10 倍交叉验证的平均 F1 分数的下降情况。这些下降值的分布如图 6 所示。
两种方法都一致表明,回复级别的参与特征是最重要的。仅使用这些特征的分类器的 F1=0.77 和 AUC=0.84 (图 3),而去除这些特征会导致 F1 显著下降(图 6)。在分类数据集中,大部分目标来自塞尔维亚活动。该运动中的 IO 账户无意与其他 Twitter 用户产生互动;相反,它们主要是提高其他 IO 账户的转发和回复数量,人为地在 Twitter 上扩大武契奇及其盟友的影响力(布什 2020)。
RQ3: Replier Classification
一旦确定了潜在的目标推文,就可以尝试从回复这些推文的账户中发现那些参与协调活动的账户。由于不真实的账户会试图给人留下真实的印象,因此区分真实回复和不真实回复是一个不小的挑战。为此,使用目标推文数据集训练了一个超级可见的回复分类器。
Classifier Features
从每个回复者的个人资料元数据和他们对目标推文的回复中为他们设计特征。从个人资料元数据开始,用账户创建日期减去账户最后一次回复的日期来计算回复者的年龄。如图 8(A)所示,大多数 IO 回应者都是相对较新的账户,其年龄中位数为 0.37 岁,而普通回应者的年龄中位数为 2.08 岁。尽管他们的年龄相对较小,但 IO 汇报者的关注者中位数(282)和关注者中位数(380)都高于普通汇报者,后者的中位数分别为 114 和 292(图 8(B,C))。不过,IO 离线者的活跃度(原始推文 + 回复 + 引用 + 转发)较低,中位数为 699,而正常离线者为 4406(图 8(D))。
为了充分利用 IO 和非 IO 复制者之间的这些关键差异,我们创建了四个专门针对个人资料元数据的特征:年龄、追随者率、关注率和活跃率。由于追随者/关注者数量和活跃度与账户年龄相关,因此我们根据账户年龄对关注率特征进行归一化处理。
每个回复者可能参与对多条目标推文的一个或多个回复。因此,创建了许多特征来总结每个回复者生成的回复集的特征,包括对多个目标推文的回复。这些特征基于八个回复属性,将它们组织成四组,就像表 1 中列出的那样。区分推文和回复者分类任务中如何计算这些特征的唯一标准是回复集 - 所有回复前一种情况下是一条推文,后一种情况下是回复者的所有回复。
Results
更多推荐
所有评论(0)