为什么「Twitter」上的虚假账号难以统计？

索菲亚的燕窝 • 2022-05-26 16:14

图片1.png

在突然宣布暂停对「Twitter」的收购后，埃隆·马斯克（Elon Musk）在 5 月 23 日又暗示，收购「Twitter」的实际价格要由平台上的虚假账号占比来决定。当天有一名网友表示，如果平台上有 25% 的虚假账号，那么「Twitter」的收购价格就要压低 25%，马斯克也对此表示认同。

这一说法又给「Twitter」的收购风波引来了新一波热度。虽然马斯克的态度一直以反复无常著称，不过这一段发言也正好和马斯克质疑此前「Twitter」官方公布的 5% 虚假账号占比形成了呼应。从一开始，马斯克对外宣称收购「Twitter」的目的就是整顿「Twitter」平台风气，其中虚假账号问题更是“头等大事”。

然而《Wired》杂志近期的调查却显示，任何机构实际上都很难统计「Twitter」上虚假机器人账号的实际占比。即便是目前最为先进的识别算法，也可能会把马斯克的个人账号判定为“机器人”。

历来不信邪的马斯克为了统计虚假账号，还自己提出了一项解决方案——随机采样关注自己的 100 个「Twitter」账号进行分析，然后推算出整个平台上虚假账号的数量。他表示，通过这种方法统计后能看出，虚假账号至少占「Twitter」用户总数的 20%，是官方说法的 4 倍。

然而杜克大学社会学教授克里斯•贝尔（Chris Bail）却表示，以马斯克为代表的头部账号本身就更容易“吸引”虚假账号，因为这些“大V”本身就能带动大量流量和热度。贝尔表示：“只要在「Twitter」上提到埃隆•马斯克这个名字，你马上就会被大量与加密货币产业相关的虚假账号关注。”

为了测试马斯克提出的计算方法，人工智能公司 IV.ai 对关注马斯克旗下企业特斯拉（Tesla）的 100 个「Twitter」账号进行了检查。AI 算法的筛查结果显示，超过 20% 的账号可能都是虚假账号。之后 IV.ai 还对这些账号进行了手工筛查，结果虚假账号占比甚至超过了 50%。值得注意的是，这些虚假账号本身并不会发布任何具有明显营销倾向的内容，这使得虚假账号的侦测更加困难。

然而尽管如此，IV.ai 依然发现虚假账号大多很快就会被注销，这意味着「Twitter」平台本身对虚假账号的检测相当灵敏。此外 IV.ai 公司 CEO 文斯·林奇（Vince Lynch）也表示，虚假账号的侦测本身就有一定的主观性，因此很难做到完全准确。

「Twitter」并不是唯一一个被虚假账号问题困扰的平台，「Facebook」每年也都会删除数十亿个虚假账号。不过，在「Twitter」上判断虚假账号往往更加困难。因为许多真实用户在「Twitter」也没有多少粉丝，更不常发推文，但用户名很可能会很怪异。因此外界也无法通过像检查「Facebook」用户的好友和社会关系那样准确检验账号的真实性。

印第安纳大学（Indiana University）教授菲利波·门泽尔（Filippo Menczer）表示，辨别虚假账号其实非常困难。门泽尔牵头设计开发了一套名为 Botometer 的虚假账号检测算法，结果该算法认定，马斯克的个人账号也很有可能是虚假的。门泽尔表示，将 100 个账号作为采样范围实在太过狭窄，在不同用户群体中很可能会得到截然相反的结果，也无法体现「Twitter」的整体用户环境。

随着账号鉴别技术的发展，虚假账号本身也变得更加隐蔽。如今不少虚假账号的内容也由真人管理，还有一些更是会直接截取真实用户的发言内容进行夸大加工。其他虚假账号则会使用一些手段来逃避人工和算法检测，例如快速发布和删除推文等。此外值得注意的是，许多企业的官方账号也由自动化程序掌管大部分运营工作，因此这些“官号”也有可能被检测算法误杀。

愈发复杂的运营策略也给检测算法提出了更严峻的考验，Botometer 算法使用机器学习来评估与账号相关的一系列公共数据，包括推文内容、消息的发送时间以及粉丝等等，并通过这些数据综合汇总出账号的“真伪”判断结果。然而尽管 Botometer 已经堪称当前最先进的虚假账号检测算法，但门泽尔依然表示：“很多账号的身份很模糊，我们无法做出准确判断。”

门泽尔表示，检测虚假账号本身就是一场“猫捉老鼠”的游戏。如今不少自动化程序已经能够生成更为真实自然的文本内容，这会让检测工作变得更加困难。

相比起第三方企业和工具，「Twitter」平台显然拥有更多资源来识别虚假账号，因为用户的大量数据都被储存在平台上。在 2011-2013 年，机器学习专家德尔利普•拉奥（Delip Rao）曾在 Twitter 从事虚假账号检测工作。他表示，Twitter 目前可能无法透露其账号检测流程和操作方法，因为这样做会泄露用户个人数据和信息。

这样看来，或许 Twitter 首席执行官帕拉格·阿格拉瓦尔（Parag Agrawal）在此前的反驳的确很有道理。在 5 月 16 日，阿格拉瓦尔发帖表示，Twitter 掌握的用户数据可能改变外界对平台的看法。帖文写道：“对大家来说，没有头像的账号、由大串数字组成的账户名以及奇怪的推文，就可以让人认定这是一个虚假账号，但符合上述特征的真实账户其实也有很多。”阿格拉瓦尔还表示，「Twitter」目前还不能透露平台对虚假账号的检测方法。

对此马斯克同样针锋相对，他表示如果「Twitter」无法或不愿透露其检测和评估方法，也拿不出虚假账号占比低于 5% 的证据的话，那么收购交易就可能无法继续。实际上，马斯克已经想把虚假账号占比当成压低收购价格的依据，而对于阿格拉瓦尔的长帖他更是全盘否认，直接回上了一个“大便”的表情。显然这场争论还远没有到结束的时候，而「Twitter」的未来也因此而变得愈发难以预测。

本文编译自 Why It's So Hard to Count Twitter Bots|WIRED。

【本篇文章属于白鲸出海原创，如需转载：1、网站端请注明出处，并在文章中附带白鲸出海原文链接。2、微信公号及其他自媒体平台需联系授权方可，未经授权严禁转载！】

友情提醒：白鲸出海目前仅有微信群与QQ群，并无在Telegram等其他社交软件创建群，请白鲸的广大用户、合作伙伴警惕他人冒充我们，向您索要费用、骗取钱财！