当前位置:白鲸出海 > 资讯 > 正文

为什么「Twitter」上的虚假账号难以统计?

索菲亚的燕窝  • 

图片1.png

在突然宣布暂停对「Twitter」的收购后,埃隆·马斯克(Elon Musk)在 5 月 23 日又暗示,收购「Twitter」的实际价格要由平台上的虚假账号占比来决定。当天有一名网友表示,如果平台上有 25% 的虚假账号,那么「Twitter」的收购价格就要压低 25%,马斯克也对此表示认同。

这一说法又给「Twitter」的收购风波引来了新一波热度。虽然马斯克的态度一直以反复无常著称,不过这一段发言也正好和马斯克质疑此前「Twitter」官方公布的 5% 虚假账号占比形成了呼应。从一开始,马斯克对外宣称收购「Twitter」的目的就是整顿「Twitter」平台风气,其中虚假账号问题更是“头等大事”。

然而《Wired》杂志近期的调查却显示,任何机构实际上都很难统计「Twitter」上虚假机器人账号的实际占比。即便是目前最为先进的识别算法,也可能会把马斯克的个人账号判定为“机器人”。

历来不信邪的马斯克为了统计虚假账号,还自己提出了一项解决方案——随机采样关注自己的 100 个「Twitter」账号进行分析,然后推算出整个平台上虚假账号的数量。他表示,通过这种方法统计后能看出,虚假账号至少占「Twitter」用户总数的 20%,是官方说法的 4 倍。

然而杜克大学社会学教授克里斯•贝尔(Chris Bail)却表示,以马斯克为代表的头部账号本身就更容易“吸引”虚假账号,因为这些“大V”本身就能带动大量流量和热度。贝尔表示:“只要在「Twitter」上提到埃隆•马斯克这个名字,你马上就会被大量与加密货币产业相关的虚假账号关注。”

为了测试马斯克提出的计算方法,人工智能公司 IV.ai 对关注马斯克旗下企业特斯拉(Tesla)的 100 个「Twitter」账号进行了检查。AI 算法的筛查结果显示,超过 20% 的账号可能都是虚假账号。之后 IV.ai 还对这些账号进行了手工筛查,结果虚假账号占比甚至超过了 50%。值得注意的是,这些虚假账号本身并不会发布任何具有明显营销倾向的内容,这使得虚假账号的侦测更加困难。

然而尽管如此,IV.ai 依然发现虚假账号大多很快就会被注销,这意味着「Twitter」平台本身对虚假账号的检测相当灵敏。此外 IV.ai 公司 CEO 文斯·林奇(Vince Lynch)也表示,虚假账号的侦测本身就有一定的主观性,因此很难做到完全准确。

Twitter」并不是唯一一个被虚假账号问题困扰的平台,「Facebook」每年也都会删除数十亿个虚假账号。不过,在「Twitter」上判断虚假账号往往更加困难。因为许多真实用户在「Twitter」也没有多少粉丝,更不常发推文,但用户名很可能会很怪异。因此外界也无法通过像检查「Facebook」用户的好友和社会关系那样准确检验账号的真实性。

印第安纳大学(Indiana University)教授菲利波·门泽尔(Filippo Menczer)表示,辨别虚假账号其实非常困难。门泽尔牵头设计开发了一套名为 Botometer 的虚假账号检测算法,结果该算法认定,马斯克的个人账号也很有可能是虚假的。门泽尔表示,将 100 个账号作为采样范围实在太过狭窄,在不同用户群体中很可能会得到截然相反的结果,也无法体现「Twitter」的整体用户环境。

随着账号鉴别技术的发展,虚假账号本身也变得更加隐蔽。如今不少虚假账号的内容也由真人管理,还有一些更是会直接截取真实用户的发言内容进行夸大加工。其他虚假账号则会使用一些手段来逃避人工和算法检测,例如快速发布和删除推文等。此外值得注意的是,许多企业的官方账号也由自动化程序掌管大部分运营工作,因此这些“官号”也有可能被检测算法误杀。

愈发复杂的运营策略也给检测算法提出了更严峻的考验,Botometer 算法使用机器学习来评估与账号相关的一系列公共数据,包括推文内容、消息的发送时间以及粉丝等等,并通过这些数据综合汇总出账号的“真伪”判断结果。然而尽管 Botometer 已经堪称当前最先进的虚假账号检测算法,但门泽尔依然表示:“很多账号的身份很模糊,我们无法做出准确判断。”

门泽尔表示,检测虚假账号本身就是一场“猫捉老鼠”的游戏。如今不少自动化程序已经能够生成更为真实自然的文本内容,这会让检测工作变得更加困难。

相比起第三方企业和工具,「Twitter」平台显然拥有更多资源来识别虚假账号,因为用户的大量数据都被储存在平台上。在 2011-2013 年,机器学习专家德尔利普•拉奥(Delip Rao)曾在 Twitter 从事虚假账号检测工作。他表示,Twitter 目前可能无法透露其账号检测流程和操作方法,因为这样做会泄露用户个人数据和信息。

这样看来,或许 Twitter 首席执行官帕拉格·阿格拉瓦尔(Parag Agrawal)在此前的反驳的确很有道理。在 5 月 16 日,阿格拉瓦尔发帖表示,Twitter 掌握的用户数据可能改变外界对平台的看法。帖文写道:“对大家来说,没有头像的账号、由大串数字组成的账户名以及奇怪的推文,就可以让人认定这是一个虚假账号,但符合上述特征的真实账户其实也有很多。”阿格拉瓦尔还表示,「Twitter」目前还不能透露平台对虚假账号的检测方法。

对此马斯克同样针锋相对,他表示如果「Twitter」无法或不愿透露其检测和评估方法,也拿不出虚假账号占比低于 5% 的证据的话,那么收购交易就可能无法继续。实际上,马斯克已经想把虚假账号占比当成压低收购价格的依据,而对于阿格拉瓦尔的长帖他更是全盘否认,直接回上了一个“大便”的表情。显然这场争论还远没有到结束的时候,而「Twitter」的未来也因此而变得愈发难以预测。

本文编译自 Why It's So Hard to Count Twitter Bots|WIRED。

本文相关公司

Twitter认证


扫一扫 在手机阅读、分享本文

要回复文章请先登录注册

白鲸客服微信白鲸客服微信
微信公众账号微信公众账号