当前位置:白鲸出海 > 资讯 > 正文

深度剖析移动作弊(三): 机器学习是对抗移动作弊的良药

Adjust  • 

作者:Paul H. Müller(微信公号:AdjustGmbH  )

白鲸出海注:本文是 Adjust 发布在白鲸出海的专栏文章,转载须保留本段文字,并注明作者和来源。商业转载/使用请前往 Adjust 主页,联系寻求作者授权。

C1.png

机器学习是现今打击移动广告作弊的万能潮词。但,它是否真的如此强大,在实际应用层面又面临哪些技术壁垒?

机器学习是我们对抗移动广告作弊的解药?

可以肯定的是,机器学习对我们处理作弊方式影响确实很大。随着机器学习技术的不断开发,移动行业可谓获益匪浅。然而,机器学习并非万能的良药。就技术层面而言,机器学习还有待改进。

本文,我将和大家深入探讨机器学习,帮助您了解该技术在移动市场所扮演的角色以及该如何利用其优势打击作弊行为。如果您错过了前两部分,那么您可以先回顾一下第一部分第二部分

将理论和应用剥离

从目前的情况来看,机器学习存在根本上的理论问题,接下来我将通过类比进行说明。假设您想要从河中取水喝,但是种种迹象表明,河水将会受到严重的污染。那么,您是否需要先确认水的安全性,然后再考虑避免河水受到污染的方法?这意味着您不仅要找到污染物,还需要想出过滤所有污染物的对策。在克服万难之后,您打造出一台先进的机器。它不仅能够自动检测各种潜在的污染问题,还会提示您污染物的来源。

实践表明,您的机器能够准确分辨出它发现的污染物类型。随着时间的推移,检测的次数越多其准确率也越高。但是,这是否意味着它能检测出每一种类型的污染物?同时,是否可以用它来阻止污染并过滤出安全的饮用水?

机器学习的隐忧

如果我们尝试将机器学习取代具体的方法来过滤伪造行为,诸多问题可能会随之产生。

由于过滤虚假用户所用的数据必须来自真实用户的组合数据集,在过滤的过程中,会产生大量不明确的边缘案例(edge cases)。此外,作弊者可以“培养”来自真实设备的数据,从而伪造合法的用户行为,其中包括 SDK 发送的任何归因。有些作弊者会犯错,例如创建容易被发现的虚假用户交互。但是,被发现后只会刺激他们将下一次作弊行为变得更加复杂。

让我们通过一个例子来说明机器学习目前所面临的困难。作弊者使用已知用户的真实设备信息(例如操作系统版本、IDFA 和区域设置)来实施作弊。针对从未被设备下载的应用进行伪造安装,这会导致机器学习算法在提取过去的数据点时,难以正确地分类作弊手法。原因是历史数据表明,用户是真实的。如此一来,又怎能使算法认为这是作弊呢?

此外,这些滥用真实设备数据的拙劣伪造行为,将导致日后真正的用户活动被归类为作弊。本质上,机器学习无法判断哪个数据点是真实哪个数据点是伪造的,从而造成神经网络训练的困难。我们已经看到作弊者用“完美”的数据伪造了几乎所有的请求,其中包括客户自身的测量系统。这使机器学习即便在长期跟踪之后,仍然难以辨识伪造用户。

简而言之,当面对不熟悉的新场景时,机器学习无法发挥有效的作用。

那么,为什么机器学习在实际应用中还不足以作为一个可靠的检测和过滤系统呢?

在转化中迷失的数据

要作为拒绝假量的判断基础,神经网络需要在安装时便决定何时要为大多数的营销活动付款,然而此时它对用户还知之甚少。为了解决这一问题并确定用户的合法性,机器学习会尝试在更大的数据集内检测更复杂的规律模式,包括那些看起来混沌不明的特征。

这时,如果尝试理清整个专用神经网络的决策过程,您可能会焦头烂额。机器学习会创建出极其复杂的规则集,以奇怪的组合方式识别看似不相关的标识符。有些供应商销售的反作弊工具十分依赖机器学习作为拒绝的基础。一旦受到质疑,这些供应商可能会将他们的决策隐藏在黑匣子內。也就是说,永远不解释他们在做什么。这可能会成为未来防作弊工具的一大隐忧。

为什么说黑匣子不是一个好主意?

黑匣子真的有那么糟糕吗?我们来举例子说明。

假设,有个渠道针对其营销活动中被拒绝的归因与客户调解纠纷。渠道无法解释拒绝的数据,因此不得不依据客户的表述,而客户又依赖于监控作弊的归因服务。虽然小部分争议对于渠道来说可能不成问题,但在达到一定的临界值后它会变成一个大问题。

一旦供应商失去解释拒绝归因的能力(或者不想解释),客户会提出意见性的主张。我们可以就意见作争辩或提出异议。如果沿着这个方向发展,渠道将试图把每个过滤器描述成另一种可忽略的意见。对于有效过滤的构成要素,我们已经清楚地表达了我们的观点。我们想要创建一个合乎逻辑且透明的系统以回避意见性的争端。也就是说,我们尝试以合乎事实的方式解释我们拒绝的原因。

尽管我们认为机器学习是种优秀的检测手段,但是目前还不能依赖它来判断作弊行为,至少现在还不能。在目前的状态下,边缘案例会被忽略,且决策背后的逻辑最终可能会因意见而被拒绝,进而引发缺乏透明度的问题。我们需要做的是,认真研究并在正确的基础上构建过滤器,从而在不拒绝合法来源安装的情况下阻止作弊。

现在让我们回过头来思考上文有关机器学习的类比。您知道污染是一定存在的。但这并不意味着用这项逻辑来过滤水源的时机已经成熟。最好的办法是什么?通过研究调查和适当的过滤,您可以追溯上游找到污染来源,并从源头杜绝污染。


你的项目想被报道,点击这里。  市场活动及PR合作,点击这里


扫一扫 在手机阅读、分享本文

要回复文章请先登录注册

白鲸客服微信
微信公众账号