黄金岛官网

当前位置:企业应用软件行业动态 → 正文

改进机器学习预防欺诈的9个实际行动

责任编辑:cres 作者:HERO编译 |来源:黄金岛官网  2019-11-22 13:06:34 原创文章 黄金岛官网

Ekata公司战略与运营副总裁Arjun Kakkar在一次特邀嘉宾的专访中,为企业的产品经理和业务领导者提供了9条实用可行的原则,赞助他们将机器学习用于欺诈检测。Arjun致力于推动电子商务、支付、市场和在线借贷等垂直领域的客户价值。
 
他表示,全球在线欺诈的损失成本如今已高达250亿美元,然则实际价值至少要高出20倍,因为网上交易者和金融机构经常会误以为欺诈而拒绝为合法客户服务,这是欺诈行为造成的结果。这种失误意味着在线商务的收入损失至少5000亿美元,更不消说更加名贵的客户信任。
 
在线欺诈检测的奇特特征包含可获得具有已知结果的大量多样数据集、重复模式以及需要快速决策的需求,使其成为机器学习(ML)的良好研究对象。实际上,在机器学习有望解决的许多问题中,在线欺诈检测已成为最早的胜利案例之一。
 
通过一流的机器学习团队与许多全球贸易商和支付提供商的合作,Arjun为产品经理和业务负责人提供了以下9条切实可行的原则。
 
获得正确的欺诈信号和标签数据对于企业来说是最具挑战性的任务,然则如果做得正确,将为企业带来显著优势。
 
原则1:模型只与测试和验证集中的标签一样好
 
企业需要制定明确的欺诈界说,为其数据贴上标签,并确保每个标签都清晰地反友八既定的界说。机器学习方法通常可以容忍训练集中的随机标签毛病,但很容易受到系统毛病的影响。例如,客户将合法交易标记为欺诈的“友善欺诈”通常是随机的,但其他行为(例如人工署理的标签)可能是系统的。
 
与训练分歧,团队必须测验考试甚至修复测试和验证集中随机的标签,以使它们足够可靠以评估模型的质量。
 
原则2:获得奇特功能将使欺诈者难以破解企业的模式
 
欺诈团队之间也在展开竞争,他们在重塑客户身份方面越来越成熟。捕获这些欺诈者的最佳方法是从多个供应商和合作伙伴收集奇特的数据,并找到识别数字身份背后真正身份的奇特属性。利用所有有助于风险信号传递的数据,其中包含设备、身份、个人和网络行为模式。
 
原则3:通过构建集中式数据存储库并确保其平安性,使数据成为真正的资产
 
集中式数据存储库将确保数据科学团队知道可用的资源并可以利用它。团队还必须致力于确保客户数据的平安。遵循与欧盟通用数据掩护法(GDPR)一致的原则,例如收集组织将用于满足客户需求的数据,仅将其存储到防止欺诈所需的时间为止,并为客户提供对其数据的完全控制权。为了赢得客户的信任,企业需要真正相信这些原则。
 
将防止欺诈的机器学习系统视为人类的替代品是很诱人的。但根据经验,一流企业将继续让工作人员介入其中。
 
原则4:员工水平的表示仍然是黄金标准,将赞助团队调剂模型
 
经验丰富的人工审核团队在人员层面的表示是对最佳可实现模型表示的合理估计。因此,模型训练毛病与人为毛病之间的巨大差距注解团队需要减少模型偏差。
 
原则5:有效的机器学习系统旨在与人类良好协作
 
良好的机器学习系统知道机器和人类的功能完全分歧,因此可以利用这些差别。人类可以处理可能没有足够历史数据或者需要重大判断力的情况。例如,一家企业可能正在从新的地舆位置获得订单或表示出奇特的行为模式。在将结果推广到新的机器学习模型之前,让人类介入这些案例是值得的。
 
使用双向反馈来改善机器和人类的方面。人工反馈可改善模型偏差,并增强模型的可解释性。同时,机器学习模型可以提供更多信息,使人类的任务更简单,甚至有助于提高人类的技能。
 
原则6:发现并纠正模型中的人为偏见是团队的责任
 
机器学习系统的最大风险之一是,通过设计,它们利用历史数据进行推断。人们通常会标记数据。数据会反映出人类的偏见也就无独有偶了,团队有责任纠正这些偏见。
 
第一步是找出潜在的偏见来源,并在数据中明确寻找它们。验证和测试数据集是否代表真实分布(即没有样本偏差)?企业的团队是否在测试集中包含记录,以检查模型是否存在系统性偏见?从更简单、更透明、可解释且无偏见的模型开始,然后逐步过渡到复杂的模型。
 
机器学习是预防欺诈的强大工具,但如果操作欠妥,则很容易建立起与目标相反的模型。开发组织的机器学习技术至关重要。
 
原则7:机器学习模型需要一致的目标和符合总体策略的指标
 
选择一种将办法和抵消办法结合使用的器量标准,以防止在某个方向上发生过度反应。例如,团队可以决定增加模型正确捕获的欺诈部分(最洪水平地提高“召回率”),同时确定该模型毛病地将合法客户标记为欺诈部分的上限(上限为“误报率”)。
 
最后,为了使这些数字具体化,根据拒绝良好客户的成本和身份不明的欺诈行为成原来估计业务的成本。
 
原则8:开发多种模型并经常进行重新培训以与欺诈的真实世界坚持一致
 
机器学习模型试图模仿现实世界。首先,欺诈特征在分歧地区和欺诈类型之间可能有很大差别。如果性能更好,则构建特定于地舆和用例的模型。其次,现实世界是动态的,欺诈者赓续发展其战术。因此企业坚持恒定的新数据流以重新训练模型,以确保模型输出的质量不会随时间降低。
 
原则9:向其他具有类似欺诈特征的机器学习用例学习
 
团队在欺诈中面临的几乎所有机器学习建模问题在其他领域都有类似的解决方案。
 
以欺诈中类别分布不平衡为例,其中数据中几乎所有记录都属于非欺诈类别。此问题类似于产品缺陷检测之类的情况。或考虑生产中的欺诈模型问题使输出发生偏差,从而影响获取更多数据以进行连续学习的能力。其评估问题是在线广告行业面临的一个问题,团队需要找到一些想法进行试验。
 
为了从机器学习中获得真正的价值以进行欺诈检测,企业的团队必须将机器学习视为组织能力,它要求产品、工程、数据科学和隐私团队协同工作。企业的胜利将取决于实施能够解决实际业务问题的工作模型。企业从小处开始进行测验考试,然后逐步增强自己的能力。随着时间的推移,企业的业务将会蓬勃发展。
 
版权声明:本文为黄金岛官网编译,转载需注明出处为:黄金岛官网,如果不注明出处,黄金岛官网将保存追究其法律责任的权利。

关键字:机器学习

原创文章 黄金岛官网

改进机器学习预防欺诈的9个实际行动 扫一扫
分享本文到朋友圈

关于我们联系我们版权声明友情链接广告服务会员服务投稿黄金岛官方招贤纳士

企业网版权所有©2010-2019 京ICP备09108050号-6

^