关于人工智能:合成数据如何应用于机器学习模型反金融诈骗和隐私数据

在《合成数据绝对于实在数据的劣势》一文当中, 咱们着重介绍了合成数据如何利用于计算机视觉模型的训练,在文章当中咱们有提到:合成数据的另一大利用场景便是表格数据。在下文中咱们将解释如何应用合成数据帮忙训练高精度的反金融欺骗模型,以及如何防止应用敏感的个人信息。

注:该文章转载自itprotoday,为了让读者更顺畅地浏览,咱们对文章进行了局部批改,如增加了一些插图或改变了一些用词。

银行迫切地须要解决金融欺骗问题,LexisNexis Risk Solutions(一家寰球数据和剖析公司)的钻研发现:由金融欺骗导致的每一美元损失,须要投入相当于损失金额自身的四倍老本来解决问题。

为了避免损失,各大银行曾经开始采纳AI和机器学习模型来检测欺骗特色,但只管银行零碎每天充斥大量的交易,然而可能用于训练ML模型的欺骗样本却绝对较少。这时便体现了合成数据的价值。

什么是合成数据?
合成数据是具备统计学代表性版本的实在数据,合成数据当中不蕴含任何原始的实在信息,但它保留了统计学特色。简略来说,合成数据的表面和行为与原始数据类似,但却不蕴含任何原始数据信息,对于建模和仿真目标来说,合成数据齐全能够满足条件。

合成数据生成通过第一遍尽可能精确地重建原始数据集,之后,这个生成模型就能够生成额定的数据,或者仅扩增选定的局部。举例来说,银行可能会合成一个数据集,这个数据集中蕴含的欺骗样本比实在数据集中更多。绝对于实在数据集更多欺骗样本的合成数据集,这样就能够提供训练样本给机器学习模型。

合成数据的应用
除了金融欺骗检测外,合成数据也能够用来解决企业们放心的个人隐私信息问题,Hazy(一家为金融机构提供合成数据公司)的创始人兼CEO Harry Keen说:“因为无关个人隐私的法律法规的推动,例如GDPR,这(合成数据)变得越来越重要。”

个人信息匿名化是恪守政策的一个计划,然而在数据起源可疑以及合规危险下,企业能够采纳合成数据计划以齐全躲避危险。

绝对于低廉的实在数据,更便宜的合成数据同样也能用于实际。“若应用的合成数据映射了95%的真实情况,就能在决策时变得更加灵便。”, Capgemini Canada的副总裁兼洞察和数据主管Steven Karan说。“合成数据的老本取决于应用场景”,Steven补充道。“在广泛的应用场景中,比方地理位置数据,合成数据的老本大概比实在的第三方数据低60-70%。”

用于模型训练的实在数据与合成数据的比例取决于利用场景,Keen揭示道,“从合规性和信赖的角度登程,你在训练主动驾驶的机器视觉模型时,可能不会齐全应用合成数据,而齐全摈弃真实世界的数据就投入使用。”他说,“不过在反欺诈场景中,你能够大规模应用合成数据用来扩增欺诈样本来让你的模型体现更好。”

合成数据的局限性
当应用合成数据来解决边缘事件时,数据科学家们必须要小心谨慎。在欺诈检测当中,合成数据能够扩增实在数据来生成更多的欺诈样本,不过并不意味着它能够笼罩所有的欺诈行为。许多非凡类型的欺诈依然仅存在于实在数据集当中。尽管合成数据能够生成更多的数量,然而它并不能自己产生一种全新的欺诈类型。

此外,合成数据并不能向下剖析每一条具体的数据,这是因为合成数据不能间接映射实在数据集,Keen解释道。所以即使ML模型可能带来更高级别的人口统计的剖析能力,然而并不能用来剖析每一个具体的人。

合成数据的将来瞻望
Karan对于将来应用AI来生成合成数据体现出十足的趣味,这是一个值得摸索的畛域。

调研机构Gartner预测:到2024年AI和剖析我的项目将有60%的数据是合成的。

Keen说,合成数据将在一些畛域有越来越多的应用场景,包含开发主动驾驶ML模型,将用到蕴含更多边缘事件的更大的数据集。“提供更多的数据让AI来了解如何在从未见过的非凡场景中驾驶是一个十分有价值的办法”,他说道。

论断
现在,合成数据的最大用处是企业领有海量的数据,出于种种原因,它们可能无奈在ML模型训练中应用。“合成数据能够创立平安,超现实的数据集,所以你不用在非生产环境中应用生产环境的数据。”,Keen说道。企业们不再须要放心应用敏感数据来训练模型的危险。合成数据提供了一个无效的可代替计划。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理