关于人工智能:基于文本描述的事务聚类

50次阅读

共计 2252 个字符,预计需要花费 6 分钟才能阅读完成。

作者 |GUEST
编译 |VK
起源 |Analytics Vidhya

介绍

咱们生存在数字技术的时代。你上次走进一家没有数字交易的商店是什么时候?

这些数字交易技术曾经迅速成为咱们日常生活的一个要害局部。

不仅仅是在集体层面,这些数字技术是每个金融机构的外围。通过多种可能的抉择(如网上银行、ATM、信用卡或借记卡、UPI、POS 机等),在后盾运行牢靠的零碎,领取交易或资金转账曾经变得十分顺利。

咱们会为每个事务生成一个适当的形容:

在本文中,咱们将应用聚类(一种风行的机器学习算法)探讨一个金融机构为其客户群定制产品的实在用例。

本案例钻研背地的动机

作为一家金融机构,依据现有客户的不同趣味,为他们提供定制化的服务,这一点总是很重要的。对于任何金融机构来说,捕获客户的用意是一个重大挑战。

Twitter、WhatsApp、Facebook 等社交媒体平台已成为剖析客户趣味和偏好的次要信息起源。

金融机构从第三方获取数据往往会产生微小的老本。即便如此,将一个社交媒体帐户映射到一个独特的客户也变得十分艰难。

那么咱们如何解决这个问题呢?

上述问题的局部解决方案能够通过应用机构提供的外部交易数据来解决。

咱们能够依据事务形容音讯将客户执行的事务分为不同的类别。

此办法可用于标记交易是否针对食品、静止、服装、账单付款、家居等进行。如果客户的大部分交易都呈现在特定类别中,则咱们能够更好地预计他 / 她的偏好。

这是咱们采取的办法

让咱们理解一下咱们是如何解决这个问题陈说的,以及咱们为找出解决方案而采取的关键步骤。

确定主题的数量

咱们从所有事务开始解决,并将它们的形容音讯映射到每个客户。首先,咱们有一项重要的工作,即确定簇(或)类别(或)主题的数量。为了达到这个指标,咱们应用主题模型。

主题模型是一种对文档进行无监督分类的办法,它能够在咱们不确定要查找的内容时找到天然的项目组。它次要应用潜在 Dirichlet 调配(LDA)来拟合主题模型。

它将每个文档 (即事务) 视为主题的混合,而每个主题则是单词的混合。

举个例子: 估算这个词可能会呈现在电影和政治中。这种 LDA 的根本假如是,样本中的每一个察看后果都来自一个任意未知的散布,能够用生成统计模型来解释。

让咱们来看看这个办法来解决咱们的问题。

在事务形容中,存在生成统计模型,生成交易形容中来自未知散布 (即未知组或主题) 的所有单词。咱们试图建设一个统计模型,以便它预测一个词属于某个特定主题的概率。

主题连贯性

通过手动查看各个主题的关键词来确定主题的总数。

然而这导致每个人的观点不统一,咱们须要一个办法来评估正确的主题数量。咱们应用主题连贯性的度量来确定正确的主题数量。

主题连贯性利用于主题的前 N 个单词。它被定义为主题词的成对词类似度得分的平均值 / 中位数。一个好的模型将产生连贯的主题,即主题连贯性得分高的主题。

好的主题是能够用一个简短的标签来形容的主题;因而,这就是主题一致性度量所捕捉的内容。

聚类

接着咱们能够确定主题 / 簇的总数(在咱们的例子中是 7 个主题)。咱们应该开始将每个事务形容音讯调配到主题中。在为主题调配文档时,单靠主题模型可能无奈产生精确的后果。

在这里,咱们应用主题模型的输入以及其余一些个性,应用 K -Means 集群对事务形容音讯进行聚类。在这里,咱们将集中精力为 K -Means 聚类构建一个特色集。

特色
  • 基本特征

    • 字数计数,数字计数,特殊符号计数
    • 最长数字序列长度,数字字符比率
    • 均匀、最大字长等。
    • 交易的周、日和月,是否存在日期,是否为周末交易,等等。
    • 当月最初 5 天或前 5 天执行的交易
    • 公共假日和节日交易等。
  • 查找特色,行业顶级品牌和罕用名词用作查找名称。统计交易形容中与特定行业相干的字数。

    • 食物:蔬菜、多米诺、生鲜中转等。
    • 静止我的项目:棒球、阿迪达斯、足球、足球鞋等。
    • 衰弱:药房、医院、健身房等。
    • 账单和 EMI:政策、势力、申明、时间表、提款、电话等。
    • 娱乐:Netflix、Prime shows、Spotify、Soundcloud、酒吧
    • 电子商务:亚马逊、沃尔玛、易趣、Ticketmaster 等。
  • 其余:优步、空客、包装商等。
  • 主题模型特色

    • 对应用 TF-IDF 度量生成的 unigram 和 bigram 的 DTM 矩阵进行主题模型。对于交易形容的 unigram 和 bigram DTM 矩阵,咱们为每个主题失去 2 组 7 种不同的概率

最初的想法

每个事务形容都有大概 30 个特色,咱们执行 K -Means 聚类将每个事务形容调配给 7 个集群中的一个。

结果表明,凑近簇核心的观测值大多标注了正确的主题。很少有远离簇核心的观测被赋予谬误的主题标签。

在手工查看的 350 个事务形容中,大概 240 个(准确率约 69%)事务形容被正确地标记为适当的主题。

当初咱们至多对外部客户的偏好和趣味有了一个根本的预计。咱们能够发送定制的报价和选项,以放弃他们的参加和改善业务。

尽管应用主题模型的办法绝对新鲜,但应用交易对客户进行分类的办法次要是由信用卡发卡机构应用的。

例如,美国运通始终在应用这种办法为客户创立趣味图。这种趣味图不仅将交易分为食物、游览等次要群体,而且还创立了泰国美食爱好者、野生动物爱好者等宏观细分市场,所有这些都仅仅来自于丰盛的交易数据!

原文链接:https://www.analyticsvidhya.c…

欢送关注磐创 AI 博客站:
http://panchuang.net/

sklearn 机器学习中文官网文档:
http://sklearn123.com/

欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/

正文完
 0