从招聘网站上来看,数据挖掘工程师广泛薪资都一万薪资以上,除了集体主观因素以外,专业技能要求把握 py 语言和纯熟使用各种罕用算法以及相熟罕用机器学习模型和算法框架这些惯例要求。当初的企业对于数据挖掘工程师又多了数据分析、用户画像、机器学习的要求,我就从数据挖掘技术角度讲讲对用户画像的一些集体了解。
首先,在讲用户画像之前,咱们须要理解什么是用户画像以及咱们为什么要去做用户画像
1、从数据挖掘技术来讲什么是用户画像
用户画像简略地说是刻画用户的一组标签的汇合,包含用户的根本属性标签,例如年龄、性别、职业、支出等;趣味偏好标签,例如喜爱游戏,美食、社交等,用户已装置的 APP 列表,例如微信、微博、知乎、今日头条等。以及地理位置标签,例如用户的常住地、GPS 定位地址等。这些标签汇合能够形象出用户的大抵轮廓,对于咱们后续的精准营销和用户剖析,是十分有帮忙的。
2、从数据挖掘技术来讲用户画像的作用是什么
用户画像能够用于广告精准投放、个性化举荐、用户剖析以及智能搜寻等方面,晋升用户体验与 ROI。简略地说,用户画像让咱们把握用户的根本特点,并能依据用户画像特点进行有针对性的营销举荐。
3、如何通过数据挖掘的办法做出比拟精确的用户画像
既然用户画像是一组标签的汇合,那么数据挖掘的重点就是要提取无效标签用于精确描述用户,能够开掘的具体标签维度大抵能够分为用户的根本属性标签、用户趣味标签、地理位置标签等几个方面。
用户的根本属性标签一般来说是绝对固定的,一段时间内是放弃不变的,例如性别、年龄、职业等;
用户的趣味标签个别是依据用户的行为来提取,例如用户常常点击某种视频或者某款产品,咱们能够对用户打上对应的趣味标签,但趣味标签个别是有时效性的,用户的行为工夫距离越长,趣味标签的有效性越低,所以通常咱们对趣味标签会加上行为权重和衰减因子等加以控制。
地理位置标签次要是通过用户上网申请 ip、上网工夫以及应用时长等对用户所处物理地址进行判断,例如是用户家的地址,公司地址,还是其余地址等。每种标签都能够应用不同的办法进行开掘和解决。
从目前应用数据挖掘失去标签的办法来说通常包含对数据进行统计分析,例如对各项标签进行组合或者从新计算。利用自然语言解决 (NLP)技术对标签进行加工和解决,例如应用 TF-IDF、TextRank 等技术进行词频统计,进而加工失去可用标签。还能够应用机器学习的办法对标签进行预测,罕用的模型算法包含 LR、SVM、GBDT、XGBoost 等。具体就是通过已有的局部实在标签,例如性别,对缺失标签的样本进行模型训练和预测,失去预测标签后再进行标签验证。当然也能够应用无监督学习的办法对标签进行预测,具体做法就不再开展。
从目标来说用户画像是为了依据客户的个性化特点、异质化需要来将客户分类,以提供针对性的产品和服务,目前已大量利用于电子商务,电信行业,广告等行业。
用户行为数据在不同行业有着不同的表现形式。例如在电子商务畛域,用户行为数据次要为用户浏览、购买行为,能够以“项集 - 频次”的矩阵进行简略的示意和存储;也能够加上工夫戳信息,生成与工夫相干的事务序列。
在金融畛域,工夫戳信息对于用户行为的了解和解释尤为重要。同一时间戳代表了多维度潜在市场环境信息,这是驱动用户行为的一个重要因素。例如,仅记录某些用户购买了某股票,和具体记录某工夫戳某些用户购买了某股票,后者数据更具备剖析价值。因而,金融行业的客户行为数据,经常以工夫序列的形式示意。其中,银行业常见的客户行为数据包含客户生产记录,理财记录,工资收入记录,资金进出流水记录,贷款信息等;证券行业常见的客户行为数据包含客户成交数据、报单撤单数据、持仓数据等等。
数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个领域的实践和技术交融在一起。数据挖掘的次要办法概括为:预测模型办法、数据宰割办法、关联分析法和偏离分析法。解决理论问题时,将已知的数据库蕴含的简单信息转换成数学的语言,建设数学模型,使用相应的解决办法后果会更加无效。
而对于用户画像的数据挖掘次要是用到关联分析法。
关联分析法是寻找数据间的关联,但从大数据集中寻找关联可能会导致效率升高,找到的关联也可能毫无意义。在用户画像的数据挖掘中,找到关联的标签,对标签的统计。在钻研过程中存在“反对度”和“置信度”,“反对度”能够有根据地将那些毫无意义的数据删除,而“置信度”能够掂量设置规定的可能性。对于用户画像的数据挖掘,“反对度”能够把一些不相干的数据剔除,关联分析法的次要算法有 Apriori 算法、DHP 算法和 DIC 算法等。
Chen 等在现有的分析方法根底上,积攒了海量的数据,利用数据挖掘技术,提出了一种新的算法,即通过关联分析法建设相干模式开掘办法,借助多种新型优化技术,能够无效且高效地缩小搜寻空间。此外,将该算法利用于事实世界的数据集中,展现了相干模式开掘的实用性。
除了明确数据挖掘的底层逻辑,数据挖掘工程师还须要熟练掌握数据挖掘工具,就拿 Smartbi 数据挖掘工具来讲一下:
Smartbi 数据挖掘工具性能非常弱小,有数据源、指标源、已训练模型、数据预处理、特色工程、统计分析、评分卡剖析、文本剖析、机器学习、脚本模块、自定义模块以及服务性能。
熟练掌握 Smartbi 数据挖掘工具,对于进步数据挖掘效率有很大的晋升,很多数据能够间接通过工具就能失去后果。
总结:
在大数据时代下,当使用传统的数学方法遇到困难时,熟练地利用数据挖掘技术显得分外重要。在解决理论问题时,难免会波及隐衷的数据,比方在对用户画像进行数据挖掘时,对于一些不想为人所知的信息如何防止,在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏解决,将成为人们钻研数据挖掘的另一个重要方面。