关于大数据:大数据项目之dmp用户画像

7次阅读

共计 4516 个字符,预计需要花费 12 分钟才能阅读完成。

大数据我的项目之 dmp 用户画像

一、互联网广告精准投放介绍
(1)dsp 的展现原理:

① 用户浏览媒体网站,媒体网站通过增加的 SSP 代码向 AdExchange 发动广告申请。
② AdExchange 将这次申请的要害信息(如域名 URL、IP、Cookie 等)同时发送给多家 DSP,咱们把这个申请称为 Bid Request。
③ DSP 收到申请后通过 Cookie、IP、URL 等信息决策是否参加竞价,DSP 能够通过 Cookie 来查问此用户在本人零碎中的历史行为来推算人口属性和兴趣爱好,如果 DSP 没有这个能力,则能够通过第三方 DMP 的帮助来判断用户特色,以便更正当地出价,如若出价,则向 AdExchange 返回价格、要展现的广告、跳转链接等信息,咱们把这次信息返回称为 Bid Response。
④ AdExchange 选出出价最高的 DSP,告诉这个 DSP 博得了竞价,并通知它此次展现的费用(因为在 RTB 中是采纳二阶定价,即第二高出价,所以 DSP 并不知道理论的费用,须要 AdExchang 再告诉一次),于此同时,AdExchange 返回给媒体要展现广告的 html 内容。
⑤ 广告的动态资源(图片、Flash 等文件)个别是存储在 DSP 的服务器,所以在加载广告代码的时候须要去 DSP 申请动态资源
⑥ DSP 返回动态资源,实现广告的渲染和展现。

(2)相干名词解释:
  DSP:DSP 是一个零碎,也是一种在线广告平台。它服务于广告主,帮忙广告主在互联网或者挪动互联网上进行广告投放,DSP 能够使广告主更简略便捷地遵循对立的竞价和反馈形式,对位于多家广告交易平台的在线广告, 以正当的价格实时购买高质量的广告库存。
  Ad Exchange:Ad Exchange 即互联网广告交易平台,它分割着 DSP(买方平台)和 SSP(卖方平台),通过接入 SSP 会集大量媒体流量,从而收集解决属于广告指标客户的数据,Ad Exchange 是实现精准营销的交易场合。
  SSP:SSP(Suply Side Platform),供应方平台,即媒体方平台,也就是消费者看到广告的媒介。
  DMP:数据管理平台可能帮忙所有波及广告库存购买和发售的各方治理其数据、更不便地应用第三方数据、加强他们对所有这些数据的了解、传回数据或将定制数据传入某一平台,以进行更好地定位。

(3)DMP 具体介绍:
 1)用户数据分类:

   - 第一方数据:需求方即广告主自有用户数据,包含网站 /APP 监测数据、CRM(Custom Relation Management)数据、电商交易数据等。
   - 第二方数据:需求方服务提供者在广告投放过程中积攒的业务数据,如 DSP 平台业务中积攒的受众浏览广告、点击广告等相干数据。
   - 第三方数据:非间接合作方领有的数据,如运营商数据等

 2)数据分析能力:

  其中用户画像是根底,即通过对用户信息的标签化,完满的形象出一个用户的信息全貌,并为进一步精准、疾速地剖析用户行为习惯、生产习惯等重要信息提供足够的数据根底。顾名思义,用户画像的焦点工作就是为用户打标签,而一个标签通常是认为规定的高度提炼的特色标识,例如年龄、性别、地区、用户偏好等,最初将用户的所有标签综合来看,就能够勾画出该用户的平面画像了。

 3)DMP 的作用:

  - 能疾速查问、反馈和疾速出现后果
  - 能帮忙客户更快进入到市场周期中
  - 能促成企业用户和合作伙伴之间的单干
  - 能深刻的预测剖析并作出反应
  - 能带来各方面的竞争劣势
  - 能升高信息获取及人力老本

二、我的项目需要
(1) 实现的需要:
  – 模仿从文件中读取数据,应用 spark 将数据荡涤之后分装到 dataframe,并且压缩之后,输入成 parquet 模式的文件。
  – 读取 parquet 文件,应用 sparksql 将其依据需要进行 etl,并且输入到 MySQL 中(报表)
  – 读取 parquet 文件,通过 userid,依据每一个用户,打相应的标签,最终放入 hbase

(2)原始文件的字段介绍:
序号 属性名称 形容
1 Sessionid:String 会话标识
2 Advertisers:Int 广告主 id
3 Adorderid:Int 广告 id
4 Adcreativeid:Int 广告创意 id(>=200000:dsp)
5 Adplatformproviderid:Int 广告平台商 id(>=100000:rtb)
6 Sdkversion:String Sdk 版本
7 Adplatformkey:String 平台商 key
8 Putinmodeltype:Int 依据广告主的投放模式,1:显示量投放,2:点击量投放
9 Requesmode:Int 数据申请形式(1:申请,2:展现,3:点击)
10 Adprice:Double 广告价格
11 Adpprice:Double 平台商价格
12 Requestdate:String 申请工夫格局为:yyyy-m-dd hh:mm:ss
13 Ip:String 设施用户的实在 ip 地址
14 Appid:String 利用 IP
15 Appname:String 利用名称
16 Uuid:String 设施惟一标识
17 Device:String 设施型号,如:htc,iphone
18 Client:Int 设施类型(如:1:Android,2:IOS,3:wp)
19 Osversion:String 设施操作系统版本
20 Density:String 设施屏幕密度
21 Pw:Int 设施屏幕宽度
22 Ph:Int 设施屏幕高度
23 Long:string 设施所在经度
24 Lat:String 设施所在维度
25 Provincename:String 设施所在省份名称
26 Cityname:String 设施所在城市名称
27 Ispid:Int 运营商 id
28 Ispname:String 运营商名称
29 Networkmannerid:Int 联网形式 id
30 Networkmannername:String 联网形式名称
31 Iseffective:Int 无效标识(无效指能够失常计费的)(0:有效,1:无效)
32 Isbilling:Int 是否免费(0:未免费,1:免费)
33 Adspacestype:Int 广告位类型(1:banner2:插屏 3:全屏)
34 Adspacetypename:String 广告位类型名称(banner 横幅,插屏,全屏)
35 Devicetype:Int 设施类型(1:手机:2:平板)
36 Processnode:Int 流程节点(1:申请量 ktp2: 无效申请 3:广告申请)
37 Apptype:Int 利用类型 id
38 District:String 设施所在县的名称
39 Paymode:Int 针对平台商的领取模式 1:展现量投放(CPM)2:点击(cpc)
40 Isbid:Int 是否 rtp(1 参加竞价 0 不参加竞价)
41 Bidprice:Double Rtp 竞价价格
42 Winprice:Double Rtp 竞价胜利价格
43 Iswin:Int 是否竞价胜利
44 Cur:String Values:umd|rmb 等
45 Rate:Double 汇率
46 Cnywinprice:Double Rtp 竞价胜利转换成人民币的价格
47 Imei:String Imei
48 Imac:string Mac
49 Idfa:String Idfa
50 Openudid:String Openudid
51 Androidid:String Androidid
52 Rtbprovice:String Rtb 省
53 Rtbcity:String Rtb 市
54 Rtbdistrict:String Rtb 区
55 Rtbstreet:String Rtb 街道
56 Storeurl:String App 的市场下载地址
57 Realip:String 实在 ip
58 Isqualityapp:Int 优选标识
59 Bidfloor:Double 高价
60 Aw:Int 广告位的宽
61 Ah:Int 广告位的高
62 Imeimd5:String Imei_md5
63 Macmd5:String Mac_md5
64 Idfamd5:String Idfa_md5
65 Openudidmd5:String Openudid_md5
66 Androididmd5:String Androidid_md5
67 Imeisha1:String Imei_sha1
68 Macsha1:String Mac_sha1
69 Idfasha1:String Idfa_sha1
70 Openudidsha1:String Openudid_sha1
71 Androididsha1:String Androidid_sha1
72 Uuidunknow:String Uuid_unknow tanx 密文
73 Decuuidunknow:String 解密的 tanx 明文
74 Userid:String 平台用户 id
75 Reqdate:String 日期
76 Reqhour:String 小时
77 Iptype:Int 示意 ip 类型
78 Initbidprice:Double 初始出价
79 Adpayment:Double 转换后的广告生产
80 Agentrate:Double 代理商利润率
81 Lomarkrate:Double 代理利润率
82 Adxrate:Double 媒介利润率
83 Title:String 题目
84 Keywords:String 关键字
85 Tagid:String 广告位标识(当视频流量时值为视频得 ID 号)
86 Callbackdate:String 回调工夫,格局为 YYYY/mm/dd hh:mm:ss
87 Channeid:String 频道 ID
88 Megratype:Int 媒体类型 1:长尾媒体 2:视频媒体 3:独立媒体,默认:1

(3)报表:
地区散布:

终端设备:

操作系统

媒体剖析:

渠道报表:

(4)用户画像:
标签一:广告位类型(标签格局:LC03->1 或者 LC16->1)xx 为数字,小于 10 补 0
标签二:APP 名称(标签格局:APPxxxx->1)xxxx 为 APP 的名称,应用缓存文件 appname_dict 进行名称转换
标签三:渠道(标签格局:CNxxxx->1)xxxx 为渠道 ID
标签四:设施:操作系统 | 联网形式 | 运营商
设施操作系统
1 Android D0001001
2 IOS D0001002
3 Winphone D0001003
4 其余 D0001004
设施联网形式
WIFI D0002001
4G D0002002
3G D0002003
2G D0002004
设施运营商计划
挪动 D0003001
联通 D0003002
电信 D0003003
OPERATOROTHER D0003004

标签五:关键词(标签格局:Kxxx->1)xxx 为关键字。关键词个数不能少于 3 个字符,且不能超过 8 个字符;关键字中如蕴含”|”, 则宰割成数组,转化成多个关键字标签
标签六:地区标签(省标签格局:ZPxxx->1,地市标签格局:ZCxxx->1)xxx 为省或市名称
标签七:6)上下文标签:将数据打上上述 6 类标签,并依据【用户 ID】进行以后文件的合并,数据保留格局为:userid K×××志:3 D00030002:1……..

正文完
 0