关于数据:虎扑论坛数据分析

原文链接:http://tecdat.cn/?p=2018 论坛为用户提供了雷同的业余爱好,互动和交换的广大平台,以及由此产生的宏大数据和简单的用户交互场景也蕴含有价值的信息,本文对于虎扑论坛的帖子,个人信息剖析,探讨虎扑论坛的用户是什么是什么特点? ▼ tecdat钻研人员剖析了2018年1月Tiger Walk论坛每个局部的所有帖子,应用数据摸索用户行为并概述用户偏好。 以下是虎扑的官网介绍摘录:虎扑是一个业余的年老女子网站,涵盖了原有的新闻专栏视频报道,包含篮球,足球,F1,NFL等大型生存/视频/游戏/ car / digital在线交换社区,议论体育谈话对虎扑的趣味。 数据显示 数据源: 2018年1月虎屁论坛步行街所有分段的所有帖子,删除低度关注的帖子,总数为3.3W +; 以上3.3W +帖子在骨干局部回复用户的个人信息,用户总重量为2.3W +。 社交和交易属性是流动的要害 在虎扑社区由10个分论坛,380个分论坛组成,发帖量达到70W +,哪个最沉闷呢? 通过比拟每个局部的帖子数量,您能够看到在大型子论坛中,[设施论坛]的帖子数量最多,其次是Pedestrian Street和[NBA]; 在380个大节中,[Main Street Pedestrian]和[IT Digital]最受欢迎,其次是[Cheyou exchange]和[burst]; 其中,[行人]岗位占近7成,远高于其余。 能够看出,交易属性和社交属性是维持社区激情和用户流动的要害。 除了体育,约会八卦也是最受关注的话题 除了交易局部,[Pedestrian]和[NBA]是虎扑最沉闷的局部,[NBA论坛]主题个别围绕较量开始,而[行人]社会属性绝对较强,通过[Pedestrian]剖析,看看老虎扑动的其余成员在体育赛事中关注的是什么。 通过文字云剖析所有步行街的帖子内容,删除下面提到的高频词50,能够失去以下词云图。从单词云图中能够看出,步行街区的探讨内容常常被提及情感关键词,如“女朋友”,“敌人”和“喜爱”,能够推断成员Tiger Puff社区次要是年轻人; 富裕,体育,篮球也常常被提及关键词,可见胡鹏体育运动成员更强; 同时,咱们还能够看到词云还包含李小璐,特步等关键词,咱们能够看到热门八卦而且晓得热门话题的话题也十分关注; 此外,“大学”,“室友”,“毕业”等也常常被提及,表明虎扑社区沉闷在一群大学生中。 综上所述,咱们能够初步猜想,虎扑成员以青年女子和大学生为主,他们喜爱篮球等体育,交友是他们最关怀的话题,他们也喜爱探讨一些八卦热点和理解微博等热门话题。 用户剖析 用户性别 除了不愿走漏性别用户外,步行街的残余沉闷用户中,女性仅占4.5%,这与虎扑社区的物理属性基本相同。 用户的地位 从上面的地理分布能够看出,步行街的沉闷用户次要散布在经济发达的省市,如广东,江苏,北京,浙江和上海,上述五个地区占50%以上。总; 用户日勾留工夫 通过计算用户注册天数和在线持续时间,能够发现尽管45.5%的用户每天应用不到半小时,但超过30%的用户破费超过一小时超过一小时,表明由洗发水社区提供的内容更具吸引力。 总结一下 总的来说,虎扑成员以青年女子和大学生为主,他们喜爱篮球等静止,关注NBA,英超等联赛; 然而行人社区,他们的话题不仅限于体育,八卦,情感征询,他们关注的内容也是如此; 而且他们在虎扑中停留的工夫更长,虎扑的内容能够很好地把握以后的用户群体。

July 19, 2020 · 1 min · jiezi

python-dict形式的全国省市对照表

自己整顿一份省市的对应关系表。是python的dict模式的,大家在爬局部数据源的时候可能会用到。其中局部可能有误,比方海南省的局部城市、河北省的局部直辖地级市,大家依照须要简略批改即可。city_list = { "北京": ["北京"], "天津": ["天津"], "山西": ["太原", "阳泉", "晋城", "长治", "临汾", "运城", "忻州", "吕梁", "晋中", "大同", "朔州"], "河北": ["沧州", "石家庄", "唐山", "保定", "廊坊", "衡水", "邯郸", "邢台", "张家口", "辛集", "秦皇岛", "定州", "承德", "涿州"], "山东": ["济南", "淄博", "聊城", "德州", "滨州", "济宁", "菏泽", "枣庄", "烟台", "威海", "泰安", "青岛", "临沂", "莱芜", "东营", "潍坊", "日照"], "河南": ["郑州", "新乡", "鹤壁", "安阳", "焦作", "濮阳", "开封", "驻马店", "商丘", "三门峡", "南阳", "洛阳", "周口", "许昌", "信阳", "漯河", "平顶山", "济源"], "广东": ["珠海", "中山", "肇庆", "深圳", "清远", "揭阳", "江门", "惠州", "河源", "广州", "佛山", "东莞", "潮州", "汕尾", "梅州", "阳江", "云浮", "韶关", "湛江", "汕头", "茂名"], "浙江": ["舟山", "温州", "台州", "绍兴", "衢州", "宁波", "丽水", "金华", "嘉兴", "湖州", "杭州"], "宁夏": ["中卫", "银川", "吴忠", "石嘴山", "固原"], "江苏": ["镇江", "扬州", "盐城", "徐州", "宿迁", "无锡", "苏州", "南通", "南京", "连云港", "淮安", "常州", "泰州"], "湖南": ["长沙", "邵阳", "怀化", "株洲", "张家界", "永州", "益阳", "湘西", "娄底", "衡阳", "郴州", "岳阳", "常德", "湘潭"], "吉林": ["长春", "长春", "通化", "松原", "四平", "辽源", "吉林", "延边", "白山", "白城"], "福建": ["漳州", "厦门", "福州", "三明", "莆田", "宁德", "南平", "龙岩", "泉州"], "甘肃": ["张掖", "陇南", "兰州", "嘉峪关", "白银", "武威", "天水", "庆阳", "平凉", "临夏", "酒泉", "金昌", "甘南", "定西"], "陕西": ["榆林", "西安", "延安", "咸阳", "渭南", "铜川", "商洛", "汉中", "宝鸡", "健康"], "辽宁": ["营口", "铁岭", "沈阳", "盘锦", "辽阳", "锦州", "葫芦岛", "阜新", "抚顺", "丹东", "大连", "向阳", "本溪", "鞍山"], "江西": ["鹰潭", "宜春", "上饶", "萍乡", "南昌", "景德镇", "吉安", "抚州", "新余", "九江", "赣州"], "黑龙江": ["伊春", "七台河", "牡丹江", "鸡西", "黑河", "鹤岗", "哈尔滨", "大兴安岭", "绥化", "双鸭山", "齐齐哈尔", "佳木斯", "大庆"], "安徽": ["宣城", "铜陵", "六安", "黄山", "淮南", "合肥", "阜阳", "亳州", "安庆", "池州", "宿州", "芜湖", "马鞍山", "淮北", "滁州", "蚌埠"], "湖北": ["孝感", "武汉", "十堰", "荆门", "黄冈", "襄阳", "咸宁", "随州", "黄石", "恩施", "鄂州", "荆州", "宜昌", "潜江", "天门", "神农架", "仙桃"], "青海": ["西宁", "海西", "海东", "玉树", "黄南", "海南", "海北", "果洛"], "新疆": ["乌鲁木齐", "克州", "阿勒泰", "五家渠", "石河子", "伊犁", "吐鲁番", "塔城", "克拉玛依", "喀什", "和田", "哈密", "昌吉", "博尔塔拉", "阿克苏", "巴音郭楞", "阿拉尔", "图木舒克", "铁门关"], "贵州": ["铜仁", "黔东南", "贵阳", "安顺", "遵义", "黔西南", "黔南", "六盘水", "毕节"], "四川": ["遂宁", "攀枝花", "眉山", "凉山", "成都", "巴中", "广安", "自贡", "甘孜", "资阳", "宜宾", "雅安", "内江", "南充", "绵阳", "泸州", "凉山", "乐山", "广元", "甘孜", "德阳", "达州", "阿坝"], "上海": ["上海"], "广西": ["南宁", "贵港", "玉林", "梧州", "钦州", "柳州", "来宾", "贺州", "河池", "桂林", "防城港", "崇左", "北海", "百色"], "西藏": ["拉萨", "山南", "日喀则", "那曲", "林芝", "昌都", "阿里"], "云南": ["昆明", "红河", "大理", "玉溪", "昭通", "西双版纳", "文山", "曲靖", "普洱", "怒江", "临沧", "丽江", "红河", "迪庆", "德宏", "大理", "楚雄", "保山"], "内蒙古": ["呼和浩特", "乌兰察布", "兴安", "赤峰", "呼伦贝尔", "锡林郭勒", "乌海", "通辽", "巴彦淖尔", "阿拉善", "鄂尔多斯", "包头"], "海南": ["海口", "三沙", "三亚", "临高", "五指山", "陵水", "文昌", "万宁", "白沙", "乐东", "澄迈", "屯昌", "定安", "西方", "保亭", "琼中", "琼海", "儋州", "昌江"], "重庆": ["重庆"]}

July 10, 2020 · 2 min · jiezi

API进阶之路6一个技术盲点差点让整个项目翻车

上次教了实习生一个方案之后,这小子跟运营妹子的关系是越走越近,时不时地撒把狗粮,在我司真正实现了研发运营一家亲~(上回你没看?戳上文剧情回顾:万万没想到,一个技术方案帮实习生追到了运营妹子) 这回想跟大家聊的,是最近一个可以说有些惊心动魄的项目。自从我开始在华为云网站自学API的技术解决方案之后,我就变成了公司的云服务器技术专家,老板或运维部门想要查询个数据什么的都来找我。 近期有一个运营项目的系统正在开发中,运营方规划了一个数据BI模板,列出了需要监测和分析的数据维度,老板干脆让我每周出一份数据报表来支持各方的数据获取和数据分析。 让研发出数据报表?这不是逼着李逵绣花么?但是,我能轻易拒绝吗?前几回高光时刻带来的成就感和光环还没褪去呢,不能怂!于是我提了一个方案:可以把云服务器的监控仪表内嵌到我们自己的系统里,这样大家可以随时查询,也方便。 老板听了这个方案表示很开心,并同意加入到项目排期中,数据查询功能与系统同期上线,以便及时跟踪运营结果。在老板的笑容里,我看到季度奖金在向我招手。 说干就干,执行力咱还是有的。用1天的时间就把程序写完了,在测试的时候发现了一个问题,数据过不来!因为通过内嵌系统登陆云服务器需要经过各种认证,步骤多不说,如果要想实现人人可查询还存在泄密的危险。 这可怎么办,系统上线的日期临近,不能因为我这部分影响到项目进展啊!当初拍着胸脯提(chui)的方(niu)案(13),难道就要失败了? 不行,再查查!我专门联系了华为云的技术专家,得知可以通过IAM自定义代理免密登录到云服务Console页面,省去认证环节,直接登陆云服务器进行数据查询和获取。 那怎么做免密登录呢?他给了我一份文档,内容是这样的: 一、前提条件步骤 1:创建账号I**mainA下的IAM用户userB,并授予Security Administrator和Agent Operator权限(全局服务-全局项目)。 将userB的用户名和密码配置到企业系统的配置文件中,密码建议加密存储,以便获取认证token并进一步调用IAM其他Open API。 备注:有关创建IAM用户和授权相关操作请参见:创建IAM用户(https://support.huaweicloud.com/usermanual-iam/zh-cn_topic_0046611303.html) 和 创建用户组并授权 (https://support.huaweicloud.com/usermanual-iam/zh-cn_topic_0046611269.html) 步骤2:创建联邦代理所需委托IAMAgency。 委托类型选择“普通账号”,委托的账号填写“DomainA”。 备注:有关创建委托相关操作请参见:创建委托(委托方操作)(https://support.huaweicloud.com/usermanual-iam/zh-cn_topic_0046613147.html) 二、华为云联邦代理登录步骤1:调用IAM API获取STS token 1)使用IAM全局域名(iam.myhuaweicloud.com)调用IAM服务的API(POST /v3.0/OS-CREDENTIAL/securitytokens)获取STS token。 填写"session_user"参数,发起一个POST请求。 POST https://iam.myhuaweicloud.com/v3.0/OS-CREDENTIAL/securitytokens 请求示例 { "auth": { "identity": { "assume_role": { "agency_name": "IAMAgency", "domain_name": "I**mainA", "duration-seconds": 3600, "session_user": { "name": "SessionUserName" } }, "methods": [ "assume_role" ] } }} 2)获取并记录请求响应体中的STS token信息:credential.access , credential.secret, credential.securitytoken 响应示例 <br style=""> { "credential": { "access": "E6DX0TF2ZREQ4ZAVM5CS", "expires_at": "2020-01-08T02:56:19.587000Z", "secret": "w9ePum0qdfac39ErLD0UdjofYkqort6Iw2bmR6Si", "securitytoken": "gQpjbi1ub3J0aC0..." }} 步骤2:调用IAM API获取logintoken ...

July 6, 2020 · 1 min · jiezi