关于数据挖掘:如何在生存分析与Cox回归中计算IDINRI指标附代码数据

原文链接:http://tecdat.cn/?p=6095最近咱们被客户要求撰写对于Cox回归的钻研报告,包含一些图形和统计输入。 本文演示了如何在生存剖析与Cox回归中计算IDI,NRI指标 读取样本数据 D=D[!is.na(apply(D,1,mean)),] ; dim(D)## [1] 416   7查问局部数据(后果和预测因子)head(D)##   time status      age albumin edema protime bili## 1  400      1 58.76523    2.60   1.0    12.2 14.5## 2 4500      0 56.44627    4.14   0.0    10.6  1.1## 3 1012      1 70.07255    3.48   0.5    12.0  1.4## 4 1925      1 54.74059    2.54   0.5    10.3  1.8## 5 1504      0 38.10541    3.53   0.0    10.9  3.4## 6 2503      1 66.25873    3.98   0.0    11.0  0.8模型0和模型1的后果数据和预测变量集outcome=D[,c(1,2)]covs1<-as.matrix(D[,c(-1,-2)])covs0<-as.matrix(D[,c(-1,-2, -7)])head(outcome)##   time status## 1  400      1## 2 4500      0## 3 1012      1## 4 1925      1## 5 1504      0## 6 2503      1``````head(covs0)##        age albumin edema protime## 1 58.76523    2.60   1.0    12.2## 2 56.44627    4.14   0.0    10.6## 3 70.07255    3.48   0.5    12.0## 4 54.74059    2.54   0.5    10.3## 5 38.10541    3.53   0.0    10.9## 6 66.25873    3.98   0.0    11.0``````head(covs1)##        age albumin edema protime bili## 1 58.76523    2.60   1.0    12.2 14.5## 2 56.44627    4.14   0.0    10.6  1.1## 3 70.07255    3.48   0.5    12.0  1.4## 4 54.74059    2.54   0.5    10.3  1.8## 5 38.10541    3.53   0.0    10.9  3.4## 6 66.25873    3.98   0.0    11.0  0.8点击题目查阅往期内容 R语言生存剖析数据分析可视化案例 左右滑动查看更多 01 02 03 04 推理  <span style="color:#333333"><span style="color:#333333"><code><span style="color:#000000">t0</span><span style="color:#687687">=</span><span style="color:#009999">365</span><span style="color:#687687">*</span><span style="color:#009999">5</span><span style="color:#000000">x</span><span style="color:#687687"><-</span><span style="color:#000000">IDI </span><span style="color:#687687">(</span><span style="color:#000000">outcome</span>, <span style="color:#000000">covs0</span>, <span style="color:#000000">covs1</span>, <span style="color:#000000">t0</span>, <span style="color:#000000">npert</span><span style="color:#687687">=</span><span style="color:#009999">200</span><span style="color:#687687">)</span> ;</code></span></span>输入 ##     Est. Lower Upper p-value## M1 0.090 0.052 0.119       0## M2 0.457 0.340 0.566       0## M3 0.041 0.025 0.062       0M1示意IDI M2示意NRI M3示意中位数差别 图形演示 本文摘选 《 R语言如何在生存剖析与Cox回归中计算IDI,NRI指标 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 R语言中的生存剖析Survival analysis早期肺癌患者4例 R语言应用限度均匀生存工夫RMST比拟两条生存曲线剖析肝硬化患者 R语言生存剖析: 时变竞争危险模型剖析淋巴瘤患者 R语言生存剖析可视化剖析 R语言中生存分析模型的工夫依赖性ROC曲线可视化 R语言生存剖析数据分析可视化案例 R语言ggsurvplot绘制生存曲线报错 : object of type ‘symbol‘ is not subsettab R语言如何在生存剖析与Cox回归中计算IDI,NRI指标 R语言绘制生存曲线预计|生存剖析|如何R作生存曲线图 R语言解释生存剖析中危险率和危险率的变动 R语言中的生存剖析Survival analysis早期肺癌患者4例

April 4, 2023 · 1 min · jiezi

关于数据挖掘:专题品牌力增长度量白皮书报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32052原文出处:拓端数据公众号中国经济已步入新期间,倒退重心已由高速度转向高品质。随着新老品牌的竞争日趋激烈,品牌竞争日趋激烈,越来越多的企业意识到,品牌力量是其生存倒退的基石。 在品牌数字化转型与线上转移的过程中,品牌已由一种无形资产转化为一种可积淀的数字资产。在新的市场环境下,在媒介连接不断扩充、内容一直碎片化的背景下,咱们须要构建一套合乎当下倒退须要的品牌权势度量模式,对全球化积淀的品牌权势进行无效的布局与治理。 那些在市场稳定中投资于品牌价值的公司,将会有较强的恢复力,而这些公司则须要更多的勇气与智慧来进行改革。 本专题内的参考报告(PDF)目录亿欧智库:2022中国新生产倒退洞察暨品牌力榜单 报告2023-01-30红餐:2022中国餐饮品牌力白皮书 报告2023-01-01巨量&凯度:品牌力增长度量白皮书 报告2022-08-26亿欧智库:2021新生产品牌力报告 报告2022-01-04亿欧智库:2021中国新生产倒退洞察暨品牌力榜单-压1_2021-12... 报告2021-12-31红餐:2021中国餐饮品牌力白皮书 报告2021-12-27天猫&罗兰贝格:超级品牌力白皮书—数字时代的品牌人群心智重塑 报告2021-09-07CAMC:2018-中国汽车行业品牌力白皮书 报告2018-06-16GfK:研发驱动中国生产电子品牌 减速实现国际化与高端化 报告2023-04-02巨量算数:2023新锐品牌倒退报告 报告2023-03-31见实&233品牌私域:零售业三大私域经营模式 报告2023-03-30易观剖析:2023年中国品牌全域智能营销白皮书-以智解围,重塑全域增长 报告2023-03-28IBM:超过想象力-零售商和品牌在企业元宇宙中驱动价值的五种形式 报告2023-03-26SHOPLINE:海内众筹如何助力中国制作降级为中国品牌-众筹模式解读... 报告2023-03-26Morketing研究院:新生产新品牌2022 报告2023-03-23蝉妈妈:遍地都是爆款的明天,为何破圈的品牌不是你? 报告2023-03-20Nox聚星:2023跨境出海品牌海内网红营销白皮书 报告2023-03-20易车研究院:老用户保卫战迎来最初大决战-汽车行业品牌忠诚度洞察报告(2... 报告2023-03-16果集:品牌如何利用社媒电商数据归因,找到倒退时机? 报告2023-03-07Daxue Consulting:中国品牌出海的10个常见误区 报告2023-03-07易车研究院:2023品牌忠诚度洞察报告 报告2023-03-06Edison:2022年播客中品牌平安和适用性 报告2023-03-02艾媒征询:2023年中国品牌电商服务行业钻研报告 报告2023-02-28品牌方舟:2022年度寰球后劲DTC品牌50强报告 报告2023-02-20CBNData&Yigrowth:2023生产品牌流量营销进阶趋势报告... 报告2023-02-16Brand Finance:2023年品牌守护指数 报告2023-02-14克劳锐:2022年度汽车品牌声量盘点报告 报告2023-02-13品牌方舟:2022年度DTC品牌出海报告 报告2023-02-08慧科讯业:2023年中国品牌危机治理及舆情趋势报告 报告2023-02-07IT桔子:2022年中国生产品牌投融资剖析报告 报告2023-02-04IRi:2022年自有品牌报告 报告2023-02-03巨量算数:数字时代的品牌营销-确定性 报告2023-02-01精真估:2022年度中国汽车品牌保值率报告 报告2023-01-31亿欧智库:2022中国新生产倒退洞察暨品牌力榜单 报告2023-01-30品牌方舟:2022年度DTC品牌出海报告 报告2023-01-28国家知识产权局:中国商标品牌倒退指数(2022) 报告2023-01-27飞书深诺:智能手机品牌与用户调研报告 报告2023-01-25得物&罗兰贝格:重塑信念,着眼将来-品牌如何拥抱年老消费力? 报告2023-01-25品牌星球:2023中国品牌服务商手册 报告2023-01-16凯络:2022品牌情商报告:代际聚焦 报告2023-01-16飞瓜数据:快手品牌营销地图 报告2023-01-15凯度:2023年,品牌增长不可短少的四个消费者钻研新办法 报告2023-01-07果集数据:2023年社媒电商下品牌的破圈之路 报告2023-01-06艾瑞征询:2022年中国品牌主私域场景下的互动门路钻研报告 报告2023-01-06中国移动研究院:2022品牌营销风向洞察报告-谋求“确定的”幸福 报告2023-01-03易观剖析:2022年第三季度汽车品牌智能网联竞争力指数(ICVCI)分... 报告2023-01-01凯度:寰球消费者动静与2023品牌营销策略 报告2022-12-30飞瓜数据:快手品牌经营解决方案 报告2022-12-30艾瑞征询:2022年中国品牌主私域场景下的互动门路钻研报告 报告2022-12-30秒针&36kr:2022年BrandGrow最具增长后劲新锐品牌钻研报... 报告2022-12-29国家品牌网&观潮新生产:2022国潮品牌倒退洞察报告 报告2022-12-25讴霭征询:生存形式品牌-生产品牌的终极策略 报告2022-12-11Interbrand:2022年最佳寰球品牌报告 报告2022-12-10科握:寰球美妆品牌如何通过科握实现⾼效社媒策略 报告2022-12-05百分点:2022年双十一品牌营销洞察专报 报告2022-11-26特赞:将来已来,品牌元宇宙内容营销指南 报告2022-11-23浙商证券:电商系列深度报告-“出海+社区拼团+品牌化+领取”-迎增长和... 报告2022-11-17亿欧智库:2022EqualOcean中国品牌全球化指数报告暨百强榜单 报告2022-11-17EqualOcean:全球化品牌成长手册:资源精选2022 报告2022-11-16飞书深诺&艾瑞征询:2022MeetBrands中国出海品牌价值榜单报... 报告2022-11-15OI征询:成为顶级品牌-品牌艺术化经营全攻略 报告2022-11-15KAWO科握:2023品牌社交媒体精细化治理指南 报告2022-11-15OI征询:“我时代”-品牌年轻化致胜策略 报告2022-11-13汽车之家:新能源车之中国品牌崛起-中国汽车生产趋势洞察报告 报告2022-11-12克劳锐:2022双11购物节品牌营销洞察报告 报告2022-11-12克而瑞&中物研协:2022中国物业服务企业品牌价值钻研报告 报告2022-11-11艾瑞征询:2022年MeetBrands中国出海品牌价值榜单报告 报告2022-11-10飞书深诺&艾瑞征询:2022中国出海品牌价值榜单报告 报告2022-11-09电通:2022品牌在疫情下的生存攻坚之战 报告2022-11-07新榜:2022新能源汽车品牌KOL口碑报告 报告2022-11-03yinolink:2022跨境电商品牌出海白皮书 报告2022-11-03巨量引擎:品牌种草神机妙算 报告2022-11-02时趣洞察引擎:内容营销时代的品牌数字化转型白皮书 报告2022-10-31OneSight:2022Q3出海品牌社媒影响力榜单 报告2022-10-31秒针:2022品牌及KOL双生洞见 报告2022-10-26Meltwater融文:中国企业出海过程中的品牌建设实战 报告2022-10-26时趣:2022年9月品牌营销战斗报告 报告2022-10-25秒针零碎&群邑:2022品牌及KOL双生洞见 报告2022-10-25凯度:2022品牌脚印报告-中国疾速消费品市场 报告2022-10-25天猫&罗兰贝格:天猫DTC企业经营指南-以人为本,品牌致胜 报告2022-10-23知家:知家dtc品牌营销白皮书:直面用户的营销思维 报告2022-10-20小红书:2022年成长型品牌双11营销指南 报告2022-10-18浩华:2022年上半年中国大陆地区中档及以上品牌酒店签约报告 报告2022-10-17普华永道:时尚生产品牌DTC转型白皮书 报告2022-10-14AllVAlUE&COZMOX:2022新品牌出海地图 报告2022-10-14有赞:2022新品牌出海地图 报告2022-10-06月狐数据:2022静止品牌全渠道倒退数据报告 报告2022-09-30秒针零碎:2022品牌营销流量新洞察-2022新洞察20问 报告2022-09-27亿邦能源:品牌出与跨境电商倒退大势 报告2022-09-25Nox聚星:2022年3C出海品牌KOL营销数据洞察 报告2022-09-24益普索:中国品牌寰球信赖指数 报告2022-09-21贝恩&天猫:2022年天猫企业经营方法论—拥抱将来,服饰品牌DTC制胜... 报告2022-09-19中指研究院:2022中国房地产服务品牌价值钻研 报告2022-09-18平凡航路:新国货品牌成长内参-观夏篇 报告2022-09-18天猫&贝恩:新批发下品牌消费者为核心的数字化转型-——消费者经营衰弱度... 报告2022-09-15艺恩:拥抱Z世代,B站品牌营销爆款指南 报告2022-09-14艾瑞征询:中国品牌广告营销策略白皮书 报告2022-09-11腾讯广告:平台与内容广告-品牌营销手册 报告2022-09-07贝恩&天猫:2022年天猫企业经营方法论:拥抱将来,服饰品牌DTC制胜... 报告2022-09-07艾瑞征询:2022年中国品牌广告营销策略白皮书 报告2022-09-07Brand finance:2022年度中国品牌价值500强报告 报告2022-09-07亿欧智库:2022中国生产品牌全球化报告 报告2022-09-06梅花数据:元宇宙品牌实际洞察报告 报告2022-09-04Meltwater融文:品牌的超能力:获取有限营销创意 报告2022-09-04头豹:2022年中国一体化压铸行业概览:特斯拉引领潮流,自主品牌或成资... 报告2022-09-03任仕达:2022雇主品牌调研中国大陆区Z世代报告 报告2022-09-03众引流传:抖音种草ATOM方法论-品牌社交成果增长模型 报告2022-08-31亿邦智库:无效翻新-2022DTC品牌出海倒退报告 报告2022-08-31凯度BrandZ:2022最具价值中国品牌100强报告 报告2022-08-31阿里巴巴:上海老字号餐饮品牌数字化转型指数钻研报告 报告2022-08-31众引流传:小红书种草ATOM方法论-品牌社交成果增长模型 报告2022-08-28亚马逊&凯捷:中国品牌车企的远征之路-面向中国品牌车企助力其实现高质量... 报告2022-08-28百度:软件行业品牌营销攻艰策略 报告2022-08-27巨量&凯度:品牌力增长度量白皮书 报告2022-08-26梅花数据:好利来品牌营销洞察报告 报告2022-08-24亿欧智库:2022新国货CoolTop100品牌榜 报告2022-08-22增长黑盒&腾讯:新锐品牌私域增长指南:从新定义消费者关系 报告2022-08-20时趣:2022年7月品牌营销战斗月报 报告2022-08-20Meltwater融文:品牌的超能力:利用社交数据预测将来趋势 报告2022-08-20达曼&数字100:2022中国自有品牌蓝海策略白皮书 报告2022-08-16巨量:2022品牌广告六大风向标 报告2022-08-15欧特欧征询:2021中国网络批发高增品牌白皮书 报告2022-08-14Meta:DTC品牌出海行业报告及实操宝典 报告2022-08-14天风证券:汽车:智能电动汽车赛道深度六:混合能源助力自主品牌崛起 报告2022-08-11谷歌&凯度:2022中国全球化品牌50强钻研报告 报告2022-08-10欧特欧征询:“新生存、新物种、新商业”-2021中国网络批发高增品牌白... 报告2022-08-08克劳锐:2022汽车品牌社交内容营销趋势洞察 报告2022-08-08凯度:中国全球化品牌50强 报告2022-08-02OneSight:2022Q2出海品牌社媒影响力榜单 报告2022-08-01时趣:2022年上半年品牌营销战斗报告 报告2022-07-26达曼:2022年寰球自有品牌趋势报告 报告2022-07-21增长黑盒:2022生产品牌元宇宙营销指南 报告2022-07-15艾媒征询:2022年中国品牌电商服务行业钻研报告 报告2022-07-10凯络:2022品牌情商报告 报告2022-07-04亿邦能源:品牌数字化服务商资源手册 第一期 报告2022-06-30新华网&得物:国潮品牌年老生产洞察报告 报告2022-06-30Conviva:TikTok基准和品牌策略指南(EN) 报告2022-06-30Colliers:疫情常态化下的品牌拓店趋势调研 报告2022-06-27高力国内:疫情常态化下的品牌拓店趋势调研 报告2022-06-26中国连锁经营协会&微盟:2022批发连锁品牌数字化经营钻研及策略报告 报告2022-06-26观远数据:数字化经营赋能新锐品牌精益增长-2022私域新增长线上峰会 报告2022-06-26解数:抖音品牌营销剖析 报告2022-06-20凯度:影响力风向标 - 品牌代言,谁最适宜? 报告2022-06-16亿欧智库:2022中国品牌出海服务市场钻研报告 报告2022-06-14解数:小红书品牌剖析 报告2022-06-14巨量引擎:2022品牌广告价值降级—直击消费者心智,做好确定性增长 报告2022-06-13果集&飞瓜:2022年短视频电商品牌营销专题——眼部护理品牌营销洞察.... 报告2022-06-08解数:快手平台品牌剖析 报告2022-06-07腾讯营销洞察:新锐品牌增长钻研报告(2022年版) 报告2022-06-05易观方舟&零一裂变:头部DTC品牌增长案例库 报告2022-06-01ISLAND DING:品牌营销操作手册 报告2022-06-01Meltwater:乘风破浪出海去 中国出海品牌的跨境摸索与胜利 报告2022-05-31解数:婴童用品行业—— bebebus品牌全域拆解 报告2022-05-31天猫:品牌全域人群价值经营Guidebook 2022 报告2022-05-25艺恩:小红书彩妆品牌营销洞察 报告2022-05-18艺恩:小红书时尚品牌营销手册 报告2022-05-18卓尔数科:2022新生产品牌整合营销白皮书 报告2022-05-16电通:品牌在疫情下的生存攻坚之战 报告2022-05-13千瓜:2022千瓜品牌营销决策解决方案 报告2022-05-08增长黑盒:2022品牌出圈指南 报告2022-05-06Retail 2030:赋能批发品牌将来的数字化技术策略 报告2022-05-06抖音&36氪:2022抖音电商新锐美妆品牌白皮书 报告2022-04-27果集·飞瓜:2022年短视频电商品牌营销专题——手机品牌营销剖析报告 报告2022-04-27OneSight:2022Q1 BrandOS TOP100出海品牌社... 报告2022-04-22易点天下:2021《BrandZ™中国全球化品牌》钻研报告 报告2022-04-19易点天下:2021 Allbirds DTC品牌深度解析 报告2022-04-19Snapchat :品牌频道 (Public Profiles) 经营... 报告2022-04-15微播易:常识红利时代,品牌如何完胜信赖与决策的博弈? 报告2022-04-07磁力:品牌商家短视频投放操作手册 报告2022-04-06神策&墨镜市场情报:新国货连锁餐饮品牌数字营销系列钻研报告 报告2022-04-02易车研究院:品牌忠诚度洞察报告(2022版) 报告2022-03-29蓝色光标:2021中国品牌海内流传报告 报告2022-03-28微播易:2022年女性消费观驱动下 品牌社媒投放趋势洞察报告 报告2022-03-23解数:“抖品牌”的崛起之路 报告2022-03-23OneSight:BrandOS 2021 Q4出海品牌社媒影响力榜单 报告2022-03-23爱剖析:2022爱剖析・时尚品牌数字化实际报告 报告2022-03-01普华永道:品牌焕新冲破增长瓶颈 报告2022-02-28前瞻:“乘风破浪”的国产品牌 报告2022-02-25果集&飞瓜:2022年短视频电商品牌营销专题——自营小店及品牌自播机会... 报告2022-02-25Meltwate:寰球品牌治理 报告2022-02-11有米无数:2021年抖品牌营销白皮书 报告2022-02-08解数:2021大盘点那些靠精细化经营制胜的品牌 报告2022-01-26Retail 2030:赋能批发品牌将来的数字化技术策略 报告2022-01-26有米无数:2021年抖品牌营销白皮书 报告2022-01-21易车研究院:中国品牌洞察报告(2022版) 报告2022-01-20抖音电商&巨量:2022抖音电商新品牌成长报告 报告2022-01-13微播易:【网服品牌】社媒内容趋势洞察与达人抉择策略 报告2022-01-07亿欧智库:2021新生产品牌力报告 报告2022-01-04

April 4, 2023 · 2 min · jiezi

关于数据挖掘:R语言临床预测模型分层构建COX生存回归模型STRATIFIED-COX-MODELKM生存曲线PH假设检验

全文链接:http://tecdat.cn/?p=32046原文出处:拓端数据部落公众号stratified cox model是针对协变量不满足PHA提出的,这里的思维是对协变量分层。 协变量的成果在一个层(局部)里是一样的,即层内没有interaction,成果是常数,这就是Non-interaction assumption。 对于”no interaction“的model,每个层的baseline function都不一样,但指数项系数统一; 查看数据 用kmeans聚类cl=kmeans(data[,c( 3,8:12)],4) 对于同一组别的数据 能够察看其生存曲线以及高低95%的置信区间 survfit ## Call: survfit(formula = my.surv ~ type) ## ##          n events median 0.95LCL 0.95UCL ## type=1  36     36 -0.045   -0.42    0.25 ## type=2  11     11 -0.080   -0.52      NA ## type=3  59     59  0.230   -0.23    0.71 ## type=4 117    117 -0.660   -0.90   -0.29 预计KM生存曲线##   time n.risk n.event survival std.err lower 95% CI upper 95% CI ##  -1.91    212       1    0.995 0.00471        0.986        1.000 ##  -1.76    207       1    0.990 0.00670        0.977        1.000 ##  -1.54    192       1    0.985 0.00842        0.969        1.000 ##  -1.33    187       1    0.980 0.00989        0.961        1.000 ##  -1.27    182       1    0.975 0.01121        0.953        0.997 ##  -1.24    181       1    0.969 0.01237        0.945        0.994 ##  -1.18    178       1    0.964 0.01345        0.938        0.991 ##  -1.12    173       1    0.958 0.01448        0.930        0.987 ##  -0.98    163       1    0.952 0.01554        0.922        0.983 ##  -0.78    149       1    0.946 0.01669        0.914        0.979 ##  -0.50    127       1    0.939 0.01815        0.904        0.975 ##  -0.49    125       1    0.931 0.01950        0.894        0.970 ##  -0.42    122       1    0.923 0.02078        0.884        0.965 ##  -0.39    119       1    0.916 0.02200        0.874        0.960 ##  -0.35    116       1    0.908 0.02319        0.863        0.954 ##  -0.16    104       1    0.899 0.02455        0.852        0.948 ##  -0.13    101       1    0.890 0.02587        0.841        0.942 ##  -0.07     99       1    0.881 0.02713        0.830        0.936 ##  -0.02     94       1    0.872 0.02841        0.818        0.929 ##   0.04     91       1    0.862 0.02967        0.806        0.922 ##   0.06     90       3    0.833 0.03300        0.771        0.901 ##   0.22     77       1    0.823 0.03430        0.758        0.893 ##   0.25     74       1    0.811 0.03559        0.745        0.884 ##   0.41     69       1    0.800 0.03697        0.730        0.876 ##   0.42     68       1    0.788 0.03825        0.716        0.867 ##   0.43     67       1    0.776 0.03944        0.703        0.858 ##   0.62     56       1    0.762 0.04110        0.686        0.847 ##   0.86     47       1    0.746 0.04331        0.666        0.836 ##   1.15     32       1    0.723 0.04782        0.635        0.823 ##   1.44     24       1    0.693 0.05449        0.594        0.808 ##   1.60     16       1    0.649 0.06609        0.532        0.793 ##   2.13      6       1    0.541 0.11311        0.359        0.815 ##   2.35      4       1    0.406 0.14466        0.202        0.816 ##   2.98      1       1    0.000     NaN           NA           NA在下面的图中的趋势,能够帮忙咱们预测在若干天完结的生存概率。 ...

April 4, 2023 · 4 min · jiezi

关于数据挖掘:开源项目宁波~超经典智慧城市CIMBIM数字孪生可视化项目开源工程及源码

 最新消息,数字孪生智慧宁波开源了其数据工程源码和工程,免费送出供大家学习、应用、分享。 智慧宁波实现了一系列全面的性能,如实现长三角经济圈特效、智慧地铁特效、智慧灯杆个性等。这些我的项目利用数字孪生技术和物联网等先进技术,能够实现精细化治理和智能管制,进步城市管理效率和品质。 长三角经济圈——中国经济增长的有限可能!是东海岸重要的古代产业洼地,集成翻新研发、制作、服务等一体,引领将来倒退潮流。 区域交通,用不同色彩和不同流速的光流来代表交通的拥挤强度,直观反馈区域状况的交通拥堵状况。 从阡陌桑田到广厦万千,从城市边缘到外围腹地,东部新城未然占据了宁波的外围位置。面对城市建设的浪潮,东部新城地标性修建——中银大厦也拔地而起 夜晚,那装璜着霓虹灯的大楼,看着那由霓虹灯围成的图案和文字。那些文字和图案显得分外清晰,分外醒目。图案更显得栩栩如生,惟妙惟肖。 如果你想理解更多对于智慧宁波的信息,无妨来拜访咱们的个人主页。在这里,行业数十年的大咖亲自带队,收费分享教程和材料,也能够收费获取宁波的源码和工程,学习数字孪生技术等智慧城市建设的相干常识。 咱们期待在数字化倒退的浪潮中,为营造更美妙的城市生存,奉献咱们的力量。

April 3, 2023 · 1 min · jiezi

关于数据挖掘:R语言临床预测模型分层构建Cox生存回归模型stratified-Cox-modelKM生存曲线PH假设检验

全文链接:http://tecdat.cn/?p=32046stratified cox model是针对协变量不满足PHA提出的,这里的思维是对协变量分层。 协变量的成果在一个层(局部)里是一样的,即层内没有interaction,成果是常数,这就是Non-interaction assumption。 对于”no interaction“的model,每个层的baseline function都不一样,但指数项系数统一; 查看数据 用kmeans聚类cl=kmeans(data[,c( 3,8:12)],4) 对于同一组别的数据 能够察看其生存曲线以及高低95%的置信区间 survfit ## Call: survfit(formula = my.surv ~ type) ## ##          n events median 0.95LCL 0.95UCL ## type=1  36     36 -0.045   -0.42    0.25 ## type=2  11     11 -0.080   -0.52      NA ## type=3  59     59  0.230   -0.23    0.71 ## type=4 117    117 -0.660   -0.90   -0.29 预计KM生存曲线##   time n.risk n.event survival std.err lower 95% CI upper 95% CI ##  -1.91    212       1    0.995 0.00471        0.986        1.000 ##  -1.76    207       1    0.990 0.00670        0.977        1.000 ##  -1.54    192       1    0.985 0.00842        0.969        1.000 ##  -1.33    187       1    0.980 0.00989        0.961        1.000 ##  -1.27    182       1    0.975 0.01121        0.953        0.997 ##  -1.24    181       1    0.969 0.01237        0.945        0.994 ##  -1.18    178       1    0.964 0.01345        0.938        0.991 ##  -1.12    173       1    0.958 0.01448        0.930        0.987 ##  -0.98    163       1    0.952 0.01554        0.922        0.983 ##  -0.78    149       1    0.946 0.01669        0.914        0.979 ##  -0.50    127       1    0.939 0.01815        0.904        0.975 ##  -0.49    125       1    0.931 0.01950        0.894        0.970 ##  -0.42    122       1    0.923 0.02078        0.884        0.965 ##  -0.39    119       1    0.916 0.02200        0.874        0.960 ##  -0.35    116       1    0.908 0.02319        0.863        0.954 ##  -0.16    104       1    0.899 0.02455        0.852        0.948 ##  -0.13    101       1    0.890 0.02587        0.841        0.942 ##  -0.07     99       1    0.881 0.02713        0.830        0.936 ##  -0.02     94       1    0.872 0.02841        0.818        0.929 ##   0.04     91       1    0.862 0.02967        0.806        0.922 ##   0.06     90       3    0.833 0.03300        0.771        0.901 ##   0.22     77       1    0.823 0.03430        0.758        0.893 ##   0.25     74       1    0.811 0.03559        0.745        0.884 ##   0.41     69       1    0.800 0.03697        0.730        0.876 ##   0.42     68       1    0.788 0.03825        0.716        0.867 ##   0.43     67       1    0.776 0.03944        0.703        0.858 ##   0.62     56       1    0.762 0.04110        0.686        0.847 ##   0.86     47       1    0.746 0.04331        0.666        0.836 ##   1.15     32       1    0.723 0.04782        0.635        0.823 ##   1.44     24       1    0.693 0.05449        0.594        0.808 ##   1.60     16       1    0.649 0.06609        0.532        0.793 ##   2.13      6       1    0.541 0.11311        0.359        0.815 ##   2.35      4       1    0.406 0.14466        0.202        0.816 ##   2.98      1       1    0.000     NaN           NA           NA ...

April 3, 2023 · 4 min · jiezi

关于数据挖掘:共享单车需求量数据用CART决策树随机森林以及XGBOOST算法登记分类及影响因素分析附代码数据

全文链接:http://tecdat.cn/?p=28519作者:Yiyi Hu最近咱们被客户要求撰写对于共享单车的钻研报告,包含一些图形和统计输入。 近年来,共享经济成为社会服务业内的一股重要力量。作为共享经济的一个代表性行业,共享单车疾速倒退,成为继地铁、公交之后的第三大公共出行形式 但与此同时,它也面临着市场需求不均衡、车辆乱停乱放、车辆检修调度等问题。本我的项目则着眼于如何不影响市民出行效率的同时,对共享单车进行正当的批量培修工作的问题,利用CART决策树、随机森林以及Xgboost算法对共享单车借用数量进行等级分类,试图通过模型探索其影响因素并剖析在何种条件下对共享单车进行批量培修为最优计划。 解决方案工作/指标通过机器学习分类模型探索共享单车借用数量的影响因素,并剖析在何种条件下对共享单车进行批量培修为最优计划。 数据源筹备该数据集有三个数据起源,别离为交通局,天气数据,以及法定假期。 解决方案工作/指标通过机器学习分类模型探索共享单车借用数量的影响因素,并剖析在何种条件下对共享单车进行批量培修为最优计划。 数据预处理及可视化 (一)工夫:首先从“timestamp”列中提取了“month”和“hour”两列,试图别离从整体、季度、月份、小时四个方面,对共享单车借用总数进行箱图剖析。 (二)天气:察看数据特色发现,其中“weather_code”列各类别别离为:1 =晴朗;大抵清晰,但有一些值与雾霾/雾/雾斑/雾左近;2 =散云/一些云;3 =碎云/云层蓬松;4 =多云;7 =雨/小雨阵雨/小雨;10 =雨与雷暴;26 =降雪;94 =冻雾。因而,本文对“weather_code”进行从新定义,将 1,2,3,4 类天气现象定义为宜骑车天气;7,10,26,94 类天气现象定义为不宜骑车天气。 点击题目查阅往期内容 单车上的城市:共享单车数据洞察 左右滑动查看更多 01 02 03 04 (三)共享单车借用数量:“节假日”与“双休日”中共享单车应用数量的散布较为类似,高峰期均在午后。比照发现,“工作日”中单车应用数量的高峰期在 7 点至 9 点,16 点到 19 点这两个时间段出现为两个显著的波峰,这两个时间段往往是下班下班时间,人流量比拟大,因此数据的出现比拟符合实际的法则。因而,相对将“is_holiday”列与“is_weekend”列联结进行分组,合并为“is\_non\_workday”,分为工作组与非工作日组。 (四)温度:图 5-4 为各变量之间的相关系数矩阵,发现温度“t1”列与体感温度“t2”列之间存在较高的相关性,且天气温度数据更加主观,因而抉择仅保留“t1”列。各个变量之间的均出现中弱相关性。此外,各变量与因变量“count_log”列均存在肯定的相关性,但相干强度不一。 (五)经察看“count_log”箱图发现,该数据仍存在着大量异样值。因而,为了进步后果的准确性,抉择删去 16 个过低的数值,残余 17398 组数据。 在进行预处理后,本文曾经对共享单车中的变量进行了筛选与调整,保留了 hour,t1,is\_non\_workday,weather_code,wind_speed,hum,season 等 7 个特色变量。在正 式建设模型之前,对于因变量“count_log”进行等频分箱,将其分成了五类,命名为 category。当保障类别均衡,即每类数据的样本量靠近,算法会有更好的成果。对于温度、湿度等连续性变量,为使得最初后果的准确性,并未对其进行分箱。 接下来,本文对所有的特色变量进行了归一化解决,为了演绎对立样本的统计散布性, 本文选取 75%的数据划分为训练集,25%的数据作为测试集。 建模 CART决策树: CART 算法易于了解和实现,人们在通过解释后都有能力去了解决策树所表白的意义。并且可能同时解决分类型与数值型属性且对缺失值不敏感。 随机森林: ...

March 31, 2023 · 1 min · jiezi

关于数据挖掘:R语言中贝叶斯网络BN动态贝叶斯网络线性模型分析错颌畸形数据附代码数据

全文链接:http://tecdat.cn/?p=22956最近咱们被客户要求撰写对于贝叶斯网络的钻研报告,包含一些图形和统计输入。 贝叶斯网络(BN)是一种基于有向无环图的概率模型,它形容了一组变量及其相互之间的条件依赖性。它是一个图形模型,咱们能够很容易地查看变量的条件依赖性和它们在图中的方向 在这篇文章中,我将简要地学习如何用R来应用贝叶斯网络。 本教程旨在介绍贝叶斯网络学习和推理的基础知识,应用真实世界的数据来摸索图形建模的典型数据分析工作流程。关键点将包含: 预处理数据;学习贝叶斯网络的构造和参数。应用网络作为预测模型。应用网络进行推理。通过与内部信息的比照来验证网络的有效性。疾速介绍贝叶斯网络定义 贝叶斯网络(BNs)的定义是: 一个网络结构,一个有向无环图 , 其中每个节点  对应于一个随机变量 ;一个全局概率分布  (带参数 ), 它能够依据图中存在的弧被分解成更小的部分概率分布。网络结构的次要作用是通过图形拆散来表白模型中各变量之间的条件独立性关系,从而指定全局散布的因子化。 每个部分散布都有本人的参数集 ; 而⋃  要比小得多,因为许多参数是固定的,因为它们所属的变量是独立的。 R实现了以下学习算法。 基于束缚的:PC, GS, IAMB, MMPC, Hilton-PC 基于分数的:爬山算法、Tabu Search 配对的:ARACNE, Chow-Liu 混合:MMHC, RSMAX2 咱们应用基于分数的学习算法,_希尔算法_。首先,咱们将先为本教程生成简略的数据集。 在这个数据集中,'状态'与'元素'和'承受'列有关系。而'类型'与'色彩'列有关系。当你创立一个带有分类数据的数据框时,列应该是一个因子类型。否则,该数据框不能用于BN构造的创立。   接下来,咱们将创立学习构造。 咱们能够在一个图中看到构造。 > plot(hc_simd) 在这个图中,状态、元素、承受、类型和色彩被称为节点。节点之间的方向用弧线形容,弧线是一个蕴含从元素到元素方向数据的矩阵。 点击题目查阅往期内容 R语言BUGS/JAGS贝叶斯剖析: 马尔科夫链蒙特卡洛办法(MCMC)采样 左右滑动查看更多 01 02 03 04 如上弧线显示,在咱们的数据中存在'类型'到'色彩',以及'状态'到'承受'和'元素'的关系。'类型'和'状态'是两个独立的组,它们之间不存在相互依赖关系。 接下来,咱们将用数据来拟合模型。 simd_fitted 基于上述训练数据,咱们能够进行条件概率查问。 咱们查看 "Outlier "和 "Target "的状态概率。 该样本成为 "离群 "的概率为51%。 ![图片]() 状态成为 "指标 "的概率是0%。 错颌畸形数据的贝叶斯网络分析问题:受第三类错牙合畸形影响的患者(以下牙弓突出为特色),其骨骼不均衡在生命晚期就产生,在青春期和骨骼成熟前会变得更加显著。在单个III类患者中晚期预测医治的胜利或失败,使其更容易改正,但仅从大量的状态决定因素中预测是很难做到的。起因是III类错颌畸形很少是繁多颅面部件异样的后果,所以单个的临床和放射学测量值可能不如测量值自身的相互作用具备批示性。 工作: ...

March 31, 2023 · 2 min · jiezi

关于数据挖掘:R语言进行支持向量机回归SVR和网格搜索超参数优化附代码数据

全文链接:http://tecdat.cn/?p=23305最近咱们被客户要求撰写对于反对向量机回归SVR的钻研报告,包含一些图形和统计输入。 在这篇文章中,我将展现如何应用R语言来进行反对向量回归SVR 咱们将首先做一个简略的线性回归,而后转向反对向量回归,这样你就能够看到两者在雷同数据下的体现。 一个简略的数据集首先,咱们将应用这个简略的数据集。 正如你所看到的,在咱们的两个变量X和Y之间仿佛存在某种关系,看起来咱们能够拟合出一条在每个点左近通过的直线。 咱们用R语言来做吧! 点击题目查阅往期内容 Matlab建设SVM,KNN和奢侈贝叶斯模型分类绘制ROC曲线 左右滑动查看更多 01 02 03 04 第1步:在R中进行简略的线性回归上面是CSV格局的雷同数据,我把它保留在regression.csv文件中。 咱们当初能够用R来显示数据并拟合直线。 # 从csv文件中加载数据dataDirectory <- "D:/" #把你本人的文件夹放在这里data <- read.csv(paste(dataDirectory, 'data.csv', sep=""), header = TRUE)# 绘制数据plot(data, pch=16)# 创立一个线性回归模型model <- lm(Y ~ X, data)# 增加拟合线abline(model)下面的代码显示以下图表: 第2步:咱们的回归成果怎么样?为了可能比拟线性回归和反对向量回归,咱们首先须要一种办法来掂量它的成果。 为了做到这一点,咱们扭转一下代码,使模型做出每一个预测可视化 # 对每个X做一个预测pred <- predict(model, data)# 显示预测后果points(X, pred)产生了以下图表。 对于每个数据点Xi,模型都会做出预测Y^i,在图上显示为一个红色的十字。与之前的图表惟一不同的是,这些点没有相互连接。 为了掂量咱们的模型成果,咱们计算它的误差有多大。 咱们能够将每个Yi值与相干的预测值Y^i进行比拟,看看它们之间有多大的差别。 请留神,表达式Y^i-Yi是误差,如果咱们做出一个完满的预测,Y^i将等于Yi,误差为零。 如果咱们对每个数据点都这样做,并将误差相加,咱们将失去误差之和,如果咱们取平均值,咱们将失去均匀平方误差(MSE)。 在机器学习中,掂量误差的一个常见办法是应用均方根误差(RMSE),所以咱们将应用它来代替。 为了计算RMSE,咱们取其平方根,咱们失去RMSE 应用R,咱们能够失去以下代码来计算RMSE rmse <- function(error){  sqrt(mean(error^2))} 咱们当初晓得,咱们的线性回归模型的RMSE是5.70。让咱们尝试用SVR来改善它吧! 第3步:反对向量回归用R创立一个SVR模型。 上面是用反对向量回归进行预测的代码。 model <- svm(Y ~ X , data)如你所见,它看起来很像线性回归的代码。请留神,咱们调用了svm函数(而不是svr!),这是因为这个函数也能够用来用反对向量机进行分类。如果该函数检测到数据是分类的(如果变量是R中的一个因子),它将主动抉择SVM。 代码画出了上面的图。 这一次的预测后果更靠近于实在的数值 ! 让咱们计算一下反对向量回归模型的RMSE。 # 这次svrModel$residuals与data$Y - predictedY不一样。#所以咱们这样计算误差svrPredictionRMSE 正如预期的那样,RMSE更好了,当初是3.15,而之前是5.70。 但咱们能做得更好吗? 第四步:调整你的反对向量回归模型为了进步反对向量回归的性能,咱们将须要为模型抉择最佳参数。 在咱们之前的例子中,咱们进行了-回归,咱们没有为()设置任何值,但它的默认值是0.1。 还有一个老本参数,咱们能够扭转它以防止适度拟合。 抉择这些参数的过程被称为超参数优化,或模型抉择。 规范的办法是进行网格搜寻。这意味着咱们将为和老本的不同组合训练大量的模型,并抉择最好的一个。 # 进行网格搜寻tuneResultranges = list(epsilon = seq(0,1,0.1), cost = 2^(2:9))# 绘制调参图plot(Result)在下面的代码中有两个重要的点。 咱们应用tune办法训练模型,=0,0.1,0.2,...,1和cost=22,23,24,...,29这意味着它将训练88个模型(这可能须要很长一段时间tuneResult返回MSE,别忘了在与咱们之前的模型进行比拟之前将其转换为RMSE。最初一行绘制了网格搜寻的后果。 在这张图上,咱们能够看到,区域色彩越深,咱们的模型就越好(因为RMSE在深色区域更接近于零)。 这意味着咱们能够在更窄的范畴内尝试另一个网格搜寻,咱们将尝试在0和0.2之间的值。目前看来,老本值并没有产生影响,所以咱们将放弃原样,看看是否有变动。 rangelist(epsilo = seq(0,0.2,0.01), cost = 2^(2:9))咱们用这一小段代码训练了不同的168模型。 当咱们放大暗区域时,咱们能够看到有几个较暗的斑块。 从图中能够看出,C在200到300之间,在0.08到0.09之间的模型误差较小。 心愿对咱们来说,咱们不用用眼睛去抉择最好的模型,R让咱们非常容易地失去它,并用来进行预测。 # 这个值在你的电脑上可能是不同的# 因为调参办法会随机调整数据tunedModelRMSE <- rmse(error) 咱们再次进步了反对向量回归模型的RMSE ! ...

March 31, 2023 · 1 min · jiezi

关于数据挖掘:Python使用GARCHEGARCHGJRGARCH模型和蒙特卡洛模拟进行股价预测附代码数据

全文下载链接:http://tecdat.cn/?p=20678最近咱们被客户要求撰写对于GARCH的钻研报告,包含一些图形和统计输入。 在本文中,预测股价曾经受到了投资者,政府,企业和学者宽泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项简单而具备挑战性的工作 在本文中,我将解释如何将 GARCH,EGARCH和 GJR-GARCH 模型与Monte-Carlo 模仿联合应用, 以建设无效的预测模型。金融工夫序列的峰度,稳定率和杠杆效应特色证实了GARCH的合理性。工夫序列的非线性特色用于查看布朗运动并钻研工夫演变模式。非线性预测和信号分析方法因其在特征提取和分类中的鲁棒性而在股票市场上越来越受欢迎。 动力学零碎能够用一组时变(间断或离散)变量来形容,这些变量形成信号剖析非线性办法的根底。如果工夫的以后值和状态变量能够精确地形容下一时刻的零碎状态,则能够说这样的零碎是确定性的。另一方面,如果工夫和状态变量的以后值仅形容状态变量的值随工夫变动的概率,则将动力学零碎视为随机零碎。因而,在应用GARCH 建模办法之前 ,我将采纳 分形维数(FD) ,重定 范畴 和 递归量化剖析(RQA)的 数据建模 技术 来总结数据的非线性动力学行为并实现钻研指标。 办法Hurst系数  (H)  是长期依赖的特征参数,与 FD (_FD + H = 2_)无关。 R / S剖析是数据建模的外围工具。教训钻研表明, 与同类中的其余办法相比,  R / S_带来了更好的后果,例如自相干,光谱合成的剖析。它是度量工夫序列差别的度量,该工夫序列的定义是给定持续时间_(T)_的均值范畴  ,除以该持续时间的标准偏差 [ R / S = k T(H) ]; _ķ* 是一个取决于工夫序列的常数。H度量工夫序列的长期记忆,将其表征为均值回复,趋势或随机游走。 H <0.5示意均值回复 H> 0.5示意趋势序列,并且 H = 0.5示意随机游走。 我将展现如何应用 GARCH 模型进行危险评估。 GARCH 模型的一个要害限度 是对其参数施加非负束缚,以确保条件方差的正性。这样的束缚会给预计GARCH 模型带来艰难 。 因而,提出了 非对称GARCH 模型,即俗称的 GJR-GARCH 模型,以解决对称GARCH 模型的局限性 。更重要的是,指数 GARCH 或 EGARCH 模型绝对于传统的GARCH 模型具备潜在的改良 。 数据挖掘查看数据。 在过来的几十年中,原油价格呈现出较大的稳定,尤其是在2008年左右。能够看出,随着屡次回升和降落,价格放弃在绝对较低的程度。从自相干图能够看出原始数据中显著的自相干。QQ和PP图的形态表明该过程靠近正态,然而_重尾散布_。 简略收益率的罕用模式为:r(t)= {p(t)— p(t-1)} / p(t-1),对数收益率= ln(pt / p(t-1),pt每日原油价格,r(t)是每日收益。对数收益率在这里被视为本文的每日收益率。原始价格和对数收益率的直观显示分明地证实了以简直恒定的均值,应用对数收益率是正当的。 收益率序列图显示了高和低变动周期。在图中能够看到一个随机且集中在零左近的过程。大幅度稳定的正收益和负收益都减少了风险投资和治理的难度。每日收益率的平均值基本上在零程度程度左近,并且具备显著的波动性聚类,表明存在异方差性。ACF很小,然而高度相干。QQ和PP图的形态没有显著变动。 sns.distplot(df.returns, color=’blue’) #密度图# 汇总统计数据print(df.returns.describe())收益率的偏度(-0.119)和向右偏离表明,收益率反比负收益率高,峰度(7.042)反映了油价稳定大。 点击题目查阅往期内容 R语言ARMA-GARCH-COPULA模型和金融工夫序列案例 ![图片]() 左右滑动查看更多 ![图片]() 01 02 03 04 规范正态分布的偏度和峰度别离为0和3。Jarque-Bera测验的值表明,传统的正态分布假如不适用于原油收益的实在散布。 ADF = ADF(df.returns)print(ADF.summary().as_text())kpss = KPSS(df.returns)print(kpss.summary().as_text()) 进行了VR测验,以测试对数收益率序列是否是纯正的随机游走,以及是否具备肯定的可预测性。我在这里比拟了1个月和12个月的对数收益率,并且回绝了该系列为纯随机游走的空值。用负测验统计量VA(-11.07)回绝零示意在工夫序列中存在序列相关性。用ADF,KPSS,DFGLS,PP和ZA统计量对单位根和平稳性进行的测验均显示出显着性,表明应用 GARCH型模型来拟合收益序列是适合的。 非线性动力学应用_Hurst_对平稳性的钻研 。 ...

March 31, 2023 · 1 min · jiezi

关于数据挖掘:专题2022年中国跨境电商行业研究报告PDF合集分享附原数据表

全文链接:http://tecdat.cn/?p=32044原文出处:拓端数据公众号近年来,我国的跨境电子商务倒退迅速,在过来五年中,其贸易额增长率达到了16.2%,曾经成为稳固对外贸易的一支重要力量。 一方面,随着跨境电子商务的倒退,跨境电子商务的监管政策失去了进一步的改善,跨境电子商务的规模也失去了进一步的扩充,整个电子商务的倒退也失去了进一步的倒退。另一方面,以大数据、云计算、人工智能、区块链等为代表的数字技术,对跨境电商的每一个环节都进行了全方位的浸透,成为了模式翻新、效率改革的次要推动力,因而,跨境电商的倒退也迎来了新的契机。 我国的跨境电子商务交易额始终维持着较快的倒退速度,并在稳固对外贸易方面施展了微小的作用跨境电商的渗透率在一直进步,曾经变成了一种新的倒退能源。在2021年,我国的跨境电商交易额在国内货物进出口总额中所占的比重达到了36.3%,在过来的五年中,这一比重进步了7.3个百分点。在过来的五年中,这一数据显示出了显著的增长态势。在疫情防控常态化的大环境中,在线生产的需要失去了一直的开释,跨境电商曾经变成了稳固外贸的一支重要力量。 本专题内的参考报告(PDF)目录汤森路透:数字化技术赋能跨境电商贸易合规(2023) 报告2023-03-18网经社:2022年度中国跨境电商投诉数据与典型案例报告 报告2023-03-16雨果跨境:2023跨境电商行业趋势报告 报告2023-02-27猎聘:消费品和跨境电商人才数据 报告2023-02-19TikTok Shop:跨境电商2023年度策略报告 报告2023-02-16TikTokShop:跨境电商官网综合经营手册-直播篇 报告2023-02-13TikTokShop:跨境电商官网综合经营手册-短视频篇 报告2023-02-12TikTokShop:跨境电商官网综合经营手册 老手商家五大必做指南篇 报告2023-02-11粤贸寰球:跨境电商国内运输行业调研报告2022 报告2023-01-25AMZ123:2022跨境电商年度报告 报告2023-01-09WebEye:2022跨境电商数据分析白皮书 报告2022-12-28粤贸寰球:2022中东跨境电商平台剖析 报告2022-12-26TiChoo:2023年跨境电商寰球营销日历 报告2022-12-12粤贸寰球:跨境电商2022上半年数据报告 报告2022-12-04智慧谷&阿里云:2022跨境电商行业倒退钻研报告 报告2022-11-23增量科技:张图帮跨境电商企业做出一个好策略 报告2022-11-13财新智库:2022中国进口跨境电商产业集群倒退白皮书 报告2022-11-04yinolink:2022跨境电商品牌出海白皮书 报告2022-11-03艾瑞征询:中国跨境电商合规服务行业倒退洞察 报告2022-11-02智汇谷&阿里云:2022跨境电商行业倒退钻研报告 报告2022-10-23亿邦能源:品牌出与跨境电商倒退大势 报告2022-09-25粤贸寰球:2022印尼小家电跨境电商市场调研报告 报告2022-09-15远瞩征询:2022年中国跨境电商行业剖析 报告2022-09-14探迹:2022跨境电商物流行业发展趋势报告 报告2022-09-13探迹科技:2022跨境电商物流行业发展趋势报告 报告2022-09-07浙江省电子商务促进会:东南亚跨境电商倒退钻研报告(2022) 报告2022-08-24神策研究院:跨境电商独立站数字化经营指南 报告2022-08-18Meta:DTC跨境电商白皮书 报告2022-08-13安永:买寰球,卖寰球-跨境电商热点察看 报告2022-08-04致趣百川:跨境电商SaaS市场绝密复盘 报告2022-07-15毕马威:跨境电商批发进口药品试点助推医药产品进口翻新模式 报告2022-07-15谷歌&Shopify:中国跨境电商DTC指南 报告2022-07-05陈贤亭:跨境电商治理思维模型和实战工具 报告2022-07-04山西数据流量生态园:TikTok跨境电商趋势报告 报告2022-07-02艾瑞征询:2022年中国跨境电商SaaS行业钻研报告 报告2022-06-29艾瑞征询:2022年中国跨境电商服务行业趋势报告 报告2022-06-2936Kr:2022年中国跨境电商行业钻研报告 报告2022-06-24亿邦智库:细分增长 2022东南亚跨境电商出海报告 报告2022-06-17亿邦能源:2022寰球跨境电商服务商资源手册第一期(电子版) 报告2022-05-25Meta:2022跨境电商大促马拉松营销日历(28页) 报告2022-05-06Meta:2022跨境电商大促流动营销指南 报告2022-05-06网经社:2021年度中国跨境电商市场数据报告 报告2022-04-28亿邦智库:2021跨境电商金融服务报告220310 报告2022-03-10网经社:2021年中国跨境电商投诉数据与典型案例报告 报告2022-03-08网经社:2021年中国跨境电商投融资市场数据监测报告 报告2022-01-12阿里研究院:RCEP区域跨境电商进口(B2C)指数 报告2021-11-16亿邦智库:2021跨境电商倒退报告 报告2021-10-25Facebook:DTC 跨境电商白皮书 报告2021-10-05谷歌&德勤:2021中国跨境电商倒退报告 报告2021-08-05谷歌&德勤:2021中国跨境电商倒退报告 报告2021-08-04艾瑞征询:2021年中国跨境电商进口物流服务商行业钻研报告 报告2021-06-23亿欧智库:如日方升——2021中国进口跨境电商倒退钻研报告 报告2021-04-23

March 31, 2023 · 1 min · jiezi

关于数据挖掘:R语言金融市场量化交易布林带价差策略RSI交易策略回测COMP-226附代码数据

全文下载链接:http://tecdat.cn/?p=29653最近咱们被客户要求撰写对于量化交易的钻研报告,包含一些图形和统计输入。 咱们将利用每日数据制订简略的交易策略,将涵盖以下内容。 一个简略的介绍性交易。它每天只依据前一天的价格行为做出交易决定 - 咱们用这个例子来介绍前瞻性的偏见布林线是一个应用挪动平均线(和挪动标准差)的规范技术剖析指标的例子一个应用布林线的简略的均线回复型交易策略 指标作为策略的构件(但与之不同)。门路依赖性。止损、盈利指标和持有期是引入门路依赖的交易策略构建的例子。滑点--咱们回顾一下什么是滑点,咱们探讨在交易策略中思考滑点的问题 - 应用价差的策略,它是两个价格工夫序列的线性组合简略的策略:模拟策略 如果收盘价高于开盘价,则在第二天买入否则,在第二天卖出咱们心愿这个策略在什么时候能发挥作用? 如果有间断多日价格向同一方向挪动的状况每一天的方向与之前的变动不同,对该策略来说都是亏损的一天,所以这样的日子不应该有大的价格稳定。测试该策略 从当初开始,咱们将重复使用实用工具脚本 "utilities.R "中的函数。在这种状况下,咱们将应用。 getLogReturns(prices),从调整后的价格中计算出对数回报。getEquityLog(log_ret,pos),从对数收益和仓位向量中计算出股权曲线。实用功能getLogReturns <- function(prices) { # 返回调整后价格的对数收益 # 假如输出中存在调整后的价格列 log_ret <- ROC(Ad(prices),type='continuous') log_ret[1] <- 0 return(log_ret)}getEquityCurve <- function(returns,pos,type='log') { # 股票曲线的简略回报 if (type=='log') return(exp(cumsum(returns*pos)) - 1) else cat ('Type not supported','\n')}股票曲线  咱们应用滞后函数将工夫序列挪动一个地位,因而咱们应用前一天的价格来做决定 pos <- ifelse(Cl(prices)-Op(prices)>0,1,-1)pos <- Lag(pos)pos[1] <- 0正确的股票曲线 替换地位  留神到这个策略在所有四个股票上都体现不佳,但在其中三个股票上体现特地差。这表明对策略进行了显著的扭转:做齐全相同的事件,即替换多头和空头交易,如下所示 pos <- ifelse(Cl(prices)-Op(prices)>0,1,-1)切换式股票曲线 点击题目查阅往期内容 【视频】量化交易陷阱和R语言改良股票配对交易策略剖析中国股市投资组合 左右滑动查看更多 01 02 03 ...

March 30, 2023 · 2 min · jiezi

关于数据挖掘:MATLAB中的马尔可夫区制转移Markov-regime-switching模型附代码数据

全文链接:http://tecdat.cn/?p=17685最近咱们被客户要求撰写对于马尔可夫区制转移(Markov regime switching)模型的钻研报告,包含一些图形和统计输入。 咱们被要求在本周提供一个报告,该报告将联合金融统计,优化等数值办法分析师通常关怀检测市场何时“发生变化”:几个月或几年内市场的典型行为能够立刻转变为十分不同的行为。投资者心愿及时发现这些变动,以便能够相应地调整其策略,然而这可能很艰难。 让咱们思考一个简化的示例。牛市能够被定义股票市场广泛看涨且持续时间较长的市场。熊市对应于指连续工夫绝对较长的大跌并且有绝对较高的波动性。咱们能够应用随机数来近似这种行为:它将在牛市和熊市期间生成某些股票或指数的 每日收益(或价格变动),每期继续100天: bull1 = normrnd( 0.10, 0.15, 100, 1);bear = normrnd(-0.01, 0.20, 100, 1);bull2 = normrnd( 0.10, 0.15, 100, 1);returns = [bull1; bear; bull2];牛市期间的平均数为正(与增长绝对应),而熊市期间的平均数为负。还要留神,熊市(空头)比牛市更不稳固(稳定更大)。 因为咱们模仿了这些数据,所以咱们晓得它的行为形式。然而,投资者只是在这些市场产生时察看它们: plot(returns)xlabel('Day number')ylabel('Daily change in price') 因为数据的波动性,可能难以检测何时熊市产生:下面的图看起来十分像是一个随机过程,而不是相邻的牛市/熊市/牛市期间。 点击题目查阅往期内容 R语言如何做马尔可夫转换模型markov switching model 左右滑动查看更多 01 02 03 04 马尔可夫区制转移(Markov regime switching)模型旨在说明这些类型的问题。它将以上收益序列视为 由马尔可夫过程管制的 状态(区制)转移模型(MRS),以在状态之间进行转移。代码: indep = ones(size(returns)); %虚构解释变量k = 2; %咱们冀望有多少种状态:牛市与熊市S = [1 1]; % 多头和空头的均值和波幅均不同% 此处省略了一些屏幕输入 生成的图向咱们展现了几件事。首先,最下面的图确认了原本很难察看到的状态转移产生的工夫。两头的图表明在第100天到第200天之间波动性减少(标准偏差减少)。最重要的是,底部图分明地表明,市场别离在第100天和200天左右从多头转为空头(而后回落)。SpecOut变量蕴含无关预计参数的信息,这些参数形容了牛市和熊市以及管制两者之间转移的马尔可夫过程。 点击文末 “浏览原文” ...

March 30, 2023 · 1 min · jiezi

关于数据挖掘:视频文本挖掘主题模型LDA及R语言实现分析游记数据附代码数据

全文下载链接:http://tecdat.cn/?p=14997最近咱们被客户要求撰写对于文本开掘:主题模型的钻研报告,包含一些图形和统计输入。 在文本开掘中,咱们常常有文档汇合,例如博客文章或新闻文章,咱们心愿将它们分成天然组,以便咱们了解它们 主题建模是一种对此类文档进行分类的办法。在本视频中,咱们介绍了潜在狄利克雷调配LDA模型,并通过R软件应用于数据集来了解它。 什么是主题建模?主题建模是一种对文档进行无监督分类的办法,相似于对数字数据进行聚类。 一个文档能够是多个主题的一部分,有点像含糊聚类(或软聚类),其中每个数据点属于多个聚类。 简而言之,主题建模构想了一组固定的主题。每个主题代表一组单词。主题建模 的指标是以某种形式将所有文档映射到主题,这样每个文档中的单词大部分都被那些虚构的主题捕捉。 主题建模的工具和技术将文本分类或分类为每个主题的单词,这些是基于狄利克雷散布建模的。 什么是潜在狄利克雷调配? 潜在狄利克雷调配是一种无监督算法,它为每个文档为每个定义的主题调配一个值。 潜在是暗藏的另一个词(即无奈间接测量的特色),而狄利克雷是一种概率分布。 咱们要从数据中提取的主题也是“暗藏主题”。它还有待被发现。它的用处包含自然语言解决 (NLP)和主题建模等。 点击题目查阅往期内容 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 左右滑动查看更多 01 02 03 04 这种办法遵循与咱们人类类似的思维形式。这使得 潜在狄利克雷调配 更易于解释,并且是目前最风行的办法之一。不过,其中最辣手的局部是找出主题和迭代的最佳数量。 不要将潜在狄利克雷调配与潜在判别分析(也称为 LDA)相混同。潜在判别分析是一种有监督的降维技术,用于高维数据的分类或预处理。 为什么要进行主题建模? 主题建模提供了主动组织、了解、搜寻和总结大型电子档案的办法。 它能够帮忙解决以下问题: 发现珍藏中暗藏的主题。新闻提供者能够应用主题建模来疾速了解文章或对类似文章进行聚类。另一个乏味的利用是图像的无监督聚类,其中每个图像都被视为相似于文档。 将文档分类为发现的主题。历史学家能够应用 LDA通过剖析基于年份的文原本辨认归类为历史上的重要事件相干的主题。 应用分类来组织/总结/搜寻文档。基于 Web 的图书馆能够应用 LDA依据您过来的浏览内容举荐书籍。例如,假如一个文档属于主题 :食品、宠物狗和衰弱。因而,如果用户查问“狗粮”,他们可能会发现上述文档是相干的,因为它涵盖了这些主题(以及其余主题)。咱们甚至无需浏览整个文档就可能计算出它与查问的相关性。 因而,通过正文文档,基于建模办法预测的主题,咱们可能优化咱们的搜寻过程。 潜在狄利克雷调配及其过程 潜在狄利克雷调配是一种将句子映射到主题的技术。它依据咱们提供给它的主题提取某些主题集。在生成这些主题之前,LDA 执行了许多过程。 在利用该过程之前,咱们有肯定的规定或假如。 主题建模的 LDA 假如有两个: 首先,每个文档都是主题的混合体。咱们设想每个文档可能蕴含来自多个主题的特定比例的单词。例如,在双主题模型中,咱们能够说“文档 1 是20%的主题A和80%的主题B,而文档2是70% 的主题A和30%的主题B”。 其次,每个主题都是单词的混合。例如,咱们能够设想一个新闻的两个主题模型,一个主题是“政治”,一个主题是“娱乐”。政治话题中最常见的词可能是“主席”和“政府”,而娱乐话题可能由“电影”、“电视”和“演员”等词组成。重要的是,单词能够在主题之间共享;像“估算”这样的词可能会同时呈现在两者中。 LDA 是一种同时预计这两者的数学方法:找到与每个主题相关联的词的混合,同时确定形容每个文档的主题的混合。 并且,这些主题应用概率分布生成单词。在统计语言中,文档被称为主题的概率密度(或散布),而主题是单词的概率密度(或散布)。 主题自身就是词的概率分布。 这些是用户在利用 LDA 之前必须理解的假如。 LDA 是如何工作的? ...

March 30, 2023 · 1 min · jiezi

关于数据挖掘:数据分享R语言逻辑回归Naive-Bayes贝叶斯决策树随机森林算法预测心脏病附代码数据

全文链接:http://tecdat.cn/?p=23061最近咱们被客户要求撰写对于预测心脏病的钻研报告,包含一些图形和统计输入。 这个数据集能够追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"指标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病 数据集信息:指标:次要目标是预测给定的人是否有心脏病,借助于几个因素,如年龄、胆固醇程度、胸痛类型等。 咱们在这个问题上应用的算法是: 二元逻辑回归Naive Bayes算法决策树随机森林数据集的形容:该数据有303个察看值和14个变量。每个察看值都蕴含对于集体的以下信息。 年龄:- 集体的年龄,以年为单位sex:- 性别(1=男性;0=女性)cp - 胸痛类型(1=典型心绞痛;2=非典型心绞痛;3=非心绞痛;4=无症状)。trestbps--静息血压chol - 血清胆固醇,单位:mg/dlfbs - 空腹血糖程度>120 mg/dl(1=真;0=假)restecg - 静息心电图后果(0=失常;1=有ST-T;2=瘦小)thalach - 达到的最大心率exang - 静止诱发的心绞痛(1=是;0=否)oldpeak - 绝对于静止状态,静止诱发的ST压低slope - 静止时ST段峰值的斜率(1=上斜;2=平坦;3=下斜)ca - 次要血管的数量(0-4),由Flourosopy着色地中海贫血症--地中海贫血症是一种遗传性血液疾病,会影响身材产生血红蛋白和红细胞的能力。1=失常;2=固定缺点;3=可逆转缺点指标--预测属性--心脏疾病的诊断(血管造影疾病状态)(值0=<50%直径狭隘;值1=>50%直径狭隘)在Rstudio中加载数据 heart<-read.csv("heart.csv",header = T)header = T意味着给定的数据有本人的题目,或者换句话说,第一个观测值也被思考用于预测。 head(heart) 当咱们想查看和检查数据的前六个观察点时,咱们应用head函数。 tail(heart) 显示的是咱们数据中最初面的六个观察点 colSums(is.na(heart)) 这个函数是用来查看咱们的数据是否蕴含任何NA值。 如果没有发现NA,咱们就能够继续前进,否则咱们就必须在之前删除NA。 查看咱们的数据结构str(heart) 查看咱们的数据摘要 summary(heart) 通过观察以上的总结,咱们能够说以下几点 性别不是连续变量,因为依据咱们的形容,它能够是男性或女性。因而,咱们必须将性别这个变量名称从整数转换为因子。cp不能成为连续变量,因为它是胸痛的类型。因为它是胸痛的类型,咱们必须将变量cp转换为因子。fbs不能是连续变量或整数,因为它显示血糖程度是否低于120mg/dl。restecg是因子,因为它是心电图后果的类型。它不能是整数。所以,咱们要把它转换为因子和标签。依据数据集的形容,exang应该是因子。心绞痛产生或不产生。因而,将该变量转换为因子。斜率不能是整数,因为它是在心电图中察看到的斜率类型。因而,咱们将变量转换为因子。依据数据集的形容,ca不是整数。因而,咱们要将该变量转换为因子。thal不是整数,因为它是地中海贫血的类型。因而,咱们将变量转换为因子。指标是预测变量,通知咱们这个人是否有心脏病。因而,咱们将该变量转换为因子,并为其贴上标签。根据上述思考,咱们对变量做了一些变动 #例如sex<-as.factor(sex)levels(sex)<-c("Female","Male")查看上述变动是否执行胜利 str(heart) summary(heart) EDAEDA是探索性数据分析(Exploratory Data Analysis)的缩写,它是一种数据分析的办法/哲学,采纳各种技术(次要是图形技术)来深刻理解数据集。 对于图形示意,咱们须要库 "ggplot2" library(ggplot2)ggplot(heart,aes(x=age,fill=target,color=target)) + geom_histogram(binwidth = 1,color="black") + labs(x = "Age",y = "Frequency", title = "Heart Disease w.r.t. Age") 咱们能够得出结论,与60岁以上的人相比,40至60岁的人患心脏病的概率最高。 table <- table(cp)pie(table) 咱们能够得出结论,在所有类型的胸痛中,在集体身上察看到的大多数是典型的胸痛类型,而后是非心绞痛。 点击题目查阅往期内容 R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测 左右滑动查看更多 01 02 03 04 ...

March 30, 2023 · 1 min · jiezi

关于数据挖掘:R语言SVM支持向量机文本挖掘新闻语料情感情绪分类和词云可视化

全文链接:http://tecdat.cn/?p=32032原文出处:拓端数据部落公众号反对向量机(SVM)是一种机器学习办法,基于构造危险最小化准则,即通过大量样本数据,失去尽可能多的样本数据。反对向量机对线性问题进行解决,能解决非线性分类问题。本文介绍了R语言中的 SVM工具箱及其反对向量机(SVM)办法,并将其利用于文本情感剖析畛域,结果表明,该办法是无效的。在此基础上,对文本开掘新闻语料进行情感分类和词云可视化,从视觉上对文本进行情感剖析。 语料是从yahoo Qimo上爬的新闻语料,一共49000篇,每篇蕴含题目、新闻内容、评论、读者投票后果(投票抉择顺次为:实用,感人、开心、超扯、无聊、胆怯、惆怅、火大)以及总投票个数。 数据概览 以第一个意料为例对其分词提取关键词 library(jiebaR)cutter = worker(type = "keywords", topn = 10) words = "1.txt" 查看工作目录下所有的文件dir = list.files(".")获取分类号xx<-readLines(dir[i],encoding = "UTF-8")## Warning in readLines(dir[i], encoding = "UTF-8"): 读'1.txt'时最初一行得逞# xx<-readLines("2.txt",encoding = "UTF-8") class=strsplit(xx[length(xx)-1],split="#")[[1]][3]词性分类for(i in 1:10){ cutter = worker(type = "keywords", topn = 10)绘制词汇图mycolors <- brewer.pal(8,"Dark2")#设置一个色彩系:wordcloud(cutter_words,as.numeriter_words)),random.order=FAL 筹备训练集和测试集ntrain <- round(n*0.8) # 训练集 tindex <- sample(n,ntrain) # 筛选测试集样本 xtrain<-textdata[tindex,] xtest<-textdata[-tindex,]#可视化 plot(textdata[,c("classlist","X1")] ,pch=ifelse(istrain==1,1,2)) 训练SVM当初咱们在训练集上应用来训练线性SVM svm(classlist ~ . , textdata) 预测数据predictedY <- predict(model, textdata)预测的数据 ...

March 30, 2023 · 1 min · jiezi

关于数据挖掘:时间序列特征提取的Python和Pandas代码示例

应用Pandas和Python从工夫序列数据中提取有意义的特色,包含挪动均匀,自相干和傅里叶变换。 前言工夫序列剖析是了解和预测各个行业(如金融、经济、医疗保健等)趋势的弱小工具。特征提取是这一过程中的关键步骤,它波及将原始数据转换为有意义的特色,可用于训练模型进行预测和剖析。在本文中,咱们将摸索应用Python和Pandas的工夫序列特征提取技术。 在深入研究特征提取之前,让咱们简要回顾一下工夫序列数据。工夫序列数据是按工夫顺序索引的数据点序列。工夫序列数据的例子包含股票价格、温度测量和交通数据。工夫序列数据能够是单变量,也能够是多变量。单变量工夫序列数据只有一个变量,而多变量工夫序列数据有多个变量。 有各种各样的特征提取技术能够用于工夫序列剖析。在本文中,咱们将介绍以下技术: ResamplingMoving AverageExponential SmoothingAutocorrelationFourier Transform1、ResamplingResampling 重采样次要是扭转工夫序列数据的频率。这对于平滑噪声或将数据采样到较低的频率很有用。Pandas提供了resample()办法对工夫序列数据进行从新采样。resample()办法可用于对数据进行上采样或下采样。上面是一个如何将工夫序列降采样到每日频率的示例: importpandasaspd # create a time series with minute frequency ts=pd.Series([1, 2, 3, 4, 5], index=pd.date_range('2022-01-01', periods=5, freq='T')) # downsample to daily frequency daily_ts=ts.resample('D').sum() print(daily_ts)在下面的例子中,咱们创立了一个以分钟为频率的工夫序列,而后应用resample()办法将其采样到每天的频率。 2、Moving AverageMoving Average 挪动均匀是一种通过在滚动窗口上求平均值来平滑工夫序列数据的技术。能够帮忙去除噪声并失去数据的趋势。Pandas提供了rolling()办法来计算工夫序列的平均值。上面是一个如何计算工夫序列的平均值的例子: import pandas as pd # create a time series ts = pd.Series([1, 2, 3, 4, 5]) # calculate the rolling mean with a window size of 3 rolling_mean = ts.rolling(window=3).mean() print(rolling_mean)咱们创立了一个工夫序列,而后应用rolling()办法计算窗口大小为3的挪动平均值。 ...

March 30, 2023 · 1 min · jiezi

关于数据挖掘:数据分享R语言逻辑回归Naive-Bayes贝叶斯决策树随机森林算法预测心脏病附代码数据

全文链接:http://tecdat.cn/?p=23061最近咱们被客户要求撰写对于心脏病的钻研报告,包含一些图形和统计输入。 这个数据集能够追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"指标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病 数据集信息:指标:次要目标是预测给定的人是否有心脏病,借助于几个因素,如年龄、胆固醇程度、胸痛类型等。 咱们在这个问题上应用的算法是: 二元逻辑回归Naive Bayes算法决策树随机森林数据集的形容:该数据有303个察看值和14个变量。每个察看值都蕴含对于集体的以下信息。 年龄:- 集体的年龄,以年为单位sex:- 性别(1=男性;0=女性)cp - 胸痛类型(1=典型心绞痛;2=非典型心绞痛;3=非心绞痛;4=无症状)。trestbps--静息血压chol - 血清胆固醇,单位:mg/dlfbs - 空腹血糖程度>120 mg/dl(1=真;0=假)restecg - 静息心电图后果(0=失常;1=有ST-T;2=瘦小)thalach - 达到的最大心率exang - 静止诱发的心绞痛(1=是;0=否)oldpeak - 绝对于静止状态,静止诱发的ST压低slope - 静止时ST段峰值的斜率(1=上斜;2=平坦;3=下斜)ca - 次要血管的数量(0-4),由Flourosopy着色地中海贫血症--地中海贫血症是一种遗传性血液疾病,会影响身材产生血红蛋白和红细胞的能力。1=失常;2=固定缺点;3=可逆转缺点指标--预测属性--心脏疾病的诊断(血管造影疾病状态)(值0=<50%直径狭隘;值1=>50%直径狭隘)在Rstudio中加载数据 heart<-read.csv("heart.csv",header = T)header = T意味着给定的数据有本人的题目,或者换句话说,第一个观测值也被思考用于预测。 head(heart) 当咱们想查看和检查数据的前六个观察点时,咱们应用head函数。 tail(heart) 显示的是咱们数据中最初面的六个观察点 colSums(is.na(heart)) 这个函数是用来查看咱们的数据是否蕴含任何NA值。 如果没有发现NA,咱们就能够继续前进,否则咱们就必须在之前删除NA。 查看咱们的数据结构str(heart) 查看咱们的数据摘要 summary(heart) 通过观察以上的总结,咱们能够说以下几点 性别不是连续变量,因为依据咱们的形容,它能够是男性或女性。因而,咱们必须将性别这个变量名称从整数转换为因子。cp不能成为连续变量,因为它是胸痛的类型。因为它是胸痛的类型,咱们必须将变量cp转换为因子。fbs不能是连续变量或整数,因为它显示血糖程度是否低于120mg/dl。restecg是因子,因为它是心电图后果的类型。它不能是整数。所以,咱们要把它转换为因子和标签。依据数据集的形容,exang应该是因子。心绞痛产生或不产生。因而,将该变量转换为因子。斜率不能是整数,因为它是在心电图中察看到的斜率类型。因而,咱们将变量转换为因子。依据数据集的形容,ca不是整数。因而,咱们要将该变量转换为因子。thal不是整数,因为它是地中海贫血的类型。因而,咱们将变量转换为因子。指标是预测变量,通知咱们这个人是否有心脏病。因而,咱们将该变量转换为因子,并为其贴上标签。根据上述思考,咱们对变量做了一些变动 #例如sex<-as.factor(sex)levels(sex)<-c("Female","Male")查看上述变动是否执行胜利 str(heart) summary(heart) EDAEDA是探索性数据分析(Exploratory Data Analysis)的缩写,它是一种数据分析的办法/哲学,采纳各种技术(次要是图形技术)来深刻理解数据集。 对于图形示意,咱们须要库 "ggplot2" library(ggplot2)ggplot(heart,aes(x=age,fill=target,color=target)) + geom_histogram(binwidth = 1,color="black") + labs(x = "Age",y = "Frequency", title = "Heart Disease w.r.t. Age") 咱们能够得出结论,与60岁以上的人相比,40至60岁的人患心脏病的概率最高。 table <- table(cp)pie(table) 咱们能够得出结论,在所有类型的胸痛中,在集体身上察看到的大多数是典型的胸痛类型,而后是非心绞痛。 点击题目查阅往期内容 R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测 左右滑动查看更多 01 02 03 04 ...

March 29, 2023 · 1 min · jiezi

关于数据挖掘:MATLAB中的马尔可夫区制转移Markov-regime-switching模型附代码数据

全文链接:http://tecdat.cn/?p=17685最近咱们被客户要求撰写对于马尔可夫区制转移(Markov regime switching)模型的钻研报告,包含一些图形和统计输入。 咱们被要求在本周提供一个报告,该报告将联合金融统计,优化等数值办法 分析师通常关怀检测市场何时“发生变化”:几个月或几年内市场的典型行为能够立刻转变为十分不同的行为。投资者心愿及时发现这些变动,以便能够相应地调整其策略,然而这可能很艰难。 让咱们思考一个简化的示例。牛市能够被定义股票市场广泛看涨且持续时间较长的市场。熊市对应于指连续工夫绝对较长的大跌并且有绝对较高的波动性。咱们能够应用随机数来近似这种行为:它将在牛市和熊市期间生成某些股票或指数的 每日收益(或价格变动),每期继续100天: bull1 = normrnd( 0.10, 0.15, 100, 1);bear = normrnd(-0.01, 0.20, 100, 1);bull2 = normrnd( 0.10, 0.15, 100, 1);returns = [bull1; bear; bull2];牛市期间的平均数为正(与增长绝对应),而熊市期间的平均数为负。还要留神,熊市(空头)比牛市更不稳固(稳定更大)。 因为咱们模仿了这些数据,所以咱们晓得它的行为形式。然而,投资者只是在这些市场产生时察看它们: plot(returns)xlabel('Day number')ylabel('Daily change in price') 因为数据的波动性,可能难以检测何时熊市产生:下面的图看起来十分像是一个随机过程,而不是相邻的牛市/熊市/牛市期间。 点击题目查阅往期内容 R语言如何做马尔可夫转换模型markov switching model 左右滑动查看更多 01 02 03 04 马尔可夫区制转移(Markov regime switching)模型旨在说明这些类型的问题。它将以上收益序列视为 由马尔可夫过程管制的 状态(区制)转移模型(MRS),以在状态之间进行转移。代码: indep = ones(size(returns)); %虚构解释变量k = 2; %咱们冀望有多少种状态:牛市与熊市S = [1 1]; % 多头和空头的均值和波幅均不同% 此处省略了一些屏幕输入 生成的图向咱们展现了几件事。首先,最下面的图确认了原本很难察看到的状态转移产生的工夫。两头的图表明在第100天到第200天之间波动性减少(标准偏差减少)。最重要的是,底部图分明地表明,市场别离在第100天和200天左右从多头转为空头(而后回落)。SpecOut变量蕴含无关预计参数的信息,这些参数形容了牛市和熊市以及管制两者之间转移的马尔可夫过程。 ...

March 29, 2023 · 1 min · jiezi

关于数据挖掘:R语言分布滞后非线性模型DLNM研究发病率死亡率和空气污染示例附代码数据

全文下载链接:http://tecdat.cn/?p=21317最近咱们被客户要求撰写对于散布滞后非线性模型(DLNM)的钻研报告,包含一些图形和统计输入。 本文提供了运行散布滞后非线性模型的示例,同时形容了预测变量和后果之间的非线性和滞后效应,这种互相关系被定义为裸露-滞后-反馈关联 数据集蕴含1987-2000年期间每日死亡率(CVD、呼吸道),天气(温度,相对湿度)和净化数据(PM10和臭氧)。数据是由衰弱影响研究所资助的《国家发病率,死亡率和空气污染钻研》(NMMAPS)的一部分[Samet et al.,2000a,b]。 该钻研是对于随工夫变动的职业裸露与癌症之间的关系。该钻研包含250个危险集,每个危险集都有一个病例和一个对照,并与年龄相匹配。裸露数据以15岁至65岁之间的5岁年龄区间收集。 数据集药物蕴含模仿数据,来自一个假如的随机对照试验,对随工夫变动剂量的药物的影响。该钻研包含200名随机受试者,每人每天承受药物剂量,继续28天,每周都有变动。每隔7天报告一次。 DLNM办法在这里,我提供了一个简短的摘要来介绍概念和定义。 裸露-滞后-反馈关联DLNM的建模类用于形容关联,在该关联中,裸露和后果之间的依赖关系会在工夫上滞后。能够应用两个不同且互补的观点来形容此过程。咱们能够说,在工夫t处的裸露事件确定了在工夫t +l处的将来危险。应用后向视角,工夫t的危险由过来在工夫t-l经验的一系列危险确定。这里的l是滞后,示意裸露和测得的后果之间的滞后。 DLNM统计模型DLNM类提供了一个概念和剖析框架,用于形容和预计裸露-滞后-反馈关联。DLNM的统计倒退基于以下抉择:DLNM类为形容和预计裸露-滞后-反馈关联提供了一个概念和剖析框架。DLNM的统计倒退基于该抉择。 裸露-滞后-反馈关联的一个简略状况是,预测变量空间中的关系(即裸露-滞后关系)是线性的。能够通过DLM对这种类型的关系进行建模。在这种状况下,关联仅取决于滞后反馈函数,该函数模仿线性危险如何随滞后变动。滞后反馈函数的不同抉择(样条曲线,多项式,档次,阈值等)导致指定了不同的DLM,并暗示了滞后反馈关系的代替假如。 DLNM解释DLNM的后果能够通过应用3-D绘图提供沿两个维度变动的关联,通过为每个滞后和预测变量的拟合值构建预测网格来解释。 第一是与特定裸露值相关联的滞后反馈曲线,定义为预测变量特定性关联。这被解释为与工夫t危险相干的工夫t +l的危险奉献序列。 第二是与特定滞后值相关联的裸露-反馈曲线,该特定滞后值定义为滞后特定关联。这被解释为与在工夫t处产生的裸露值相关联的在工夫t +l处的裸露-反馈关系。 第三个也是最重要的是与在思考的滞后期内经验的整个裸露历史相干的裸露反馈曲线,定义为总体累积关联。应用正向视角,这被解释为示意工夫t产生的给定裸露期间[t,t+L]期间经验的净危险的裸露反馈关系。 工夫序列之外的利用散布滞后模型首先是在很久以前的计量经济工夫序列剖析中提出的[Almon,1965],而后在环境流行病学Schwartz [2000]的工夫序列数据中从新提出。DLNM的扩大是由Armstrong [2006]构想的。Gasparrini等人对工夫序列数据的建模框架进行了从新评估。[2010]。乏味的是,曾经在不同的钻研畛域中提出了这种裸露-滞后-反馈关联的模型。个别的想法是通过特定函数加权过来的裸露,这些函数的参数由数据估算。在癌症流行病学[Hauptmann等,2000;Langholz等,1999;Richardson,2009;Thomas,1983;Vacek,1997]和药物流行病学[Abrahamowicz等]中,阐明了相似于DLM的线性-裸露-反馈关系模型。 根本函数指定规范裸露反馈和滞后反馈关系的根本函数,例如多项式,分层或阈值函数。例如,样条线由举荐的包样条线中蕴含的函数ns()和bs()指定。多项式是通过函数poly()取得的。这是一个简略向量的转换示例: poly(1:5,degree=3)1 2 3[1,] 0.2 0.04 0.008[2,] 0.4 0.16 0.064[3,] 0.6 0.36 0.216[4,] 0.8 0.64 0.512[5,] 1.0 1.00 1.000attr(,"degree")[1] 3attr(,"scale")[1] 5attr(,"intercept")[1] FALSEattr(,"class")[1] "poly" "matrix"第一个未命名的参数x指定要转换的向量,而参数度设置多项式的度。定义分层函数是通过strata()指定的。 strata(1:5,breaks=c(2,4))[,]1 2[1,] 0 0[2,] 1 0[3,] 1 0[4,] 0 1[5,] 0 1后果是带有附加类别“层”的根底矩阵。转换是定义比照的虚构参数化。参数break定义了层的右凋谢区间的下边界。 阈值函数通过thr()指定。一个例子: thr(1:5,thr.value=3,side="d")[,]1 2[1,] 2 0[2,] 1 0[3,] 0 0[4,] 0 1[5,] 0 2后果是具备附加类别“ thr”的根底矩阵。参数thr.value定义一个带有一个或两个阈值的向量,而side用于指定高(“ h”,默认值),低(“ l”)或双精度(“ d”)阈值参数化。 ...

March 29, 2023 · 2 min · jiezi

关于数据挖掘:汽车经销商客户流失预警逻辑回归LRLASSO逐步回归

全文链接:http://tecdat.cn/?p=32016原文出处:拓端数据部落公众号分析师:Shufang Wei随着社会经济的疾速倒退和交通基础设施的不断完善,我国汽车市场也失去了迅速增长。 与之配套的汽车售后服务市场成为宏大的黄金市场,发展潜力惊人。 在售后服务市场中,汽车 4S 店以其品牌优势,残缺和标准的服务零碎以及多种多样的增值服务受到消费者的青眼。但汽车售后市场纷繁复杂, 汽车 4S 店仍 要面对竞争品牌对保有客户的强烈抢夺,还有汽车维 修团体、甚至一些小型的汽车培修店对市场的鲸吞。 而忠诚度越来越低的客户,也让汽车4S 店感到束手无 策。 因而客户散失预警正成为汽车4S店售后服务畛域 的一个重要钻研问题。 解决方案工作/指标通过客户历史回厂培修车辆信息对客户是否散失进行预警,帮忙汽车经销商建设散失预警得分机制,以此对不同得分的客户采取针对性的措施。 数据源筹备此次剖析的原始数据分为训练集和测试集,包含客户根底信息数据和客户回厂明细数据, 客户根底信息数据中为客户的个人信息,即客户特色,蕴含雷同的 11个分类特色、 4 个间断特色和 1 个字符特色,共16 个变量。训练集中有 51075 个样本,测试有 10122个样本;客户回厂明细中包含客户在各记录回厂的具体信息,数据共蕴含从 2011 年到 2018 年 9 月份客户回厂信息。 特色转换客户年龄和流失率: 能够看出客户随年龄增大,呈现出流失率回升的状况。 为尽量保留连续型变量其独有特色,仅对其做标准化(取对数)解决,升高连续变量量纲的影响。 车价和贷款金额: 都是对于价格的形容,将贷款金额转变为贷款比例,其信息量并无缺失,同时升高了量纲的影响。 分类型变量: 对每一个类别都独自提出作为一个新的虚构变量。例如:对于“车型 1”,“车型 2”和“缺失”就分为“是否车型 1”,“是否车型 2”和“是否缺失” , 即对一个 N 分类变量划分为 N 个 2 分类变。以上例举的只是局部特色。 最终失去得变量共 56 类,而后依据变量分组样本量和 IV 将变量“车主性质”(BUYERPART)和顾客 ID 给剔除,残余 54 个变量(53个自变量)。 结构以上阐明了如何抽取相干特色,咱们大抵有如下训练样本(只列举局部特色)。 建模逻辑回归(LR)逻辑回归是在线性回归的根底上, 套用一个逻辑函数,以预计某种事物的可能性, 可用于解决分类问题。 模型优化1.上线之前的优化: 变量筛选。 ...

March 29, 2023 · 1 min · jiezi

关于数据挖掘:专题2022年中国企业ESG战略与实践白皮书报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32028原文出处:拓端数据公众号以后,随着气候变化、新冠疫情和地缘政治等重大突发事件的冲击,公司所处的宏观环境面临着越来越多的不确定性。在中国,随同着“双碳”指标的施行和“共同富裕”的施行,我国的经济增长形式正在转向一种新的、同时也是一种生态与福利并重的增长形式。在这种状况下, ESG成为了许多公司关注的焦点,也是许多公司关注的焦点。 ESG是一种综合思考经济效益、环境与社会效应、公司治理效应等因素,以可继续倒退为外围的一种企业评估零碎。从财务业绩指标到 ESG指标的变动,其背地的起因是由股东的角度到利益相关者的角度的变动,这是一种商业文化的巨大变化。在公司规模和盈利曾经不能再作为掂量公司优劣的惟一规范的时候,怎样才能让各方面都称心,怎样才能将公司的经营策略与 ESG策略进行有机地联合起来,就变成了一个须要企业庄重地答复的问题。 企业实际ESG最大的艰难在调查过程中,咱们发现很多被考察的公司在 ESG与其经营的关系、如何施行、在其本身的定位等问题上存在着较大的问题,同时也存在着较大的问题。 第一,目前公司对 ESG的含意及重要性还没有造成统一的意识:尽管公司的高管及普通员工对 ESG有了肯定的理解,但对其含意并没有一个明确的意识,因此也就难以进行深刻的探讨。在企业的治理阶层中,对于环境保护的重要性始终有争执。所以,在企业中,尤其是在企业中,进步对环境保护的意识,进步环境保护意识,是企业进行环境保护工作的根底。而高层管理者的 ESG关注程度通常会影响到其关注的最高程度,因而,高层管理者的深度参加是保障 ESG策略顺利施行的要害。 第二,ESG与公司经营环境的分割还没有理顺,公司的经营策略和ESG还没有联合在一起。在承受考察的公司中,大概有30%的人置信环境治理环境意味着公司的盈利将受到影响。一些承受考察的公司示意,在推广环境治理的时候,最大的艰难就是如何兼顾财务与非财务的关系。如何协调好所有人的利益,使公司的盈利和可继续倒退达到一个平衡点,并不是一件容易的事件。只管这一矛盾在短期内依然非常明显,但少数被考察公司认为,从中长期来看, ESG将会与公司的经营流动相结合,而不会与公司的利益发生冲突。 本专题内的参考报告(PDF)目录Morketing研究院:ESG案例白皮书2022 报告2023-03-24猎聘:绿色金融及ESG人才趋势报告 报告2023-03-23腾讯研究院:2023新型城市竞争力策略钻研白皮书-ESG引领下的西部城... 报告2023-03-12商道纵横:畜牧业ESG绩效榜单暨治理晋升手册(2022年版) 报告2023-03-08商道纵横:有色金属采选及加工行业ESG绩效榜单暨治理晋升手册(2022... 报告2023-03-07Meta&艾华迪:2023年ESG环境社会治理策略白皮书 报告2023-03-05Meta:ESG环境社会治理策略白皮书(2023) 报告2023-03-03仲量联行:中国房地产开发企业ESG体现报告 报告2023-03-01财新智库:2022中国ESG倒退白皮书 报告2023-02-25中国绿金委:2022年ESG及绿色金融停顿与趋势 报告2023-02-12商道纵横:房地产行业ESG绩效榜暨治理晋升手册(2022年版) 报告2023-02-05中国信通院:互联网行业社会责任ESG信息披露察看报告(2022年) 报告2023-01-30妙盈研究院:代表绿色的新能源车是否是名正言顺的ESG领导者? 报告2023-01-27第一财经研究院:2022中国A股公司ESG评级剖析报告 报告2023-01-17富达国内:2022年可继续倒退(ESG)投资白皮书 报告2023-01-14CCDC&ICMA:中国ESG实际白皮书 ——基于发债企业和上市公司的... 报告2023-01-12中国信通院:互联网行业社会责任、ESG信息披露察看报告(2022年) 报告2023-01-09头豹:2022年中国二手手机行业概览-ESG实际-重塑循环经济 报告2022-12-27第一财经研究院:2022中国A股公司ESG评级剖析报告:基于1267家... 报告2022-12-09BCG:2022年寰球ESG合规与危险报告(英文版) 报告2022-12-06安永:ESG热潮下险资投资新挑战 报告2022-12-04德勤:放眼当下、造福将来:ESG助力企业在投后整合中开释价值 报告2022-12-03安永:ESG热潮下险资投资新挑战 报告2022-11-17毕马威:打消金融业ESG数据的割裂(第二局部) 报告2022-10-29BCG:中国ESG投资报告2.0 笃行不怠,崭露矛头 报告2022-10-27艺恩数据:ESG营销舆情趋势洞察 报告2022-10-23财新智库:2022中国信托业的ESG倒退之路 报告2022-10-21BCG:新数据显示私募股权如何与ESG叠加(英文版) 报告2022-10-18财新智库:中国信托业的ESG倒退之路(2022) 报告2022-10-03仲量联行:ESG对中国物流地产的影响:绿色仓储,共赢将来 报告2022-09-29头豹:2022年ESG指标系列-环境指标解析与企业案例(摘要版) 报告2022-09-22安永:科技企业ESG策略与口头大纲钻研报告 报告2022-09-05商道纵横:中国企业境外投资ESG信息披露指南(2022) 报告2022-09-04埃森哲:中国高科技与互联网企业ESG实际钻研 报告2022-09-04商道纵横:中国企业境外投资ESG信息披露指南(2022) 报告2022-08-31贝恩:中国企业ESG策略与实际白皮书:放眼久远,激发价值 报告2022-08-27粤开证券:ESG投资系列-双碳指标下投资机会瞻望 报告2022-08-13头豹:2022年中国企业ESG案例剖析(三):能源企业篇 报告2022-07-25头豹:2022年中国企业ESG案例剖析(三)-能源企业篇 报告2022-07-22中欧商学院:2022 ESG白皮书 报告2022-07-06联易融:2021年度ESG报告 报告2022-06-29网商银行:2021年可继续倒退报告(ESG) 报告2022-06-29安永:中国房地产行业2021年业绩概览及ESG倒退时机 报告2022-06-26京东物流:2021环境、社会及治理(ESG)报告(53页) 报告2022-06-02灼鼎征询:2022年ESG倒退白皮书 报告2022-05-26证券时报:中国ESG倒退白皮书(2021) 报告2022-04-22德勤:发明可继续价值:房地产与环境、社会及管治(ESG) 报告2022-04-20头豹:2022年中国ESG信息披露现状剖析与将来瞻望 报告2022-04-12普华永道:不容有“失” - 许多企业都将受到欧洲环境、社会和治理(ES... 报告2022-03-25毕马威:打消金融业ESG数据的割裂 报告2022-03-23艾瑞征询:2021年财经新媒体营销价值系列报告之ESG 报告2022-03-17证券时报&易懂:A股公司ESG问卷调查报告 报告2022-03-15仲量联行:开释ESG后劲:摸索ESG与企业估值的关系 报告2022-02-17华夏基金:2021中国ESG倒退翻新白皮书 报告2022-01-04北京绿色金融与可继续倒退研究院:银行ESG实际案例及倒退倡议 报告2021-12-19零壹智库:寰球ESG投资解读:历史变迁、规模趋势与评级体系-20211... 报告2021-12-15德勤:ESG 并购投资:引领价值逻辑改革新航向 报告2021-12-03毕马威:保险业ESG重大行业趋势 报告2021-11-08毕马威:环境、社会与治理(ESG):新一届政府的事不宜迟 报告2021-05-18普华永道:ESG报告:助力中国腾飞聚势共赢 报告2021-04-06

March 29, 2023 · 1 min · jiezi

关于数据挖掘:R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风附代码数据

原文链接:http://tecdat.cn/?p=9195最近咱们被客户要求撰写对于逻辑回归的钻研报告,包含一些图形和统计输入。 行为危险因素监视系统(BRFSS)是美国的年度电话考察。BRFSS旨在辨认成年人口中的危险因素并报告新兴趋势 加载包library(ggplot2)载入材料load("brfss2013.RData")第1局部:对于数据例如,询问受访者饮食和每周的体育锻炼,艾滋病毒/艾滋病情况,可能的烟草应用,免疫接种,健康状况,衰弱天数-与衰弱相干的生存品质,取得医疗保健,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜生产,关节炎累赘和安全带应用。 数据采集:数据收集过程在brfss_codebook中进行了阐明。通过进行座机电话考察和基于蜂窝电话的考察,从美国所有50个州,哥伦比亚特区,波多黎各,关岛和美属萨摩亚,密克罗尼西亚联邦和帕劳收集了数据。固定电话样本已应用了不成比例的分层抽样(DSS),并且随机抉择了蜂窝电话受访者,每个受访者具备雷同的抉择概率。咱们正在解决的数据集蕴含330个变量,2013年共进行491、775次观测。缺失值用“ NA”示意。 推广性:样本数据应使咱们可能推广到感兴趣的人群。它是对491,775名18岁以上美国成年人的考察。它基于大量分层的随机样本。潜在偏见与无回应,不残缺的访谈,价值观缺失和便当偏见无关。 因果关系:BRFSS是一项察看钻研,只能建设变量之间的相关性/关联性,因而无奈建设因果关系。 第2局部:钻研问题钻研问题1:在过来30天内,身心健康状况不佳的天数散布是否因性别而异? 钻研问题2:受访者承受采访的月份与受访者自我报告的衰弱感知之间是否存在关联? 钻研问题3:支出和医疗保险之间有关联吗? 钻研问题4:吸烟,饮酒,胆固醇,血压,体重和中风之间是否有任何关系?最终,我想看看是否能够通过上述变量预测中风。 第3局部:探索性数据分析钻研问题1:ggplot(aes(x=physhlth, fill=sex), data = brfss2013[ ! is.na(brfss2013 $ sex), ]) + geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Physical Health not Good in the Past 30 Days')   点击题目查阅往期内容 R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集 左右滑动查看更多 01 02 03 04 ggplot(aes(x=menthlth, fill=sex), data=brfss2013[ ! is.na(brfss2013 $ sex), ]) + geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Mental Health not Good in the Past 30 Days') ...

March 28, 2023 · 3 min · jiezi

关于数据挖掘:R语言泰坦尼克号随机森林模型案例数据分析附代码数据

原文链接:http://tecdat.cn/?p=4281最近咱们被客户要求撰写对于随机森林模型的钻研报告,包含一些图形和统计输入。 如果咱们对所有这些模型的后果进行均匀,咱们有时能够从它们的组合中找到比任何单个局部更好的模型。这就是集成模型的工作形式 让咱们构建一个由三个简略决策树组成的十分小的汇合来阐明: 这些树中的每一个都依据不同的变量做出分类决策。 随机森林模型比下面的决策树更深地成长树木,实际上默认是尽可能地将每棵树成长进去。随机森林以两种形式做到这一点。 第一个技巧是应用套袋。Bagging会对您的训练集中的行进行随机抽样。应用样本函数很容易在R中进行模仿。假如咱们想在10行的训练集上进行装袋。 > sample(1:10, replace = TRUE)[1] 3 1 9 1 7 10 10 2 2 9在此模仿中,如果再次运行此命令,则每次都会取得不同的行样本。均匀而言,大概37%的即将被排除在自举样本之外。通过这些反复和省略的行,每个应用装袋成长的决策树将略有不同。 第二个随机起源超过了这个限度。随机森林不是查看整个可用变量池,而是仅采纳它们的一部分,通常是可用数量的平方根。在咱们的例子中,咱们有10个变量,因而应用三个变量的子集是正当的。 通过这两个随机性起源,整体蕴含一系列齐全独特的树木,这些树木的分类都不同。与咱们的简略示例一样,每个树都被调用以对给定乘客进行分类,对投票进行统计(可能有数百或数千棵树)并且抉择少数决策。 R的随机森林算法对咱们的决策树没有一些限度。咱们必须清理数据集中的缺失值。rpart它有一个很大的长处,它能够在遇到一个NA值时应用代替变量。在咱们的数据集中,短少很多年龄值。如果咱们的任何决策树按年龄宰割,那么树将搜寻另一个以与年龄类似的形式宰割的变量,并应用它们代替。随机森林无奈做到这一点,因而咱们须要找到一种手动替换这些值的办法。 看一下合并后的数据框的年龄变量: > summary(combi$Age)Min. 1st Qu. Median Mean 3rd Qu. Max. NA's0.17 21.00 28.00 29.88 39.00 80.00 2631309个中有263个值失落了,这个数字高达20%!此子集是否短少值。咱们当初也想应用method="anova"决策树的版本,因为咱们不是要再预测某个类别,而是连续变量。因而,让咱们应用可用的年龄值在数据子集上生成一个树,而后替换短少的那些样本: > combi$Age[is.na(combi$Age)] <- predict(Agefit, combi[is.na(combi$Age),])您能够持续查看摘要,所有这些NA值都隐没了。 当初让咱们看看整个数据集的摘要,看看是否还有其余咱们以前没有留神到的问题变量: > summary(combi)  > summary(combi$Embarked)C Q S2 270 123 914两名乘客的空白。首先,咱们须要找出他们是谁!咱们能够which用于此: > which(combi$Embarked == '')[1] 62 830而后咱们简略地替换这两个,并将其编码为一个因素: > combi$Embarked <- factor(combi$Embarked)另一个变量是Fare,让咱们来看看: > summary(combi$Fare)Min. 1st Qu. Median Mean 3rd Qu. Max. NA's0.000 7.896 14.450 33.300 31.280 512.300 1它只有一个乘客NA,所以让咱们找出它是哪一个并用中位数票价取而代之: ...

March 28, 2023 · 2 min · jiezi

关于数据挖掘:PYTHON用户流失数据挖掘建立逻辑回归XGBOOST随机森林决策树支持向量机朴素贝叶斯附代码数据

原文链接:http://tecdat.cn/?p=24346最近咱们被客户要求撰写对于用户散失数据挖掘的钻研报告,包含一些图形和统计输入。 在明天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的抢夺上 “用户就是上帝”促使泛滥的企业不惜代价去抢夺尽可能多的客户。然而企业在不惜代价倒退新用户的过程中,往往会漠视或无暇顾及已有客户的散失状况,后果就导致呈现这样一种窘况:一边是新客户在源源不断地减少,而另一方面是辛辛苦苦找来的客户却在悄然无声地散失。因而对老用户的散失进行数据分析从而挖掘出重要信息帮忙企业决策者采取措施来缩小用户散失的事件至关重要,火烧眉毛。 1.2 目标:深刻理解用户画像及行为偏好,挖掘出影响用户散失的关键因素,并通过算法预测客户拜访的转化后果,从而更好地欠缺产品设计、晋升用户体验。 1.3 数据阐明:此次数据是携程用户一周的拜访数据,为爱护客户隐衷,曾经将数据通过了脱敏,和理论商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。 2 读取数据 # 显示全副特色df.head()  3 切分数据# 划分训练集,测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)3.1 了解数据能够看到变量比拟的多,先进行分类,除去指标变量label,此数据集的字段能够分成三个类别:订单相干指标、客户行为相干指标、酒店相干指标。 4 特色工程 # 用训练集进行数据摸索train = pd.concat([X_train,y_train],axis=1) 4.1 数据预处理 4.1.1 删除不必要的列X_train.pop("sampleid")X_test.pop("sampleid")train.pop("sampleid") 4.1.2 数据类型转换字符串类型的特色须要解决成数值型能力建模,将arrival和d相减失去"提前预约的天数",作为新的特色 # 减少列# 将两个日期变量由字符串转换为日期格局类型train["arrial"] = pd.to_datimetain["arrval"])X_tst["arival"] = d.to_daetime(X_est["arival"])# 生成提前预约工夫列(衍生变量)X_trin["day_adanced"] = (X_rain["arival"]-Xtrain["d"]).dt.days## 删除列X_tran.dro(columns="d","arrivl"],inpace=True)4.1.3 缺失值的变量生成一个批示哑变量 zsl = tain.isnll().sum()[tain.isnll(.sum()!=0].inex4.1.4 依据业务教训填补空缺值 ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充 一年内间隔上次下单时长,ordercanncelednum 用0填充 用户一年内勾销订单数,ordercanceledprecent 用0t填充 用户一年内勾销订 单率 242114 242114 -为空 有2种状况 1:新用户未下订单的空-88.42% 214097 2.老用户1年以上未生产的空 减少编码列未下订单新用户和 1年未下订单的老用户 price\_sensitive -0 ,中位数填充 价格敏感指数,consuming\_capacity -0 中位数填充 生产能力指数 226108 -为空状况 1.从未下过单的新用户214097 2.12011集体为空起因暂不明确 uv\_pre -24小时历史浏览次数最多酒店历史uv. cr\_pre -0,中位数填充 -24小时历史浏览次数最多酒店历史cr -0,中位数填充 29397 -为空 1.用户当天未登录APP 28633 2.刚上线的新酒店178 586 无uv,cr记录 编码增加 该APP刚上线的新酒店 764 29397 customereval_pre2 用0填充-24小时历史浏览酒店客户评分均值, landhalfhours -24小时内登陆时长 -用0填充28633 -为空:用户当天未登录APP 28633 hotelcr ,hoteluv -中位数填充 797 ...

March 28, 2023 · 2 min · jiezi

关于数据挖掘:ARMAGARCHCOPULA模型和金融时间序列案例附代码数据

原文链接: http://tecdat.cn/?p=3385最近咱们被客户要求撰写对于ARMA-GARCH-COPULA的钻研报告,包含一些图形和统计输入。 最近我被要求撰写对于金融工夫序列的copulas的考察 从读取数据中取得各种模型的形容,包含一些图形和统计输入。 > oil = read.xlsx(temp,sheetName =“DATA”,dec =“,”)而后咱们能够绘制这三个工夫序列 1 1997-01-10 2.73672 2.25465 3.3673 1.54002 1997-01-17 -3.40326 -6.01433 -3.8249 -4.10763 1997-01-24 -4.09531 -1.43076 -6.6375 -4.61664 1997-01-31 -0.65789 0.34873 0.7326 -1.51225 1997-02-07 -3.14293 -1.97765 -0.7326 -1.87986 1997-02-14 -5.60321 -7.84534 -7.6372 -11.0549 这个想法是在这里应用一些多变量ARMA-GARCH过程。这里的启发式是第一局部用于模仿工夫序列平均值的动静,第二局部用于模仿工夫序列方差的动静。 本文思考了两种模型 对于ARMA模型残差的多变量GARCH过程(或方差矩阵动力学模型)对于ARMA-GARCH过程残差的多变量模型(基于copula)因而,这里将思考不同的序列,作为不同模型的残差取得。咱们还能够将这些残差标准化。 ARMA模型 > fit1 = arima(x = dat [,1],order = c(2,0,1))> fit2 = arima(x = dat [,2],order = c(1,0,1))> fit3 = arima(x = dat [,3],order = c(1,0,1))> m < - apply(dat_arma,2,mean)> v < - apply(dat_arma,2,var)> dat_arma_std < - t((t(dat_arma)-m)/ sqrt(v))ARMA-GARCH模型 > fit1 = garchFit(formula = ~arma(2,1)+ garch(1,1),data = dat [,1],cond.dist =“std”)> fit2 = garchFit(formula = ~arma(1,1)+ garch(1,1),data = dat [,2],cond.dist =“std”)> fit3 = garchFit(formula = ~arma(1,1)+ garch(1,1),data = dat [,3],cond.dist =“std”)> m_res < - apply(dat_res,2,mean)> v_res < - apply(dat_res,2,var)> dat_res_std = cbind((dat_res [,1] -m_res [1])/ sqrt(v_res [1]),(dat_res [,2] -m_res [2])/ sqrt(v_res [2]),(dat_res [ ,3] -m_res [3])/ SQRT(v_res [3]))多变量GARCH模型能够思考的第一个模型是协方差矩阵的多变量EWMA, > ewma = EWMAvol(dat_res_std,lambda = 0.96)波动性 > emwa_series_vol = function(i = 1){+ lines(Time,dat_arma [,i] + 40,col =“gray”)+ j = 1+ if(i == 2)j = 5+ if(i == 3)j = 9 点击题目查阅往期内容 R语言基于ARMA-GARCH过程的VaR拟合和预测 左右滑动查看更多 01 02 03 04 隐含相关性 > emwa_series_cor = function(i = 1,j = 2){+ if((min(i,j)== 1)&(max(i,j)== 2)){+ a = 1; B = 9; AB = 3}+ r = ewma $ Sigma.t [,ab] / sqrt(ewma $ Sigma.t [,a] *+ ewma $ Sigma.t [,b])+ plot(Time,r,type =“l”,ylim = c(0,1))+} 多变量GARCH,即BEKK(1,1)模型,例如应用: > bekk = BEKK11(dat_arma)> bekk_series_vol function(i = 1){+ plot(Time, $ Sigma.t [,1],type =“l”,+ ylab = (dat)[i],col =“white”,ylim = c(0,80))+ lines(Time,dat_arma [,i] + 40,col =“gray”)+ j = 1+ if(i == 2)j = 5+ if(i == 3)j = 9> bekk_series_cor = function(i = 1,j = 2){+ a = 1; B = 5; AB = 2}+ a = 1; B = 9; AB = 3}+ a = 5; B = 9; AB = 6}+ r = bk $ Sigma.t [,ab] / sqrt(bk $ Sigma.t [,a] *+ bk $ Sigma.t [,b]) 从单变量GARCH模型中模仿残差第一步可能是思考残差的一些动态(联结)散布。单变量边缘散布是 边缘密度的轮廓(应用双变量核预计器取得)  也能够将copula密度可视化(下面有一些非参数估计,上面是参数copula) > copula_NP = function(i = 1,j = 2){+ n = nrow(uv)+ s = 0.3+ norm.cop < - normalCopula(0.5)+ norm.cop < - normalCopula(fitCopula(norm.cop,uv)@estimate)+ dc = function(x,y)dCopula(cbind(x,y),norm.cop)+ ylab = names(dat)[j],zlab =“copule Gaussienne”,ticktype =“detailed”,zlim = zl)++ t.cop < - tCopula(0.5,df = 3)+ t.cop < - tCopula(t.fit [1],df = t.fit [2])+ ylab = names(dat)[j],zlab =“copule de Student”,ticktype =“detailed”,zlim = zl)+} 能够思考这个函数, 计算三个序列的的教训版本,并将其与一些参数版本进行比拟, >> lambda = function(C){+ l = function(u)pcopula(C,cbind(u,u))/ u+ v = Vectorize(l)(u)+ return(c(v,rev(v)))+}>> graph_lambda = function(i,j){+ X = dat_res+ U = rank(X [,i])/(nrow(X)+1)+ V = rank(X [,j])/(nrow(X)+1)+ normal.cop < - normalCopula(.5,dim = 2)+ t.cop < - tCopula(.5,dim = 2,df = 3)+ fit1 = fitCopula(normal.cop,cbind(U,V),method =“ml”)d(U,V),method =“ml”)+ C1 = normalCopula(fit1 @ copula @ parameters,dim = 2)+ C2 = tCopula(fit2 @ copula @ parameters [1],dim = 2,df = trunc(fit2 @ copula @ parameters [2]))+ 但人们可能想晓得相关性是否随工夫稳固。 > time_varying_correl_2 = function(i = 1,j = 2,+ nom_arg =“Pearson”){+ uv = dat_arma [,c(i,j)]nom_arg))[1,2]+}> time_varying_correl_2(1,2)> time_varying_correl_2(1,2,“spearman”)> time_varying_correl_2(1,2,“kendall”) 斯皮尔曼与时变排名相关系数 或肯德尔 相关系数 为了模型的相关性,思考DCC模型(S) > m2 = dccFit(dat_res_std)> m3 = dccFit(dat_res_std,type =“Engle”)> R2 = m2 $ rho.t> R3 = m3 $ rho.t 要取得一些预测, 应用例如 > garch11.spec = ugarchspec(mean.model = list(armaOrder = c(2,1)),variance.model = list(garchOrder = c(1,1),model =“GARCH”))> dcc.garch11.spec = dccspec(uspec = multispec(replicate(3,garch11.spec)),dccOrder = c(1,1),distribution =“mvnorm”)> dcc.fit = dccfit(dcc.garch11.spec,data = dat)> fcst = dccforecast(dcc.fit,n.ahead = 200) 本文摘选 《 R语言ARMA-GARCH-COPULA模型和金融工夫序列案例 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 工夫序列剖析:ARIMA GARCH模型剖析股票价格数据 GJR-GARCH和GARCH稳定率预测普尔指数工夫序列和Mincer Zarnowitz回归、DM测验、JB测验 【视频】工夫序列剖析:ARIMA-ARCH / GARCH模型剖析股票价格 工夫序列GARCH模型剖析股市稳定率 PYTHON用GARCH、离散随机稳定率模型DSV模仿预计股票收益工夫序列与蒙特卡洛可视化 极值实践 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测危险测度剖析 Garch稳定率预测的区制转移交易策略 金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言危险价值:ARIMA,GARCH,Delta-normal法滚动预计VaR(Value at Risk)和回测剖析股票数据 R语言GARCH建模罕用软件包比拟、拟合规范普尔SP 500指数稳定率工夫序列和预测可视化 Python金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 MATLAB用GARCH模型对股票市场收益率工夫序列稳定的拟合与预测R语言GARCH-DCC模型和DCC(MVT)建模预计 Python 用ARIMA、GARCH模型预测剖析股票市场收益率工夫序列 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言ARIMA-GARCH稳定率模型预测股票市场苹果公司日收益率工夫序列 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 R语言工夫序列GARCH模型剖析股市稳定率 R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 应用R语言对S&P500股票指数进行ARIMA + GARCH交易策略 R语言用多元ARMA,GARCH ,EWMA, ETS,随机稳定率SV模型对金融工夫序列数据建模 R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性剖析 R语言多元Copula GARCH 模型工夫序列预测 R语言应用多元AR-GARCH模型掂量市场危险 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言用Garch模型和回归模型对股票价格剖析 GARCH(1,1),MA以及历史模拟法的VaR比拟 matlab预计arma garch 条件均值和方差模型R语言POT超阈值模型和极值实践EVT剖析 ...

March 28, 2023 · 1 min · jiezi

关于数据挖掘:R语言Kmeans聚类PAMDBSCANAGNESFDPPSO粒子群聚类分析iris数据结果可视化比较

全文链接:http://tecdat.cn/?p=32007原文出处:拓端数据部落公众号本文以iris数据和模仿数据为例,帮忙客户了比拟R语言Kmeans聚类算法、PAM聚类算法、 DBSCAN聚类算法、 AGNES聚类算法、 FDP聚类算法、 PSO粒子群聚类算法在 iris数据后果可视化剖析中的优缺点。后果:聚类算法的聚类后果在直观上无显著差别,但在利用上有不同的侧重点。在 钻研中,不能仅仅依附传统的统计办法来进行聚类分析,而应该采纳多种数据挖掘伎俩相结合,综合利用各种办法的劣势,剖析不同的数据集,从中找到适宜本人钻研须要的聚类分析办法。 查看数据head(y)##           y 1      y 2      y 3      y 4      y 5      y 6      y 7 ## [1,] 2.386422 1.528006 2.013216 1.522790 2.530115 2.127977 2.654109 ## [2,] 1.740713 2.013977 2.322683 1.956941 1.799946 2.298104 2.146921 ## [3,] 2.072196 2.129213 2.087725 2.146289 2.213800 2.459264 2.319424 ## [4,] 2.418096 1.852121 1.668246 2.418176 2.513029 2.048056 1.996828 ## [5,] 1.485875 2.072700 1.921772 1.645422 1.655471 1.840675 2.368683 ## [6,] 2.111412 1.868223 2.022289 2.310057 1.716986 2.031257 2.069675 ##           y 8      y 9     y 10 ## [1,] 1.964454 2.050723 1.755493 ## [2,] 2.255674 1.836552 2.432906 ## [3,] 1.859537 1.527330 2.227598 ## [4,] 1.460083 2.033105 1.743962 ## [5,] 2.364364 2.123679 1.741008 ## [6,] 2.211410 2.073793 1.424886Kmeans算法聚类k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类剖析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类核心,而后计算每个对象与各个种子聚类核心之间的间隔,把每个对象调配给间隔它最近的聚类核心。聚类数为2,将数据聚成2个类别 ...

March 28, 2023 · 3 min · jiezi

关于数据挖掘:R语言APRIORI关联规则KMEANS均值聚类分析中药专利复方治疗用药规律网络可视化附代码数据

全文链接:http://tecdat.cn/?p=30605最近咱们被客户要求撰写对于中药专利复方医治的钻研报告,包含一些图形和统计输入。 利用关联规定、聚类办法等数据挖掘技术剖析医治的中药专利复方组方配伍法则 办法检索医治中药专利复方,排除外用中药及中西药物合用的复方。最近咱们被要求撰写对于用药法则的钻研报告,包含一些图形和统计输入。对入选的中药专利复方进行术语规范化等解决,抽取信息、建设表,利用数据分析软件R对数据进行关联规定剖析,利用网络分析软件进行聚类分析。 查看数据 转换成二值矩阵数据colnames(data) <- paste0("X",1:ncol(data))database <- NULLfor(i in 1:nrow(data)) { tmp <- integer(length(total_types)) 建设aprioriplot(all_rules, method = "graph") 点击题目查阅往期内容 R语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则 左右滑动查看更多 01 02 03 04 中药专利复方中药对的关联规定剖析药对是方剂配伍的根本模式,它反映了中药之间相辅相成、相辅相成、同类相从等配伍关系。药对中的中药在组方配伍时具备在处方中同时呈现的特点,因而在关联规定剖析中,剖析置信度较大且双向关联的规定即可失去药对。  依据置信度和反对度筛选强关联规定 K-means均值网络聚类分析抑郁症中药专利复方中药物之间造成了一个简单的配伍关系网络,关联规定剖析能够用来发现其中的药对及强关联规定,但随着反对度和置信度阈值参数的升高,关联规定大量涌现,使得其中的配伍法则变得难以剖析,利用网络聚类办法能够无效地发现其中的配伍法则。 #聚类类别号kmod$cluster 查看每个类别中的强关联规定 聚类1 聚类2 配伍关系网络的聚类分析结果显示了抑郁症医治中罕用的中药“社团”,反映了复方中一些配伍关系绝对亲密、固定的中药联结,临床使用能够进步疗效。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《R语言APRIORI关联规定、K-MEANS均值聚类数据挖掘中药专利复方医治用药法则网络可视化》。 点击题目查阅往期内容 非线性混合效应 NLME模型反抗哮喘药物茶碱动力学钻研 Python面板工夫序列数据预测:格兰杰因果关系测验Granger causality test药品销售实例与可视化 R语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则 用SPSS Modeler的Web简单网络对所有腧穴进行关联规定剖析 PYTHON在线批发数据关联规定开掘APRIORI算法数据可视化 R语言关联规定模型(Apriori算法)开掘杂货店的交易数据与交互可视化 R语言关联开掘实例(购物篮剖析) python关联规则学习:FP-Growth算法对药品进行“菜篮子”剖析 基于R的FP树fp growth 关联数据挖掘技术在煤矿隐患治理 python关联规则学习:FP-Growth算法对药品进行“菜篮子”剖析 通过Python中的Apriori算法进行关联规定开掘 Python中的Apriori关联算法-市场购物篮剖析 R语言用关联规定和聚类模型开掘处方数据摸索药物配伍中的法则 在R语言中轻松创立关联网络 python主题建模可视化LDA和T-SNE交互式可视化 R语言工夫序列数据指数平滑法分析交互式动静可视化 用R语言制作交互式图表和地图 如何用r语言制作交互可视化报告图表K-means和档次聚类分析癌细胞系微阵列数据和树状图可视化比拟 KMEANS均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化剖析和抉择最佳聚类数 PYTHON实现谱聚类算法和扭转聚类簇数后果可视化比拟 无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据 R语言多维数据档次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据 r语言无限正态混合模型EM算法的分层聚类、分类和密度估计及可视化 Python Monte Carlo K-Means聚类实战钻研 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 R语言谱聚类、K-MEANS聚类分析非线性环状数据比拟 R语言实现k-means聚类优化的分层抽样(Stratified Sampling)剖析各市镇的人口 R语言聚类有效性:确定最优聚类数剖析IRIS鸢尾花数据和可视化Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言k-means聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花iris数据集 R语言无限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发工夫 R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析 R语言简单网络分析:聚类(社区检测)和可视化 R语言中的划分聚类模型 基于模型的聚类和R语言中的高斯混合模型 r语言聚类分析:k-means和档次聚类 SAS用K-Means 聚类最优k值的选取和剖析 用R语言进行网站评论文本开掘聚类 基于LDA主题模型聚类的商品评论文本开掘 R语言鸢尾花iris数据集的档次聚类分析 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 R语言聚类算法的利用实例 ...

March 27, 2023 · 1 min · jiezi

关于数据挖掘:贝叶斯分位数回归lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白前列腺癌数据附代码数据

原文链接:http://tecdat.cn/?p=22702最近咱们被客户要求撰写对于贝叶斯分位数回归的钻研报告,包含一些图形和统计输入。 贝叶斯回归分位数在最近的文献中受到宽泛关注,本文实现了贝叶斯系数预计和回归分位数(RQ)中的变量抉择,带有lasso和自适应lasso惩办的贝叶斯 摘要还包含总结后果、绘制门路图、后验直方图、自相干图和绘制分位数图的进一步建模性能。 简介回归分位数(RQ)由(Koenker和Gilbert,1978)提出,将感兴趣的后果的条件分位数作为预测因子的函数来建模。自引入以来,分位数回归始终是理论界十分关注的话题,也在许多钻研畛域失去了大量的利用,如计量经济学、市场营销、医学、生态学和生存剖析(Neelon等,2015;Davino等,2013;Hao和Naiman,2007)。假如咱们有一个察看样本{(xi , yi);i = 1, 2, - -, n},其中yi示意因变量,xi示意协变量的k维矢量。 贝叶斯_分位数_回归Tobit RQ为形容非负因变量和协变量向量之间的关系提供了一种办法,能够被表述为因变量的数据未被齐全察看到的分位数回归模型。对于Tobit 分位数回归模型有相当多的文献,咱们能够参考Powell(1986)、Portnoy(2003)、Portnoy和Lin(2010)以及Kozumi和Kobayashi(2011)来理解详情。考虑一下这个模型。 其中,yi是察看到的因变量,y∗i是相应的潜在的未察看到的因变量,y 0是一个已知的点。能够证实,RQ系数向量能够通过以下最小化问题的解来继续预计 Yu和Stander(2007)提出了一种Tobit RQ的贝叶斯办法,应用ALD计算误差,并应用Metropolis-Hastings(MH)办法从其后验散布中抽取。 实在数据实例咱们思考用实在的数据例子。 免疫球蛋白G数据这个数据集包含298名6个月到6岁儿童的免疫球蛋白G的血清浓度(克/升),Isaacs等人(1983)对其进行了具体探讨,Yu等人(2003)也应用了该数据集。为了阐明问题,该数据集的贝叶斯分位数回归模型(能够拟合如下)。 rq(血清浓度~年龄, tau=0.5)摘要函数提供估计值和95%的置信区间 绘制数据,而后将五条拟合的RQ线叠加在散点图上。 R> for (i in 1:5) {+ taus=c(0.05, 0.25, 0.5, 0.75, 0.95)+ rq(tau=taus[i])+ abline(fit, col=i)+ }R> R> for (i in 1:5) {+ fit = rq(年龄+I(年龄^2),tau=taus[i])+ curve(,add=TRUE)+ } 图2:免疫球蛋白G数据的散点图和RQ拟合。 点击题目查阅往期内容 matlab应用分位数随机森林(QRF)回归树检测异样值 左右滑动查看更多 01 02 03 04 该图显示了298名6个月至6岁儿童的免疫球蛋白G的散点图。叠加在该图上的是{.05, .25, .50, .75, .95}的RQ线(左图)和 RQ线(左图)和RQ曲线(右图)。 图能够用来评估吉布斯采样向安稳散布的收敛状况。咱们在图1中只报告了=0.50时每个参数的门路图和后验直方图。咱们应用以下代码 plot(fit,"tracehist",D=c(1,2))能够通过生成门路图、后验直方图、自相干图来对Gibbs采样的绘制后果进行图形总结。门路和直方图,门路和自相干,直方图和自相干,以及门路、直方图和自相干。这个函数还有一个选项。在图3中,免疫球蛋白G数据系数的门路图表明,采样从后验空间的一个偏僻区域跳到另一个区域的步骤绝对较少。此外,直方图显示边际密度实际上是所冀望的安稳的单变量常态。 图3:当=0.50时,免疫球蛋白G数据集的系数的门路和密度图。 前列腺癌数据在本大节中,咱们阐明贝叶斯分位数回归在前列腺癌数据集(Stamey等人,1989)上的体现。该数据集考察了期待根治性前列腺切除术的病人的前列腺特异性抗原(lpsa)程度和八个协变量之间的关系。 这些协变量是:癌症对数体积(lcavol)、前列腺的对数分量(lweight)、年龄(age)、良性前列腺的对数体积(lbph)、精囊进犯(svi)、胶囊穿透的对数(lcp)、格里森评分(gleason)以及格里森评分4或5的百分比(pgg45)。 在本大节中,咱们假如因变量(lpsa)均值为零,而预测因子已被标准化,均值为零。为了阐明问题,咱们思考当=0.50时,贝叶斯lasso套索RQ(办法="BLqr")。在这种状况下,咱们应用以下代码 R> x=as.matrix(x)R> rq(y~x,tau = 0.5, method="BLqr") 模型法可用于确定回归中的沉闷变量。  相应的吉布斯采样的收敛性是通过生成样本的门路图和边际后验直方图评估的。因而,图能够用来提供一个对于吉布斯采样器收敛的图形查看,通过应用以下代码查看门路图和边际后验直方图。 plot(fit, type="trace")上述代码的后果别离显示在图4和图5中。图4中的门路图显示,生成的样本迅速穿梭了后验空间,图5中的边际后验直方图显示,条件后验散布实际上是所需的安稳单变量常态。  小麦数据咱们思考一个小麦数据集。这个数据集来自于国家小麦种植倒退打算(2017)。这个小麦数据由11个变量的584个观测值组成。因变量是每2500平方米小麦产量减少的百分比。协变量是化肥尿素(U)、小麦种子收获日期(Ds)、小麦种子播种量(Qs)、激光平田技术(LT)、复合肥施肥(NPK)、播种机技术(SMT)、绿豆作物种植(SC)、作物除草剂(H)、作物高钾肥(K)、微量元素肥料(ME)。 上面的命令给出了=0.50时Tobit RQ的后验散布。 rq(y~x,tau=0.5, methods="Btqr") 还能够拟合贝叶斯lassoTobit 分位数回归和贝叶斯自适应lassoTobit 分位数回归。当=0.50时,函数能够用来取得Tobit 分位数回归的后验平均值和95%的置信区间。  ...

March 27, 2023 · 1 min · jiezi

关于数据挖掘:R语言SAS潜类别分类轨迹模型LCTM分析体重指数-BMI数据可视化附代码数据

全文下载链接: http://tecdat.cn/?p=26105 最近咱们被客户要求撰写对于LCTM的钻研报告,包含一些图形和统计输入。 在本文中,潜类别轨迹建模 (LCTM) 是流行病学中一种绝对较新的办法,用于形容生命过程中的裸露,它将异质人群简化为同质模式或类别。然而,对于给定的数据集,能够依据类的数量、模型构造和轨迹属性得出不同模型的分数 本文阐明了LCTM的根本用法,用于汇总拟合的潜在类轨迹模型对象的输入。 例子_目标_:通过将 BMI 建模为年龄函数,辨认具备不同轨迹的参与者亚组。依据迄今为止可用的文献,咱们假如初始 K=5 类 BMI 轨迹。 咱们应用体重指数 (BMI) 反复测量 10,000 个样本的长格局数据框。 提供了一个示例(模仿)数据集 bmi 来形容整个步骤。 蕴含的变量有: id - 集体 ID 年龄 - BMI 测量的年龄,以年为单位 bmi - 集体在 T1、T2、T3 和 T4 工夫的体重指数,以 kg/m^2 为单位 true_class - 用于辨认模仿集体 BMI 数据的类别的标签 加载数据绘制数据 潜在类轨迹建模的八步示例为了对纵向后果 yijk 进行建模,对于 k=1:K,类,对于个体 i,在工夫点 j,tj能够应用许多建模抉择。咱们在这里给出方程来阐明这些,并依照复杂度减少的程序将它们命名为模型 A 到 G。 模型 A:无随机效应模型 | 固定效应同方差 | - 解释集体轨迹与其均匀类轨迹的任何偏差仅是因为随机误差 其中假如所有类的残差方差相等, 相干视频 ** 拓端 ,赞17 模型 B:具备特定类别残差的固定效应模型 | 异方差 | 与模型 A 雷同的解释,随机误差在不同的类别中可能更大或更小。 ...

March 27, 2023 · 2 min · jiezi

关于数据挖掘:R语言逻辑回归Logistic-Regression回归决策树随机森林信用卡违约分析信贷数据集附代码数据

原文链接:http://tecdat.cn/?p=23344最近咱们被客户要求撰写对于信用卡守约剖析的钻研报告,包含一些图形和统计输入。 本文中咱们介绍了决策树和随机森林的概念,并在R语言中用逻辑回归、回归决策树、随机森林进行信用卡守约数据分析 决策树是由节点和分支组成的简略树状构造。依据每个节点的任何输出特色拆分数据,生成两个或多个分支作为输入。这个迭代过程减少了生成的分支的数量并对原始数据进行了分区。这种状况始终继续到生成一个节点,其中所有或简直所有数据都属于同一类,并且不再可能进一步拆分或分支。 这整个过程生成了一个树状构造。第一个决裂节点称为根节点。末端节点称为叶子并与类标签相关联。从根到叶的门路产生分类规定。   假如你是一名员工,你想吃食物。 您的口头计划将取决于多种状况。 如果你不饿,你就不会花钱。然而如果你饿了,那么抉择就会扭转。你的下一步口头取决于你的下一个状况,即你有没有买午餐? 当初,如果你不吃午饭,你的口头将齐全取决于你的下一个抉择,即是不是月底?如果是月底最初几天,能够思考不吃饭;否则,您不会将其视为偏好。 当波及多个抉择来做出任何决定时,决策树就会发挥作用。当初你必须做出相应的抉择以取得无利的后果。   决策树如何工作?决策树有两个组成部分:熵和信息增益 熵是一个用来掂量信息或无序的概念。咱们能够用它来掂量数据集的纯度。 为了更好地了解熵,让咱们钻研两个不同的示例数据集,它们都有两个类,别离示意为蓝点和红叉。在左侧的示例数据集中,咱们混合了蓝点和红叉。在右侧数据集的示例中,咱们只有红十字。第二种状况——一个只有一个类样本的数据集——是咱们的指标:一个“纯”数据子集。 熵能够是纯度、无序或信息的量度。因为混合类,右边的数据集不那么污浊,更凌乱(更无序,即更高的熵)。然而,更多的凌乱也意味着更多的信息。实际上,如果数据集只有一类的点,那么无论您尝试多长时间,都无奈从中提取太多信息。相比之下,如果数据集具备来自两个类的点,则它也具备更高的信息提取后劲。所以,右边数据集的熵值越高,也能够看作是潜在信息量越大。   信息增益为了评估一个特色对决裂的好坏,计算决裂前后的熵差。 决策树中每个拆分的指标是从混同的数据集挪动到两个(或更多)更纯的子集。现实状况下,决裂应该导致熵为 0.0 的子集。然而,在实践中,如果拆分导致子集的总熵低于原始数据集就足够了。 也就是说,咱们首先计算宰割前数据集的熵,而后计算宰割后每个子集的熵。最初,在拆分之前从数据集的熵中减去由子集大小加权的输入熵之和。这种差别掂量了信息的增益或熵的缩小。如果信息增益是一个负数,这意味着咱们从一个凌乱的数据集转移到了一些更纯正的子集。 而后,在每一步,咱们将抉择在信息增益值最高的特色上宰割数据,因为这会产生最纯正的子集。 咱们将首先宰割信息增益最高的特色。这是一个递归过程,直到所有子节点都是纯的或直到信息增益为零。 随机森林随机森林是另一种弱小且最罕用的监督学习算法。 许多比一个好。简略来说,这就是随机森林算法背地的概念。也就是说,许多决策树能够产生比仅仅一棵决策树自身更精确的预测。事实上,随机森林算法是一种有监督的分类算法,它构建了 N 个通过略微不同训练的决策树,并将它们合并在一起以取得更精确和稳固的预测. 让咱们再次强调这个概念。整个想法依赖于多个决策树,这些决策树都通过稍微不同的训练,并且所有这些决策树都被思考到最终决策中。 在一个随机森林中,N 棵决策树在通过取得的原始训练集的一个子集上进行训练自举原始数据集,即通过带放回的随机抽样。 此外,输出特色也可能因树而异,作为原始特色集的随机子集。 N 个稍有不同训练的树将对雷同的输出向量产生 N 个稍有不同的预测。通常,少数规定实用于做出最终决定。N棵树中的大多数提供的预测被用作最初一棵。 这种策略的劣势是不言而喻的。尽管来自单个树的预测对训练集中的噪声高度敏感,但来自大多数树的预测却不是——前提是这些树不相干。Bootstrap 采样是通过在不同的训练集上训练树来去相干树的办法。   接下来,咱们在R语言中用逻辑回归、回归决策树、随机森林进行信用卡守约剖析。 ** ** 信贷数据集,其中蕴含了银行贷款申请人的信息。该文件蕴含1000名申请人的20条信息。 上面的代码能够用来确定申请人是否有信用,以及他(或她)是否对贷款人有良好的信用风险。有几种办法被利用到数据上,帮忙做出这种判断。在这个案例中,咱们将看一下这些办法。 相干视频Boosting原理与R语言晋升回归树BRT预测短鳍鳗散布 ** 拓端 ,赞16 请留神,本例可能须要进行一些数据处理,以便为剖析做筹备。 咱们首先将数据加载到R中。 credit <- read.csv(credit, header = TRUE, sep = ',')这段代码在数据上做了一个小的解决,为剖析做筹备。否则,就会呈现谬误,因为在某些文件的某一列中发现有四类因素。 基本上,任何4类因变量都被笼罩为3类。持续进行剖析。 No.of.Credits[No.of.Credits == 4] <- 3疾速浏览一下数据,理解一下咱们的工作内容。 str(credit) 你可能会立刻留神到有几个变量很显眼。咱们要排除它们。"信贷期限(月)"、"信贷金额 "和 "年龄"。 为什么?咱们在这个模型中试图把重点放在作为信用价值指标的数据分类或类别上。这些是分类变量,而不是数字变量。申请人有电话吗?申请人是否已婚?是否有独特签订人?申请人在同一地址住了多长时间?这类事件。 对于这些因素,重要的是咱们晓得它们与贷款决定的关系。良好的信用与某些因素的组合无关,从而使咱们能够用概率将新的申请人按其特色进行分类。 在数据中,这些问题的答案不是 "是 "或 "不是 "或 "十年"。答案被分组为更宽泛的分类。 ...

March 27, 2023 · 1 min · jiezi

关于数据挖掘:R语言GAMLSS模型对艾滋病病例降雪量数据拟合预测置信区间实例可视化

全文链接:http://tecdat.cn/?p=31996原文出处:拓端数据部落公众号GAMLSS模型是一种半参数回归模型,参数性体现在须要对响应变量作参数化散布的假如,非参数性体现在模型中解释变量的函数能够波及非参数平滑函数,非参数平滑函数不事后设定函数关系,各个解释变量的非线性影响后果齐全取决于样本数据。它克服了GAM模型和狭义线性模型(Generalized Linear Models, GLM)的一些局限性。 对间断散布数据拟合的实例--降雪量数据降雪:63年的年降雪量,每年降雪量数据 目标:帮忙客户证实间断散布对单个变量的拟合。 论断:正态假如是适当的。 模型的拟合和显示数据集是降雪数据,数据显示,63年降雪量。 > names(parzen)在这里,咱们将数据拟合为正态分布(NO)、(GA)、幂指数(PE)散布。正态与伽马的比拟探讨了数据中是否存在正偏性。正态与幂指数的比拟表明了峰度的可能性,而BCPE则显示出数据中是否同时显示了偏度和峰度。GAIC将帮忙咱们在不同的散布之间进行抉择。 >> mBCPE <- histDistsnowfall, "BCPE", density = TRUE, main = "(d)",+ 请留神,选项密度=true申请将非参数核密度估计蕴含在图中 > GAIC GAIC()函数的默认惩办是k=2,Akaike信息准则(留神,咱们能够应用等价函数AIC())。AIC准则表明,正态分布与数据齐全吻合。图显示了四个不同的散布。 测验模型应用R函数ks.test()提供的Kolmogorov-Smirnovness拟合测试测试正态模型(或任何其余模型)的充分性在这里是不可取的,因为咱们必须预计散布参数u和o,所以测试有效。(归一化分位数)残差的测验将提供一种钻研适配适足性的办法。归一化分位数残差是独立的规范正态变量。咱们冀望拟合的(归一化分位数)残差I;近似地体现为正态分布的变量(即便最后的观测值Y不肯定是失常的),因而残差的归一化Q-Q图在这里是适合的。r软件提供了用于绘制QQ-绘图的函数。 测验散布拟合参数可靠性的办法有两种:1)汇总函数和Vcov函数。一般来说,这两个值应该是雷同的,因为在默认状况下,汇总是vcov取得的标准误差。Vcov()失去的标准误差是通过反演全观测信息矩阵失去的,它们思考了散布参数估计之间的关系。留神,vcov()函数再一次批改最初的模型,以取得Hessian矩阵。 咱们批改了所抉择的最终模型 > moNO <- gamls > summary(moNO) > vcov(modNO, type = "se") 拟合模型由Y~NO(i,a)给出,其中ji=bo=80.3,log()=PO2=3.158,因而6=23.52。留神,j和o是u和o的极大似然预计。 应用vcov()后果,log(O)=Bo2的95%置信区间(CI)为[3.158-(1.960.08922),3.158+(1.960.08922)]=(2.983,3.333),由此[exp(2.983),exp(3.333)]=(19.75,28.02)给出了o的95%CI置信区间。能够与图中的剖面偏差区间(19.96,28.32)进行比拟,失去了用下列R脚本失去的[exp(3.021),exp(3.33)]=(20.51,27.93)所给出的自举CI。 > library(boot) >> funB <- function(data, i) { + d <- dtaframe(swfall = data[i, ]) + coef(updae(modNO, dat = d), "sigma") + } > boot(paren, funB R 199)) ...

March 27, 2023 · 2 min · jiezi

关于数据挖掘:视频广义相加模型GAM在电力负荷预测中的应用附代码数据

全文下载链接:http://tecdat.cn/?p=9024最近咱们被客户要求撰写对于狭义相加模型(GAM)的钻研报告,包含一些图形和统计输入。 这篇文章探讨了为什么应用狭义相加模型 是一个不错的抉择。为此,咱们首先须要看一下线性回归,看看为什么在某些状况下它可能不是最佳抉择。 回归模型假如咱们有一些带有两个属性Y和X的数据。如果它们是线性相关的,则它们可能看起来像这样: 为了查看这种关系,咱们能够应用回归模型。线性回归是一种应用X来预测变量Y的办法。将其利用于咱们的数据将预测成红线的一组值: 这就是“直线方程式”。依据此等式,咱们能够从直线在y轴上开始的地位(“截距”或)开始形容,并且每个单位的x都减少了多少y(“斜率”),咱们将它称为x的系数,或称为)。还有一点天然的稳定,如果没有的话,所有的点都将是完满的。咱们将此称为“残差”()。 数学上是: 或者,如果咱们用理论数字代替,则会失去以下后果: 这篇文章通过思考每个数据点和线之间的差别(“残差)而后最小化这种差别来估算模型。 咱们在线的上方和下方都有正误差和负误差,因而,通过对它们进行平方并最小化“平方和”,使它们对于预计都为正。这称为“一般最小二乘法”或OLS。 3非线性关系如何?因而,如果咱们的数据看起来像这样,咱们该怎么办: 咱们刚刚看到的模型的要害假如之一是y和x线性相关。如果咱们的y不是正态分布的,则应用狭义线性模型 _(Nelder&Wedderburn,1972)_,其中y通过链接函数进行变换,但再次假如f(y)和x线性相关。如果不是这种状况,并且关系在x的范畴内变动,则可能不是最合适的。咱们在这里有一些抉择: 咱们能够应用线性拟合,然而如果这样做的话,咱们会在数据的某些局部下面或者上面。咱们能够分为几类。我在上面的图中应用了三个,这是一个正当的抉择。同样,咱们可能处于数据某些局部之下或之上,而在类别之间的边界左近仿佛是精确的。例如,如果x = 49时,与x = 50相比,y是否有很大不同?咱们能够应用多项式之类的变换。上面,我应用三次多项式,因而模型适宜:。这些的组合使函数能够润滑地近似变动。这是一个很好的抉择,但可能会极其稳定,并可能在数据中引起相关性,从而升高拟合度。 4样条曲线多项式的进一步细化是拟合“分段”多项式,咱们在数据范畴内将多项式链在一起以形容形态。“样条线”是分段多项式,以绘图员用来绘制曲线的工具命名。物理样条曲线是一种柔性条,能够蜿蜒成形,并由砝码固定。在结构数学样条曲线时,咱们有多项式函数,二阶导数间断,固定在“结”点上。 上面是一个ggplot2 对象,该 对象的 geom_smooth 的公式蕴含ns 函数中的“天然三次样条”  。这种样条曲线为“三次”,并且应用10个结 5润滑函数样条曲线能够是润滑的或“摇晃的”,这能够通过扭转节点数(k)或应用润滑惩办来管制。如果咱们减少结的数目,它将更“摇晃”。这可能会更靠近数据,而且误差也会更小,但咱们开始“适度拟合”关系,并拟合咱们数据中的噪声。当咱们联合润滑惩办时,咱们会惩办模型中的复杂度,这有助于缩小适度拟合。 6狭义相加模型(GAM)狭义加性模型(GAM)(Hastie,1984)应用润滑函数(如样条曲线)作为回归模型中的预测因子。 这些模型是严格可加的,这意味着咱们不能像失常回归那样应用交互项,然而咱们能够通过从新参数化作为一个更润滑的模型来实现同样的成果。事实并非如此,但实质上,咱们正转向一种模型,如: 摘自Wood _(2017)_的GAM的更正式示例 是: 其中: i≡E(Yi),Y的冀望Yi〜EF(i,i),Yi是一个响应变量,依据均值i和形态参数的指数族散布。Ai是任何严格参数化模型重量的模型矩阵的一行,其中为对应的参数向量。fi是协变量xk的润滑函数,其中k是每个函数的根底。如果您要建设回归模型,但狐疑润滑拟合会做得更好,那么GAM是一个不错的抉择。它们适宜于非线性或有噪声的数据。 7 gam拟合那么,如何 为上述S型数据建设 GAM模型? 在这里,我将应用三次样条回归 : gam(Y ~ s(X, bs="cr")下面的设置意味着: s()指定光滑器。还有其余选项,然而s是一个很好的默认选项bs=“cr”通知它应用三次回归样条('basis')。s函数计算出要应用的默认结数,然而您能够将其更改为k=10,例如10个结。8模型输入:查看模型摘要: ## ## Family: gaussian ## Link function: identity ## Parametric coefficients:##             Estimate Std. Error t value Pr(>|t|)    ## (Intercept)  43.9659     0.8305   52.94   <2e-16 ***## ---## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1## ## Approximate significance of smooth terms:##        edf Ref.df     F p-value    ## s(X) 6.087  7.143 296.3  <2e-16 ***## ---## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1## ## R-sq.(adj) =  0.876   Deviance explained = 87.9%## GCV = 211.94  Scale est. = 206.93    n = 300显示了咱们截距的模型系数,所有非润滑参数将在此处显示每个润滑项的总体含意如下。这是基于“无效自由度”(edf)的,因为咱们应用的样条函数能够扩大为许多参数,但咱们也在惩办它们并缩小它们的影响。9查看模型:该 gam.check() 函数可用于查看残差图,但它也能够测试润滑器以查看是否有足够的结来形容数据。然而如果p值很低,则须要更多的结。 ## ## Method: GCV   Optimizer: magic## Smoothing parameter selection converged after 4 iterations.## The RMS GCV score gradient at convergence was 1.107369e-05 .## The Hessian was positive definite.## Model rank =  10 / 10 ## ## Basis dimension (k) checking results. Low p-value (k-index<1) may## indicate that k is too low, especially if edf is close to k'.## ##        k'  edf k-index p-value## s(X) 9.00 6.09     1.1    0.9710它比线性模型好吗?让咱们比照具备雷同数据的一般线性回归模型: anova(my_lm, my_gam)## Analysis of Variance Table## ## Model 1: Y ~ X## Model 2: Y ~ s(X, bs = "cr")##   Res.Df   RSS     Df Sum of Sq      F    Pr(>F)    ## 1 298.00 88154                                      ## 2 292.91 60613 5.0873     27540 26.161 < 2.2e-16 ***## ---## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1咱们的方差分析函数在这里执行了f测验,咱们的GAM模型显著优于线性回归。 11小结所以,咱们看了什么是回归模型,咱们是如何解释一个变量y和另一个变量x的。其中一个根本假如是线性关系,但状况并非总是这样。当关系在x的范畴内变动时,咱们能够应用函数来扭转这个形态。一个很好的办法是在“结”点处将润滑曲线链接在一起,咱们称之为“样条曲线” 咱们能够在惯例回归中应用这些样条曲线,然而如果咱们在GAM的背景中应用它们,咱们同时预计了回归模型以及如何使咱们的模型更润滑。 下面的示例显示了基于样条的GAM,其拟合度比线性回归模型好得多。 12用GAM进行建模用电负荷工夫序列我曾经筹备了一个文件,其中蕴含四个用电工夫序列来进行剖析。数据操作将由data.table程序包实现。 将提及的智能电表数据读到data.table。 DT <- as.data.table(read_feather("ind"))应用GAM回归模型。将工作日的字符转换为整数,并应用recode包中的函数从新编码工作日:1.星期一,…,7星期日。 DT[, week_num := as.integer(car::recode(week,    "'Monday'='1';'Tuesday'='2';'Wednesday'='3';'Thursday'='4';    'Friday'='5';'Saturday'='6';'Sunday'='7'"))]将信息存储在日期变量中,以简化工作。 n_type <- unique(DT[, type])n_date <- unique(DT[, date])n_weekdays <- unique(DT[, week])period <- 48让咱们看一下用电量的一些数据并对其进行剖析。 data_r <- DT[(type == n_type[1] & date %in% n_date[57:70])] ggplot(data_r, aes(date_time, value)) +  geom_line() +  theme(panel.border = element_blank(),        panel.background = element_blank(),        panel.grid.minor = element_line(colour = "grey90"),        panel.grid.major = element_line(colour = "grey90"),        panel.grid.major.x = element_line(colour = "grey90"),        axis.text = element_text(size = 10),        axis.title = element_text(size = 12, face = "bold")) +  labs(x = "Date", y = "Load (kW)") 在绘制的工夫序列中能够看到两个次要的季节性:每日和每周。咱们在一天中有48个测量值,在一周中有7天,因而这将是咱们用来对因变量–电力负荷进行建模的自变量。 训练咱们的第一个GAM。通过平滑函数s对自变量建模,对于每日季节性,应用三次样条回归,对于每周季节性,应用P样条。 gam_1 <- gam(Load ~ s(Daily, bs = "cr", k = period) +               s(Weekly, bs = "ps", k = 7),             data = matrix_gam,             family = gaussian)首先是可视化。 layout(matrix(1:2, nrow = 1))plot(gam_1, shade = TRUE) 咱们在这里能够看到变量对电力负荷的影响。在左图中,白天的负载峰值约为下午3点。在左边的图中,咱们能够看到在周末负载量缩小了。 点击题目查阅往期内容 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 ...

March 24, 2023 · 1 min · jiezi

关于数据挖掘:人工神经网络ANN中的前向传播和R语言分析学生成绩数据案例附代码数据

全文链接:http://tecdat.cn/?p=19936最近咱们被客户要求撰写对于人工神经网络ANN的钻研报告,包含一些图形和统计输入。 在本教程中,您将学习如何在R中创立神经网络模型 这里思考人工神经网络具备一个暗藏层,两个输出和输入。     输出为 x1 和 x2。   两个权重乘以各自的权重 w1 和 w2。 而后将偏差增加到总和中,并将其称为 z1。 z1 = x1 w1 + x2 w2 +b1     而后利用sigmoid的公式。 暗藏层的输入将成为其右侧下一层的输出。这等于 sigmoid激活函数的公式和图形 暗藏层的第二个节点也以这种形式运行。   x1 和 x2 输出对于 H1 和 H2 将具备雷同的值。然而,H1和H2的权重可能不同,也可能雷同。而且,偏差也能够不同,即b1和b2能够不同。 乘以各自的权重w3 和w4。而后将偏差增加到总和中,并将其称为z2。 而后利用sigmoid的公式。此层的输入将是   而后,咱们转到下一层。 (输入来自 H1。咱们称之为 z1。输入来自 H2,咱们称之为 z2。它们进入O1。权重像以前一样乘以相应的输出。     并且,咱们抉择sigmoid激活函数。因而,O1 的输入为       这里,y1 = z1 W5 + z2 W6 + B1 ...

March 24, 2023 · 1 min · jiezi

关于数据挖掘:R语言中贝叶斯网络BN动态贝叶斯网络线性模型分析错颌畸形数据附代码数据

全文链接:http://tecdat.cn/?p=22956最近咱们被客户要求撰写对于贝叶斯网络的钻研报告,包含一些图形和统计输入。 贝叶斯网络(BN)是一种基于有向无环图的概率模型,它形容了一组变量及其相互之间的条件依赖性。它是一个图形模型,咱们能够很容易地查看变量的条件依赖性和它们在图中的方向 在这篇文章中,我将简要地学习如何用R来应用贝叶斯网络。 本教程旨在介绍贝叶斯网络学习和推理的基础知识,应用真实世界的数据来摸索图形建模的典型数据分析工作流程。关键点将包含: 预处理数据;学习贝叶斯网络的构造和参数。应用网络作为预测模型。应用网络进行推理。通过与内部信息的比照来验证网络的有效性。疾速介绍贝叶斯网络定义 贝叶斯网络(BNs)的定义是: 一个网络结构,一个有向无环图 , 其中每个节点  对应于一个随机变量 ;一个全局概率分布  (带参数 ), 它能够依据图中存在的弧被分解成更小的部分概率分布。网络结构的次要作用是通过图形拆散来表白模型中各变量之间的条件独立性关系,从而指定全局散布的因子化。 每个部分散布都有本人的参数集 ; 而⋃  要比小得多,因为许多参数是固定的,因为它们所属的变量是独立的。 R实现了以下学习算法。 基于束缚的:PC, GS, IAMB, MMPC, Hilton-PC 基于分数的:爬山算法、Tabu Search 配对的:ARACNE, Chow-Liu 混合:MMHC, RSMAX2 咱们应用基于分数的学习算法,_希尔算法_。首先,咱们将先为本教程生成简略的数据集。 在这个数据集中,'状态'与'元素'和'承受'列有关系。而'类型'与'色彩'列有关系。当你创立一个带有分类数据的数据框时,列应该是一个因子类型。否则,该数据框不能用于BN构造的创立。   接下来,咱们将创立学习构造。 咱们能够在一个图中看到构造。 > plot(hc_simd) 在这个图中,状态、元素、承受、类型和色彩被称为节点。节点之间的方向用弧线形容,弧线是一个蕴含从元素到元素方向数据的矩阵。 点击题目查阅往期内容 R语言BUGS/JAGS贝叶斯剖析: 马尔科夫链蒙特卡洛办法(MCMC)采样 左右滑动查看更多 01 02 03 04 如上弧线显示,在咱们的数据中存在'类型'到'色彩',以及'状态'到'承受'和'元素'的关系。'类型'和'状态'是两个独立的组,它们之间不存在相互依赖关系。 接下来,咱们将用数据来拟合模型。 simd_fitted 基于上述训练数据,咱们能够进行条件概率查问。 咱们查看 "Outlier "和 "Target "的状态概率。 该样本成为 "离群 "的概率为51%。 状态成为 "指标 "的概率是0%。 错颌畸形数据的贝叶斯网络分析问题:受第三类错牙合畸形影响的患者(以下牙弓突出为特色),其骨骼不均衡在生命晚期就产生,在青春期和骨骼成熟前会变得更加显著。在单个III类患者中晚期预测医治的胜利或失败,使其更容易改正,但仅从大量的状态决定因素中预测是很难做到的。起因是III类错颌畸形很少是繁多颅面部件异样的后果,所以单个的临床和放射学测量值可能不如测量值自身的相互作用具备批示性。 工作: ...

March 24, 2023 · 2 min · jiezi

关于数据挖掘:数据分享用加性多元线性回归随机森林弹性网络模型预测鲍鱼年龄和可视化附代码数据

原文链接:http://tecdat.cn/?p=24127最近咱们被客户要求撰写对于预测鲍鱼年龄的钻研报告,包含一些图形和统计输入。 鲍鱼是一种贝类,在世界许多中央都被视为美味佳肴 养殖者通常会切开贝壳并通过显微镜计算环数来预计鲍鱼的年龄。因而,判断鲍鱼的年龄很艰难,次要是因为它们的大小不仅取决于它们的年龄,还取决于食物的供给状况。而且,鲍鱼有时会造成所谓的“发育不良”种群,其成长特色与其余鲍鱼种群十分不同。这种简单的办法减少了老本并限度了其遍及。咱们在这份报告中的指标是找出最好的指标来预测鲍鱼的环,而后是鲍鱼的年龄。 数据集背景介绍这个数据集 ( 查看文末理解数据获取形式 ) 来自一项原始(非机器学习)钻研。 从原始数据中删除了有缺失值的例子(大多数预测值缺失),间断值的范畴被缩放用于NA(通过除以200)。在本剖析中,咱们将通过乘以200的形式将这些变量复原到其原始模式。 数据集中的观测值总数:4176 数据集中的变量总数:8个 变量列表 变量数据类型测量形容性别分类(因子) M、F 和 I(婴儿)长度间断毫米最长壳测量直径间断毫米垂直长度高度间断毫米带壳肉整体分量间断克整只鲍鱼去壳分量间断克肉的分量内脏分量间断克肠道分量外壳分量间断克晒干后鲍鱼的环间断 +1.5 给出以年为单位的年龄上面是剖析 “应用回归预测鲍鱼的年龄”数据汇总与统计balne$Sx <- s.acor(aalne$Sex) kale(abaoe[1:10,],fomt 'madw') 分类变量 数值变量 看一下数据集的摘要,咱们能够看到,数据在雄性、雌性和婴儿这三个因素程度之间的散布是相当平均的。 因变量因果变量Rings蕴含在数据集中。它被测量为切割和查看鲍鱼后察看到的环的数量。尽管它不能间接示意一个给定的鲍鱼的年龄,但它能够或多或少完满地确定它。一个鲍鱼的年龄等于环数+1.5。因为这种关系是牢靠的,环数将被视为因变量。数据中测量的环数从1到29不等,大多数鲍鱼的环数在5到15之间。散布也有轻微的正偏斜,但没有问题。(见上面的图) 配对图pairs(aalone, es(colour =Sex, aph = 0.) 从配对图中察看到的状况。 首先要留神的是数据的高度相关性。例如,直径和长度之间的相关性十分高(约98.7)。 点击题目查阅往期内容 r语言中对LASSO回归,Ridge岭回归和弹性网络Elastic Net模型实现 左右滑动查看更多 01 02 03 04 同样,Whole\_weight仿佛与其余分量预测因子高度相干,是Shucked\_weight、Viscera\_weight和Shell\_weight之和。 其次,预测因子Sex的散布与所有其余预测因子的因子程度值雌性和雄性十分类似。 对于雌性和雄性的因子程度,散布的形态也是十分类似的。 咱们能够思考从新定义这一特色,将性别定义为婴儿与非婴儿(其中非婴儿=雌性和雄性都是)。 大多数的abalones环都在5到15之间。 数据品质减少变量。咱们将更新鲍鱼数据集,创立名为 "婴儿 "的新变量,它的值将基于性别变量的原始值。当性别变量为I时,它的值为I,否则为NI。 咱们还察看到,预测高度的最小值是0,实际上这是不可能的,咱们将考察这些察看后果,认真钻研。 ##高度为0的数据质量检查kable(abloe[aban$Height == 0,]) 咱们看到,有两个观测值的高度可能没有被正确记录,因为其余预测因子仿佛都有无效的值。另外,如果咱们看一下预测因子Whole_weight,咱们会发现这些值与其余察看值相比真的很小,而且低于第一个四分法。这通知咱们,这可能不是一个数据谬误,因而咱们不能将这些数据从咱们的数据集中排除。 咱们还将增加一个名为weight.diff的新变量。咱们能够在摘要中看到有四种不同的分量测量方法,即Whole\_weight、Shucked\_weight、Viscera\_weight和Shell.weight。Whole\_weight是其余分量预测因子的线性函数,在剥壳过程中损失的水/血的品质未知。 str(aane, give.attr= FASE) 咱们看到变量Whole\_weight应该是Shucked\_weight、Viscersa\_weight和Shell\_weight的线性函数,咱们能够写成Whole\_weight = Shucked\_weight + Viscera\_weight + Shell\_weight + 剥壳过程中损失的未知水/血品质。 然而,当咱们计算Whole_weight和其余分量变量之间的差别时,咱们发现有153个观测值违反了这一规定,也就是说,这仿佛不合乎逻辑,可能是记录数据时的谬误。 如果咱们绘制新增加的weight.diff变量的直方图,咱们能够看到,当weight.diff为正数时,有一些察看后果。 #确定没有正确记录的察看后果#不合乎逻辑的察看后果的柱状图ggplt(aalone, as(x=weight.diff)) +,ill=rb(1,.4,0,.7), bins = 30) 咱们来看看其中的一些记录。 nrow(ablon[abaoneweihtdff < 0,]) ...

March 24, 2023 · 4 min · jiezi

关于数据挖掘:专题2022中国新能源汽车内容生态趋势洞察报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=31970原文出处:拓端数据公众号《报告》以关注新能源汽车内容的网络用户和中国新能源汽车企业为钻研对象,抉择了与新能源汽车无关的网络内容(图片,直播,视频,用户评估),并与中国新能源汽车产业的生产和销售数据相结合,开展了一项考察。 以后,新能源汽车曾经成为推动汽车行业销量的次要能源,同时,国内自主品牌也在一直崛起,新权势品牌的销量也处于高速增长。对新能源汽车感兴趣的人数量也在迅速减少,总体上看,他们的年龄更小。在将来,用户将不再仅仅是对达人行业教训的单向输入,企业更须要把握好全链路内容种草的营销结合点,将数据、感触、试验等进行具体的阐明和业余背书。 与汽车爱好者相比,新能源汽车爱好者的年龄结构更年老。 在对新能源汽车有趣味的用户中,25-34岁的用户是内容生产的主力。 本专题内的参考报告(PDF)目录资本实验室:2022寰球新能源汽车产业全景察看 报告2023-03-16火石发明:2022年度中国新能源汽车产业倒退洞察报告 报告2023-03-14智慧芽:新能源汽车行业续航能力技术剖析报告 报告2023-03-13威尔森:2023年1月份新能源汽车行业月报 报告2023-03-13人物博库:2022年新能源汽车行业人群洞察报告 报告2023-03-07唐硕:2022新能源汽车服务-要害体验MOT报告 报告2023-03-03智联招聘:中国新能源汽车人才供需白皮书(2022年) 报告2023-02-13罗克韦尔:自动化新能源汽车及动力电池行业白皮书 报告2023-02-13亿欧智库:比亚迪新能源汽车策略布局钻研报告 报告2023-02-07头豹:2022年中国功率半导体(IGBT)行业钻研-新能源汽车+充电桩... 报告2023-02-07速途车酷研究院:2023中国新能源汽车出海趋势剖析报告 报告2023-01-30赛迪:中国新能源汽车产业发展趋势研判 报告2023-01-29亿欧智库:比亚迪新能源汽车策略布局钻研报告 报告2023-01-13汽车之家&21世纪经济报道:2022中国城市新能源汽车倒退指数 报告2023-01-12中汽核心:新能源汽车动力电池技术将来瞻望 报告2023-01-08头豹:2022年中国新能源汽车产业系列钻研报告-主机厂剖析之特斯拉篇 报告2022-12-29头豹:2022年中国新能源汽车产业系列钻研报告 报告2022-12-28中国电动汽车百人会:中国新能源汽车倒退当先城市评估及优良案例 报告2022-12-25易观剖析:2022年中国新能源汽车出海市场倒退洞察 报告2022-12-15头豹:2022年中国新能源汽车行业系列钻研-主机厂剖析之小鹏篇(上)-... 报告2022-11-20头豹:2022年中国新能源汽车行业系列钻研-车载OS博弈-“兵家必争”... 报告2022-11-20里斯:寰球新能源汽车品类趋势钻研报告 报告2022-11-11新榜:2022新能源汽车品牌KOL口碑报告 报告2022-11-03头豹:2022年中国新能源汽车行业系列钻研-智能化博弈-车载OS兵家必... 报告2022-10-28头豹:2022年中国新能源汽车产业系列钻研报告-从问界窥探华为智能汽车... 报告2022-10-28CBNData:2022新能源汽车营销察看 报告2022-10-25德勤:2022中国新能源汽车行业投资机会察看报告 报告2022-10-21库润数据:2022年女性新能源汽车钻研报告 报告2022-10-18中商产业研究院:2021-2026年中国新能源汽车行业发展趋势及投资预... 报告2022-10-13易观剖析:2022年中国新能源汽车用户体验指数(UEI) 报告2022-09-25头豹:2022年中国新能源汽车行业系列钻研-智能网联之汽车信息服务提供... 报告2022-09-21头豹:2022年中国新能源汽车行业系列钻研――EE架构降级-智能汽车之... 报告2022-09-21头豹:2022年中国新能源汽车行业系列钻研——激光雷达行业动态追踪-量... 报告2022-09-20头豹:2022年中国新能源汽车产业系列钻研报告-车载计算平台-智能驾驶... 报告2022-09-20罗兰贝格&天猫:新能源汽车消费者洞察报告 报告2022-09-13头豹:2022年新能源汽车(蔚来、现实、小鹏、哪吒)企业比照系列报告(... 报告2022-09-09红星资本局:2023年新能源汽车行业趋势钻研报告 报告2022-09-02头豹:2022年中国新能源汽车行业系列钻研-动力电池电解液行业深度剖析... 报告2022-09-01头豹:2022年中国新能源汽车行业系列钻研-汽车智能化下OTA的倒退机... 报告2022-08-31头豹:2022年中国新能源汽车产业系列钻研报告-汽车行业冲击几何? 报告2022-08-31君迪:2022年中国新能源汽车产品魅力指数钻研 报告2022-08-31J.D.Power君迪:新能源汽车市场消费者变动下的机会与思考 报告2022-08-29中汽数据:2022年新能源汽车上半年重点政策总结及趋势预判 报告2022-08-26百分点:2022年6-7月新能源汽车行业舆情剖析报告 报告2022-08-23头豹:2022年新能源汽车(蔚来、现实、小鹏、哪吒)企业比照系列报告(... 报告2022-08-23懂车帝:下沉市场新能源汽车用户消费行为洞察报告 报告2022-08-04电动汽车观察家:2022年中国新能源汽车产业察看报告 报告2022-08-03火石发明:2022中国新能源汽车产业报告 报告2022-08-02中国信通院:2022年上半年新能源汽车行业运行数据报告-新能源汽车继续... 报告2022-08-01头豹:2022年中国新能源汽车行业系列钻研-磷酸铁锂正极资料的降级计划... 报告2022-07-07克劳锐&百度:2022中国新能源汽车内容生态趋势洞察 报告2022-07-05头豹:2022年中国新能源汽车行业系列钻研——特斯拉引领OTA风潮 报告2022-07-04中国汽车&巨量:2022中国新能源汽车发展趋势白皮书 报告2022-06-29亿欧智库:2022寰球新能源汽车动力电池倒退钻研 报告2022-06-14汽车之家:大数据视角下的中国新能源汽车生产洞察(2022年) 报告2022-06-05头豹:2022年中国新能源汽车行业系列钻研:从CTC到滑板底盘,将扭转... 报告2022-05-23安永:新能源汽车保险经纪是车企的下一个突破口 2022 报告2022-05-16艾瑞征询:2021年中国新能源汽车换电市场钻研报告 报告2022-05-11汽车之家&德勤:2021中国新能源汽车市场洞察报告 报告2022-04-27车百智库&懂车帝&巨量算数:中国新能源汽车市场洞察报告2021 报告2022-03-28中国信通院:2021年新能源汽车行业运行监测报告 报告2022-03-16百度营销:百度新能源汽车行业洞察 报告2022-03-1458汽车:2021新能源汽车置换流向钻研报告 报告2022-02-17电动汽车观察家:2022年新能源汽车补贴政策解读 报告2022-02-17百度营销:百度新能源汽车行业洞察 报告2022-01-17Fastdata极数:新能源汽车简史——电动汽车沉浮录 报告2021-11-03新能源汽车国家大数据联盟:中国新能源汽车城柳州范本大数据报告 报告2021-10-26今日头条:2019年巨量引擎新能源汽车市场洞察 报告2020-01-13

March 24, 2023 · 1 min · jiezi

关于数据挖掘:Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析附代码数据

全文下载链接:http://tecdat.cn/?p=17748最近咱们被客户要求撰写对于销售量工夫序列的钻研报告,包含一些图形和统计输入。 在本文中,在数据迷信学习之旅中,我常常解决日常工作中的工夫序列数据集,并据此做出预测 我将通过以下步骤: 探索性数据分析(EDA)问题定义(咱们要解决什么)变量辨认(咱们领有什么数据)单变量剖析(理解数据集中的每个字段)多元分析(理解不同畛域和指标之间的相互作用)缺失值解决离群值解决变量转换预测建模LSTMXGBoost问题定义咱们在两个不同的表中提供了商店的以下信息: 商店:每个商店的ID销售:特定日期的营业额(咱们的指标变量)客户:特定日期的客户数量StateHoliday:假日SchoolHoliday:学校假期StoreType:4个不同的商店:a,b,c,dCompetitionDistance:到最近的竞争对手商店的间隔(以米为单位)CompetitionOpenSince [月/年]:提供最近的竞争对手凋谢的大抵年份和月份促销:当天促销与否Promo2:Promo2是某些商店的间断和间断促销:0 =商店不参加,1 =商店正在参加PromoInterval:形容促销启动的间断区间,并指定从新开始促销的月份。利用所有这些信息,咱们预测将来6周的销售量。 # 让咱们导入EDA所需的库:import numpy as np # 线性代数import pandas as pd # 数据处理,CSV文件I / O导入(例如pd.read_csv)import matplotlib.pyplot as pltimport seaborn as snsfrom datetime import datetimeplt.style.use("ggplot") # 绘图#导入训练和测试文件:train_df = pd.read_csv("../Data/train.csv")test_df = pd.read_csv("../Data/test.csv")#文件中有多少数据:print("在训练集中,咱们有", train_df.shape[0], "个察看值和", train_df.shape[1], 列/变量。")print("在测试集中,咱们有", test_df.shape[0], "个察看值和", test_df.shape[1], "列/变量。")print("在商店集中,咱们有", store_df.shape[0], "个察看值和", store_df.shape[1], "列/变量。")在训练集中,咱们有1017209个察看值和9列/变量。 在测试集中,咱们有41088个观测值和8列/变量。 在商店集中,咱们有1115个察看值和10列/变量。 首先让咱们清理  训练数据集。 #查看数据train_df.head().append(train_df.tail()) #显示前5行。 train_df.isnull().all()Out[5]:Store            FalseDayOfWeek        FalseDate             FalseSales            FalseCustomers        FalseOpen             FalsePromo            FalseStateHoliday     FalseSchoolHoliday    Falsedtype: bool让咱们从第一个变量开始->  销售量 opened_sales = (train_df[(train_df.Open == 1) #如果商店停业opened_sales.Sales.describe()Out[6]:count    422307.000000mean       6951.782199std        3101.768685min         133.00000025%        4853.00000050%        6367.00000075%        8355.000000max       41551.000000Name: Sales, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c38fa6588> 看一下顾客变量 In [9]:train_df.Customers.describe()Out[9]:count    1.017209e+06mean     6.331459e+02std      4.644117e+02min      0.000000e+0025%      4.050000e+0250%      6.090000e+0275%      8.370000e+02max      7.388000e+03Name: Customers, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c3565d240> train_df[(train_df.Customers > 6000)] 咱们看一下**假期** 变量。 train_df.StateHoliday.value_counts()0    8550870    131072a     20260b      6690c      4100Name: StateHoliday, dtype: int64train_df.StateHoliday_cat.count()1017209train_df.tail() train_df.isnull().all() #查看缺失Out[18]:Store               FalseDayOfWeek           FalseDate                FalseSales               FalseCustomers           FalseOpen                FalsePromo               FalseSchoolHoliday       FalseStateHoliday_cat    Falsedtype: bool让咱们持续进行商店剖析 store_df.head().append(store_df.tail()) #缺失数据:Store                         0.000000StoreType                     0.000000Assortment                    0.000000CompetitionDistance           0.269058CompetitionOpenSinceMonth    31.748879CompetitionOpenSinceYear     31.748879Promo2                        0.000000Promo2SinceWeek              48.789238Promo2SinceYear              48.789238PromoInterval                48.789238dtype: float64In [21]:让咱们从缺失的数据开始。第一个是 CompetitionDistance store_df.CompetitionDistance.plot.box()让我看看异样值,因而咱们能够在均值和中位数之间进行抉择来填充NaN 点击题目查阅往期内容 Python中利用长短期记忆模型LSTM进行工夫序列预测剖析 - 预测电力负荷数据 左右滑动查看更多 01 02 03 04 短少数据,因为商店没有竞争。 因而,我倡议用零填充缺失的值。store_df["CompetitionOpenSinceMonth"].fillna(0, inplace = True)让咱们看一下促销流动。 store_df.groupby(by = "Promo2", axis = 0).count() 如果未进行促销,则应将“促销”中的NaN替换为零  咱们合并商店数据和训练集数据,而后持续进行剖析。 第一,让咱们按销售量、客户等比拟商店。 f, ax = plt.subplots(2, 3, figsize = (20,10))plt.subplots_adjust(hspace = 0.3)plt.show() 从图中能够看出,StoreType A领有最多的商店,销售和客户。然而,StoreType D的均匀每位客户均匀收入最高。只有17家商店的StoreType B领有最多的均匀顾客。 咱们逐年查看趋势。 sns.factorplot(data = train_store_df, # 咱们能够看到季节性,但看不到趋势。 该销售额每年放弃不变<seaborn.axisgrid.FacetGrid at 0x7f7c350e0c50> 咱们看一下相干图。   "CompetitionOpenSinceMonth", "CompetitionOpenSinceYear", "Promo2<matplotlib.axes._subplots.AxesSubplot at 0x7f7c33d79c18> 咱们能够失去相关性: 客户与销售(0.82)促销与销售(0,82)均匀顾客销量 vs促销(0,28)商店类别 vs 均匀顾客销量 (0,44)我的剖析论断:商店类别 A领有最多的销售和顾客。商店类别 B的每位客户均匀销售额最低。因而,我认为客户只为小商品而来。商店类别 D的购物车数量最多。促销仅在工作日进行。客户偏向于在星期一(促销)和星期日(没有促销)购买更多商品。我看不到任何年度趋势。仅季节性模式。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析》。 ...

March 23, 2023 · 1 min · jiezi

关于数据挖掘:R语言如何做马尔可夫转换模型markov-switching-model附代码数据

全文链接:http://tecdat.cn/?p=6962最近咱们被客户要求撰写对于马尔可夫转换模型的钻研报告,包含一些图形和统计输入。 假如 有工夫序列数据,如下所示。教训表明,指标变量y仿佛与解释变量x无关。然而,乍一看,y在程度两头稳定,所以它仿佛并不总是有稳固的关系(背地有多个状态) 下面的样本数据创立如下。x和y之间的关系数据依据工夫扭转。 x <- rpois(500, lambda = 10) y1 <- x * 4 + 20 y2 <- x * 2 + 60 noise <- rnorm(1:500, mean = 10, sd = 5)y1 <- y1 + noisey2 <- y2 + noise y <- c(y1[1:200], y2[201:400], y1[401:500]) observed <- data.frame(x = x, y = y)x和y1,y2之间的关系如下图所示。 数据  在马尔可夫转换模型中,察看数据被认为是从几个状态生成的,并且如上所示能够很好地拆散。 察看到的数据 点击题目查阅往期内容 【视频】马尔可夫链蒙特卡罗办法MCMC原理与R语言实现|数据分享 左右滑动查看更多 01 02 03 ...

March 23, 2023 · 3 min · jiezi

关于数据挖掘:R语言对S&P500股票指数进行ARIMA-GARCH交易策略附代码数据

原文链接:http://tecdat.cn/?p=7207最近咱们被客户要求撰写对于ARIMA + GARCH交易策略的钻研报告,包含一些图形和统计输入。 在本文中,我想向您展现如何利用S&P500股票市场指数的交易策略 通过组合ARIMA和GARCH模型,从长期来看,咱们能够超过“买入并持有”办法。 策略概述该策略在“滚动”预测的根底上执行: 对于每一天,股票指数的对数收益的前_k_天被用作拟合最佳ARIMA和GARCH模型的窗口。 组合模型用于对第二天的收益进行预测。如果预测为负,则在上一个开盘时做空股票,而如果预测为正,则做多。如果预测与前一天的方向雷同,则什么都不会扭转。策略施行第一个工作是在R中装置和导入必要的库: 如果曾经装置了库,则能够简略地导入它们: > library(quantmod)> library(lattice)> library(timeSeries)> library(rugarch)实现后,将把该策略利用于S&P500。 而后,咱们能够创立规范普尔500的“收盘价”的对数收益率差分序列,并去除初始NA值: 依据Akaike信息准则,循环过程将为咱们提供“最佳”拟合ARMA模型,而后咱们能够将其用于输出GARCH模型: > final.aic <- Inf> final.order <- c(0,0,0)> for (p in 0:5) for (q in 0:5) {> if ( p == 0 && q == 0) {> next> }> > arimaFit = tryCatch( arima(spReturnsOffset, order=c(p, 0, q)),> error=function( err ) FALSE,> warning=function( err ) FALSE )> > if( !is.logical( arimaFit ) ) {> current.aic <- AIC(arimaFit)> if (current.aic < final.aic) {> final.aic <- current.aic> final.order <- c(p, 0, q)> final.arima <- arima(spReturnsOffset, order=final.order)> }> } else {> next> }> }如果GARCH模型无奈收敛,那么咱们只需将日期设置为产生“长期”预测 。 ...

March 23, 2023 · 2 min · jiezi

关于数据挖掘:R语言用贝叶斯层次模型进行空间数据分析附代码数据

浏览全文:http://tecdat.cn/?p=10932最近咱们被客户要求撰写对于贝叶斯层次模型的钻研报告,包含一些图形和统计输入。 在本文中,我将重点介绍应用集成嵌套 拉普拉斯近似办法的贝叶斯推理。能够预计贝叶斯 层次模型的后边缘散布。鉴于模型类型十分宽泛,咱们将重点关注用于剖析晶格数据的空间模型 。 数据集:纽约州北部的白血病为了阐明如何与空间模型拟合,将应用纽约白血病数据集。该数据集记录了普查区纽约州北部的许多白血病病例。数据集中的一些变量是: Cases:1978-1982年期间的白血病病例数。POP8:1980年人口。PCTOWNHOME:领有屋宇的人口比例。PCTAGE65P:65岁以上的人口比例。AVGIDIST:到最近的三氯乙烯(TCE)站点的均匀反间隔。鉴于有趣味钻研纽约州北部的白血病危险,因而首先要计算预期的病例数。这是通过计算总死亡率(总病例数除以总人口数)并将其乘以总人口数得出的: rate <- sum(NY8$Cases) / sum(NY8$POP8)NY8$Expected <- NY8$POP8 * rate一旦取得了预期的病例数,就能够应用_标准化死亡率_(SMR)来取得原始的危险预计,该_规范_是将察看到的病例数除以预期的病例数得出的: NY8$SMR <- NY8$Cases / NY8$Expected疾病作图在流行病学中,重要的是制作地图以显示绝对危险的空间散布。在此示例中,咱们将重点放在锡拉库扎市以缩小生成地图的计算工夫。因而,咱们用锡拉丘兹市的区域创立索引: # Subset Syracuse citysyracuse <- which(NY8$AREANAME == "Syracuse city")能够应用函数spplot(在包中sp)简略地创立疾病图: library(viridis)## Loading required package: viridisLitespplot(NY8[syracuse, ], "SMR", #at = c(0.6, 0.9801, 1.055, 1.087, 1.125, 13),   col.regions = rev(magma(16))) #gray.colors(16, 0.9, 0.4))## Loading required package: viridisLite 能够轻松创立交互式地图 请留神,先前的地图还包含11个受TCE净化的站点的地位,能够通过放大看到它。 点击题目查阅往期相干内容 [](http://mp.weixin.qq.com/s?__biz=MzA4MDUzOTIxNA==&mid=26538304...)R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据 左右滑动查看更多 01 02 03 04 混合效应模型泊松回归咱们将思考的第一个模型是没有潜在随机效应的Poisson模型,因为这将提供与其余模型进行比拟的基准。 模型 : 请留神,它的glm性能相似于该性能。在此,参数 E用于预期的案例数。或  设置了其余参数来计算模型参数的边际 (应用control.predictor)并计算一些模型抉择规范 (应用control.compute)。 接下来,能够取得模型的摘要: summary(m1)## ## Call:## Time used:##     Pre = 0.368, Running = 0.0968, Post = 0.0587, Total = 0.524 ## Fixed effects:##               mean    sd 0.025quant 0.5quant 0.975quant   mode kld## (Intercept) -0.065 0.045     -0.155   -0.065      0.023 -0.064   0## AVGIDIST     0.320 0.078      0.160    0.322      0.465  0.327   0## ## Expected number of effective parameters(stdev): 2.00(0.00)## Number of equivalent replicates : 140.25 ## ## Deviance Information Criterion (DIC) ...............: 948.12## Deviance Information Criterion (DIC, saturated) ....: 418.75## Effective number of parameters .....................: 2.00## ## Watanabe-Akaike information criterion (WAIC) ...: 949.03## Effective number of parameters .................: 2.67## ## Marginal log-Likelihood:  -480.28 ## Posterior marginals for the linear predictor and##  the fitted values are computed具备随机效应的泊松回归能够通过 在线性预测变量中包含iid高斯随机效应,将潜在随机效应增加到模型中,以解决适度扩散问题。 当初,该模式的摘要包含无关随机成果的信息: summary(m2)## ## Call:## Time used:##     Pre = 0.236, Running = 0.315, Post = 0.0744, Total = 0.625 ## Fixed effects:##               mean    sd 0.025quant 0.5quant 0.975quant   mode kld## (Intercept) -0.126 0.064     -0.256   -0.125     -0.006 -0.122   0## AVGIDIST     0.347 0.105      0.139    0.346      0.558  0.344   0## ## Random effects:##   Name     Model##     ID IID model## ## Model hyperparameters:##                     mean       sd 0.025quant 0.5quant 0.975quant mode## Precision for ID 3712.34 11263.70       3.52     6.94   39903.61 5.18## ## Expected number of effective parameters(stdev): 54.95(30.20)## Number of equivalent replicates : 5.11 ## ## Deviance Information Criterion (DIC) ...............: 926.93## Deviance Information Criterion (DIC, saturated) ....: 397.56## Effective number of parameters .....................: 61.52## ## Watanabe-Akaike information criterion (WAIC) ...: 932.63## Effective number of parameters .................: 57.92## ## Marginal log-Likelihood:  -478.93 ## Posterior marginals for the linear predictor and##  the fitted values are computed增加点估计以进行映射这两个模型预计 能够被增加到 SpatialPolygonsDataFrame NY8  NY8$FIXED.EFF <- m1$summary.fitted[, "mean"]NY8$IID.EFF <- m2$summary.fitted[, "mean"]spplot(NY8[syracuse, ], c("SMR", "FIXED.EFF", "IID.EFF"),  col.regions = rev(magma(16))) 晶格数据的空间模型格子数据波及在不同区域(例如,邻里,城市,省,州等)测量的数据。呈现空间依赖性是因为相邻区域将显示类似的指标变量值。 邻接矩阵能够应用poly2nbpackage中的函数来计算邻接矩阵 spdep。如果其边界 至多在某一点上接触 ,则此性能会将两个区域视为街坊: 这将返回一个nb具备邻域构造定义的对象: NY8.nb## Neighbour list object:## Number of regions: 281 ## Number of nonzero links: 1624 ## Percentage nonzero weights: 2.056712 ## Average number of links: 5.779359另外, 当多边形的重心 已知时,能够绘制对象: plot(NY8) plot(NY8.nb, coordinates(NY8), add = TRUE, pch = ".", col = "gray") 回归模型通常状况是,除了\(y\_i \)之外,咱们还有许多协变量 \(X\_i \)。因而,咱们可能想对\(X_i \)_回归_ \(y_i \)。除了 协变量,咱们可能还须要思考数据的空间结构。 能够应用不同类型的回归模型来建模晶格数据: 狭义线性模型(具备空间随机效应)。空间计量经济学模型。线性混合模型一种常见的办法(对于高斯数据)是应用 具备随机效应的线性回归: \ [ Y = X \ beta + Zu + \ varepsilon ] ...

March 23, 2023 · 3 min · jiezi

关于数据挖掘:R语言无套利区间模型正向套利和反向套利次数收益率分析华泰柏瑞300ETF可视化

全文链接:http://tecdat.cn/?p=31973原文出处:拓端数据部落公众号股指期货的套利交易有助于股指期货实现其价格发现以及危险躲避的性能,因而进步套利交易的效率,对于施展股指期货在经济倒退中的作用有着重要的意义。 本文帮忙客户对期货期现套利的钻研。钻研中次要以期货及其现货指数的数据为样本,实在的还原了市场,进步了钻研的准确性。 统计套利策略Bondarenko ( 2003)认为统计套利策略是指投资老本为零,然而其冀望收益为正、条件期望收益为非负的投资策略;他同时指出,传统的套利定义过于严格,在实际操作中意义不大。Vidyamurthy ( 2004)认为,统计套利是基于绝对定价的思维,类似的资产应该具备类似的价格,所以价差应放弃在一个平衡的程度;如果价差变大,则认为产生套利机会。协整实践最早由Engle & Granger ( 1987>提出,Wahab & Lashgari ( 1993)、Lien & Luo ( 1993)、Tse ( 1995)发现协整关系是期货价格与现货价格之间的十分重要的关系。Burgess (1999)以基于协整关系的统计套利模型对英国富时100指数期货进行实证钻研,获得了很好的成果。 无套利区间模型:下限 上限 参数意义: 数据取值: 1.取10个交易日,现货都用华泰柏瑞30OETF,做出相似这样的图像rs=0.028 r1=0.056 d=0.022842 TE=0.001373 Mf=0.1 Cs1=0.02*0.01 Fs1= 0.0173*0.01 Cs2= 0.3698*0.01 Fs2= 0.0265*0.01 Cs3= 0.3698*0.01 Fs3 =0.0265*0.01期货数据: 读取数据head(data)##       日期 开盘价(元) 最高价(元) 最低价(元) 收盘价(元) 成交额(百万) ## 1 40484.40    2515.82    2517.14    2509.18    2511.86     10352.92 ## 2 40484.40    2512.48    2521.34    2512.06    2521.34      6220.21 ## 3 40484.41    2521.41    2522.15    2514.64    2514.74      6700.37 ## 4 40484.41    2514.57    2514.57    2511.49    2513.30      4455.17 ## 5 40484.41    2513.39    2515.53    2513.31    2514.45      3821.64 ## 6 40484.42    2514.35    2519.64    2514.23    2519.64      4778.68 ##   成交量(股) ## 1 1353244240 ## 2  842527307 ## 3  874920739 ## 4  593051008 ## 5  488534018 ## 6  717302833无套利区间模型#下限 t=1 T=t+16 S=data$`收盘价(元)` upp=S[t]*((Css+Cfb+TE)*exp(rs-d)*(T-t)+(1+Csb+TE)*exp(r1*(T-t))-exp(d*(T-t)))/(1+Mf-(Mf+Cfs)*exp(r1*(T-t))) #上限 lower=S[t]*(exp(d*(T-t)-(2+Csb-Cfs+TE)*exp(rs-d)*(T-t)+(1-Css-TE)*exp(rs*(T-t)) ))/(1-Mf+(Mf+Cfb)*exp(rs*(T-t)))取10个交易日进行钻研 ...

March 23, 2023 · 1 min · jiezi

关于数据挖掘:R语言主题模型LDA文本挖掘评估公司面临的风险领域与可视化附代码数据

原文链接:http://tecdat.cn/?p=17996最近咱们被客户要求撰写对于主题模型LDA的钻研报告,包含一些图形和统计输入。 随着越来越多的数据被数字化,获取信息变得越来越艰难。咱们在本文中重点关注的一个示例是评估公司面临的不同危险畛域 介绍为此,咱们参考公司提交给证券交易委员会的年度报告,其中提供了公司财务业绩的全面摘要[1],包含公司历史,组织构造,高管薪酬,股权,子公司和经审计的财务报表等信息,以及其余信息。 目标除了通常的信息(例如股票的波动性,季节性方面)之外,公司还会公布诸如 “咱们的前15名客户约占咱们净销售额的80%”“曾经对咱们提起产品责任诉讼”这些作为潜在投资者对公司情况的正告[3]。目标是对公司面临的危险进行分类,这能够作为对正告投资者和潜在投资者的充沛倡议。 剖析的意义其中大多数是规范的货色–例如,库存稳定很大,有些企业是季节性的。咱们寻找异样的信息,例如“咱们的前15名客户约占咱们净销售额的80%”或“对咱们提起了许多产品责任诉讼” – 非处方药制造商。或思考演唱会的发起人提出:“咱们承当大量债权和租赁任务,这可能会限度咱们的经营并侵害咱们的财务状况。”  剖析依据David Blei的说法,主题模型是一种算法,用于发现大量,非结构化文档汇合的次要主题。主题模型能够依据发现的主题来组织汇合[2] 主题模型是摸索或了解任何语料库汇合的一种奇妙办法。首先,清理工作空间并加载所需的程序包,如下所示: rm(list=ls()) # 清理工作空间library("tm")library("wordcloud")library(lda)为了简便起见,咱们下载了数据,并从中提取了公司的危险局部。 textdata = readRDS("data.Rds")咱们计算词频(term frequency,TF)和逆文档频率(IDF inverse document frequency)进行评估 stpw = c("item.","1a","risk","factors","may","and","our","the","that","for","are","also","u","able","use","will","can","s") # 抉择stopwords.txt文件stopwords('english') # tm软件包停用词列表comn = unique(c(stpw, stpw1)) # 两个列表的并集stopwords = unique(c(gsub("'","",comn),comn)) # 删除标点符号后的最终停用词lsit############################################################## 文本清理 ##############################################################text.clean = function(x) #文本数据{ x = gsub("<.*?>", "", x) # 用于删除HTML标签的正则表达式 x = gsub("[^[:alnum:]///' ]", " ", x) # 仅保留字母数字 x = iconv(x, "latin1", "ASCII", sub="") # 仅保留ASCII字符 x = tolower(x) # 转换为小写字符 x = removePunctuation(x) # 删除标点符号 x = removeNumbers(x) # 删除数字 x = stripWhitespace(x) # 删除空格 x = gsub("^\s+|\s+$", "", x) # 删除结尾和结尾的空格 x = gsub("'", "", x) # 删除撇号 x = gsub("[[:cntrl:]]", " ", x) # 用空格替换控制字符 x = gsub("^[[:space:]]+", "", x) # 删除文档结尾的空白 x = gsub("[[:space:]]+$", "", x) # 删除文档开端的空白############################################################ 定义文档矩阵###########################################################custom.dtm = function(x1, # 文本语料库 scheme) # tf 或 tfidf{ #删除空白文档(即总和为零的列)for (i1 in 1:ncol(tdm.new)){ if (sum(tdm.new[, i1]) == 0) {a0 = c(a0, i1)} }length(a0) # 语料库中的空文档if (length(a0) >0) { tdm.new1 = tdm.new[, -a0]} else {tdm.new1 = tdm.new};dim(tdm.new1) # 缩小tdm}词频(term frequency,TF)定义为词t在文档d中呈现的次数[7],而 逆文档频率 预计整个文档汇合中词的稀有性。(如果在汇合的所有文档中都呈现一个词,则其IDF为零。) ...

March 22, 2023 · 5 min · jiezi

关于数据挖掘:R语言主成分PCA因子分析聚类对地区经济研究分析重庆市经济指标附代码数据

全文下载链接:http://tecdat.cn/?p=27515 最近咱们被客户要求撰写对于重庆市经济指标的钻研报告,包含一些图形和统计输入。 建设重庆市经济指标倒退体系,以重庆市一小时经济圈作为样本,使用因子分析办法进行实证剖析,在借鉴了相干评估实践和评估办法的根底上,本文提取出经济规模、人均倒退程度、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标形成的指标体系数据对重庆市38个区县经济倒退根本状况的八项指标进行剖析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析 结果表明:依据综合得分,能够看出各区县社会经济倒退程度排前三的是渝中区、渝北区、九龙坡区,得分最低的三个是巫山县、巫溪县、城口县,联合总体的剖析能够看出渝中区、九龙坡区在经济总体规模和建筑业方面较好,而重庆周边的地区经济实力较差,投资环境不好,特地是在修建方面的不足,以至于经济倒退相对而言单薄的地区,不管从哪方面来说重庆各区县中渝中区的经济实力是最好的。 评估指标的建设评估地区的之间的经济倒退程度,必须建设适当的指标体系。思考到地区经济指标的复杂性、多样性和可操作性,本文在此基础上建设了一套较为残缺的易于定量分析的地区经济评价指标体系,别离从不同的角度反映地区经济倒退特色。 本文所建设的指标体系共包含8个指标,别离从经济规模、人均倒退程度、经济发展潜力等方面来反映地区经济倒退特色。具体指标如下: 地区生产总值(万元)(X1)               社会消费品零售总额(万元)(X2) 工业总产值(万元)(X3) 建筑业总产值(万元)(X4) 高技术生产总值(万元)(X5) 全社会固定资产投资(万元)(X6) 人均可摆布支出(元)(X7) 人均地区生产总值(元)(X8) 因子分析在地区经济钻研中的利用因子分析模型及其步骤因子分析是一种数据简化的技术。它通过钻研泛滥变量之间的外部依赖关系,探究观测数据中的根本构造,并用少数几个假想变量来示意其根本的数据结构。这几个假想变量可能反映原来泛滥变量的次要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。设p个变量,则因子分析的数学模型可示意为: 称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是非凡因子,是不能被前m个公共因子蕴含的局部。因子分析步骤如下: (1)将原始数据标准化,仍记为X;(2)建设相关系数矩阵R;(3)解特征方程,计算特征值和特征向量,当累计贡献率不低于85%时,提取k个主成分代替原来的m个指标,计算因子载荷矩阵A;(4)对A进行最大正交旋转替换;(5)对主因子进行命名和解释。如需进行排序,则计算各个主因子的得分,以贡献率为权重,对加权计算综合因子得分。 样本选取及数据起源本文选取了重庆市38个区县作为样本进行剖析,目标在于摸索如何基于R统计软件的因子分析和聚类分析办法钻研地区经济倒退。具体数据如下: 数据分析过程将原始数据录入R软件中,选取地区生产总值(万元)(X1)、社会消费品零售总额(万元)(X2)、工业总产值(万元)(X3)、建筑业总产值(万元)(X4)、高技术生产总值(万元)(X5)、全社会固定资产投资(万元)(X6)、人均可摆布支出(元)(X7)、人均地区生产总值(元)(X8)。 在进行因子分析之前,咱们通过观察相关系数矩阵,并用KMO and Bartlett’s Test测验一下数据是否适宜作因子分析。再做描述性剖析Analysis-factor-description失去初始公因子方差、因子、特征值以及由每个因子解释的百分比和累计百分比。剖析后果如下: coebaltt(COR,)#Bartlett球形检 Bartlett 的球形度测验的p值(显著性概率值sig)<0.05,表明通过测验,散布能够近似为正态分布,由此则能够进行因子分析。 sreeot(PCA,type="lines") 点击题目查阅往期内容 数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化 左右滑动查看更多 01 02 03 04 从表能够得出,提取3个因子的累计方差贡献率曾经达到89.854%>86%,信息损失仅为10.146%,从第4个因子开始方差贡献率都低于5%,因而选取3个公因子进行因子分析成果较为理想;从图的碎石图能够看出从第4个因子开始,特征值差别变动很小,综上所述:在特征值大于0.5的条件下,所提取的三个因子能通过测验并能很好的形容8个指标,所以提取前3个特征值建设因子载荷矩阵。  表中为初始因子载荷矩阵表, F1、F2、F3别离作为第一、第二、第三公共因子。建设了因子分析数学目标不仅仅要找出公共因子以及对变量进行分组,更重要的要晓得每个公共因子的意义,以便进行进一步的剖析,如果每个公共因子的含意不清,则不便于进行理论背景的解释。因为因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目标是使因子载荷阵的构造简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种次要的正交旋转法。四次方最大法、方差最大法和等量最大法。 因而需要进行因子旋转,使得因子对变量的奉献达到极化的成果。为此采纳方差最大化的正交旋转形式,使各变量在某个因子上产生较高载荷,而其余因子上载荷较小,从而失去旋转后的因子载荷矩阵,如下表所示: 由表和旋转后的因子图能够看出,通过旋转后的公共因子的解释原始数据的能力进步了,体现为公共因子F1在X1(地区生产总值),X6(全社会固定资产投资)和X8(人均地区生产总值)上的载荷值都很大。因而咱们能够把第一公共因子确立为综合经济实力因子,宏观上反映了地区经济倒退规模的总体状况,在这个因子上的得分越高,阐明城市经济倒退的总体状况越好。 利用各公共因子方差贡献率计算综合得分,并计算综合得分=因子1的方差贡献率因子1的得分+因子2的方差贡献率因子2的得分+因子3的方差贡献率*因子3的得分。将数据按综合得分降序排列,失去局部因子得分和综合得分状况如下图所示: 后果探讨基于上述因子得分,能够得出2012年重庆38个区县的经济倒退情况如下: 1、依据经济实力因子F1得分大于1的顺次有渝中区、渝北区、九龙坡区、江北区和万州区,分数别离为4.4211、1.8967、1.7808、1.201、1.2804。阐明在经济总体规模和建筑业方面,渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是最好的,规模较大,经济实力最强,发展前景很好,经济倒退实力雄厚的地区。 2、依据经济发展潜力因子F2得分大于1的有沙坪坝区和渝北区,分数别离为3.7052、3.4396。阐明在高技术科技和工业方面比较发达,固定资产投资最大,这两个地区都在主城,对外开放水平高,科技翻新方面比拟好,有本人的工业倒退,已根本造成了本人的产业结构,充分发挥了本人的天文劣势和资源环境劣势,发展潜力较大。 基于主因子得分的聚类分析零碎聚类分析聚类分析又称群剖析,就是将数据分组成为多个类。在同一个类内对象之间具备较高的类似度,不同类之间的对象差异较大。在社会经济畛域中存在着大量分类问题,比方若对某些大城市的物价指数进行考查,而物价指数很多,有农用生产物价指数、服务项目价指数、食品生产物价指数、建材零售价格指数等等。因为要考查的物价指数很多,通常先对这些物价指数进行分类。总之,须要分类的问题很多,因而聚类分析这个有用的工具越来越受到人们的器重,它在许多畛域中都失去了宽泛的利用。  聚类分析内容十分丰盛,有零碎聚类法、有序样品聚类法、动静聚类法、含糊聚类法、图论聚类法、聚类预报法等;最罕用最胜利的聚类分析为零碎聚类法,零碎聚类法的根本思维为先将n个样品各自看成一类,而后规定样品之间的“间隔”和类与类之间的间隔。抉择间隔最近的两类合并成一个新类,计算新类和其余类(各以后类)的间隔,再将间隔最近的两类合并。这样,每次合并缩小一类,直至所有的样品都归成一类为止。  零碎聚类法的根本步骤:  1、计算n个样品两两间的间隔。  2、结构n个类,每个类只蕴含一个样品。  3、合并间隔最近的两类为一新类。  4、计算新类与各以后类的间隔。  5、反复步骤3、4,合并间隔最近的两类为新类,直到所有的类并为一类为止。  6、画聚类谱系图。  7、决定类的个数和类。  零碎聚类办法:1、最短距离法;2、最长距离法;3、两头间隔法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。  ...

March 22, 2023 · 1 min · jiezi

关于数据挖掘:NLP自然语言处理主题模型LDA案例挖掘人民网留言板文本数据附代码数据

全文链接:tecdat.cn/?p=2155最近咱们被客户要求撰写对于主题模型LDA的钻研报告,包含一些图形和统计输入。 随着网民规模的不断扩大,互联网不仅是传统媒体和生存形式的补充,也是民心凸显的地带。领导干部参加网络问政的制度化正在成为一种发展趋势,这种趋势与互联网倒退的时代需要是分不开的 ▼ 人民网《中央领导留言板》是备受百姓注目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。 基于以上背景,tecdat钻研人员对北京留言板外面的留言数据进行剖析,摸索网民们在呐喊什么。 数量与情感 朝阳区大众最沉闷 图表 从上图能够看出不同地区留言板的情感偏向散布,总的来说,负面情感留言数目和踊跃情感相差不多,负面情感留言较多,占比46%,踊跃情感留言占比42%,中立情感的留言占比11%。 从地区来看,沉闷在各大媒体的“朝阳区大众”留言数目也是最多的,其次是海淀区,昌平区。因而,从情感散布来看大部分留言还是在反馈存在的问题,而不是一味赞美或者灌水。 点击题目查阅往期内容 python主题建模可视化LDA和T-SNE交互式可视化 左右滑动查看更多 01 02 03 04 主题剖析 当地户口问题呼声最高 接下来,咱们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA提供了一种较为不便地量化钻研主题的机器学习办法。 咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比拟大。将模型生成的20个主题中的前五个高频词取出,如下表所示。 图表 而后咱们将占比最高的前六个主题与它们的情感偏向进行剖析。 图表 从上图能够看出大家对于6大主题的探讨: 主题1反馈孩子,当地户口办理的问题是最多的,反馈了当地落户北京相干的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。 主题2是反馈环境革新及棚户革新(e.g.棚户屋宇破旧、墙面湿润、上下水管道老化腐烂景象重大常常造成跑冒滴漏,遇到雨雪天气,路线积水、泥泞不堪,大院居民尤其是老人小孩出行十分不便)。 主题3是反馈高考和医保(e.g.外地人衷心的心愿政府能关注一下孩子在北京的高考问题)。 主题4是汽车摇号政策(e.g.现行的摇号计划是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车基本摇不号;有的是不想买车就摇上了)。 主题5是反馈工资和租房问题(e.g.我是当地退休老师。因为孩子在北京工作,故到北京帮忙孩子操持家务,以反对孩子工作。因为北京房价低廉,咱们买不起大房,三代人只能挤着住。我想问问市长,咱们是否也能住公租房)。 主题6是守法修建(e.g.XX雅苑许多一层业主私搭乱建成风,且物业能干,造成极大的安全隐患)。 地区、主题与情感得分 接下来咱们剖析了不同主题和地区的情感偏向散布。从下图能够看出,主题3高考和医保、主题6 守法修建、主题13教育拆迁的留言内容中踊跃情感占较大比例。 图表 咱们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也能够发现,情感得分最高的是在主题11居民生存下的朝阳区留言内容。总的来说,依据踊跃情感的内容散布来看,主题3高考和医保、主题6 守法修建、主题13教育拆迁的留言内容中体现出较好的反馈。 本文摘选 《 数据凝听人民网留言板的那些网事 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 R语言对NASA元数据进行文本开掘的主题建模剖析 R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 用于NLP的Python:应用Keras进行深度学习文本生成 长短期记忆网络LSTM在工夫序列预测和文本分类中的利用 用Rapidminer做文本开掘的利用:情感剖析 R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研 R语言对推特twitter数据进行文本情感剖析 Python应用神经网络进行简略文本分类 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 R语言文本开掘应用tf-idf剖析NASA元数据的关键字 R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据 Python应用神经网络进行简略文本分类 R语言自然语言解决(NLP):情感剖析新闻文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言对推特twitter数据进行文本情感剖析 R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析 R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation) ...

March 22, 2023 · 1 min · jiezi

关于数据挖掘:Python互联网大数据爬虫的武汉市二手房价格数据采集分析Linear-Regression模型

全文链接:http://tecdat.cn/?p=31958原文出处:拓端数据部落公众号分析师:Yan Liu我国有大量的资金都流入了房地产行业,同时与其余行业有着千头万绪的分割,能够说房地产行业对推动我国深化改革、经济倒退、工业化和城市化具备不可磨灭的作用。目前对于二手房交易价格的预测次要思考的是屋宇价格受宏观因素的影响,如国家政策、经济倒退程度、人口数量等,并据此揣测地区房价及其走势,很少有从宏观的角度来精确预测每间屋宇的价格。 解决方案工作/指标从区位特色、屋宇属性和交易指标3个角度,选取包含所属区域、建筑面积、楼层高度、周边银行数量、学校数量、电影院数量等在内的多维度特色,来预测二手房的挂牌价格,实现基于数据的科学决策,做到一房一价的精准预测。 数据 获取(1)在链家网上,武汉市区域被划分为15个区,共107个街道,每个页面展现30条屋宇数据,通过翻页最多能够达到100页,即3000条数据。为了能尽可能保障抓取到链家上所有的数据,依据深度优先算法思维,采纳先遍历区域,再遍历街道的遍历思路来设计爬虫。 (2)周边配套设施,屋宇所在小区的经纬度数据能够从网页源代码中取得,其关键词为:resblockPosition。通过调用百度地图API能够取得上图所示的周边配套设施数量,涵盖了交通、教育、医疗、购物、生存、娱乐共6大类,19个特色变量。 特色 预处理(1)缺失值解决 通过对数据缺失值统计发现有8个变量存在缺失值: 别离应用剔除法、填充法来解决缺失值。houseStructure共有四种类型:平层、复式、错层、跃层。思考到位于同一小区的屋宇,其屋宇类型大多雷同,故采纳此办法对缺失值进行填充:对于缺失houseStructure的屋宇A,依据community_id(所属小区ID)统计出与A同小区的所有屋宇,再统计出这些屋宇的houseStructure的众数对A进行填充。buildingTypes、liftEquip和premisesOwnership采纳和houseStructure同样的填充办法。propertyFee数据的缺失抉择应用均值填充法。 分类变量的解决对于散布极不平衡的分类变量予以剔除,对于其余分类变量做硬编码或独热编码解决 数值变量的解决buildingTime:建成年代,数据格式均为年份(如:2018),解决办法为结构新的变量YearsDelta,其值等于2020年与其差值。 通过三法令剔除异样值。周边配套设施蕴含了一公里内的地铁站数量、幼儿园数量、医院数量等19个数值变量,通过绘制散布直方图发现不少变量的散布存在偏态。 别离予以剔除或是将数值变量转换为二分类变量。 数据变换通过绘制变量分布图,发现totalBuildings、totalHouses、totalDeals和Yearsdelta呈现出较为显著的右偏散布,而出现偏态散布的数据是不利于最终所构建模型的成果的,因而须要对这几个变量进行纠偏解决,采纳的办法为Johnson变换。 上述变量通过此办法解决前后散布比照图如下,显然,通过解决后的变量散布已近似于正态分布。 建模别离建设Linear Regression模型、XGBoost模型和LightGBM模型,通过比拟模型性能(评估指标应用MSE、MAE、R square)优劣,选出成果最佳的预测模型。 XGBoost和LightGBM模型的参数很多,参数取值不同,模型的性能也会有差异,因而须要对其主要参数进行调优,找出最佳参数组合。罕用的调参办法为GridSearchCV(网络搜寻法)和RandomizedSearchCV(随机搜寻法),采纳GridSearchCV进行参数调优。 XGBoost模型调优后的参数: LightGBM模型调优后的参数: 模型性能比照*房价预测问题是一个回归问题,属于监督学习领域。对于所失去的模型,其对未知数据的泛化能力间接决定了模型的性能优劣。因而为了比照不同模型对于未知数据的体现成果,采纳十折穿插验证进行模型验证。 三种模型的10折穿插验证在测试集性能评估: 三种模型在测试集上预测状况比照: 调参后的XGBoost模型和LightGBM模型训练出的各个特色的重要性打分排序比照: 能够看出,buildingArea特色重要性得分最高,与小区状况无关的5个变量得分都排在前列;与屋宇属性相干的变量,如houseFloor、houseDecoration等,得分均位于中游,对房价的影响不大;属于屋宇周边设施的变量,如subwayStation、park、stadium等,得分广泛都很低,对房价影响很小。 从区位特色、屋宇属性和交易指标3个角度,从链家网上通过Python网络爬虫有针对性的获取武汉市二手房成交记录中的特色数据。对原始数据通过一系列预处理,使用机器学习中的XGBoost算法、LightGBM算法和GridSearchCV算法,对解决后的数据进行建模与参数调优。将两种模型在测试集上的预测成果与训练好的Linear Regression模型进行比照,XGBoost和LightGBM在预测成果上有着显著劣势。通过XGBoost和LightGBM模型学习后的特色重要性得分可知,在三类因素中,屋宇建筑面积对房价的影响最大,反映屋宇所属小区状况的变量重要性得分均排在前列,而其余屋宇本身属性、周边配套设施的变量对价格影响较小,与公众的直观感触根本吻合。 在此对Yan Liu对本文所作的奉献示意诚挚感激,他善于数据采集、机器学习、深度学习。 最受欢迎的见解 1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)R语言多元Logistic逻辑回归 利用案例 2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)面板平滑转移回归(PSTR)剖析案例实现 3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR) 4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)R语言泊松Poisson回归模型剖析案例 5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)R语言混合效应逻辑回归Logistic模型剖析肺癌 6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae...)r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现 7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a...)R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%...)python用线性回归预测股票价格 9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%...)R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

March 22, 2023 · 1 min · jiezi

关于数据挖掘:专题2022年全球手游市场报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=31956原文出处:拓端数据公众号在移动游戏萎缩的状况下,咱们还能在什么畛域深耕呢? 报告以市场机会为导向,将沉闷用户数量、内购营收、头部产品体现等要害数据做为基准,对不同游戏的市场机会、发展趋势进行了深刻的剖析。 超休闲游戏领有最大的用户群,以模仿和益智为次要内容的休闲类游戏是游戏市场中的常青树,竞技等小众玩法在玩家中很受欢迎。 在2022上半年,超级休闲类游戏仍然是最多的,占到了最多的20%;益智类和模仿类的休闲类游戏,是一种十分经典的类型,玩家群体十分宏大。 以跑酷、 FPS、 TPS等游戏类型为特色的动作类游戏,在这三个类别中排名前三,其次是策略类。 在其余的玩法中,体育、桌游、棋牌、音乐、节奏等都有很大的玩家群体,在泛滥的小众玩法中,都是比拟优良的。 本专题内的参考报告(PDF)目录热云数据:2022海内手游买量精品创意集 报告2023-02-04OpenMediation:2022年阿根廷市场倒退报告——拉美重点市... 报告2023-01-25TopOn:2022年度寰球手游广告变现报告 报告2023-01-17热云数据&SensorTower:2022寰球手游买量白皮书 报告2023-01-06白鲸出海:2022中国手游出海白皮书 报告2023-01-04宽广大:2022年寰球娱乐场手游营销趋势洞察 报告2022-12-23Sensor Tower:2022年日本IP手游海内市场洞察 报告2022-12-23Sensor Tower:2022年RPG手游市场洞察 报告2022-12-12App Growing:2022中国角色扮演手游出海洞察 报告2022-11-25宽广大:2022年Q3热门手游类型寰球营销趋势洞察 报告2022-11-11宽广大:2022Q3寰球热门手游类型营销报告 报告2022-10-31萃弈&NielsenIQ:北美手游市场品牌出海增长白皮书 报告2022-10-20宽广大:2022寰球休闲手游营销趋势洞察 报告2022-10-08白鲸出海:2022Snapchat中东手游白皮书 报告2022-10-03Sensor Tower:2022年超休闲手游市场洞察报告 报告2022-09-27数数科技:2022中国手游出海日韩市场洞察 报告2022-09-07TradPlus:2022年中版寰球手游广告变现白皮书 报告2022-08-30OpenMediation:2022年年中寰球手游市场报告 报告2022-08-28宽广大:2022年东南亚手游挪动营销洞察报告 报告2022-08-26萃弈:北美手游市场品牌出海增长白皮书 报告2022-08-23宽广大:2022年出海模仿经营手游寰球营销洞察报告 报告2022-08-02谷歌&益普索:2022寰球手玩耍家需要变动洞察 报告2022-08-01Sensor Tower:2022年寰球合成手游市场洞察 报告2022-08-01Sensor Tower:2022年寰球合成手游市场洞察 报告2022-07-26北方财经:20款手游未成年人爱护机制测评报告 报告2022-07-15AppGrowing&游戏葡萄:2022上半年寰球手游买量白皮书 报告2022-07-15TopOn:2022上半年寰球手游广告变现报告 报告2022-07-10AppGrowing:社交博彩手游出海投放 报告2022-07-05Sensor Tower:2022上半年热门手游市场洞察 报告2022-06-30汇量科技:国内手游出海白皮书 报告2022-06-09Sensor Tower:2022年寰球手游广告投放趋势洞察 报告2022-06-08数数科技:2022年中国手游行业研发趋势报告 报告2022-05-16Data.ai:2022年二次元手游市场洞察报告 报告2022-05-13数数科技:2022年中国手游行业研发趋势报告 报告2022-04-13TopOn:2021年度寰球手游广告变现报告 报告2022-01-20App Growing:2021年度寰球手游买量白皮书 报告2022-01-05Sensor Tower:2021年中重度手游市场热门主题洞察 报告2021-12-23SensorTower:2021年亚洲手游市场剖析报告 报告2021-11-04SensorTower:2021年博彩手游发展趋势剖析报告 报告2021-11-04App Growing:2021年上半年寰球手游买量白皮书 报告2021-07-26有米科技:2019年Q4手游市场买量报告 报告2020-01-13

March 22, 2023 · 1 min · jiezi

关于数据挖掘:贝叶斯线性回归和多元线性回归构建工资预测模型附代码数据

原文链接:http://tecdat.cn/?p=21641最近咱们被客户要求撰写对于贝叶斯线性回归的钻研报告,包含一些图形和统计输入。 在劳动经济学畛域,支出和工资的钻研为从性别歧视到高等教育等问题提供了见解 工资模型在本文中,咱们将剖析横断面工资数据,以期在实践中应用贝叶斯办法,如BIC和贝叶斯模型来构建工资的预测模型。 加载包在本试验中,咱们将应用dplyr包摸索数据,并应用ggplot2包进行数据可视化。咱们也能够在其中一个练习中应用MASS包来实现逐渐线性回归。 咱们将在实验室稍后应用此软件包中应用BAS.LM来实现贝叶斯模型。 数据本实验室将应用的数据是在全国935名受访者中随机抽取的。 变量形容wage周支出hours每周均匀工作工夫IQ智商得分kww工作常识分数educ受教育年限exper工作教训tenure在现任雇主工作多年age年龄married= 1,如果已婚black= 1(如果为黑人)south= 1,如果住在南部urban= 1,如果寓居在都市中sibs兄弟姐妹数brthord出世程序meduc母亲的教育水平feduc父亲的学历lwage工资的自然对数 这是察看钻研还是试验? 察看钻研摸索数据与任何新数据集一样,规范的探索性数据分析是一个好的开始。咱们将从工资变量开始,因为它是咱们模型中的因变量。 对于工资问题,下列哪种说法是谬误的?7名受访者每周支出低于300元summary(wage)##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. ##   115.0   669.0   905.0   957.9  1160.0  3078.0 因为工资是咱们的因变量,咱们想探讨其余变量之间的关系作为预测。 练习:排除工资和工龄,抉择另外两个你认为能够很好预测工资的变量。应用适当的图来形象化他们与工资的关系。 点击题目查阅往期内容 视频:R语言中的Stan概率编程MCMC采样的贝叶斯模型 左右滑动查看更多 01 02 03 04 受教育水平和工作小时数仿佛是工人工资的良好预测因素。 ggplot(data = wage, aes(y=wage, x=exper))+geom_point() ggplot(data = wage, aes(y=wage, x=educ))+geom_point() 简略的线性回归对于咱们在数据中看到的工资差别,一个可能的解释是,更聪慧的人赚更多的钱。下图显示了周工资和智商得分之间的散点图。 ggplot(data = wage, aes(x = iq, y = wage)) +  geom_point() 这个图是相当芜杂的。尽管智商分数和工资之间可能存在轻微的正线性关系,但智商充其量只是一个粗略的工资预测指标。咱们能够通过拟合一个简略的线性回归来量化这一点。 m_wage_iq$coefficients## (Intercept)          iq ##  116.991565    8.303064## [1] 384.7667回忆一下,在模型下 如果应用  和参考先验    ,而后贝叶斯后验均值和标准差别离等于频数预计和标准差。 贝叶斯模型标准假如误差正态分布且方差为常数。与频率法一样,咱们通过查看模型的残差散布来测验这一假如。如果残差是高度非正态或偏态的,则违反了假如,任何随后的推断都是有效的。 测验m\_wage\_iq的残差。正态分布误差的假如无效吗?不,因为模型的残差散布是右偏的。qqnorm(m_wage_iq$residuals)qqline(m_wage_iq$residuals) 练习:从新调整模型,这次应用educ(教育)作为自变量。你对上一个练习的答复有变动吗? ## (Intercept)        educ ##   146.95244    60.21428summary(m_wage_educ)$sigma## [1] 382.3203 同样的论断是,该线性模型的残差与i∼N(0,2)近似正态分布,因而能够在该线性模型的根底上进行进一步的推断。 变量转换适应数据右偏的一种办法是(天然)对数变换因变量。请留神,这仅在变量严格为正时才可能,因为没有定义负值的对数,并且log(0)=−∞。咱们试着用对数工资作为因变量来拟合一个线性模型。问题4将基于这个对数转换模型。 m_lwage_iq = lm(lwage ~ iq, data = wage)练习:查看该模型的残差。假如正态分布的残差正当吗? 基于上述残差图,能够假设对数工资线性模型与iq的正态分布。 回忆一下,给定2的和的后验散布是正态的,但稍微遵循一个具备n−p−1自由度的t散布。在这种状况下,p=1,因为智商是咱们模型中惟一的对数工资预测因子。因而,和的后验概率都遵循933自由度的t散布,因为df十分大,这些散布实际上是近似正态的。 在参考先验p(,,2)∞1/2下,给出的95%后验置信区间,即IQ系数。(0.00709, 0.01050)# 从线性模型m_lwage_iq中提取系数值qnorm(c(0.025, 0.975), mean = iq_mean_estimate, sd=iq_sd)## [1] 0.007103173 0.010511141练习:智商系数很小,这是意料之中的,因为智商分数进步一分很难对工资产生很高的倍增效应。使系数更易于解释的一种办法是在将智商放入模型之前将其标准化。从这个新模型来看,智商进步1个标准差(15分)预计工资会减少多少百分比? 智商是用scale函数标准化的,智商进步15分会引起工资的进步 coef(summary(m_lwage_scaled_iq))["siq", "Estimate"]*15+coef(summary(m_lwage_scaled_iq))["(Intercept)", "Estimate"]## [1] 8.767568多元线性回归很显著,工资能够用很多预测因素来解释,比方教训、教育水平和智商。咱们能够在回归模型中蕴含所有相干的协变量,试图尽可能多地解释工资变动。 lm中的.的应用通知R在模型中蕴含所有协变量,而后用-wage进一步批改,而后从模型中排除工资变量。 默认状况下,lm函数执行残缺的案例剖析,因而它会删除一个或多个预测变量中短少(NA)值的察看值。 因为这些缺失的值,咱们必须做一个额定的假如,以便咱们的推论是无效的。换句话说,咱们的数据必须是随机缺失的。例如,如果所有第一个出世的孩子没有报告他们的出世程序,数据就不会随机失落。在没有任何额定信息的状况下,咱们将假如这是正当的,并应用663个残缺的观测值(与原来的935个相同)来拟合模型。Bayesian和frequentist办法都存在于解决缺失数据的数据集上,然而它们超出了本文的范畴。 从这个模型来看,谁赚得更多:已婚的黑人还是独身的非黑人?已婚黑人与繁多非黑人女子相比,所有其余平等的,已婚的黑人将取得以下乘数。 married_black <- married_coef*1+black_coef*1married_black## [1] 0.09561888从线性模型的疾速总结中能够看出,自变量的许多系数在统计上并不显著。您能够依据调整后的R2抉择变量。本文引入了贝叶斯信息准则(BIC),这是一种可用于模型抉择的度量。BIC基于模型拟合,同时依据样本大小按比例惩办参数个数。咱们能够应用以下命令计算全线性模型的BIC: BIC(m_lwage_full)## [1] 586.3732咱们能够比拟残缺模型和简化模型的BIC。让咱们试着从模型中删除出世程序。为了确保观测值放弃不变,能够将数据集指定为na.omit(wage),它只蕴含没有缺失值的观测值。 m_lwage_nobrthord = lm(lwage ~ . -wage -brthord, data = na.omit(wage))## [1] 582.4815如您所见,从回归中删除出世程序会缩小BIC,咱们试图通过抉择模型来最小化BIC。 从残缺模型中打消哪个变量失去最低的BIC?feduc`` BIC(m_lwage_sibs)## [1] 581.4031BIC(m_lwage_feduc)## [1] 580.9743BIC(m_lwage_meduc)## [1] 582.3722练习:R有一个函数stepAIC,它将在模型空间中向后运行,删除变量直到BIC不再升高。它以一个残缺的模型和一个惩办参数k作为输出。依据BIC(在这种状况下k=log(n)k=log(n))找到最佳模型。 #对于AIC,惩办因子是一个接触值k。对于step BIC,咱们将应用stepAIC函数并将k设置为log(n)step(m_lwage_full1, direction = "backward", k=log(n))## Residuals:##     Min      1Q  Median      3Q     Max ## -172.57  -63.43  -35.43   23.39 1065.78 ## ## Coefficients:##               Estimate Std. Error t value Pr(>|t|)    ## (Intercept) -5546.2382    84.7839 -65.416  < 2e-16 ***## hours           1.9072     0.6548   2.913   0.0037 ** ## tenure         -4.1285     0.9372  -4.405 1.23e-05 ***## lwage         951.0113    11.5041  82.667  < 2e-16 ***## ---## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1## ## Residual standard error: 120.1 on 659 degrees of freedom## Multiple R-squared:  0.9131, Adjusted R-squared:  0.9127 ## F-statistic:  2307 on 3 and 659 DF,  p-value: < 2.2e-16贝叶斯模型均匀通常,几个模型都是同样可信的,只抉择一个模型疏忽了抉择模型中蕴含的变量所波及的固有不确定性。解决这一问题的一种办法是实现贝叶斯模型均匀(Bayesian model averaging,BMA),即对多个模型进行均匀,从新数据中取得系数的后验值和预测值。咱们能够应用它来实现BMA或抉择模型。咱们首先将BMA利用于工资数据。 ...

March 21, 2023 · 1 min · jiezi

关于数据挖掘:R语言中贝叶斯网络BN动态贝叶斯网络线性模型分析错颌畸形数据附代码数据

全文链接:http://tecdat.cn/?p=22956最近咱们被客户要求撰写对于贝叶斯网络的钻研报告,包含一些图形和统计输入。 贝叶斯网络(BN)是一种基于有向无环图的概率模型,它形容了一组变量及其相互之间的条件依赖性。它是一个图形模型,咱们能够很容易地查看变量的条件依赖性和它们在图中的方向 在这篇文章中,我将简要地学习如何用R来应用贝叶斯网络。 本教程旨在介绍贝叶斯网络学习和推理的基础知识,应用真实世界的数据来摸索图形建模的典型数据分析工作流程。关键点将包含: 预处理数据;学习贝叶斯网络的构造和参数。应用网络作为预测模型。应用网络进行推理。通过与内部信息的比照来验证网络的有效性。疾速介绍贝叶斯网络定义 贝叶斯网络(BNs)的定义是: 一个网络结构,一个有向无环图 , 其中每个节点  对应于一个随机变量 ;一个全局概率分布  (带参数 ), 它能够依据图中存在的弧被分解成更小的部分概率分布。网络结构的次要作用是通过图形拆散来表白模型中各变量之间的条件独立性关系,从而指定全局散布的因子化。 每个部分散布都有本人的参数集 ; 而⋃  要比小得多,因为许多参数是固定的,因为它们所属的变量是独立的。 R实现了以下学习算法。 基于束缚的:PC, GS, IAMB, MMPC, Hilton-PC 基于分数的:爬山算法、Tabu Search 配对的:ARACNE, Chow-Liu 混合:MMHC, RSMAX2 咱们应用基于分数的学习算法,_希尔算法_。首先,咱们将先为本教程生成简略的数据集。 在这个数据集中,'状态'与'元素'和'承受'列有关系。而'类型'与'色彩'列有关系。当你创立一个带有分类数据的数据框时,列应该是一个因子类型。否则,该数据框不能用于BN构造的创立。   接下来,咱们将创立学习构造。 咱们能够在一个图中看到构造。 > plot(hc_simd) 在这个图中,状态、元素、承受、类型和色彩被称为节点。节点之间的方向用弧线形容,弧线是一个蕴含从元素到元素方向数据的矩阵。 点击题目查阅往期内容 R语言BUGS/JAGS贝叶斯剖析: 马尔科夫链蒙特卡洛办法(MCMC)采样 左右滑动查看更多 01 02 03 04 如上弧线显示,在咱们的数据中存在'类型'到'色彩',以及'状态'到'承受'和'元素'的关系。'类型'和'状态'是两个独立的组,它们之间不存在相互依赖关系。 接下来,咱们将用数据来拟合模型。 simd_fitted 基于上述训练数据,咱们能够进行条件概率查问。 咱们查看 "Outlier "和 "Target "的状态概率。 该样本成为 "离群 "的概率为51%。 状态成为 "指标 "的概率是0%。 错颌畸形数据的贝叶斯网络分析问题:受第三类错牙合畸形影响的患者(以下牙弓突出为特色),其骨骼不均衡在生命晚期就产生,在青春期和骨骼成熟前会变得更加显著。在单个III类患者中晚期预测医治的胜利或失败,使其更容易改正,但仅从大量的状态决定因素中预测是很难做到的。起因是III类错颌畸形很少是繁多颅面部件异样的后果,所以单个的临床和放射学测量值可能不如测量值自身的相互作用具备批示性。 工作: ...

March 21, 2023 · 2 min · jiezi

关于数据挖掘:R语言用贝叶斯线性回归贝叶斯模型平均-BMA来预测工人工资附代码数据

全文链接:http://tecdat.cn/?p=24141最近咱们被客户要求撰写对于贝叶斯模型的钻研报告,包含一些图形和统计输入。 在本文中,贝叶斯模型提供了变量抉择技术,确保变量抉择的可靠性。对社会经济因素如何影响支出和工资的钻研为利用这些技术提供了充沛的机会,同时也为从性别歧视到高等教育的益处等主题提供了洞察力 背景上面,贝叶斯信息准则(BIC)和贝叶斯模型平均法被利用于构建一个扼要的支出预测模型。 这些数据是从 935 名受访者的随机样本中收集的。该数据集是_计量经济学数据集_系列的一部分 。 加载包数据将首先应用该dplyr 包进行摸索 ,并应用该ggplot2 包进行可视化 。稍后,实现逐渐贝叶斯线性回归和贝叶斯模型均匀 (BMA)。 数据数据集网页提供了以下变量形容表: 变量形容wage每周支出(元)hours每周均匀工作工夫IQ智商分数kww对世界工作的理解得分educ受教育年数exper多年工作教训tenure在现任雇主工作的年数age年龄married=1 如果已婚black=1 如果是黑人south=1 如果住在北方urban=1 如果寓居在都市sibs兄弟姐妹的数量brthord出世程序meduc母亲的教育(年)feduc父亲的教育(年)lwage工资自然对数 wage`` 摸索数据与任何新数据集一样,一个好的终点是规范的探索性数据分析。汇总表是简略的第一步。 # 数据集中所有变量的汇总表--包含连续变量和分类变量summary(wage) 因变量(工资)的直方图给出了正当预测应该是什么样子的。 #工资数据的简略柱状图hst(wge$wae, breks = 30) 直方图还可用于大抵理解哪些地方不太可能呈现后果。 # 查看图表 "尾部 "的点的数量sm(wage$ge < 300)## [1] 6sm(wae$wge > 2000)## [1] 20简略线性回归因为周工资('wage')是该剖析中的因变量,咱们想摸索其余变量作为预测变量的关系。咱们在数据中看到的工资变动的一种可能的、简略的解释是更聪慧的人赚更多的钱。下图显示了每周工资和 IQ 分数之间的散点图。 gplot(wae, es(iq, wge)) + gom_oint() +gom_smoth() 点击题目查阅往期内容 R语言和STAN,JAGS:用RSTAN,RJAG建设贝叶斯多元线性回归预测选举数据 左右滑动查看更多 01 02 03 04 IQ 分数和工资之间仿佛存在轻微的正线性关系,但仅靠 IQ 并不能牢靠地预测工资。尽管如此,这种关系能够通过拟合一个简略的线性回归来量化,它给出: 工资 i = + ⋅iqi + iwagei = + ⋅iqi + i m_wg_iq = lm(wge ~ iq, dta = age)coefients 工资 i = 116.99 + 8.3 ⋅iqi + iwagei = 116.99 + 8.3 ⋅iqi + i ...

March 21, 2023 · 1 min · jiezi

关于数据挖掘:Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析附代码数据

全文下载链接:http://tecdat.cn/?p=17748最近咱们被客户要求撰写对于销售量工夫序列的钻研报告,包含一些图形和统计输入 在本文中,在数据迷信学习之旅中,我常常解决日常工作中的工夫序列数据集,并据此做出预测 我将通过以下步骤: 探索性数据分析(EDA)问题定义(咱们要解决什么)变量辨认(咱们领有什么数据)单变量剖析(理解数据集中的每个字段)多元分析(理解不同畛域和指标之间的相互作用)缺失值解决离群值解决变量转换预测建模LSTMXGBoost问题定义咱们在两个不同的表中提供了商店的以下信息: 商店:每个商店的ID销售:特定日期的营业额(咱们的指标变量)客户:特定日期的客户数量StateHoliday:假日SchoolHoliday:学校假期StoreType:4个不同的商店:a,b,c,dCompetitionDistance:到最近的竞争对手商店的间隔(以米为单位)CompetitionOpenSince [月/年]:提供最近的竞争对手凋谢的大抵年份和月份促销:当天促销与否Promo2:Promo2是某些商店的间断和间断促销:0 =商店不参加,1 =商店正在参加PromoInterval:形容促销启动的间断区间,并指定从新开始促销的月份。利用所有这些信息,咱们预测将来6周的销售量。 # 让咱们导入EDA所需的库:import numpy as np # 线性代数import pandas as pd # 数据处理,CSV文件I / O导入(例如pd.read_csv)import matplotlib.pyplot as pltimport seaborn as snsfrom datetime import datetimeplt.style.use("ggplot") # 绘图#导入训练和测试文件:train_df = pd.read_csv("../Data/train.csv")test_df = pd.read_csv("../Data/test.csv")#文件中有多少数据:print("在训练集中,咱们有", train_df.shape[0], "个察看值和", train_df.shape[1], 列/变量。")print("在测试集中,咱们有", test_df.shape[0], "个察看值和", test_df.shape[1], "列/变量。")print("在商店集中,咱们有", store_df.shape[0], "个察看值和", store_df.shape[1], "列/变量。")在训练集中,咱们有1017209个察看值和9列/变量。 在测试集中,咱们有41088个观测值和8列/变量。 在商店集中,咱们有1115个察看值和10列/变量。 首先让咱们清理  训练数据集。 #查看数据train_df.head().append(train_df.tail()) #显示前5行。 train_df.isnull().all()Out[5]:Store            FalseDayOfWeek        FalseDate             FalseSales            FalseCustomers        FalseOpen             FalsePromo            FalseStateHoliday     FalseSchoolHoliday    Falsedtype: bool让咱们从第一个变量开始->  销售量 opened_sales = (train_df[(train_df.Open == 1) #如果商店停业opened_sales.Sales.describe()Out[6]:count    422307.000000mean       6951.782199std        3101.768685min         133.00000025%        4853.00000050%        6367.00000075%        8355.000000max       41551.000000Name: Sales, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c38fa6588> 看一下顾客变量 In [9]:train_df.Customers.describe()Out[9]:count    1.017209e+06mean     6.331459e+02std      4.644117e+02min      0.000000e+0025%      4.050000e+0250%      6.090000e+0275%      8.370000e+02max      7.388000e+03Name: Customers, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c3565d240> train_df[(train_df.Customers > 6000)] 咱们看一下**假期** 变量。 train_df.StateHoliday.value_counts()0    8550870    131072a     20260b      6690c      4100Name: StateHoliday, dtype: int64train_df.StateHoliday_cat.count()1017209train_df.tail() train_df.isnull().all() #查看缺失Out[18]:Store               FalseDayOfWeek           FalseDate                FalseSales               FalseCustomers           FalseOpen                FalsePromo               FalseSchoolHoliday       FalseStateHoliday_cat    Falsedtype: bool让咱们持续进行商店剖析 store_df.head().append(store_df.tail()) #缺失数据:Store                         0.000000StoreType                     0.000000Assortment                    0.000000CompetitionDistance           0.269058CompetitionOpenSinceMonth    31.748879CompetitionOpenSinceYear     31.748879Promo2                        0.000000Promo2SinceWeek              48.789238Promo2SinceYear              48.789238PromoInterval                48.789238dtype: float64In [21]:让咱们从缺失的数据开始。第一个是 CompetitionDistance store_df.CompetitionDistance.plot.box()让我看看异样值,因而咱们能够在均值和中位数之间进行抉择来填充NaN 点击题目查阅往期内容 Python中利用长短期记忆模型LSTM进行工夫序列预测剖析 - 预测电力负荷数据 左右滑动查看更多 01 02 03 04 短少数据,因为商店没有竞争。 因而,我倡议用零填充缺失的值。store_df["CompetitionOpenSinceMonth"].fillna(0, inplace = True)让咱们看一下促销流动。 store_df.groupby(by = "Promo2", axis = 0).count() 如果未进行促销,则应将“促销”中的NaN替换为零  咱们合并商店数据和训练集数据,而后持续进行剖析。 第一,让咱们按销售量、客户等比拟商店。 f, ax = plt.subplots(2, 3, figsize = (20,10))plt.subplots_adjust(hspace = 0.3)plt.show() 从图中能够看出,StoreType A领有最多的商店,销售和客户。然而,StoreType D的均匀每位客户均匀收入最高。只有17家商店的StoreType B领有最多的均匀顾客。 咱们逐年查看趋势。 sns.factorplot(data = train_store_df, # 咱们能够看到季节性,但看不到趋势。 该销售额每年放弃不变<seaborn.axisgrid.FacetGrid at 0x7f7c350e0c50> 咱们看一下相干图。   "CompetitionOpenSinceMonth", "CompetitionOpenSinceYear", "Promo2<matplotlib.axes._subplots.AxesSubplot at 0x7f7c33d79c18> 咱们能够失去相关性: 客户与销售(0.82)促销与销售(0,82)均匀顾客销量 vs促销(0,28)商店类别 vs 均匀顾客销量 (0,44)我的剖析论断:商店类别 A领有最多的销售和顾客。商店类别 B的每位客户均匀销售额最低。因而,我认为客户只为小商品而来。商店类别 D的购物车数量最多。促销仅在工作日进行。客户偏向于在星期一(促销)和星期日(没有促销)购买更多商品。我看不到任何年度趋势。仅季节性模式。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析》。 ...

March 21, 2023 · 1 min · jiezi

关于数据挖掘:R语言独立成分分析fastICA谱聚类支持向量回归SVR模型预测商店销量时间序列可视化

全文链接:http://tecdat.cn/?p=31948原文出处:拓端数据部落公众号本文利用R语言的独立成分剖析(ICA)、谱聚类(CS)和反对向量回归 SVR 模型帮忙客户对商店销量进行预测。首先,别离对商店销量的历史数据进行了独立成分剖析,失去了多个独立成分;其次,利用谱聚类办法将商店销量划分成了若干类,并将每个类的特色进行了提取;最初,利用 SVR模型对所有的商店销量进行预测。试验结果表明,利用 FastICA、 CS和 SVR模型可能精确预测商店销量。 读取数据 read.csv("train_final.csv")head(data) 独立成分分析方法(fastICA)首先对于d维的随机变量 x∈Rd×1 ,咱们假如他的产生过程是由互相独立的源 s∈Rd×1 ,通过 A∈Rd×d 线性组合产生的x=As 如果s的遵从高斯分布的,那么故事完结,咱们不能复原出惟一的s,因为不论哪个方向都是等价的。而如果s是非高斯的,那么咱们心愿找到w从而 s=wTx ,使得 s 之间的互相独立就能够复原出s了,我将在前面指出,这等价于最大化每个 s 的非高斯性。 采纳独立成分分析方法(fastICA),失去矩阵W,A和ICs等独立成分后果(是否须要pca降维?)。 reeplot(prcomp( 谱聚类谱聚类(spectral cluster),这里的谱指的是某个矩阵的特征值,该矩阵是什么,什么得来的,以及在聚类中的作用将会在下文解一一道来。谱聚类的思维来源于图论,它把待聚类的数据集中的每一个样本看做是图中一个顶点,这些顶点连贯在一起,连贯的这些边上有权重,权重的大小示意这些样本之间的类似水平。同一类的顶点它们的类似水平很高,在图论中体现为同一类的顶点中连贯它们的边的权重很大,不在同一类的顶点连贯它们的边的权重很小。于是谱聚类的最终目标就是找到一种切割图的办法,使得切割之后的各个子图内的权重很大,子图之间的权重很小。 采纳谱聚类形式对所有矩阵的列进行聚类,失去两到三种不同的聚类后果(如何)。 谱聚类聚成2个类别 sc <- spec 聚成3个类别 SVR模型SVR是反对向量机(SVM)的重要利用分支。通过SVR算法,能够找到一个回归立体并使得一个汇合中的所有数据间隔该立体的间隔最短。 应用场景SVR是一个回归模型,次要是用于拟合数值,个别利用于特色较为稠密且特色数较少的场景。 例如,能够应用SVR回归模型来预测某个城市的温度。输出特色有很多,例如这个城市某个期间的平均温度、绿化水平、湖泊数量以及日期等。训练数据能够是一段时间内的城市温度。 对所有数据采纳log标准化解决,而后对不同的类的训练集别离采纳SVR模型训练,再用测试集失去测试后果 所需后果:k个不同模式工夫序列图(分属不同类的某个部门工夫序列),表征不同类之间的差别与同类之内的类似. pre=SVRModel不同类测试集所采纳SVR模型的不同参数(C,,)。 不同类测试集所采纳SVR模型之后的预测后果(RMSE,MAD,MAPE,MPE), RMSE(test,yHat)## [1] 0.1354805MAE(test,yHat)## [1] 0.1109939MAPE(test,yHat)## [1] 1.099158#MPE   ftsa::error(forecast =yHat, true = test, method = "mpe")## [1] 1.099158预测模型预测模型退出工夫序列向前1周,2周,3周,4周时的数据作为输出变量,采纳不同聚类形式所得预测后果。 向前2周 不同类测试集所采纳SVR模型之后的预测后果(RMSE,MAD,MAPE,MPE) RMSE(test,yHat)## [1] 0.09735726MAE(test,yHat)## [1] 0.0655883MAPE(test,yHat)## [1] 0.6538239#MPE ftsa::error(forecast =yHat, true = test, method = "mpe")## [1] 0.467259 ...

March 21, 2023 · 1 min · jiezi

关于数据挖掘:通过python采集京东商品详情数据接口代码展示

业务场景:作为寰球最大的 B2C 电子商务平台之一,京东平台提供了丰盛的商品资源,吸引了大量的寰球买家和卖家。为了不便开发者接入京东平台,京东平台提供了丰盛的 API 接口,其中商品详情接口是十分重要的一部分。大家有探讨稳固采集京东整站实时商品详情数据接口,通过该接口开发者能够更好地理解商品的状况,商品详情详细信息查问,数据参数包含:获取商品列表主图、价格、题目,sku,商品评论日期,评论内容,评论图片,买家昵称,追评内容,商品属性,追评属性图片等页面上有的数据残缺解决方案帮忙买家更精确地进行商品选购。这个引起了我技术挑战的趣味。目前,本人做了压测,QPS 高、出滑块概率极低,API 整体稳固,可满足业务场景的性能需求。 解决方案(复制v:taobaoapi2014获取key和secret):经探讨封装成 item_get - 取得商品详情接口和 item_search - 按关键字搜寻商品接口及 item_search_shop - 取得店铺的所有商品接口,利用这些接口能够拿到商品 ID,商品题目,商品优惠券,商品到手价,商品价格,商品优惠价,商品 sku 属性,商品图片,商品视频,商品 sku 属性图片,商品属性形容,商品库存,商品销量,店铺优惠券信息,商品评论日期,评论内容,评论图片,买家昵称,追评内容,商品属性,追评属性图片等商品详情页面有的数据均能够拿到,能够联合其余接口关键词搜寻接口,详情接口,销量接口,店铺所有商品接口,店铺订单接口,店铺上传接口,买家订单接口,商品评论接口,图片搜寻接口,淘口令接口等接口,整个平台页面上能够看的到数据均能够拿到,接口实用于淘宝天猫,京东,拼多多,阿里巴巴,微店,抖音,亚马逊,速卖通,lazada,shopee 等寰球出名的 30 多个电商平台,接口利用于:商品剖析,竞品剖析,品牌监控,商品搬家,商品上传,商城建设,淘宝客,erp 选品,店铺同步,CID 店铺订单回传接口等泛滥业务场景,接下来将展现接口代码: 1.申请参数 (反对 taobao (tmall),JD,1688,Pinduoduo,lazada,amazon,aliexpress 等寰球 30 多个出名电商平台数据,同样的形式拿数据)(https://o0b.cn/iiandy) 申请参数:num_iid=10335871600参数阐明:num_iid:JD商品ID2.申请代码示例,反对高并发申请(CURL、PHP 、PHPsdk 、Java 、C# 、Python...) # coding:utf-8"""Compatible for python2.x and python3.xrequirement: pip install requests"""from __future__ import print_functionimport requests# 申请示例 url 默认申请参数曾经做URL编码url = "https://vx19970108018/jd/item_get/?key=<您本人的apiKey>&secret=<您本人的apiSecret>&num_iid=10335871600"headers = { "Accept-Encoding": "gzip", "Connection": "close"}if __name__ == "__main__": r = requests.get(url, headers=headers) json_obj = r.json() print(json_obj)3.响应示例因文章字符限度,暂不展现,欢送代码交换。 ...

March 21, 2023 · 1 min · jiezi

关于数据挖掘:开源周刊第一期

Codon : 让 Python 领有 C/C++ 一样的速度为了解决python运行速度,麻省理工学院的计算机科学家出手了,他们独特研发了一种名为 Codon 的 Python 编译器,能够将 Python 代码转化为本地机器代码,而不会对运行时的性能产生影响。 "在单线程上,比 Python 的典型速度进步了 10-100 倍或更多,"Codon repo写道,"Codon 的性能通常与 C/C++ 的性能相当(有时甚至更好)。" github地址: https://github.com/exaloop/codon Rspack : 一个 Rust 写的打包构建工具,性能和用法上对齐 webpack字节跳动刚刚开源 Rspack,一个 Rust 写的打包构建工具,性能和用法上对齐 webpack. 启动速度极快: 基于 Rust 实现,构建速度极快,带给你极致的开发体验。 闪电般的 HMR: 内置增量编译机制,HMR 速度极快,齐全胜任大型项目的开发 兼容 webpack 生态: 针对 webpack 的架构和生态进行兼容,无需从头搭建生态。 github地址: https://github.com/web-infra-dev/rspack VSlide : 一款基于网页的数据可视化工具应运而生VSlide,一款基于网页的数据可视化工具应运而生,旨在让普通用户便捷地创作反对交互式数据可视化图表的演示文稿。零代码制作交互式图表,点击式操作,推拽式布局,不须要任何根底,应用文档具体。 github地址: https://github.com/shalom-lab/vslide OpenChatKit : 前OpenAI研究员独特打造,ChatGPT开源平替ChatGPT的开源平替来了,源代码、模型权重和训练数据集全副公开,OpenChatKit一共蕴含200亿参数,在EleutherAI的GPT-NeoX-20B(GPT-3开源替代品)上进行了微调,还能够连贯其它API或数据源进行检索等等。 GitHub刚刚上线,就曾经取得了800+标星。 github地址: https://github.com/togethercomputer/OpenChatKit ...

March 20, 2023 · 1 min · jiezi

关于数据挖掘:R语言中贝叶斯网络BN动态贝叶斯网络线性模型分析错颌畸形数据附代码数据

全文链接:http://tecdat.cn/?p=22956最近咱们被客户要求撰写对于贝叶斯网络的钻研报告,包含一些图形和统计输入。 贝叶斯网络(BN)是一种基于有向无环图的概率模型,它形容了一组变量及其相互之间的条件依赖性。它是一个图形模型,咱们能够很容易地查看变量的条件依赖性和它们在图中的方向 在这篇文章中,我将简要地学习如何用R来应用贝叶斯网络。 本教程旨在介绍贝叶斯网络学习和推理的基础知识,应用真实世界的数据来摸索图形建模的典型数据分析工作流程。关键点将包含: 预处理数据;学习贝叶斯网络的构造和参数。应用网络作为预测模型。应用网络进行推理。通过与内部信息的比照来验证网络的有效性。疾速介绍贝叶斯网络定义 贝叶斯网络(BNs)的定义是: 一个网络结构,一个有向无环图 ![图片](), 其中每个节点 ![图片]() 对应于一个随机变量 ![图片]();一个全局概率分布  (带参数 ), 它能够依据图中存在的弧被分解成更小的部分概率分布。网络结构的次要作用是通过图形拆散来表白模型中各变量之间的条件独立性关系,从而指定全局散布的因子化。 每个部分散布都有本人的参数集 ; 而⋃  要比小得多,因为许多参数是固定的,因为它们所属的变量是独立的。 R实现了以下学习算法。 基于束缚的:PC, GS, IAMB, MMPC, Hilton-PC 基于分数的:爬山算法、Tabu Search 配对的:ARACNE, Chow-Liu 混合:MMHC, RSMAX2 咱们应用基于分数的学习算法,_希尔算法_。首先,咱们将先为本教程生成简略的数据集。 在这个数据集中,'状态'与'元素'和'承受'列有关系。而'类型'与'色彩'列有关系。当你创立一个带有分类数据的数据框时,列应该是一个因子类型。否则,该数据框不能用于BN构造的创立。   接下来,咱们将创立学习构造。 咱们能够在一个图中看到构造。 > plot(hc_simd) 在这个图中,状态、元素、承受、类型和色彩被称为节点。节点之间的方向用弧线形容,弧线是一个蕴含从元素到元素方向数据的矩阵。 点击题目查阅往期内容 R语言BUGS/JAGS贝叶斯剖析: 马尔科夫链蒙特卡洛办法(MCMC)采样 左右滑动查看更多 01 02 03 04 如上弧线显示,在咱们的数据中存在'类型'到'色彩',以及'状态'到'承受'和'元素'的关系。'类型'和'状态'是两个独立的组,它们之间不存在相互依赖关系。 接下来,咱们将用数据来拟合模型。 simd_fitted 基于上述训练数据,咱们能够进行条件概率查问。 咱们查看 "Outlier "和 "Target "的状态概率。 该样本成为 "离群 "的概率为51%。 状态成为 "指标 "的概率是0%。 错颌畸形数据的贝叶斯网络分析问题:受第三类错牙合畸形影响的患者(以下牙弓突出为特色),其骨骼不均衡在生命晚期就产生,在青春期和骨骼成熟前会变得更加显著。在单个III类患者中晚期预测医治的胜利或失败,使其更容易改正,但仅从大量的状态决定因素中预测是很难做到的。起因是III类错颌畸形很少是繁多颅面部件异样的后果,所以单个的临床和放射学测量值可能不如测量值自身的相互作用具备批示性。 工作: ...

March 20, 2023 · 2 min · jiezi

关于数据挖掘:数据分享R语言用lme4多层次混合效应广义线性模型GLM逻辑回归分析教育留级调查数据附代码数据

全文链接:http://tecdat.cn/?p=22813最近咱们被客户要求撰写对于混合效应狭义线性模型的钻研报告,包含一些图形和统计输入。 本教程为读者提供了应用频率学派的狭义线性模型(GLM)的根本介绍。具体来说,本教程重点介绍逻辑回归在二元后果和计数/比例后果状况下的应用,以及模型评估的办法 本教程应用教育数据例子进行模型的利用。此外,本教程还简要演示了用R对GLM模型进行的多层次扩大。最初,还探讨了GLM框架中的更多散布和链接函数。 本教程蕴含以下构造。 筹备工作。介绍GLM。加载教育数据。数据筹备。二元(伯努利)Logistic回归。二项式 Logistic 回归。多层次Logistic回归。其余族和链接函数。本教程介绍了: 假设检验和统计推断的基本知识。回归的基本知识。R语言编码的基本知识。进行绘图和数据处理的基本知识。狭义线性模型(GLM)简介对于y是间断值得状况,咱们能够用这种形式解决,但当y是离散值咱们用一般线性模型就不适合了,这时咱们援用另外一种模型 --- Generalised Linear Models 狭义线性模型。 为了获取GLM模型,咱们列出3个条件: ,也就是y|x为指数族散布,指数族散布模式:如果咱们判断y的假如为 ![图片](),则![图片]()。天然参数和输出x呈线性关系:这3个条件的来由咱们不探讨,咱们只晓得做这样的假如是基于“设计”的抉择,而非必然。 咱们以泊松回归为例, y遵从泊松散布 ,化为指数族模式,咱们能够失去。所以 之后即为最大似然法的过程。 教育数据本教程中应用的数据是教育数据。 该数据来源于全国性的小学教育考察。数据中的每一行都是指一个学生。后果变量留级是一个二分变量,示意一个学生在小学教育期间是否留过级。学校变量示意一个学生所在的学校。集体层面的预测因素包含。  性别(0=女性,1=男性)和学前教育(受过学前教育,0=没有,1=有)。学校层面是学校均匀SES(社会经济位置)得分。 本教程利用教育数据试图答复的次要钻研问题是。 疏忽数据的构造,性别和学前教育对学生是否留级的影响是什么? 疏忽数据的构造,学校均匀SES对学生留级比例的影响是什么? 思考到数据的构造,性别、学前教育和学校均匀SES对学生是否留级有什么影响? 这三个问题别离用以下这些模型来答复:二元逻辑回归;二项逻辑回归;多层次二元逻辑回归。 数据筹备加载必要的软件包# 如果你还没有装置这些包,请应用install.packages("package_name")命令。library(lme4) # 用于多层次模型library(tidyverse) # 用于数据处理和绘图导入数据head(Edu) 数据处理  mutate(学校 = factor(学校),         性别 = if_else(性别 == 0, "girl", "boy"),         性别 = factor(性别, levels = c("girl", "boy")),         受过学前教育 = if_else(受过学前教育 == 0, "no", "yes"),         受过学前教育 = factor(受过学前教育, levels = c("no", "yes"))) 查看缺失的数据  summarise_each((~sum(is.na(.)) 数据中,经济位置变量有1066个观测值缺失。对缺失数据的解决自身就是一个简单的话题。为了不便起见,咱们在本教程中简略地将数据缺失的案例删除。 二元逻辑回归摸索数据:按性别和学前教育分类的留级数量   group_by(性别) %>%  summarise(是否留过级 = sum(是否留过级)) 看来,留级的学生人数在男女之间有很大的不同,更多的男学生留级。更多没有承受过学前教育的学生留级。这一察看结果表明,性别和学前教育可能对留级有预测作用。 构建二元逻辑回归模型R默认装置了根底包,其中包含运行GLM的glm函数。glm的参数与lm的参数类似:公式和数据。然而,glm须要一个额定的参数:family,它指定了后果变量的假如散布;在family中咱们还须要指定链接函数。family的默认值是gaussian(link = "identity"),这导致了一个线性模型,相当于由lm指定的模型。在二元逻辑回归的状况下,glm要求咱们指定一个带有logit链接的二项分布,即family = binomial(link = "logit") 。 glm(formula ,                    family = binomial(link = "logit")) 解释从下面的总结输入中,咱们能够看到,性别对学生留级的概率有正向和显著的预测,而学前教育则有负向和显著的预测。具体来说,与女孩相比,男孩更有可能留级。以前上过学的学生不太可能导致留级。 为了解释参数估计值,咱们须要对估计值进行指数化解决。 请留神,参数估计的解释与几率而不是概率无关。赔率的定义是。P(事件产生)/P(事件未产生)。在本剖析中,假如其余所有放弃不变,与女孩相比,男孩减少了54%的留级几率;与没有学前教育相比,假如其余所有放弃不变,领有学前教育升高了(1-0.54)%=46%的留级几率。 参数效应的可视化为了使参数效应的解释更加容易,咱们能够对参数效应可视化。 plot(Effects) 请留神,在这两张图中,Y刻度指的是留级的概率,而不是几率。概率比几率更容易解释。每个变量的概率分数是通过假如模型中的其余变量是常数并采取其平均值来计算的。正如咱们所看到的,假如一个学生有均匀的学前教育,作为一个男孩比作为一个女孩有更高的留级概率(~0.16)~0.11)。同样,假如一个学生有一个均匀的性别,有学前教育的学生比没有学前教育的学生留级的概率低(~0.11)(~0.18)。请留神,在这两幅图中,还包含了估计值的置信区间,以使咱们对估计值的不确定性有一些理解。 请留神,均匀学前教育和性别的概念可能听起来很奇怪,因为它们是分类变量(即因素)。如果你对假如一个均匀因素的想法感到奇怪,你能够指定你的预期因素程度作为参考点。   predictors = list( values=c(性别boy=0, 受过学前教育yes = 0)) 设置性别boy = 0意味着在学前教育效应图中,性别变量的参考程度被设置为0;学前教育yes = 0导致0成为性别效应图中学前教育变量的参考程度。 因而,正如下面两幅图所示,假如学生没有承受过学前教育,作为男孩的留级概率(~0.20)比作为女孩的留级概率(~0.14)要高;假如学生是女性,有学前教育的留级概率(~0.09)比没有学前教育的留级概率(~0.15)要低。 点击题目查阅往期内容 多程度模型、分层线性模型HLM、混合效应模型钻研老师的受欢迎水平 左右滑动查看更多 01 02 03 04 ...

March 20, 2023 · 2 min · jiezi

关于数据挖掘:PYTHON银行机器学习回归随机森林KNN近邻决策树高斯朴素贝叶斯支持向量机SVM分析营销活动数据附代码数据

全文下载链接:http://tecdat.cn/?p=26219最近咱们被客户要求撰写对于银行机器学习的钻研报告,包含一些图形和统计输入。 该数据与银行机构的间接营销流动相干,营销流动基于电话。通常,须要与同一客户的多个联系人分割,以便拜访产品(银行定期存款)是否会(“是”)或不会(“否”)订阅 银行数据集咱们的数据集形容y - 客户是否订阅了定期存款?(二进制:'是','否') 咱们的指标是抉择最好的回归模型来让客户订阅或不订阅定期存款。咱们将应用如下算法: 线性回归随机森林回归KNN近邻决策树高斯奢侈贝叶斯反对向量机抉择最佳模型的决定将基于: 准确性过采样数据筹备在本节中,咱们加载数据。咱们的数据有 45211 个变量。 输出变量: 银行客户数据 1 - 年龄(数字) 2 - 工作:工作类型(分类:'行政'、'蓝领'、'企业家'、'女佣'、'治理'、'退休'、'自雇'、'服务'、'学生'、'技术员'、'就业'、'未知') 3 - 婚姻:婚姻状况(分类:'离婚'、'已婚'、'独身'、'不详';注:'离婚'指离婚或丧偶)。 4 - 教育(分类:'根底4年'、'根底6年'、'根底9年'、'高中'、'文盲'、'专业课程'、'大学学位'、'未知') 5 - 守约:是否有守约的信贷?(分类: '没有', '有', '未知') 6-住房:是否有住房贷款?(分类: '否', '是', '未知') 7 - 贷款:有集体贷款吗? 8 - contact: 分割通信类型(分类:'手机', '电话')。 9 - 月:最初一次分割的年份月份(分类:'一月', '二月', '三月', ..., '十一月', '十二月') 10 - day\_of\_week:最初一次分割的星期(分类:'mon', 'tue', 'wed', 'thu', 'fri') 11 - 持续时间:最初一次分割的持续时间,以秒为单位(数字)。 12 - 流动:在这个流动期间为这个客户进行的接触次数(数字,包含最初一次接触)。 13 - pdays: 在上次流动中最初一次与客户分割后的天数(数字,999示意之前没有与客户分割)。 14 - 以前:在这次流动之前,为这个客户进行的接触次数(数字)。 15 - 后果:上次营销流动的后果(分类:"失败"、"不存在"、"胜利")。 社会和经济背景属性 16 - emp.var.rate:待业变化率--季度指标(数值)。 17 - cons.price.idx:消费者价格指数--月度指标(数值)。 18 - cons.conf.idx:消费者信念指数--月度指标(数字)。 19 - euribor3m:银行3个月利率--每日指标(数值) 20 - nr.employed: 雇员人数 - 季度指标(数字) ...

March 20, 2023 · 2 min · jiezi

关于数据挖掘:R语言主成分PCA因子分析聚类对地区经济研究分析重庆市经济指标附代码数据

全文下载链接:http://tecdat.cn/?p=27515 最近咱们被客户要求撰写对于重庆市经济指标的钻研报告,包含一些图形和统计输入。 建设重庆市经济指标倒退体系,以重庆市一小时经济圈作为样本,使用因子分析办法进行实证剖析,在借鉴了相干评估实践和评估办法的根底上,本文提取出经济规模、人均倒退程度、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标形成的指标体系数据对重庆市38个区县经济倒退根本状况的八项指标进行剖析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析 结果表明:依据综合得分,能够看出各区县社会经济倒退程度排前三的是渝中区、渝北区、九龙坡区,得分最低的三个是巫山县、巫溪县、城口县,联合总体的剖析能够看出渝中区、九龙坡区在经济总体规模和建筑业方面较好,而重庆周边的地区经济实力较差,投资环境不好,特地是在修建方面的不足,以至于经济倒退相对而言单薄的地区,不管从哪方面来说重庆各区县中渝中区的经济实力是最好的。 评估指标的建设评估地区的之间的经济倒退程度,必须建设适当的指标体系。思考到地区经济指标的复杂性、多样性和可操作性,本文在此基础上建设了一套较为残缺的易于定量分析的地区经济评价指标体系,别离从不同的角度反映地区经济倒退特色。 本文所建设的指标体系共包含8个指标,别离从经济规模、人均倒退程度、经济发展潜力等方面来反映地区经济倒退特色。具体指标如下: 地区生产总值(万元)(X1)               社会消费品零售总额(万元)(X2) 工业总产值(万元)(X3) 建筑业总产值(万元)(X4) 高技术生产总值(万元)(X5) 全社会固定资产投资(万元)(X6) 人均可摆布支出(元)(X7) 人均地区生产总值(元)(X8) 因子分析在地区经济钻研中的利用因子分析模型及其步骤因子分析是一种数据简化的技术。它通过钻研泛滥变量之间的外部依赖关系,探究观测数据中的根本构造,并用少数几个假想变量来示意其根本的数据结构。这几个假想变量可能反映原来泛滥变量的次要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。设p个变量,则因子分析的数学模型可示意为: 称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是非凡因子,是不能被前m个公共因子蕴含的局部。因子分析步骤如下: (1)将原始数据标准化,仍记为X;(2)建设相关系数矩阵R;(3)解特征方程,计算特征值和特征向量,当累计贡献率不低于85%时,提取k个主成分代替原来的m个指标,计算因子载荷矩阵A;(4)对A进行最大正交旋转替换;(5)对主因子进行命名和解释。如需进行排序,则计算各个主因子的得分,以贡献率为权重,对加权计算综合因子得分。 样本选取及数据起源本文选取了重庆市38个区县作为样本进行剖析,目标在于摸索如何基于R统计软件的因子分析和聚类分析办法钻研地区经济倒退。具体数据如下: 数据分析过程将原始数据录入R软件中,选取地区生产总值(万元)(X1)、社会消费品零售总额(万元)(X2)、工业总产值(万元)(X3)、建筑业总产值(万元)(X4)、高技术生产总值(万元)(X5)、全社会固定资产投资(万元)(X6)、人均可摆布支出(元)(X7)、人均地区生产总值(元)(X8)。 在进行因子分析之前,咱们通过观察相关系数矩阵,并用KMO and Bartlett’s Test测验一下数据是否适宜作因子分析。再做描述性剖析Analysis-factor-description失去初始公因子方差、因子、特征值以及由每个因子解释的百分比和累计百分比。剖析后果如下: coebaltt(COR,)#Bartlett球形检 Bartlett 的球形度测验的p值(显著性概率值sig)<0.05,表明通过测验,散布能够近似为正态分布,由此则能够进行因子分析。 sreeot(PCA,type="lines") 点击题目查阅往期内容 数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化 左右滑动查看更多 01 02 03 04 从表能够得出,提取3个因子的累计方差贡献率曾经达到89.854%>86%,信息损失仅为10.146%,从第4个因子开始方差贡献率都低于5%,因而选取3个公因子进行因子分析成果较为理想;从图的碎石图能够看出从第4个因子开始,特征值差别变动很小,综上所述:在特征值大于0.5的条件下,所提取的三个因子能通过测验并能很好的形容8个指标,所以提取前3个特征值建设因子载荷矩阵。  表中为初始因子载荷矩阵表, F1、F2、F3别离作为第一、第二、第三公共因子。建设了因子分析数学目标不仅仅要找出公共因子以及对变量进行分组,更重要的要晓得每个公共因子的意义,以便进行进一步的剖析,如果每个公共因子的含意不清,则不便于进行理论背景的解释。因为因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目标是使因子载荷阵的构造简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种次要的正交旋转法。四次方最大法、方差最大法和等量最大法。 因而需要进行因子旋转,使得因子对变量的奉献达到极化的成果。为此采纳方差最大化的正交旋转形式,使各变量在某个因子上产生较高载荷,而其余因子上载荷较小,从而失去旋转后的因子载荷矩阵,如下表所示: 由表和旋转后的因子图能够看出,通过旋转后的公共因子的解释原始数据的能力进步了,体现为公共因子F1在X1(地区生产总值),X6(全社会固定资产投资)和X8(人均地区生产总值)上的载荷值都很大。因而咱们能够把第一公共因子确立为综合经济实力因子,宏观上反映了地区经济倒退规模的总体状况,在这个因子上的得分越高,阐明城市经济倒退的总体状况越好。 利用各公共因子方差贡献率计算综合得分,并计算综合得分=因子1的方差贡献率因子1的得分+因子2的方差贡献率因子2的得分+因子3的方差贡献率*因子3的得分。将数据按综合得分降序排列,失去局部因子得分和综合得分状况如下图所示: 后果探讨基于上述因子得分,能够得出2012年重庆38个区县的经济倒退情况如下: 1、依据经济实力因子F1得分大于1的顺次有渝中区、渝北区、九龙坡区、江北区和万州区,分数别离为4.4211、1.8967、1.7808、1.201、1.2804。阐明在经济总体规模和建筑业方面,渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是最好的,规模较大,经济实力最强,发展前景很好,经济倒退实力雄厚的地区。 2、依据经济发展潜力因子F2得分大于1的有沙坪坝区和渝北区,分数别离为3.7052、3.4396。阐明在高技术科技和工业方面比较发达,固定资产投资最大,这两个地区都在主城,对外开放水平高,科技翻新方面比拟好,有本人的工业倒退,已根本造成了本人的产业结构,充分发挥了本人的天文劣势和资源环境劣势,发展潜力较大。 基于主因子得分的聚类分析零碎聚类分析聚类分析又称群剖析,就是将数据分组成为多个类。在同一个类内对象之间具备较高的类似度,不同类之间的对象差异较大。在社会经济畛域中存在着大量分类问题,比方若对某些大城市的物价指数进行考查,而物价指数很多,有农用生产物价指数、服务项目价指数、食品生产物价指数、建材零售价格指数等等。因为要考查的物价指数很多,通常先对这些物价指数进行分类。总之,须要分类的问题很多,因而聚类分析这个有用的工具越来越受到人们的器重,它在许多畛域中都失去了宽泛的利用。  聚类分析内容十分丰盛,有零碎聚类法、有序样品聚类法、动静聚类法、含糊聚类法、图论聚类法、聚类预报法等;最罕用最胜利的聚类分析为零碎聚类法,零碎聚类法的根本思维为先将n个样品各自看成一类,而后规定样品之间的“间隔”和类与类之间的间隔。抉择间隔最近的两类合并成一个新类,计算新类和其余类(各以后类)的间隔,再将间隔最近的两类合并。这样,每次合并缩小一类,直至所有的样品都归成一类为止。  零碎聚类法的根本步骤:  1、计算n个样品两两间的间隔。  2、结构n个类,每个类只蕴含一个样品。  3、合并间隔最近的两类为一新类。  4、计算新类与各以后类的间隔。  5、反复步骤3、4,合并间隔最近的两类为新类,直到所有的类并为一类为止。  6、画聚类谱系图。  7、决定类的个数和类。  零碎聚类办法:1、最短距离法;2、最长距离法;3、两头间隔法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。  ...

March 20, 2023 · 1 min · jiezi

关于数据挖掘:R语言用灰色模型-GM-11神经网络预测房价数据和可视化

全文链接:http://tecdat.cn/?p=31938原文出处:拓端数据部落公众号以苏州商品房房价为钻研对象,帮忙客户建设了灰色预测模型 GM (1,1)、 BP神经网络房价预测模型,利用R语言别离实现了 GM (1,1)和 BP神经网络房价预测可视化。 因为房价的长期波动性及预测的复杂性,利用传统的办法很难精确预测房价,而灰色模型 GM (1,1)和神经网络的联合在肯定水平上能够很好的解决这个问题。文章首先介绍了 GM (1,1)模型和神经网络模型,而后利用R语言和其工具箱提供的预测房价性能,对住宅类商品房销售价格进行预测。结果表明该办法可能无效进步房价预测的精度,为房地产市场管理者及投资者提供肯定的参考。 灰色模型灰色预测的次要特点是模型应用的不是原始数据序列,而是生成的数据序列。 其外围体系是灰色模型(Grey Model,GM),即对原始数据作累加生成(或其余办法生成)失去近似的指数法则再进行建模的办法。长处是不须要很多的数据,就能解决历史数据少、序列的完整性及可靠性低的问题;能利用微分方程来充沛开掘零碎的实质,精度高;能将无规律的原始数据进行生成失去规律性较强的生成序列,运算简便,易于测验,不思考散布法则,不思考变化趋势。毛病是只实用于中短期的预测,只适宜指数增长的预测。 #训练数据 train=mynx[1:floor(length(mynx)*0.8)] GM11<-function(x0,t,x){     #x0为输出训练数据序列列,t为预测个数,x为原始数据(训练数据+测试集)   x1<-cumsum(x0) #一次累加生成序列1-AG0序列   b<-numeric(length(x0)-1)   n<-length(x0)-1   for(i in 1:n){ #生成x1的紧邻均值生成序列 \n','\n') #利用最小二乘法求得参数估计值a,u   y<-numeric(length(c(1:t)))   y[1]<-x1[1]   for(w in 1:(t-1)){  #将a,u的估计值代入工夫响应序列函数计算x1拟合序列yGM11(train,lnx),mynx)#拟合 gm=GM11(train,length(mynx)+20,mynx)#预测20年的房价 从灰色模型的后果来看,将来的趋势房价有较大上涨。 神经网络预测fcast <- forecast(fit,h=20) plot(fcast) 从神经网络模型预测的后果来看,将来的房价会有较安稳的增长。 最受欢迎的见解 1.R语言实现CNN(卷积神经网络)模型进行回归 2.r语言实现拟合神经网络预测和后果可视化 3.python用遗传算法-神经网络-含糊逻辑控制算法对乐透剖析 4.R语言联合新冠疫情COVID-19股票价格预测:ARIMA,KNN和神经网络工夫序列剖析 5.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格工夫序列和MSE评估准确性 6.Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类 7.用于NLP的seq2seq模型实例用Keras实现神经机器翻译 8.R语言用FNN-LSTM假近邻长短期记忆人工神经网络模型进行工夫序列深度学习预测 9.Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数工夫序列预测

March 20, 2023 · 1 min · jiezi

关于数据挖掘:R语言kShape时间序列聚类方法对股票价格时间序列聚类附代码数据

原文链接 :http://tecdat.cn/?p=3726最近咱们被客户要求撰写对于k-Shape工夫序列聚类的钻研报告,包含一些图形和统计输入。 本文咱们将应用k-Shape工夫序列聚类办法查看与咱们有业务关系的公司的股票收益率的工夫序列 企业对企业交易和股票价格在本钻研中,咱们将钻研具备交易关系的公司的价格变化率的工夫序列的相似性。 因为特定客户的销售额与供应商公司的销售额之比拟大,当客户公司的股票价格发生变化时,对供应商公司股票价格的反馈被认为更大。  k-Shapek-Shape [Paparrizos和Gravano,2015]是一种关注工夫序列形态的工夫序列聚类办法。在咱们进入k-Shape之前,让咱们谈谈工夫序列的不变性和罕用工夫序列之间的间隔测度。 工夫序列间隔测度欧几里德间隔(ED)和_动静工夫_规整(DTW)通常用作间隔测量值,用于工夫序列之间的比拟。 两个工夫序列x =(x1,...,xm)和y =(y1,...,ym)的ED如下。 DTW是ED的扩大,容许部分和非线性对齐。 k-Shape提出称为基于形态的间隔(SBD)的间隔。 k-Shape算法k-Shape聚类侧重于归一化和移位的不变性。k-Shape有两个次要特色:基于形态的间隔(SBD)和工夫序列形态提取。 SBD相互关是在信号处理畛域中常常应用的度量。应用FFT(+)代替DFT来进步计算效率。 归一化相互关(系数归一化)NCCc是相互关系列除以单个系列自相干的几何平均值。检测NCCc最大的地位。 SBD取0到2之间的值,两个工夫序列越靠近0就越类似。 形态提取通过SBD找到工夫序列聚类的质心向量 。 k-Shape的整个算法如下。 k-Shape通过像k-means这样的迭代过程为每个工夫序列调配聚类簇。 将每个工夫序列与每个聚类的质心向量进行比拟,并将其调配给最近的质心向量的聚类更新群集质心向量反复上述步骤1和2,直到集群成员中没有产生更改或迭代次数达到最大值。 R 语言k-Shape> start <- "2014-01-01"> df_7974 %>%+     filter(date > as.Date(start))# A tibble: 1,222 x 10   date        open  high   low close   volume close_adj change rate_of_change  code                                  1 2014-01-06 14000 14330 13920 14320  1013000     14320    310       0.0221    7974 2 2014-01-07 14200 14380 14060 14310   887900     14310    -10      -0.000698  7974 3 2014-01-08 14380 16050 14380 15850  3030500     15850   1540       0.108     7974 4 2014-01-09 15520 15530 15140 15420  1817400     15420   -430      -0.0271    7974 5 2014-01-10 15310 16150 15230 16080  2124100     16080    660       0.0428    7974 6 2014-01-14 15410 15755 15370 15500  1462200     15500   -580      -0.0361    7974 7 2014-01-15 15750 15880 15265 15360  1186800     15360   -140      -0.00903   7974 8 2014-01-16 15165 15410 14940 15060  1606600     15060   -300      -0.0195    7974 9 2014-01-17 15100 15270 14575 14645  1612600     14645   -415      -0.0276    797410 2014-01-20 11945 13800 11935 13745 10731500     13745   -9缺失度量用前一个工作日的值补充。(K-Shape容许一些偏差,但以防万一) 每种股票的股票价格和股票价格变化率。 点击题目查阅往期内容 对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 左右滑动查看更多 01 02 03 04 将zscore作为“preproc”,“sbd”作为间隔,以及centroid =“shape”,k-Shape聚类后果如下。 > df_res %>%+     arrange(cluster)  cluster centroid_dist code           name1       1     0.1897561 1928     積水ハウス2       1     0.2196533 6479 ミネベアミツミ3       1     0.1481051 8411         みずほ4       2     0.3468301 6658 シライ電子工業5       2     0.2158674 6804       ホシデン6       2     0.2372485 7974         任天堂Nintendo,Hosiden和Siray Electronics Industries被调配到同一个集群。Hosiden在2016年对任天堂的销售比例为50.5%,这表明公司之间的业务关系也会影响股价的变动。 另一方面,MinebeaMitsumi成为另一个集群,然而在2017年Mitsumi与2017年的Minebea合并, 没有应答2016年7月Pokemon Go公布时股价飙升的影响 。 如果您有任何疑难,请在上面发表评论。  本文摘选 《 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 K-means和档次聚类分析癌细胞系微阵列数据和树状图可视化比拟 KMEANS均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化剖析和抉择最佳聚类数 PYTHON实现谱聚类算法和扭转聚类簇数后果可视化比拟 无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据 R语言多维数据档次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据 r语言无限正态混合模型EM算法的分层聚类、分类和密度估计及可视化 Python Monte Carlo K-Means聚类实战钻研 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 R语言谱聚类、K-MEANS聚类分析非线性环状数据比拟 R语言实现k-means聚类优化的分层抽样(Stratified Sampling)剖析各市镇的人口 R语言聚类有效性:确定最优聚类数剖析IRIS鸢尾花数据和可视化Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言k-means聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花iris数据集 R语言无限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发工夫 R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析 R语言简单网络分析:聚类(社区检测)和可视化 R语言中的划分聚类模型 基于模型的聚类和R语言中的高斯混合模型 r语言聚类分析:k-means和档次聚类 SAS用K-Means 聚类最优k值的选取和剖析 用R语言进行网站评论文本开掘聚类 基于LDA主题模型聚类的商品评论文本开掘 R语言鸢尾花iris数据集的档次聚类分析 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 R语言聚类算法的利用实例 ...

March 17, 2023 · 1 min · jiezi

关于数据挖掘:视频随机波动率SV模型原理和Python对标普SP500股票指数预测数据分享附代码数据

全文链接:http://tecdat.cn/?p=22546 最近咱们被客户要求撰写对于随机稳定率SV模型的钻研报告,包含一些图形和统计输入。 什么是随机稳定率?随机稳定率 (SV) 是指资产价格的稳定率是变动的而不是恒定的“随机”一词意味着某些变量是随机确定的,无奈准确预测。 在金融建模的背景下,随机建模迭代随机变量的间断值,这些值彼此不独立。非独立的意思是尽管变量的值会随机变动,但其终点将取决于其先前的值,因而取决于其先前的值,依此类推;这形容了所谓的随机游走。 点击题目查阅往期内容 Matlab马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility) 模型 左右滑动查看更多 01 02 03 04 随机稳定率的教训证据 在定义了稳定率的含意之后,咱们当初通过探讨稳定率随机变动的证据来疏导其余部分。咱们(大体上)遵循,对现金和期权市场中察看到的价格行为进行一些实证察看。咱们思考了一些经济解释,并将它们与手头的主题分割起来: 厚尾 当初广泛承受的是,资产收益的教训散布是尖峰的意思(大抵),即对于均值的四阶矩大于具备雷同方差的正态分布的雷同统计量。这意味着察看到更多的极其回报和更少的中等回报,“尖峰”意味着理论散布中凑近均值的天数更多,“厚尾”示意极其收益率呈现的频率高于正态分布的预测,比方出乎意料的“黑天鹅事件”。  波动性聚类和持久性看一眼金融工夫序列通常会立刻发现高稳定期和低稳定期。  事实上,肥尾和波动性聚类是同一枚硬币的两个方面。家喻户晓,散布的混合,例如依据正态分布散布的价格变动,但具备随机方差,能够复制肥尾。然而,通过间接将根底价格散布建模为具备肥尾,能够同样很好地解释肥尾和波动性聚类。另一个教训事实是稳定机制的继续存在,存在高稳定期和低稳定期,而不仅仅是随机事件。这一察看表明了任何提议的稳定率模型的某些内容。 什么是随机建模?随机建模是一种用于帮忙做出投资决策的财务模型。这种类型的建模应用随机变量预测不同条件下各种后果的概率。 随机建模出现数据并预测后果,这些后果阐明了肯定水平的不可预测性或随机性。许多行业的公司都能够应用随机模型来改良他们的业务实际并进步盈利能力。在金融服务畛域,规划师、分析师和投资组合经理应用随机模型来治理他们的资产和负债并优化他们的投资组合。 要害要点随机模型应用随机变量预测不同条件下各种后果的概率。随机建模出现数据并预测后果,这些后果阐明了肯定水平的不可预测性或随机性。在金融服务畛域,规划师、分析师和投资组合经理应用随机模型来治理他们的资产和负债并优化他们的投资组合。与随机建模相同的是确定性建模,它每次都为一组特定的输出提供雷同的准确后果。蒙特卡洛模仿是随机模型的一个例子。它能够依据单个股票收益的概率分布来模仿投资组合的体现。理解随机建模:恒定与可变要了解随机建模的概念,将其与相同的确定性建模进行比拟会有所帮忙。 确定性建模产生恒定的后果无论您从新计算模型多少次,确定性建模都能够为特定的一组输出提供雷同的准确后果。在这里,数学性质是已知的。它们都不是随机的,只有一组特定值和一个问题的答案或解决方案。对于确定性模型,不确定因素是模型内部的。 随机建模产生多变的后果另一方面,随机建模实质上是随机的,模型中内置了不确定因素。该模型产生了许多答案、预计和后果——例如将变量增加到简单的数学问题中——以查看它们对解决方案的不同影响。而后在各种状况下反复屡次雷同的过程。 波动性资产的波动性是期权定价的要害组成部分。随机稳定率模型是出于对期权定价的 Black Scholes 模型进行批改的须要而开发的,该模型未能无效地思考到标的证券价格波动性可能发生变化的事实。Black Scholes 模型反而做了简化假如,即根底证券的波动性是恒定的。随机稳定率模型通过容许根底证券的价格稳定率作为随机变量稳定来纠正这一点。通过容许价格变动,随机稳定率模型进步了计算和预测的准确性。 随机稳定的个别模式 间断工夫金融模型被写成应用随机微分方程的扩散过程。咱们正在钻研的模型的个别模式是  和  和  这些方程意味着 S 的刹时回报由一些确定性项加上一些随机噪声给出。自身遵循相似(但更个别)的随机动静。 Heston 随机稳定率模型Heston 模型是由金融学者 Steven Heston 在 1993 年创立的随机稳定率模型。该模型应用稳定率或多或少是随机的假如,并具备以下区别于其余随机稳定率模型的特色: 它思考了资产价格与其波动性之间的相关性。它将稳定了解为回归均值。它不要求股票价格遵循对数正态概率分布。如下图所示,察看到的股票稳定率可能会飙升至高于或低于平均水平,但仿佛总是在平均水平左近。高稳定期之后通常是低稳定期,反之亦然。应用均值回归确定稳定范畴并联合 预测 技术,投资者能够抉择最佳交易。 Python随机稳定率(SV)模型对标普500指数工夫序列波动性预测资产价格具备随工夫变动的波动性(逐日收益率的方差)。在某些期间,收益率是高度变动的,而在其余期间则十分安稳。随机稳定率模型用一个潜在的稳定率变量来模仿这种状况,该变量被建模为随机过程。上面的模型与 No-U-Turn Sampler 论文中形容的模型类似,Hoffman (2011) p21。 这里,r是每日收益率序列,s是潜在的对数稳定率过程。 ...

March 17, 2023 · 1 min · jiezi

关于数据挖掘:视频K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测数据分享附代码数据

全文下载链接:http://tecdat.cn/?p=24057最近咱们被客户要求撰写对于KNN算法的钻研报告,包含一些图形和统计输入。 本文的指标是应用K-最近邻(K近邻),ARIMA和神经网络模型剖析Google股票数据集预测Google的将来股价,而后剖析各种模型 K-最近邻(K近邻)是一种用于回归和分类的监督学习算法。K近邻 试图通过计算测试数据与所有训练点之间的间隔来预测测试数据的正确类别。而后抉择最靠近测试数据的K个点。K近邻算法计算测试数据属于'K'个训练数据的类的概率,并且抉择概率最高的类。在回归的状况下,该值是“K”个选定训练点的平均值。 让咱们看看上面的例子,以便更好地了解 为什么咱们须要 K近邻 算法? 假如有两个类别,A 和B,并且咱们有一个新的数据点x1,那么这个数据点将位于这些类别中的哪一个。为了解决这类问题,咱们须要一个K近邻算法。借助K近邻,咱们能够轻松辨认特定数据集的类别。思考下图: K近邻 是如何工作的? K近邻 的工作原理能够依据以下算法进行解释: 步骤1:抉择街坊的数量K步骤2:计算K个街坊的欧几里得间隔步骤3:依据计算出的欧几里得间隔取K个最近邻。步骤4:在这k个街坊中,统计每个类别的数据点个数。步骤 5:将新数据点调配给街坊数量最大的类别。步骤6:咱们的模型筹备好了。假如咱们有一个新的数据点,咱们须要把它放在所需的类别中。 首先,咱们将抉择街坊的数量,因而咱们将抉择 k=5。 接下来,咱们将计算数据点之间的欧几里得间隔。欧几里得间隔是两点之间的间隔,咱们曾经在几何学中钻研过。能够计算为: 通过计算欧几里得间隔,咱们失去了最近邻,即 A 类中的2个最近邻和 B 类中的3个最近邻。 正如咱们所见,3 个最近的街坊来自类别B,因而这个新数据点必须属于类别B。 如何抉择 K 值? Kvalue 示意最近邻的计数。咱们必须计算测试点和训练过的标签点之间的间隔。每次迭代更新间隔度量的计算成本很高,这就是为什么 K近邻 是一种惰性学习算法。 那么如何抉择最优的K值呢? 没有事后定义的统计办法来找到最无利的 K 值。初始化一个随机的 K 值并开始计算。抉择较小的 K 值会导致决策边界不稳固。较大的 K 值更适宜分类,因为它能够平滑决策边界。得出错误率和 K 之间的图,示意定义范畴内的值。而后抉择K值作为具备最小错误率。当初您将理解通过施行模型来抉择最佳 K 值。 计算间隔: 第一步是计算新点和每个训练点之间的间隔。计算该间隔有多种办法,其中最常见的办法是欧几里得、曼哈顿(用于间断)和汉明间隔(用于分类)。 欧几里得间隔:欧几里得间隔计算为新点 (x) 和现有点 (y) 之间的平方差之和的平方根。 曼哈顿间隔:这是理论向量之间的间隔,应用它们的相对差之和。 ** ** 联合新冠疫情COVID-19对股票价格预测:ARIMA,KNN和神经网络工夫序列剖析1.概要本文的指标是应用各种预测模型剖析Google股票数据集 ( 查看文末理解数据获取形式 ) 预测Google的将来股价,而后剖析各种模型。 ** 拓端 ,赞32 ** 拓端 ,赞18 ...

March 17, 2023 · 1 min · jiezi

关于数据挖掘:NLP自然语言处理主题模型LDA案例挖掘人民网留言板文本数据附代码数据

全文链接:tecdat.cn/?p=2155最近咱们被客户要求撰写对于NLP自然语言解决的钻研报告,包含一些图形和统计输入。 随着网民规模的不断扩大,互联网不仅是传统媒体和生存形式的补充,也是民心凸显的地带。领导干部参加网络问政的制度化正在成为一种发展趋势,这种趋势与互联网倒退的时代需要是分不开的 ▼ 人民网《中央领导留言板》是备受百姓注目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。 基于以上背景,tecdat钻研人员对北京留言板外面的留言数据进行剖析,摸索网民们在呐喊什么。 数量与情感 朝阳区大众最沉闷 图表 从上图能够看出不同地区留言板的情感偏向散布,总的来说,负面情感留言数目和踊跃情感相差不多,负面情感留言较多,占比46%,踊跃情感留言占比42%,中立情感的留言占比11%。 从地区来看,沉闷在各大媒体的“朝阳区大众”留言数目也是最多的,其次是海淀区,昌平区。因而,从情感散布来看大部分留言还是在反馈存在的问题,而不是一味赞美或者灌水。 点击题目查阅往期内容 python主题建模可视化LDA和T-SNE交互式可视化 左右滑动查看更多 01 02 03 04 主题剖析 当地户口问题呼声最高 接下来,咱们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA提供了一种较为不便地量化钻研主题的机器学习办法。 咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比拟大。将模型生成的20个主题中的前五个高频词取出,如下表所示。 图表 而后咱们将占比最高的前六个主题与它们的情感偏向进行剖析。 图表 从上图能够看出大家对于6大主题的探讨: 主题1反馈孩子,当地户口办理的问题是最多的,反馈了当地落户北京相干的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。 主题2是反馈环境革新及棚户革新(e.g.棚户屋宇破旧、墙面湿润、上下水管道老化腐烂景象重大常常造成跑冒滴漏,遇到雨雪天气,路线积水、泥泞不堪,大院居民尤其是老人小孩出行十分不便)。 主题3是反馈高考和医保(e.g.外地人衷心的心愿政府能关注一下孩子在北京的高考问题)。 主题4是汽车摇号政策(e.g.现行的摇号计划是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车基本摇不号;有的是不想买车就摇上了)。 主题5是反馈工资和租房问题(e.g.我是当地退休老师。因为孩子在北京工作,故到北京帮忙孩子操持家务,以反对孩子工作。因为北京房价低廉,咱们买不起大房,三代人只能挤着住。我想问问市长,咱们是否也能住公租房)。 主题6是守法修建(e.g.XX雅苑许多一层业主私搭乱建成风,且物业能干,造成极大的安全隐患)。 地区、主题与情感得分 接下来咱们剖析了不同主题和地区的情感偏向散布。从下图能够看出,主题3高考和医保、主题6 守法修建、主题13教育拆迁的留言内容中踊跃情感占较大比例。 图表 咱们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也能够发现,情感得分最高的是在主题11居民生存下的朝阳区留言内容。总的来说,依据踊跃情感的内容散布来看,主题3高考和医保、主题6 守法修建、主题13教育拆迁的留言内容中体现出较好的反馈。 本文摘选 《 数据凝听人民网留言板的那些网事 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 R语言对NASA元数据进行文本开掘的主题建模剖析 R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 用于NLP的Python:应用Keras进行深度学习文本生成 长短期记忆网络LSTM在工夫序列预测和文本分类中的利用 用Rapidminer做文本开掘的利用:情感剖析 R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研 R语言对推特twitter数据进行文本情感剖析 Python应用神经网络进行简略文本分类 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 R语言文本开掘应用tf-idf剖析NASA元数据的关键字 R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据 Python应用神经网络进行简略文本分类 R语言自然语言解决(NLP):情感剖析新闻文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言对推特twitter数据进行文本情感剖析 R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析 R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation) ...

March 17, 2023 · 1 min · jiezi

关于数据挖掘:python用回归模型对水泥生产关键温度点预测模型

全文链接:http://tecdat.cn/?p=31930原文出处:拓端数据部落公众号分析师:Xiang Li本我的项目指标为水泥生产要害生产数据的回归及预测(某一要害温度点的预测)。面临挑战如下所述:1.水泥行业属于流程工业,流程工业因为其本身具备化学反应较多,前后流程耦合,控制变量多,生产稳定等特点,使得数据起源、数据治理及特征提取等步骤执行较为艰难,因而大数据及人工智能相干背景的从业人员无奈间接依照离散工业中的数据分析流程进行智能化相干利用的我的项目施行;2.另一方面,流程工业的从业人员自身熟稔生产工艺,但对于智能化相干技术也不足理解,无奈将丰盛的一线教训和生产数据独立转化成在线化智能化的利用。 解决方案工作/指标由水泥烧成零碎的历史生产数据,对其中某标志性测量指标(C1旋风筒进口烟气温度)进行预测,从而可能领导一线操作人员对水泥熟料的烧成零碎进行煤量和风量的正当调节。 备注:该要害测量指标仅仅为泛滥标志性测量指标之一,因而理论的智能生产管制其实是针对多指标的预测及联合模型的管制与优化,进行该我的项目是在水泥生产中发展数据分析及后续机器学习技术利用的先导工作。 数据源筹备本我的项目的数据起源为生产所用的DCS零碎的数据。 在线DCS零碎导出数据源:本项目组与某水泥厂进行了长期的单干,我依据绝对应工艺,筛选出了指标温度参数对应的所有相干测量点位,在DCS零碎中采集了指标点位和相干点位的2个月的生产数据,并导出到了CSV文件中以进行数据治理和特色转换; 特色转换 及数据治理采集到的生产数据不能间接用于数据分析,我联合计量点位的状况及该批数据的个性,做出了以下转换步骤(还有些预处理内容未列出): 1.剔除非数字内容对应列:DCS数据中有一些测量点位对应的测量仪表存在故障,显示内容为非数字格局,此类数据均被剔除; 2.剔除恒定不变数据对应列:一些仪表点位的测量值早已超过量程(未及时更换新表),因而显示数据为同一值(最大示数),该类所有数据均被剔除; 3.转换工夫戳数据格式:将原来CSV文件中的工夫戳格局转换为python中更易解决的datetime格局; 4.删除停产对应的时间段的数据行。 数据 结构在进行了数据治理后,我整顿出了如下表所示的原始数据列表(波及点位较多,仅显示局部内容)。 图1原始数据部分内容 图2数据集概览 划分训练集和测试集针对该月份的数据划分出后面21天的日期对应数据作为训练数据集,后10天对应数据为测试数据集。 建模针对这一典型的单指标多输出变量的回归问题,采纳了最根本的scikit-learn中的linear regression(线性回归)的办法进行模型建模。 模型 训练及精度指标采纳训练集针对模型进行了训练,采纳测试集进行了模型的精度验证,通过比拟预测后果,失去模型的预测的标准差为0.010775,预测的平均误差为0.005065,能够认为此回归模型合乎生产的需要。 采纳第三组数据(来自于DCS的相邻月份的数据)进行模型的预测,最终失去的预测值和实在值的可视化后果如下图所示: 由上图可知,依据线性回归模型预测失去的指标温度的数值与实在值在大多数状况十分靠近,在所采集的1.5个月的范畴内,思考到工况运行较为安稳,应该能够满足预测的理论需要。 应苏醒的意识到,因为水泥烧成零碎的生产蕴含的要害参数较多,且原燃料不可能变化无穷,更常见的状况是原料和燃料均存在肯定的稳定,而反映两者的品质剖析数据并未蕴含在本我的项目的数据集中,因而该我的项目仅仅可能作为流程工业繁多参数预测的参考流程,并不可能作为广泛实用的数据模型加以推广。此外,神经网络、SVM等模型也能够作为模型预测的建模办法,非线性回归模型更适宜稳定工况及多变量输出的目标值预测的我的项目(在2019年-2020年的水泥品质预测的我的项目中,采纳了机器学习中的多个模型进行了建模工作)。 对于分析师 在此对Xiang Li对本文所作的奉献示意诚挚感激,他善于深度学习、数据分析、网络爬虫 。 最受欢迎的见解 1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)R语言多元Logistic逻辑回归 利用案例 2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)面板平滑转移回归(PSTR)剖析案例实现 3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR) 4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)R语言泊松Poisson回归模型剖析案例 5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)R语言混合效应逻辑回归Logistic模型剖析肺癌 6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae...)r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现 7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a...)R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%...)python用线性回归预测股票价格 9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%...)R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

March 17, 2023 · 1 min · jiezi

关于数据挖掘:层次聚类算法

动动发财的小手,点个赞吧! 档次聚类是一种构建聚类层次结构的聚类算法。该算法从调配给它们本人的集群的所有数据点开始。而后将两个最近的集群合并到同一个集群中。最初,当只剩下一个集群时,该算法终止。能够通过观察树状图来抉择最能形容不同组的簇数的决定。聚类数的最佳抉择是树状图中垂直线的数量,该水平线能够垂直横穿最大间隔而不与聚类相交。1. 简介 档次聚类(Hierarchical clustering)是一种常见的聚类算法,它将数据点逐渐地合并成越来越大的簇,直到达到某个进行条件。档次聚类能够分为两种办法:自下而上的聚合法(agglomerative)和自上而下的分裂法(divisive)。在聚合法中,每个数据点最后被视为一个独自的簇,而后每次迭代将间隔最近的两个簇合并为一个新的簇,直到所有点都合并成一个大簇。在分裂法中,最后的簇被视为一个独自的簇,而后每次迭代将以后簇中距离最远的两个点分成两个新的簇,直到每个点都是一个簇为止。 2. 工作原理使每个数据点成为单点簇→造成N个簇取间隔最近的两个数据点,使之成为一个簇→造成N-1个簇取最近的两个簇并使它们成为一个簇→造成N-2个簇。反复第 3 步,直到只剩下一个集群。 有几种办法能够测量聚类之间的间隔以确定聚类规定,它们通常称为链接办法。一些常见的链接办法是: 齐全链接:两个集群之间的间隔定义为每个集群中两点之间的最长距离。单链接:两个集群之间的间隔定义为每个集群中两点之间的最短距离。此链接可用于检测数据集中的高值,这些值可能是异样值,因为它们将在最初合并。均匀链接:两个聚类之间的间隔定义为一个聚类中的每个点与另一个聚类中的每个点之间的均匀间隔。Centroid-linkage:找到聚类1的质心和聚类2的质心,而后在合并前计算两者之间的间隔。不同的链接办法导致不同的集群。 3. 树状图树状图是一种显示不同数据集之间的档次关系。正如曾经说过的,树状图蕴含了档次聚类算法的记忆,因而只需查看树状图就能够晓得聚类是如何造成的。 4. Codeimport numpy as npfrom scipy.cluster.hierarchy import dendrogram, linkageimport matplotlib.pyplot as plt# 生成随机数据np.random.seed(0)X = np.random.randn(15, 2)# 计算间隔矩阵Z = linkage(X, 'ward')# 绘制树形图plt.figure(figsize=(10, 5))plt.title('Hierarchical Clustering Dendrogram')plt.xlabel('Sample index')plt.ylabel('Distance')dendrogram( Z, leaf_rotation=90., leaf_font_size=8.,)plt.show()在这个示例中,咱们首先应用NumPy生成了一个随机的二维数据集X,其中蕴含15个样本。而后,咱们应用SciPy中的linkage函数计算间隔矩阵Z,这里应用了“ward”办法来计算簇之间的间隔。最初,咱们应用Matplotlib来绘制树形图,其中leaf_rotation和leaf_font_size参数用于调整叶子节点的旋转角度和字体大小。 这个示例中生成的树形图显示了不同样本之间的间隔,并且依据间隔合并了不同的簇。能够通过树形图来确定最优的簇的数量,能够在图中找到最大间隔的地位,而后画一条水平线,这个水平线和垂直线的交点就是最优的簇的数量。 本文由mdnice多平台公布

March 17, 2023 · 1 min · jiezi

关于数据挖掘:线性回归和时间序列分析北京房价影响因素可视化案例附代码数据

全文链接:http://tecdat.cn/?p=21467最近咱们被客户要求撰写对于北京房价的钻研报告,包含一些图形和统计输入。 在本文中,房价无关的数据可能反映了中国近年来的变动 目标人们失去更多的资源(薪水),冀望有更好的房子人口众多独生子女政策:如何影响房子的几何构造?更多的卧室,更多的空间我外围的想法是预测房价。然而,我不打算应用任何arima模型;相同,我将应用数据的个性逐年拟合回归。 构造如下: 数据筹备:将数值特色转换为分类;缺失值EDA:对于数值特色和分类特色:平均价格与这些特色的体现建模:宰割训练/测试给定年份的数据:例如,在2000年宰割数据;依据这些数据训练回归模型而后,在2016年之前的所有新年里,预测每套房子的价值。用于验证的度量将是屋宇的平均价格(即每年从测试样本中取得平均价格和预测值)数据筹备咱们对特色有了十分残缺的形容: url:获取数据(字符)的urlid:id(字符)Lng:和Lat坐标,应用BD09协定。(数字)Cid:社区id(数字)交易工夫:交易工夫(字符)DOM:市场沉闷日。(数字)关注者:交易后的人数。(数字)总价:(数值)价格:按平方计算的平均价格(数值)面积:屋宇的平方(数字)起居室`数(字符)`客厅`数(字符)`厨房:厨房数量(数字)浴室数量(字符)房子高度修建类型:包含塔楼(1)、平房(2)、板塔组合(3)、板(4)(数值)施工工夫装修:包含其余(1)、粗(2)、简略(3)、简装(4)(数值)修建构造:包含未清(1)、混合(2)、砖和木(3)、砖混凝土(4)、钢(5)和钢-混凝土复合材料(6)(数值)梯梯比:同层居民数与电梯数量的比例。电梯有(1)或没有电梯(0)(数值)五年期:业主领有不到5年的财产(数字)数据清理、特色创立从最后的数据看: 从网址上,我发现它有地位信息,如chengjiao/101084782030。同样,一个简略的regexp进行省特征提取。另一个大的数据筹备工作是转换一些数字特色,比方地铁,地铁站左近的房子编码为1,相同的状况编码为0。还有很大一部分DOM缺失。我既不能在建模中应用这个个性,也不能删除NA,但它也会减小数据帧的大小。 #从网址中提取省份 sapply(df$url, function(x) strsplit(x,'/')[[1]][4])查看缺失#缺失数据图 ggplot(data = .,aes(x = V2, y = V1)) + geom_tile(aes(fill = value )) +  如上所述,DOM的很大一部分失落了。我决定先保留这个个性,而后用两头值来填充缺失的值(散布是十分歪斜的)否则,buildingType和communityAverage(pop.)中只有几个短少的值,我决定简略地删除这些值。事实上,它们只占了约30行,而整个数据集的数据量为300k+,因而损失不会太大。上面我简略地删除了我当前不打算应用的特色。ifelse(is.na(df$DOM),median(df$DOM,na.rm=T),df$DOM)点击题目查阅往期内容 数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 左右滑动查看更多 01 02 03 04 用于将数字转换为类别的自定义函数对于某些特色,须要一个函数来解决多个标签,对于其余一些特色(客厅、客厅和浴室),转换非常简单。 df2$livingRoom <- as.numeric(df2$livingRoom)仿佛buildingType具备谬误的编码数字值: buildingTypecount0.04840.12530.25020.33350.37510.42910.500150.66711.000845412.0001373.000597154.000172405NaN2021因为谬误的编码值和NA的数量很少,因而我将再次抛弃这些行 df2$renovationCondition <- sapply(df2$renovationCondition, ionCondition)df2$buildingStructure <- sapply(df2$buildingStructure, makeStructure)df2$elevator <- ifelse(df2$elevator==1,'has_elevator','no_elevator')缺失值检察# 缺失数据图df2 %>% is.na %>% melt %>% ggplot(data = .,aes(x = Var2, y = Var1)) + geom_tile(aes(fill = value)) + scale_fill_manual(values = c("grey20","white")) + theme_minimal(14) + ...

March 16, 2023 · 2 min · jiezi

关于数据挖掘:Matlab建立SVMKNN和朴素贝叶斯模型分类绘制ROC曲线附代码数据

原文链接:http://tecdat.cn/?p=15508最近咱们被客户要求撰写对于SVM,KNN和奢侈贝叶斯模型的钻研报告,包含一些图形和统计输入。 绘制ROC曲线通过Logistic回归进行分类加载样本数据。 load fisheriris通过应用与versicolor和virginica物种绝对应的度量来定义二元分类问题。 pred = meas(51:end,1:2);定义二进制响应变量。 resp = (1:100)'>50; % Versicolor = 0, virginica = 1拟合逻辑回归模型。 mdl = fitglm(pred,resp,'Distribution','binomial','Link','logit');计算ROC曲线。应用逻辑回归模型中的概率估计值作为得分。 perfcurve 将阈值存储在数组中。 显示曲线下的面积。 AUCAUC = 0.7918曲线下的面积为0.7918。最大AUC为1,对应于现实分类器。较大的AUC值示意更好的分类器性能。 绘制ROC曲线plot(X,Y)xlabel('False positive rate') ylabel('True positive rate')title('ROC for Classification by Logistic Regression') 应用ROC曲线比拟分类办法 加载样本数据 load ionosphereX 是351x34预测变量的矩阵。 Y 是类别标签的字符数组:  'b' 不良雷达回波和  'g' 良好雷达回波。 从新格式化因变量以适宜逻辑回归。 拟合一个逻辑回归模型来预计雷达返回的后验概率是一个不好的概率。 mdl = fitglm(pred,resp,'Distribution','binomial','Link','logit');score_log = mdl.Fitted.Probability; % Probability estimates应用得分的概率计算规范ROC曲线。 在雷同的样本数据上训练SVM分类器标准化数据。 mdlSVM = fitcsvm(pred,resp,'Standardize',true);计算后验概率。 第二列  score_svm 蕴含不良雷达收益的后验概率。 应用SVM模型的分数计算规范ROC曲线。 在同一样本数据上拟合奢侈贝叶斯分类器。 计算后验概率(分数) [~,score_nb] = resubPredict(mdlNB);应用奢侈贝叶斯分类的分数计算规范ROC曲线。 将ROC曲线绘制在同一张图上。 点击题目查阅往期内容 数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒穿插验证ROC 左右滑动查看更多 01 02 ...

March 16, 2023 · 1 min · jiezi

关于数据挖掘:R语言使用bootstrap和增量法计算广义线性模型GLM预测置信区间附代码数据

原文链接:http://tecdat.cn/?p=15062最近咱们被客户要求撰写对于狭义线性模型(GLM)预测置信区间的钻研报告,包含一些图形和统计输入。 思考简略的泊松回归咱们要导出预测的置信区间,而不是观测值,即下图的点 > r=glm(dist~speed,data=cars,family=poisson)> P=predict(r,type="response",+ newdata=data.frame(speed=seq(-1,35,by=.2)))> plot(cars,xlim=c(0,31),ylim=c(0,170))> abline(v=30,lty=2)> lines(seq(-1,35,by=.2),P,lwd=2,col="red")> P0=predict(r,type="response",se.fit=TRUE,+ newdata=data.frame(speed=30))> points(30,P1$fit,pch=4,lwd=3)  即   最大似然预计。 ,Fisher信息来自规范最大似然实践。 这些值的计算基于以下计算 在对数泊松回归的状况下, 让咱们回到最后的问题。 线性组合的置信区间取得置信区间的第一个想法是取得置信区间![图片]()(通过取边界的指数值)。渐近地,咱们晓得 因而,方差矩阵的近似将基于通过插入参数的估计量而取得。 而后,因为作为渐近多元散布,参数的任何线性组合也将是正态的,即具备正态分布。所有这些数量都能够轻松计算。首先,咱们能够失去估计量的方差 因而,如果咱们与回归的输入进行比拟, > summary(reg)$cov.unscaled(Intercept) speed(Intercept) 0.0066870446 -3.474479e-04speed -0.0003474479 1.940302e-05> V[,1] [,2][1,] 0.0066871228 -3.474515e-04[2,] -0.0003474515 1.940318e-05依据这些值,很容易得出线性组合的标准偏差, 一旦咱们有了标准偏差和正态性,就得出了置信区间,而后,取边界的指数,就失去了置信区间 > segments(30,exp(P2$fit-1.96*P2$se.fit),+ 30,exp(P2$fit+1.96*P2$se.fit),col="blue",lwd=3)  基于该技术,置信区间不再以预测为核心。   点击题目查阅往期内容 R语言狭义线性模型GLM、多项式回归和狭义可加模型GAM预测泰坦尼克号幸存者 左右滑动查看更多 01 02 03 04 增量法实际上,应用表达式作为置信区间不会喜爱非核心区间。因而,一种代替办法是应用增量办法。咱们能够应用一个程序包来计算该办法,而不是在实践上再次写一些货色, > P1$fit1155.4048$se.fit18.931232$residual.scale[1] 1  增量法使咱们具备(渐近)正态性,因而一旦有了标准偏差,便能够失去置信区间。 ...

March 16, 2023 · 1 min · jiezi

关于数据挖掘:R语言用贝叶斯层次模型进行空间数据分析附代码数据

浏览全文:http://tecdat.cn/?p=10932最近咱们被客户要求撰写对于贝叶斯层次模型的钻研报告,包含一些图形和统计输入。 在本文中,我将重点介绍应用集成嵌套 拉普拉斯近似办法的贝叶斯推理。能够预计贝叶斯 层次模型的后边缘散布。鉴于模型类型十分宽泛,咱们将重点关注用于剖析晶格数据的空间模型 。 数据集:纽约州北部的白血病为了阐明如何与空间模型拟合,将应用纽约白血病数据集。该数据集记录了普查区纽约州北部的许多白血病病例。数据集中的一些变量是: Cases:1978-1982年期间的白血病病例数。POP8:1980年人口。PCTOWNHOME:领有屋宇的人口比例。PCTAGE65P:65岁以上的人口比例。AVGIDIST:到最近的三氯乙烯(TCE)站点的均匀反间隔。鉴于有趣味钻研纽约州北部的白血病危险,因而首先要计算预期的病例数。这是通过计算总死亡率(总病例数除以总人口数)并将其乘以总人口数得出的: rate <- sum(NY8$Cases) / sum(NY8$POP8)NY8$Expected <- NY8$POP8 * rate一旦取得了预期的病例数,就能够应用_标准化死亡率_(SMR)来取得原始的危险预计,该_规范_是将察看到的病例数除以预期的病例数得出的: NY8$SMR <- NY8$Cases / NY8$Expected疾病作图在流行病学中,重要的是制作地图以显示绝对危险的空间散布。在此示例中,咱们将重点放在锡拉库扎市以缩小生成地图的计算工夫。因而,咱们用锡拉丘兹市的区域创立索引: # Subset Syracuse citysyracuse <- which(NY8$AREANAME == "Syracuse city")能够应用函数spplot(在包中sp)简略地创立疾病图: library(viridis)## Loading required package: viridisLitespplot(NY8[syracuse, ], "SMR", #at = c(0.6, 0.9801, 1.055, 1.087, 1.125, 13),   col.regions = rev(magma(16))) #gray.colors(16, 0.9, 0.4))## Loading required package: viridisLite 能够轻松创立交互式地图 请留神,先前的地图还包含11个受TCE净化的站点的地位,能够通过放大看到它。 点击题目查阅往期相干内容 [](http://mp.weixin.qq.com/s?__biz=MzA4MDUzOTIxNA==&mid=26538304...)R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据 左右滑动查看更多 01 02 03 04 混合效应模型泊松回归咱们将思考的第一个模型是没有潜在随机效应的Poisson模型,因为这将提供与其余模型进行比拟的基准。 模型 : 请留神,它的glm性能相似于该性能。在此,参数 E用于预期的案例数。或  设置了其余参数来计算模型参数的边际 (应用control.predictor)并计算一些模型抉择规范 (应用control.compute)。 接下来,能够取得模型的摘要: summary(m1)## ## Call:## Time used:##     Pre = 0.368, Running = 0.0968, Post = 0.0587, Total = 0.524 ## Fixed effects:##               mean    sd 0.025quant 0.5quant 0.975quant   mode kld## (Intercept) -0.065 0.045     -0.155   -0.065      0.023 -0.064   0## AVGIDIST     0.320 0.078      0.160    0.322      0.465  0.327   0## ## Expected number of effective parameters(stdev): 2.00(0.00)## Number of equivalent replicates : 140.25 ## ## Deviance Information Criterion (DIC) ...............: 948.12## Deviance Information Criterion (DIC, saturated) ....: 418.75## Effective number of parameters .....................: 2.00## ## Watanabe-Akaike information criterion (WAIC) ...: 949.03## Effective number of parameters .................: 2.67## ## Marginal log-Likelihood:  -480.28 ## Posterior marginals for the linear predictor and##  the fitted values are computed具备随机效应的泊松回归能够通过 在线性预测变量中包含iid高斯随机效应,将潜在随机效应增加到模型中,以解决适度扩散问题。 当初,该模式的摘要包含无关随机成果的信息: summary(m2)## ## Call:## Time used:##     Pre = 0.236, Running = 0.315, Post = 0.0744, Total = 0.625 ## Fixed effects:##               mean    sd 0.025quant 0.5quant 0.975quant   mode kld## (Intercept) -0.126 0.064     -0.256   -0.125     -0.006 -0.122   0## AVGIDIST     0.347 0.105      0.139    0.346      0.558  0.344   0## ## Random effects:##   Name     Model##     ID IID model## ## Model hyperparameters:##                     mean       sd 0.025quant 0.5quant 0.975quant mode## Precision for ID 3712.34 11263.70       3.52     6.94   39903.61 5.18## ## Expected number of effective parameters(stdev): 54.95(30.20)## Number of equivalent replicates : 5.11 ## ## Deviance Information Criterion (DIC) ...............: 926.93## Deviance Information Criterion (DIC, saturated) ....: 397.56## Effective number of parameters .....................: 61.52## ## Watanabe-Akaike information criterion (WAIC) ...: 932.63## Effective number of parameters .................: 57.92## ## Marginal log-Likelihood:  -478.93 ## Posterior marginals for the linear predictor and##  the fitted values are computed增加点估计以进行映射这两个模型预计 能够被增加到 SpatialPolygonsDataFrame NY8  NY8$FIXED.EFF <- m1$summary.fitted[, "mean"]NY8$IID.EFF <- m2$summary.fitted[, "mean"]spplot(NY8[syracuse, ], c("SMR", "FIXED.EFF", "IID.EFF"),  col.regions = rev(magma(16))) 晶格数据的空间模型格子数据波及在不同区域(例如,邻里,城市,省,州等)测量的数据。呈现空间依赖性是因为相邻区域将显示类似的指标变量值。 邻接矩阵能够应用poly2nbpackage中的函数来计算邻接矩阵 spdep。如果其边界 至多在某一点上接触 ,则此性能会将两个区域视为街坊: 这将返回一个nb具备邻域构造定义的对象: NY8.nb## Neighbour list object:## Number of regions: 281 ## Number of nonzero links: 1624 ## Percentage nonzero weights: 2.056712 ## Average number of links: 5.779359另外, 当多边形的重心 已知时,能够绘制对象: plot(NY8) plot(NY8.nb, coordinates(NY8), add = TRUE, pch = ".", col = "gray") 回归模型通常状况是,除了\(y\_i \)之外,咱们还有许多协变量 \(X\_i \)。因而,咱们可能想对\(X_i \)_回归_ \(y_i \)。除了 协变量,咱们可能还须要思考数据的空间结构。 能够应用不同类型的回归模型来建模晶格数据: 狭义线性模型(具备空间随机效应)。空间计量经济学模型。线性混合模型一种常见的办法(对于高斯数据)是应用 具备随机效应的线性回归: \ [ Y = X \ beta + Zu + \ varepsilon ] ...

March 16, 2023 · 3 min · jiezi

关于数据挖掘:专题2022年中国房地产数字化转型研究报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=31900原文出处:拓端数据公众号随同着新经济的浪潮,随同着存量经营时代的降临,房地产公司侧面对着从开发商到运营商的角色转变,为房地产数字化转型带来了全新的时机。这份报告将房地产的数字化转型倒退作为重点,它的钻研范畴笼罩了投资开发-设计建造-流通交易-空间经营这四个次要的环节,将重点放在了房地产开发商、房地产经纪以及房地产服务商三大主体上,目标是要对房地产数字化转型的整体过程和各个细分环节的数字化实际落地进行深刻的理解,并对房地产数字化在未来的更多的可能性进行探讨。 妨碍房地产企业数字化倒退落地的痛点妨碍房地产企业数字化倒退落地的痛点,除了本身的行业属性之外,还与房地产企业的外部治理形式存在着肯定的分割。在数字化转型过程中,TOP房企所面对的次要问题是:不足数字化文化氛围,不足高层管理者的反对,以及数字化策略和施行门路不明确。之所以短少治理上的反对,是因为数字化转型须要长期的投入,而在短期之内,降低成本的成果并不显著,而且很难用间接的形式来掂量其价值。而数字化转型的门路含糊,次要是因为指标(为什么要推动数字化建设)不分明,定位(指标是什么,能实现多少)不分明,因素(数字化基础设施及数据)不分明。 本专题内的参考报告(PDF)目录世邦魏理仕:2023年中国房地产市场瞻望 报告2023-03-07仲量联行:中国房地产开发企业ESG体现报告 报告2023-03-01艾普思征询:2022中国房地产投诉洞察年度报告 报告2023-03-01第一太平戴维斯:晨光熹微-2023年中国房地产市场趋势瞻望 报告2023-02-20艾普思征询:2022中国房地产行业舆情年度报告 报告2023-02-19戴德梁行:房地产-2022年第三季度重庆写字楼与批发市场详情 报告2023-02-17世邦魏理仕:2022年北京房地产市场回顾与2023年瞻望 报告2023-02-11彭博:中国房地产⾏业2023年信⽤瞻望 报告2023-02-07商道纵横:房地产行业ESG绩效榜暨治理晋升手册(2022年版) 报告2023-02-0558安居客:2022年房地产融资专题研究 报告2023-02-04仲量联行:顺应时势,蓄势谋发-2023年中国房地产投资参鉴 报告2023-01-27Colliers:2023年寰球投资者瞻望:应答从新校准后的寰球房地产... 报告2023-01-13亿翰智库:房地产-政策猜测2023-房地产调控还有多大空间? 报告2023-01-11克而瑞:2022年房地产总结与瞻望(完整版) 报告2023-01-11德勤征询:2022年商业房地产瞻望报告 报告2023-01-07戴德梁行:2023年房地产瞻望报告 报告2023-01-04中国指数研究院:中国房地产企业资讯监测报告 报告2022-12-09中国指数研究院:房地产行业-“三支箭”-房企融资排行榜 报告2022-12-09兰德征询&21世纪产业研究院:中国房地产产品力报告 报告2022-11-28中国指数研究院:中国房地产企业资讯监测报告 报告2022-11-17中国指数研究院:2022年1-10月中国房地产企业销售业绩排行榜 报告2022-11-10前瞻:一文带你洞悉中国房地产业倒退简史 报告2022-11-07联结资信:房地产-保障性住房制度不断完善 政策发力助推市场倒退 报告2022-11-07同策:“二十大”后房地产行业的深度改革专题研究 报告2022-10-27兰德征询 :中国房地产产品力报告 报告2022-10-25百盛评估:2022年三季度上海房地产市场剖析 报告2022-10-20中指研究院:2022中国房地产服务品牌价值钻研 报告2022-09-18安永:大湾区房地产科技白皮书:存量时代,大湾区房地产科技翻新与数字化转... 报告2022-09-13人大国发院:城乡交融趋势下的房地产倒退钻研 报告2022-09-11观点指数:2022中国房地产行业倒退白皮书 报告2022-08-23百胜评估:2022年第二季度上海市房地产市场剖析 报告2022-08-22NIFD:稳当处理“个体停贷”事件至关重要:2022Q2房地产金融报告 报告2022-08-17同策:2022年全国房地产市场半年报 报告2022-08-16同策研究院:2022年全国房地产市场半年报 报告2022-08-15同策:2022年郑州房地产市场剖析报告 报告2022-08-12观点:影响力指数▪2022中国房地产行业倒退白皮书 报告2022-08-11艾瑞征询:2022年中国房地产数字化转型钻研报告 报告2022-06-29安永:中国房地产行业2021年业绩概览及ESG倒退时机 报告2022-06-2658安居客:百万房地产经纪人生存报告 报告2022-06-22戴德梁行:常态化防控后的复苏 中国房地产市场瞻望和时机 报告2022-06-06第一太平戴维斯:寰球房地产市场的将来:从新连贯 报告2022-06-01克尔瑞:疫情下北京房地产市场发展趋势报告 报告2022-06-01美国房地产经纪人协会:2022年美国家装革新报告(EN) 报告2022-05-31仲量联行:城市和房地产脱碳(EN) 报告2022-05-31戴德梁行&中国房地产协会:2021亚洲房地产投资信托基金钻研报告 报告2022-05-27同策:疫情对上海房地产市场的影响及将来趋势研判 报告2022-05-19世邦魏理仕:2022年新冠疫情对上海房地产市场的影响 报告2022-05-16中信证券:房地产行业的基本面状况及政策瞻望 报告2022-05-13德勤:2022年商业房地产瞻望(EN) 报告2022-05-03丁祖昱:以后房地产市场局势剖析与行业发展趋势 报告2022-04-28戴德梁行:中国“十四五”布局瞻望房地产的将来 报告2022-04-27中指研究院:2022中国房地产百强企业钻研报告 报告2022-04-25德勤:发明可继续价值:房地产与环境、社会及管治(ESG) 报告2022-04-20世联行:中国房地产行业市场2021年回顾与2022年瞻望 报告2022-04-14中指研究院:2022中国房地产200强企业钻研报告 报告2022-04-14合富辉煌:2022中国代表城市房地产市场预测 报告2022-03-30NIFD:2021年房地产市场及房地产金融运行剖析与2022年瞻望 报告2022-03-08世邦魏理仕:2022年中国房地产市场瞻望 报告2022-02-25摩根大通:卧虎藏龙的亚洲房地产:周期与成长的独奏 报告2022-02-25仲量联行:仲量联行寰球房地产科技白皮书 报告2022-02-17世邦魏理仕:2021年武汉房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年重庆房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年西安房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年杭州房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年南京房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年郑州房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年广州房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年北京房地产市场回顾与2022年瞻望 报告2022-01-29世邦魏理仕:2021年上海房地产市场回顾与2022年瞻望 报告2022-01-14世邦魏理仕:2021年深圳房地产市场回顾与2022年瞻望 报告2022-01-14世邦魏理仕:2021年香港房地产市场回顾与2022年瞻望 报告2022-01-14第一太平戴维斯:2022年中国房地产市场瞻望 报告2022-01-12贝壳研究院:2022年房地产市场瞻望:从链式消退到良性循环 报告2021-12-31

March 16, 2023 · 1 min · jiezi

关于数据挖掘:python用ARIMA模型预测CO2浓度时间序列实现附代码数据

全文下载链接:http://tecdat.cn/?p=20424最近咱们被客户要求撰写对于ARIMA的钻研报告,包含一些图形和统计输入。 工夫序列为预测将来数据提供了办法。依据先前的值,工夫序列可用于预测经济,天气的趋势。工夫序列数据的特定属性意味着通常须要专门的统计办法 在本教程中,咱们将首先介绍和探讨自相干,平稳性和季节性的概念,而后持续利用最罕用的工夫序列预测办法之一,称为ARIMA。 Python中可用的一种用于建模和预测工夫序列的将来点的办法称为 SARIMAX,它示意带有季节性回归的 季节性自回归综合挪动平均线。在这里,咱们将次要关注ARIMA,用于拟合工夫序列数据以更好地了解和预测工夫序列中的将来点。 为了充分利用本教程,相熟工夫序列和统计信息可能会有所帮忙。 在本教程中,咱们将应用 Jupyter Notebook 解决数据。 第1步-装置软件包要设置咱们的工夫序列预测环境: cd environments . my_env/bin/activate从这里开始,为咱们的我的项目创立一个新目录。 mkdir ARIMAcd ARIMA 当初 咱们装置 statsmodels和数据绘图软件包 matplotlib。 pip install pandas numpy statsmodels matplotlib第2步-导入包并加载数据要开始应用咱们的数据,咱们将启动Jupyter Notebook: 要创立新的笔记本文件,请 从右上方的下拉菜单中抉择“ 新建”  >“  Python 3 ”: 首先导入所需的库: import warningsimport itertoolsimport pandas as pdimport numpy as npimport statsmodels.api as smimport matplotlib.pyplot as pltplt.style.use('fivethirtyeight')咱们将应用CO2数据集,该数据集收集了从1958年3月至2001年12月CO2样本。咱们能够将这些数据引入如下: y = data.data让咱们对数据进行一些预处理。每周数据处理起来比拟麻烦,因为工夫比拟短,所以让咱们应用每月平均值。咱们还能够应用 fillna() 函数 来确保工夫序列中没有缺失值。 # “ MS”字符串按月初将数据分组到存储中y = y['co2'].resample('MS').mean()# 填充缺失值y = y.fillna(y.bfill())Outputco21958-03-01 316.1000001958-04-01 317.2000001958-05-01 317.433333...2001-11-01 369.3750002001-12-01 371.020000让咱们用数据可视化摸索这个工夫序列: plt.show() 当咱们绘制数据时,能够发现工夫序列具备显著的季节性模式,并且总体趋势呈上升趋势。 点击题目查阅往期内容 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 左右滑动查看更多 01 02 ...

March 15, 2023 · 3 min · jiezi

关于数据挖掘:Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化附代码数据

全文链接:http://tecdat.cn/?p=27078最近咱们被客户要求撰写对于KShape对工夫序列进行聚类的钻研报告,包含一些图形和统计输入。 时序数据的聚类办法,该算法依照以下流程执行。 应用基于相互关测量的间隔标度(基于形态的间隔:SBD)依据 1 计算工夫序列聚类的质心。(一种新的基于质心的聚类算法,可保留工夫序列的形态)划分成每个簇的办法和个别的kmeans一样,然而在计算间隔尺度和重心的时候应用下面的1和2。import pandas as pd     # 读取数据帧,将其转化为工夫序列数组,并将其存储在一个列表中    tata = []    for i, df in enmee(dfs):                # 查看每个工夫序列数据的最大长度。        for ts in tsda:            if len(s) > ln_a:                lenmx = len(ts)                # 给出最初一个数据,以调整工夫序列数据的长度        for i, ts in enumerate(tsdata):            dta[i] = ts + [ts[-1]] * n_dd        # 转换为矢量    stack_list = []    for j in range(len(timeseries_dataset)):               stack_list.append(data)        # 转换为一维数组    trasfome_daa = np.stack(ack_ist, axis=0)    return trafoed_data数据集筹备# 文件列表flnes= soted(go.ob('mpldat/smeda*.csv'))# 从文件中加载数据帧并将其存储在一个列表中。for ienme in fiemes:    df = pd.read_csv(filnme, indx_cl=one,hadr=0)    flt.append(df)聚类后果的可视化# 为了计算穿插关系,须要对它们进行归一化解决。# TimeSeriesScalerMeanVariance将是对数据进行规范化的类。sac_da = TimeeiesalerMVarne(mu=0.0, std=1.0).fit_trnform(tranfome_data)# KShape类的实例化。ks = KShpe(_clusrs=2, n_nit=10, vrboe=True, rano_stte=sed)yprd = ks.ft_reitsak_ata)# 聚类和可视化plt.tight_layout()plt.show() 点击题目查阅往期内容 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 左右滑动查看更多 01 02 03 04 用肘法计算簇数什么是肘法...计算从每个点到簇核心的间隔的平方和,指定为簇内误差平方和 (SSE)。它是一种更改簇数,绘制每个 SSE 值,并将像“肘”一样蜿蜒的点设置为最佳簇数的办法。 #计算到1~10个群组 for i  in range(1,11):    #进行聚类计算。     ks.fit(sacdta)     #KS.fit给出KS.inrta_    disorons.append(ks.netia_) plt.plot(range(1,11), disorins, marker='o') ![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/aabdcae5337f4e92abfe8a84467d808c~tplv-k3u1fbpfcp-zoom-1.image)![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/15e517427eb74587ae77b5252e7d9212~tplv-k3u1fbpfcp-zoom-1.image)* * * * * * ![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/aa2a0b1887174c00a26df53fab8acabb~tplv-k3u1fbpfcp-zoom-1.image)点击文末 **“浏览原文”**获取全文残缺材料。 本文选自《**Python用KShape对工夫序列进行聚类和肘办法确定最优聚类数k可视化**》。 **点击题目查阅往期内容**[R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247516548&idx=2&sn=5b75c1e34d6b40864244e1aa5a1dbe94&chksm=fd92bf8fcae5369996bef14478ddee6c2a8592019daec30320c018c1e3a3e00fdd95ce1d0f0d&scene=21#wechat_redirect) [K-means和档次聚类分析癌细胞系微阵列数据和树状图可视化比拟](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247510121&idx=1&sn=9c2b39769533229d1fd5bb2cdf185be7&chksm=fd929662cae51f74e0d487f8141a76612f721f329431ff3ec806ed6be9634da98f11f02031c7&scene=21#wechat_redirect)[KMEANS均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化剖析和抉择最佳聚类数](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247508401&idx=2&sn=03b8a812234cc82a7f4cccd365fb1f97&chksm=fd929fbacae516ac2b6ea9a1bc73e30d40fff4f9cdab45a14213c08062f45c2085c5a19f5c43&scene=21#wechat_redirect) [PYTHON实现谱聚类算法和扭转聚类簇数后果可视化比拟](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247508051&idx=1&sn=640bd7a0dbd844d50a1a6f4d89e68c45&chksm=fd929e58cae5174e523d422a2253efebdd254f507d3b80d92519a4de21cc3a1ea784ddacb617&scene=21#wechat_redirect) [无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247507609&idx=1&sn=2526c1a15e5c2b64c4eeb218767f2a71&chksm=fd92e092cae5698418bf5bf79c98837000b8c711e81ceabb30afd7fd074c12e7729f61f390c9&scene=21#wechat_redirect) [R语言多维数据档次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247506893&idx=1&sn=3722d123322132225f076f8ccd97e2d7&chksm=fd92e5c6cae56cd0775bc5b88e7a9406613e5f04ecba1fb073190228b0649606bff742b86976&scene=21#wechat_redirect) [r语言无限正态混合模型EM算法的分层聚类、分类和密度估计及可视化](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247502736&idx=1&sn=d1b8691595a347f58e489fc0ce6edaf0&chksm=fd92f59bcae57c8de701ec891d3c8ec3bed5bc2a798d9d5937ba977372c8f07c8090caa013f5&scene=21#wechat_redirect) [Python Monte Carlo K-Means聚类实战钻研](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247501328&idx=2&sn=cb254a796edf83b34bf66ef43c651ec0&chksm=fd92f81bcae5710daaf84437bd99e7e7fa35a1634c6081bedf2db4e9b21a8ea72da44e8fc23a&scene=21#wechat_redirect) [R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247500705&idx=2&sn=1e9d8fbef30b7e62aa5bd16c304f6088&chksm=fd92fdaacae574bc2ea18b9f9a3791b555e904a44d68dc3be9e3c675461cb41902baaddc5286&scene=21#wechat_redirect) [R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247500286&idx=2&sn=a81aebc0b60318d226968e07b0020db1&chksm=fd92fff5cae576e356df36372b9d935f0b914f13ad1ba80c91b1185acd92f2efaf2b745bcebd&scene=21#wechat_redirect) [R语言谱聚类、K-MEANS聚类分析非线性环状数据比拟](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247500104&idx=1&sn=1eb955cf5c730ed5cd07bdbe07472bb9&chksm=fd92ff43cae576552fd2a14d14f0e2af3d59f6f410221eb24b51ecc5ee0d0113f14c05c22767&scene=21#wechat_redirect) [R语言实现k-means聚类优化的分层抽样(Stratified Sampling)剖析各市镇的人口](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247499299&idx=1&sn=694818311fdfafcfd3b1bd2553200085&chksm=fd92c028cae5493e1168a2a59bd8301f001c2efb9dd1620b8e258c4b8dde1a1e7534b80caea7&scene=21#wechat_redirect) [R语言聚类有效性:确定最优聚类数剖析IRIS鸢尾花数据和可视化](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247498712&idx=1&sn=7683c54364c529923c843df31882a2ce&chksm=fd92c5d3cae54cc52dd7be623292ec059a5d924ee36c0029e8930474db6c65d0267ff0818ca4&scene=21#wechat_redirect)[Python、R对小说进行文本开掘和档次聚类可视化剖析案例](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247498465&idx=2&sn=91b7297690d8ddc5194e987a4e8a3357&chksm=fd92c4eacae54dfcc0bfab86f878b028f42302a83efb3a59e5de519a979b298f4fa8af8d68a4&scene=21#wechat_redirect) [R语言k-means聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花iris数据集](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247498465&idx=1&sn=dd4c1f65a1c2d8cd0dfd1236c827492a&chksm=fd92c4eacae54dfc1cda2f924c5c5c60cf497eb2079cd5459a39cc9daefca3aec7fd76cb9c32&scene=21#wechat_redirect) [R语言无限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发工夫](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247497673&idx=1&sn=b31e2b3c1f703d201f09ca203caddce3&chksm=fd92c9c2cae540d4c13dbefbed1d034c62386ec2744ce372eae8099d8fdb936f857219b3fb74&scene=21#wechat_redirect) [R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247495156&idx=1&sn=82e9cd3cbfe47006cbb694eb24a0d74e&chksm=fd92d3ffcae55ae94850149f0d8f56de96129429754ab6b15a3e84f8c06dae05ab803431ac2a&scene=21#wechat_redirect) [R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247493463&idx=2&sn=18232f6b637b9272ac503924392fe8d3&chksm=fd92d95ccae5504a43f777aa15ef10d6f74e9701c4318c41b636cbf61a3649ee2b5b2bd1d233&scene=21#wechat_redirect) [R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247493017&idx=1&sn=7fd07acebc2e5d7216236f287a333914&chksm=fd92db92cae55284671aaaeba424b5d6a892a293e181e6831c8585a0432b394b0f5645649e67&scene=21#wechat_redirect) [R语言简单网络分析:聚类(社区检测)和可视化](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492713&idx=2&sn=3b1341efc989f5f395929c798ac9da60&chksm=fd92da62cae55374bec3b89f9e382a5e143171bebce4171f214a4af4d43dc6fe70c2d23b01d5&scene=21#wechat_redirect) [R语言中的划分聚类模型](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492472&idx=3&sn=43056832fc7b4b5dd6e1cbd0f035f9de&chksm=fd92dd73cae55465b419f4572d0ba0497a20bae6047c891bc6399e12d91a0caf7d83c578e5b4&scene=21#wechat_redirect) [基于模型的聚类和R语言中的高斯混合模型](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492432&idx=3&sn=2960efe44c2a0bbab0e2c804755adf70&chksm=fd92dd5bcae5544d6328947ce22bcb4fe9a574f440f7d4b016a4642e3ea0a74ef69aa1c88408&scene=21#wechat_redirect) [r语言聚类分析:k-means和档次聚类](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247491996&idx=3&sn=76fdce2eeb0f9eb0bcf8681e258c0a99&chksm=fd92df97cae55681e9c371f5fb7d25912d3bae75093e32f476d6bc73403f46af15c1859a5694&scene=21#wechat_redirect) [SAS用K-Means 聚类最优k值的选取和剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247491396&idx=1&sn=4ca13d1b6bda580d7a60605f8e1ed2de&chksm=fd91214fcae6a859b5e670be257cf3ea29892c63b66927e48514e190e703547ff1fb8f93bd1b&scene=21#wechat_redirect) [用R语言进行网站评论文本开掘聚类](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247489693&idx=3&sn=ed0a65fc1019f2e62e90734e25b2e6cc&chksm=fd912696cae6af8050cdcb5c516ffd4ea98278ef438712c07a01c6f11f0a17f5a3744ff24d84&scene=21#wechat_redirect) [基于LDA主题模型聚类的商品评论文本开掘](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247489519&idx=3&sn=bd8179e866ebd67286a6f5e8afda3de1&chksm=fd9129e4cae6a0f29dc622fb174dc0e321f4cbf93afb0f5dee5051cd0cbb0ee9677012e6507b&scene=21#wechat_redirect) [R语言鸢尾花iris数据集的档次聚类分析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247488780&idx=1&sn=8426dcbc64a4485383d333e3e440c81c&chksm=fd912b07cae6a21107a3aa6e9c8aefe8b2e96aea6864b8c5f561618aeeee4c3abf67e3332be3&scene=21#wechat_redirect) [R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247488780&idx=2&sn=c56669c116190eb04e2639194cb912f8&chksm=fd912b07cae6a211fdb7c8e8dabd6045330657c14735f07b8356d90434e622a7a7e5c1f779f9&scene=21#wechat_redirect) [R语言聚类算法的利用实例](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247487708&idx=3&sn=a7b207b86934c101a22a223c40b4741c&chksm=fd912ed7cae6a7c1d179c0b921c199beae98bc67f49939d3551adca08f0360f7b1feac861b01&scene=21#wechat_redirect)[对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247516271&idx=3&sn=781a28e7bc8e5db5fb0e368d7a76566b&chksm=fd92be64cae53772b909ea0dfaa4376c8852e6f171c11c60fbe0f5fde61c095349fc08dc1eaf&scene=21#wechat_redirect) [分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷工夫序列预测](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247509153&idx=3&sn=4aff9db04827809fecf70d91fdc482df&chksm=fd929aaacae513bccaf6b595ed861a87113abe5f140bf6982075d98fd31867c9a436698b5312&scene=21#wechat_redirect) [【视频】R语言狭义相加模型(GAM)在电力负荷预测中的利用](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247500246&idx=1&sn=f41d4fcb12796ed52b7c4cdd2fd04099&chksm=fd92ffddcae576cbb10dc1f819079c3212c8edfd0e1870927cb9067739a023b034375e04538c&scene=21#wechat_redirect) [R语言里的非线性模型:多项式回归、部分样条、平滑样条、 狭义相加模型GAM剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496258&idx=2&sn=d651743315f28e19a94c818fc3fdad9b&chksm=fd92cc49cae5455fd193e776dca6aed628f5d8fbafef2a3420f3567eb1d7a5d9caf696719286&scene=21#wechat_redirect) [R语言用规范最小二乘OLS,狭义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247495252&idx=1&sn=28310cd9e77eeb87dbe8d8b4870be72d&chksm=fd92d05fcae5594948645b998c141b8a352d7cd4df043a0ced68e8032b7185af6523bebdd790&scene=21#wechat_redirect) [R语言ISLR工资数据进行多项式回归和样条回归剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247494779&idx=2&sn=470849162dfc3270c69e18999e6c025a&chksm=fd92d270cae55b66adf34e437f19698959dd211bb7d54bb9c8fd84df4d550879eb3a8c9d83b5&scene=21#wechat_redirect) [R语言中的多项式回归、部分回归、核平滑和平滑样条回归模型](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247494720&idx=1&sn=def27845fe8c39827fb580baa90bd0b0&chksm=fd92d24bcae55b5d477d0fa66632940e1c675f8efa585c65218f88d2ed58d69e8bd4c688971d&scene=21#wechat_redirect) [R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492508&idx=1&sn=ea5713493413c251cdd5c2104c80f4cb&chksm=fd92dd97cae554810882ab453f5d45dd61e6699a67c41202ea6fc50cab3c5fc1398f8efa736f&scene=21#wechat_redirect) [R语言中的多项式回归、B样条曲线(B-spline Curves)回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247491963&idx=1&sn=dcf6f3c7dadf5dd449060c9001bb4466&chksm=fd92df70cae55666baace37b76c44e3a439cc53cdf50aa9e1a5c73d06470cd29baf7a583f37f&scene=21#wechat_redirect) [R语言狭义相加模型 (GAMs)剖析预测CO2工夫序列数据](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247495111&idx=1&sn=6a918ec70f6055e1e680160dbb4db655&chksm=fd92d3cccae55ada6264dcb7a9fd3996688d5616f3e04b0634a83ae5266f2e508f7e9d67bbe7&scene=21#wechat_redirect) [R语言中实现狭义相加模型GAM和一般最小二乘(OLS)回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247495047&idx=1&sn=0afeb7e0614f936d554b2ecddb42e8dd&chksm=fd92d38ccae55a9a2ed44cc090a403b45782203ac1040ba4eaa33bf3165734517eb628415e4e&scene=21#wechat_redirect) [在r语言中应用GAM(狭义相加模型)进行电力负荷工夫序列剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247493193&idx=2&sn=e12e1946b1b650dde707444fb4b3b202&chksm=fd92d842cae55154975aab8696680d4b51eff20b9ce765ea13ea6211e378b0bcf0dd422a7f5d&scene=21#wechat_redirect) [R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492508&idx=1&sn=ea5713493413c251cdd5c2104c80f4cb&chksm=fd92dd97cae554810882ab453f5d45dd61e6699a67c41202ea6fc50cab3c5fc1398f8efa736f&scene=21#wechat_redirect) [Python用狭义加性模型GAM进行工夫序列剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492268&idx=2&sn=375ecb35c5d83bd11a597302cb3f03a0&chksm=fd92dca7cae555b10e66e082ae7d10a3420c5c8f1498426ea443e7e3429f68ab9d07fb7ba50f&scene=21#wechat_redirect) [R语言狭义线性模型GLM、多项式回归和狭义可加模型GAM预测泰坦尼克号幸存者](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247492140&idx=1&sn=843b0c171b2b8a6574a6585fda0263dd&chksm=fd92dc27cae55531a04913c9f9332bdbf1b5adb0da209f3aa4c256d5456b6ea64b10a40b4b71&scene=21#wechat_redirect) [R语言中的狭义线性模型(GLM)和狭义相加模型(GAM):多元(平滑)回归剖析保险资金投资组合信用风险敞口](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247489964&idx=3&sn=8ce0c4a13c1e03422b69c8d4398e8414&chksm=fd9127a7cae6aeb11709a2fe0cf8c16b875aa3c5037420ac0f56545a7ec7f9020cd296068f2e&scene=21#wechat_redirect) [R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247488780&idx=2&sn=c56669c116190eb04e2639194cb912f8&chksm=fd912b07cae6a211fdb7c8e8dabd6045330657c14735f07b8356d90434e622a7a7e5c1f779f9&scene=21#wechat_redirect)

March 15, 2023 · 1 min · jiezi

关于数据挖掘:R语言GARCH族模型正态分布tGED分布EGARCHTGARCH的VaR分析股票指数附代码数据

全文链接:http://tecdat.cn/?p=31023最近咱们被客户要求撰写对于GARCH的钻研报告,包含一些图形和统计输入。 如何构建适合的模型以失当的办法对危险进行测量是以后金融钻研畛域的一个热门话题 VaR办法作为以后业内比拟风行的测量金融风险的办法,具备简洁,明了的特点,而且绝对于方差来讲,更多的将投资人的损失作为危险具备更好的合理性。 咱们和一位客户探讨如何在R软件中解决GARCH族模型。 数据的选取本文选取Wind资讯公布的股票型券商理财指数作为数据处理对象。选取的工夫期间为2011年1月4日至2015年11月24日,共1187个交易日。该指数基日为2007年12月31日,基点为1000点。 收益率的计算采纳对数收益率对指数开盘点位进行计算,表达式为 记为序列 。由图察看可知,该收益率序列存在稳定汇集景象。 clpr<-stock$Clsprcyield<-diff(log(clpr))ts.plot(yield) 根本特征分析对序列 进行根本统计分析,后果如表所示:   summary(yield)sd(yield)var(yield)表 指数日收益率根本统计表** Min.1st Qu.MedianMean3rd Qu.Max.Sdskewness'kurtosis-0.03517-0.003890.00037490.00019630.004730.033480.008163353-0.40184622.169439  由表可知,收益率序列 的最小值为-0.03517,最大值为0.03348,平均值为0.0001963,标准差为0.008163353。偏度为-0.4018462,体现为右偏。峰度为2.169439,该散布比正态分布更平缓。 1、正态性测验对指数的日收益率序列进行正态性测验。测验办法采纳Jarque-Bera统计量。测验结果显示Jarque-Bera统计量为261.3839,P值靠近0,回绝对数收益率遵从正态分布的原假如,表明序列为非正态分布。   表 Jarque-Bera测验后果 测验办法统计量P值Jarque-Bera261.3839< 2.2e-16  为了进一步探索序列 的散布状态,对样本数据作直方图、QQ图。由图可见,该收益率序列的尾部更长更厚,且其散布存在显著的不对称的景象,为非正态分布。 2、自相关性测验对指数的日收益率序列的自相关性进行测验。测验办法采纳Ljung-Box测验。表中LB2(12)指滞后期为12的收益率平方的Ljung-Box统计量,该统计量在无序列相干的零假如下,遵从自由度为12的 散布。具体测验后果如下:收益率平方的Ljung-Box统计量为34.1853,P值为0.0006306,回绝无自相干的零假如,表明收益率的平方存在自相干景象。   表 Ljung-Box测验后果 测验办法统计量P值LB2(12)34.18530.0006306  为了进一步探索序列的自相关性,对序列作ACF、PACF图。由图可见,该收益率序列存在自相干景象。 3、异方差性测验对指数的日收益率序列进行异方差性测验。测验办法采纳ARCH-LM测验。表中LM(12)指ARCH效应的拉格朗日乘数测验,在没有ARCH效应的零假如下,统计量遵从自由度为12的 散布。具体测验后果如下:LM统计量为170.9818,P值靠近0,故回绝无ARCH效应的零假如,表明收益率序列存在ARCH效应。   表 ARCH-LM测验后果 测验办法统计量P值LM(12)170.9818< 2.2e-16  4、平稳性测验在工夫序列模型中,序列的平稳性会间接影响到模型的拟合成果,非安稳的序列容易产生舛误回归(Spurious Regression)。本节将采纳 ADF 测验来对收益率序列进行单位根测验。测验结果显示Dickey –Fuller值为-9.7732(滞后10阶),P值小于0.01,故回绝存在单位根的原假如,认为该收益率序列是安稳的。 表 ADF测验后果 测验办法统计量P值ADF-9.7732<0.01综上,收益率序列存在显著的尖峰厚尾效应,JB测验同样否定了收益率遵从正态分布的假如。LM测验表明收益率存在ARCH效应,而LB测验表明收益率的平方存在自相干景象,因而能够采纳条件异方差模型来剖析收益率序列的稳定个性 GARCH族模型的建设本文将别离采纳基于正态分布、t散布、狭义误差散布(GED)、偏态t散布(ST)、偏态狭义误差散布(SGED) 的GARCH(1,1)、EGARCH、TGARCH来建模。 相干视频 ** 拓端 ,赞21 ** 拓端 ,赞11 ** 拓端 ,赞8 ** 拓端 ,赞14 表中,c为收益率的均值, 为方差方程的常数项, 为方差方程的ARCH项系数, 为GARCH项系数, 反映杠杆效应的大小。参数 为概率分布中的参数,其中 管制尖峰高度和尾部厚度, 管制偏斜度。 ...

March 15, 2023 · 3 min · jiezi

关于数据挖掘:视频Python用LSTM长短期记忆神经网络对不稳定降雨量时间序列进行预测分析数据分享附代码数据

全文下载链接:http://tecdat.cn/?p=23544最近咱们被客户要求撰写对于LSTM的钻研报告,包含一些图形和统计输入。 在本文中,长短期记忆网络——通常称为“LSTM”——是一种非凡的RNN递归神经网络,可能学习长期依赖关系 什么是依赖关系? 假如您在观看视频时记得前一个场景,或者在浏览一本书时您晓得前一章产生了什么。 传统的神经网络无奈做到这一点,这是一个次要毛病。例如,假如您想对电影中每一点产生的事件进行分类。目前尚不分明传统的神经网络如何利用电影中先前事件来推理起初的事件。 递归神经网络解决了这个问题。它们是带有循环的网络,容许信息继续存在。循环神经网络有循环。 在上图中,一大块神经网络,查看一些输出x并输入一个值h. 循环容许信息从网络的一个步骤传递到下一个步骤。 这些循环使循环神经网络看起来有点神秘。然而,如果你想得更多,就会发现它们与一般的神经网络并没有什么不同。循环神经网络能够被认为是同一网络的多个正本,每个正本都将消息传递给后继者。考虑一下如果咱们开展循环会产生什么: 这种链状性质表明循环神经网络与序列和列表密切相关。它们是用于此类数据的神经网络的天然架构。在过来的几年里,将 RNN 利用于各种问题获得了令人难以置信的胜利:语音辨认、语言建模、翻译、图像字幕……举不胜举。这些胜利的要害是应用“LSTM”,这是一种十分非凡的循环神经网络,简直所有基于循环神经网络的令人兴奋的后果都是用它们实现的。本文将探讨的正是这些 LSTM。 长期依赖问题 上面是一个对于如何应用循环神经网络(RNN)来拟合语言模型的例子。 RNN 的吸引力之一是它们可能可能将先前的信息与当前任务分割起来,例如应用先前的视频帧可能会告知对以后帧的了解。如果 RNN 能够做到这一点,它们将十分有用。但他们能够吗?有时,咱们只须要查看最近的信息即可执行当前任务。例如,思考一个语言模型试图依据之前的单词预测下一个单词。如果咱们试图预测“云在天空”中的最初一个词,咱们不须要任何进一步的上下文——很显著下一个词将是天空。在这种状况下,相干信息与所需地位之间的差距很小,RNN 能够学习应用过来的信息。 但也有咱们须要更多上下文的状况。思考尝试预测文本“我在中国长大……我说纯粹的中文”中的最初一个词。最近的信息表明,下一个词可能是一种语言的名称,但如果咱们想放大哪种语言的范畴,咱们须要中国的上下文,从更远的中央。相干信息和须要的点之间的差距齐全有可能变得十分大。 随着差距的扩充,RNN 变得无奈学习连贯信息。 LSTM 网络长短期记忆网络——通常称为“LSTM”——是一种非凡的 RNN,可能学习长期依赖关系。它们在解决各种各样的问题时表现出色,当初被宽泛应用。LSTM 被明确设计为防止长期依赖问题。长时间记住信息实际上是他们的默认行为,而不是他们难以学习的货色! 所有循环神经网络都具备神经网络的反复模块链的模式。在规范 RNN 中,此反复模块将具备非常简单的构造,例如单个 tanh 层。 LSTM 也有这种链状构造,但反复模块有不同的构造。不是只有一个神经网络层,而是三个局部组成,以一种十分非凡的形式进行交互。 LSTM 的工作形式十分相似于 RNN 单元。这是 LSTM 网络的外部性能。LSTM 由三个局部组成,如图所示,每个局部执行一个独自的性能。第一局部抉择来自前一个工夫戳的信息是被记住还是不相干并且能够被忘记。在第二局部中,单元尝试从该单元的输出中学习新信息。最初,在第三局部,单元将更新的信息从以后工夫戳传递到下一个工夫戳。LSTM 单元的这三个局部称为门。第一局部称为遗记门或忘记门,第二局部称为输出门,最初一部分称为输入门。 Python用LSTM长短期记忆神经网络对不稳固降雨量工夫序列进行预测剖析 每年的降雨量数据可能是相当不安稳的。与温度不同,温度通常在四季中体现出显著的趋势,而雨量作为一个工夫序列可能是相当不安稳的。冬季的降雨量与夏季的降雨量一样多是很常见的。 上面是某地区2020年11月降雨量数据 ( 查看文末理解数据获取形式 ) 的图解。 作为一个间断的神经网络,LSTM模型能够证实在解释工夫序列的波动性方面有劣势。 应用Ljung-Box测验,小于0.05的p值表明这个工夫序列中的残差体现出随机模式,表明有显著的波动性。 >>> sm.stats.acorr_ljungbox(res.resid, lags=[10])Ljung-Box测验 Dickey-Fuller 测验 数据操作和模型配置该数据集由722个月的降雨量数据组成。 抉择712个数据点用于训练和验证,即用于建设LSTM模型。而后,过来10个月的数据被用来作为测试数据,与LSTM模型的预测后果进行比拟。 上面是数据集的一个片段。 而后造成一个数据集矩阵,将工夫序列与过来的数值进行回归。 # 造成数据集矩阵    for i in range(len(df)-previous-1):        a = df[i:(i+previous), 0]        dataX.append(a)        dataY.append(df[i + previous, 0])而后用MinMaxScaler对数据进行标准化解决。 将前一个参数设置为120,训练和验证数据集就建设起来了。作为参考,previous = 120阐明模型应用从t - 120到t - 1的过来值来预测工夫t的雨量值。 ...

March 15, 2023 · 1 min · jiezi

关于数据挖掘:SQL-Server-Analysis-Services数据挖掘聚类分析职业地区餐饮消费水平数据

全文链接:http://tecdat.cn/?p=31887原文出处:拓端数据部落公众号本文通过 SQL Server Analysis Services数据挖掘的剖析模块,帮忙客户对一个职业、地区、餐饮消费水平的数据挖掘,并用可视化剖析图表显示数据。该后果可为餐饮业的管理者提供决策依据,进而使餐饮企业取得更多利润。同时,挖掘出与该职业绝对应的地区及消费水平,能够为职业倒退布局、餐饮市场的开辟提供无效根据。 筹备工作:数据.xls 数据导入数据库中。 将表格命名 在相应数据库中找到对应的数据 商业智能我的项目抉择商业智能我的项目,analysis services我的项目,并抉择指标文件夹 在解决方案资源管理器中,右键单击数据源,抉择新建数据源 在解决方案资源管理器中,右键单击开掘构造,抉择新建开掘构造 设置输出数据与键Id 设置训练集和测试集的百分比 点击部署模型 看到右下角 部署实现 查看后果从聚类后果能够看到,聚类将所有用户分成了2个聚类后果。 从不同类别的依赖图能够看到,类别10、4、8、6、7、5之间具备较强的相干关系。阐明这几个类别中的变量特色是相似的。上面能够具体看下每个类别中的各个属性的散布的比例。 另外一个聚类中,1、2、9为一个聚类簇,阐明这几类别中的变量特色相似。 同时能够看到每个变量再每个类别中的散布状况 能够看到消费水平很低的样本次要散布在分类10中 从上图能够看到 餐饮消费水平较高的类别是1,2,9类别中。 上面能够看到各个分类的剖面图 能够看到每个分类中各个level所占的比例。中餐次要散布在分类1、2中。拍档次要散布在分类6、10中。 年龄的散布也非常明显。大多数散布在26岁左右,分类10的样本年龄最大。同时能够看到分类1 和9 的支出最高,同时他们常去的餐厅类型为中餐。同时能够看到所在城市在分类3中次要是通辽和根河市。他们次要去的餐厅类型是西餐和排档。在分类9中,能够看到医生职业的样本次要去的也是西餐类型。分类1中能够看到,去中餐的样本次要是少了的医生。 而后能够看到总体的分类特色。最常去的餐厅类型为西餐,其次是中餐。年收入最多的区间是51900到67000之间。餐饮生产在10元到18元之间。样本的次要年龄段在20岁到25岁。所在城市次要为根河市,其次是乌兰浩特。样本的职业中,最多的是客服专员。 从每个类别的偏向水平来看,分类1中,次要的样本区的是中餐餐厅。每次的生产在20到30元之间。年收入在8万到12万之间,阐明这些样本的支出较高。其中,行政主管所占的百分比较高。有大量的创意总监。 从每个类别的偏向水平来看,分类1中,次要的样本区的是中餐餐厅。他们所在的城市次要在鄂尔多斯。   从每个类别的偏向水平来看,分类3中,次要的样本支出在3万3到3万6之间。他们的职业次要是文案策动,常去的餐厅为非中餐餐厅。 从每个类别的偏向水平来看,分类4中,次要的样本区的是西餐餐厅。次要的职业为市场总监。 从每个类别的偏向水平来看,分类5中,次要的样本区的是西餐餐厅。 次要的职业为电工和电话销售以及老师。 从每个类别的偏向水平来看,分类6中,次要的样本去的是排挡餐厅。 次要的职业为学生和服务员及会计师。该群体大部分支出较低或者没有支出。因而每次的餐厅生产也较低。 最受欢迎的见解 1.R语言k-Shape算法股票价格工夫序列聚类 2.R语言基于温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图 3.R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 4.r语言鸢尾花iris数据集的档次聚类 5.Python Monte Carlo K-Means聚类实战 ...

March 15, 2023 · 1 min · jiezi

关于数据挖掘:Python对中国电信消费者特征预测随机森林朴素贝叶斯神经网络最近邻分类逻辑回归支持向量回归SVR

全文链接:http://tecdat.cn/?p=31868原文出处:拓端数据部落公众号分析师:Chang Gao随着大数据概念的衰亡,以数据为根底的商业模式越来越风行,用所收集到的因素去预测用户的可能产生的行为,并依据预测做出相应反馈成为商业竞争的外围因素之一。单纯从机器学习的角度来说,做到精准预测很容易,然而联合具体业务信息并做出相应反馈并不容易。预测精确性是外围痛点。 解决方案工作/指标依据所收集到的用户特色用机器学习办法对特定的属性做预测。 数据源筹备数据品质低或者缺失,会影响模型预测成果。在建设的一个正当的模型之前,对数据要进行清理。对于数据中的连续变量和离散变量进行标准化和因子化解决,以使前面的预测更加精确。 因子化标准化解决首先将数据进行属性分类,分为名义变量('性别', '归属地', '换机频率', '终端品牌', '终端类型', '最近应用操作系统偏好','渠道类型形容', '是否欠费', '产品大类', '产品分类')和距离变量('年龄','在网时长','上网流量应用','漫游流量应用', '总收入','增值支出','流量支出','短信支出','彩信支出','语音支出')。 将数据处理成算法容易解决模式:奢侈贝叶斯数据集奢侈贝叶斯办法须要离散化数据,于是依照分为点对于间断数据进行离散化解决。而后将所有的离散变量进行因子化。 神经网络,反对向量机与最近邻所需数据:解决以保障在一个数量级为不便起见,用one-hot编码因子变量。对于连续变量,将数据映射到0,1之间 且不扭转散布。 随机森林与回归所需数据:间接应用因子化的原始数据。划分训练集和测试集思考到最终模型会在已知某些变量的同时,预测一些未知的特色,为了更实在的测试模型成果,将数据集分为分训练集和测试集。 建模用其余用户特色,用训练集进行调参,预测用户“收否欠费”这个属性。 1. 随机森林用随机的形式建设一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在失去森林之后,当有一个新的输出样本进入的时候,就让森林中的每一棵决策树别离进行一下判断,看看这个样本应该属于哪一类(对于分类算法),而后看看哪一类被抉择最多,就预测这个样本为那一类。 两个主要参数:n_estimators: 多少树 max_features: 每个树随机抉择多少特色 比拟不同参数预测后果的neg_log_loss,抉择最优的参数(score最大的) 2. 奢侈贝叶斯3. 神经网络在PyTorch框架上面进行网络的搭建及运算 须要调节的参数:batch_size=[200,500,1000], 神经元个数=[16,32,64,128] 学习率=[0.01,0.005,0.001,0.0005,0.0001,0.00005,0.00001] 再微调,epoch=[10,20,30,40,50,60] 调参策略,第一调到最优后抉择下一个进行调参,并不进行网格搜寻 (a) 数据模式调整并进行小批次数据训练(批训练):每次抉择1000数据集进行拟合,防止部分最优。 (b) 模型建设:咱们采纳了输出层+两层暗藏层+输入层,的三层神经网络,确定三层暗藏层的个数:咱们比拟32,64 逐个变动,择取最优。 (c) 训练网络:优化器:采纳了Adam而不是简略的SGD,次要也是防止部分最优的问题。分类问题咱们采纳了广泛应用的穿插熵损失损失,然而与广泛的穿插熵相比,因为数据过于不均衡,因而咱们减少了占比拟少的数据的损失权重 4. 最近邻分类最近邻分类:次要须要确定n_neighbors,咱们比拟n_neighbors=3,5,7,9状况下neg_log_loss 5. 逻辑回归:这里次要也是须要对变量进行筛选因为数据十分不均衡,因而咱们应用AUC作为规范进行掂量。一一遍历自变量并将自变量名连接起来,升序排序accuracy值,最新的分数等于最好的分数。 6. 反对向量回归(SVR):应用网格搜寻法最佳C值和核函数模型准确性断定: 准确度/查准率/查全率 混同矩阵 ROC曲线在此案例中,从准确度来看,随机森林模型的分类最好。从查准率来看,神经网络模型的分类最好。从查全率来看,逻辑回归模型的分类成果最好。同理,由上图可知,在ROC曲线下对于“是否欠费”这个因变量,神经网络模型的分类成果最好,模型的ROC曲线下面积最高,拟合最优。其余模型的拟合效果显著。 但事实上,评估成果不能只看统计数据,要综合思考现实情况,预测精度,模型可解释性和客户偏好等因素综合思考。预测后果仅作为参考一个权重值,还须要专家意见,依照肯定的权重来计算。 对于分析师 在此对Chang Gao对本文所作的奉献示意诚挚感激,她在复旦大学实现了统计学学位,善于数据挖掘、机器学习、数据采集。 最受欢迎的见解 1.PYTHON用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像 2.R语言基于树的办法:决策树,随机森林 3.python中应用scikit-learn和pandas决策树 4.机器学习:在SAS中运行随机森林数据分析报告 5.R语言用随机森林和文本开掘进步航空公司客户满意度 6.机器学习助推快时尚精准销售工夫序列 7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用 8.python机器学习:举荐零碎实现(以矩阵合成来协同过滤) 9.python中用pytorch机器学习分类预测银行客户散失

March 14, 2023 · 1 min · jiezi

关于数据挖掘:PYTHON用户流失数据挖掘建立逻辑回归XGBOOST随机森林决策树支持向量机朴素贝叶斯附代码数据

原文链接:http://tecdat.cn/?p=24346最近咱们被客户要求撰写对于用户散失数据挖掘的钻研报告,包含一些图形和统计输入。 在明天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的抢夺上 “用户就是上帝”促使泛滥的企业不惜代价去抢夺尽可能多的客户。然而企业在不惜代价倒退新用户的过程中,往往会漠视或无暇顾及已有客户的散失状况,后果就导致呈现这样一种窘况:一边是新客户在源源不断地减少,而另一方面是辛辛苦苦找来的客户却在悄然无声地散失。因而对老用户的散失进行数据分析从而挖掘出重要信息帮忙企业决策者采取措施来缩小用户散失的事件至关重要,火烧眉毛。 1.2 目标:深刻理解用户画像及行为偏好,挖掘出影响用户散失的关键因素,并通过算法预测客户拜访的转化后果,从而更好地欠缺产品设计、晋升用户体验。 1.3 数据阐明:此次数据是携程用户一周的拜访数据,为爱护客户隐衷,曾经将数据通过了脱敏,和理论商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。 2 读取数据 # 显示全副特色df.head()  3 切分数据# 划分训练集,测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)3.1 了解数据能够看到变量比拟的多,先进行分类,除去指标变量label,此数据集的字段能够分成三个类别:订单相干指标、客户行为相干指标、酒店相干指标。 4 特色工程 # 用训练集进行数据摸索train = pd.concat([X_train,y_train],axis=1) 4.1 数据预处理 4.1.1 删除不必要的列X_train.pop("sampleid")X_test.pop("sampleid")train.pop("sampleid") 4.1.2 数据类型转换字符串类型的特色须要解决成数值型能力建模,将arrival和d相减失去"提前预约的天数",作为新的特色 # 减少列# 将两个日期变量由字符串转换为日期格局类型train["arrial"] = pd.to_datimetain["arrval"])X_tst["arival"] = d.to_daetime(X_est["arival"])# 生成提前预约工夫列(衍生变量)X_trin["day_adanced"] = (X_rain["arival"]-Xtrain["d"]).dt.days## 删除列X_tran.dro(columns="d","arrivl"],inpace=True)4.1.3 缺失值的变量生成一个批示哑变量 zsl = tain.isnll().sum()[tain.isnll(.sum()!=0].inex4.1.4 依据业务教训填补空缺值 ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充 一年内间隔上次下单时长,ordercanncelednum 用0填充 用户一年内勾销订单数,ordercanceledprecent 用0t填充 用户一年内勾销订 单率 242114 242114 -为空 有2种状况 1:新用户未下订单的空-88.42% 214097 2.老用户1年以上未生产的空 减少编码列未下订单新用户和 1年未下订单的老用户 price\_sensitive -0 ,中位数填充 价格敏感指数,consuming\_capacity -0 中位数填充 生产能力指数 226108 -为空状况 1.从未下过单的新用户214097 2.12011集体为空起因暂不明确 uv\_pre -24小时历史浏览次数最多酒店历史uv. cr\_pre -0,中位数填充 -24小时历史浏览次数最多酒店历史cr -0,中位数填充 29397 -为空 1.用户当天未登录APP 28633 2.刚上线的新酒店178 586 无uv,cr记录 编码增加 该APP刚上线的新酒店 764 29397 customereval_pre2 用0填充-24小时历史浏览酒店客户评分均值, landhalfhours -24小时内登陆时长 -用0填充28633 -为空:用户当天未登录APP 28633 hotelcr ,hoteluv -中位数填充 797 ...

March 13, 2023 · 2 min · jiezi

关于数据挖掘:网络社群发现算法挖掘bilibili视频流量数据可视化附代码数据

原文链接:https://tecdat.cn/?p=19006最近咱们被客户要求撰写对于bilibili视频流量数据的钻研报告,包含一些图形和统计输入。 最新钻研表明,中国有超过7亿人在观看在线视频内容。Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个弹幕视频网站,最大的年轻人潮流文化娱乐社区,截至2020年3月31日的第一季度它曾经领有超过1.7亿的月度用户,反映了许多人认为的该行业令人目迷五色的将来 第1节 热门话题和分区 B站用户日渐成熟,二次元、和游戏成为支流分区;视频量排名前三的别离是生存类、游戏类。其中动画类的分区大多和鬼畜、动漫热门话题相干,这是B站的特色。  图表1 电子竞技和游戏区的相干的热点话题是游戏讲解,蕴含讲解、实况等关键词。能够认为“电竞”、“短片”(动画)这几个分区是B站的强项,肯定要重点关注。 “短片·一分钟”(动画区的子分区)话题为第三话题,意味着乏味的短片广泛会受到欢送。咱们看到最近大品牌也有在动画区做短片了。 “西方”、“翻唱”这些特色小分区话题也值得关注。 第2节 视频播放量和分区、话题 咱们依据播放量总共分为<332,332-925,925-2176,2176-6171,>61715个区间。 图表2 播放量整体还是大量的吞没视频,播放量小于332的达到了整体视频的45.6%,而播放量6171以上的只占到6.9%,依照“二八准则”,视频达到2176以上的播放量即达到B站视频理论效用的界线。 能够看到游戏分区的视频播放量差别显著,网络游戏在播放量小于925的区间最多,电子竞技在小于332的区间最多,播放量越高的区间,呈现越少。同时能够看到高播放量的游戏视频大多在混剪视频话题下。生存”和“游戏”两个区遥遥领先,占了大多数的流量,其它各区造成长尾。“生存”这个区占比如此之高,也是因为随着B站内容逐步大众化,它外面已经的小类变成了大类,比方“美食”、“搞笑”这样的子分区实际上是大类。 第3节 从关联网络中发现Up主社团 发表弹幕、投币、评论等,自身就有一种实时互动,实现着实实在在的、间接的互动。网站会依据用户的点击量进行视频举荐,参加热烈探讨的视频会呈现在主页,受众能最快工夫地看到页面。 图表3 通过这些信息,咱们能够用网络社群发现算法开掘发现受欢迎的视频up主类型。 通过对于以后时间段热门排名TOP100中弹幕进行剖析,将数据进行可视化解决,失去最热词汇,既能够晓得在这一时间段网络舆论风行的大体趋势,把握用户心里态度,增强受众的互动反馈。还能够激发用户对于弹幕文化的摸索的趣味。使得用户放弃新鲜度,缩短软件寿命。 能够看出基本上播放量根本是长尾数据,有大量的小数值的数据,然而整体的平均值受极值的影响较大。 从案例后果来看,所有的B站up主被大抵分为4个类别。 类别1:该局部up主珍藏数高于平均值,受到观众的青睐,但评论和投币较低,仍有后劲;该类别大部分为业余up主,处于成长期。  类别2:该局部播放量占了30%,是高播放量群体;与观众的互动良好;珍藏、投币和分享高;该类up主粉丝数目也大部分超过十万,可能提供高质量且稳固的视频稿件,为该分区的高价值up主群体。 类别3:该类别的弹幕高于平均值,证实与观众的互动率高;评论、珍藏良好。 类别4:该局部up主评论数高于平均值,证实话题性也较高,但弹幕和投币、珍藏较低,阐明须要进步视频稿件的品质,创作合乎观众口味的视频。  本文章中的所有信息(包含但不限于剖析、预测、倡议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《bilibili视频流量数据潜望镜》。 点击题目查阅往期内容 数据察看“双十一”网购新常态数据解锁职场女性后劲数据视域下图书馆话题情感剖析游记数据感知游览目的地形象 数据类岗位需要的数据面数据度量生产贷款—消费者的思考因素 已迁离北京外来人口的数据画像数据探析期刊文章钻研热点 疫情下的新闻数据察看 疫情下的在线教学数据观 机票折扣数据解密 数据把握电影市场需求 把握出租车行驶的数据脉搏 共享汽车数据印象 解读出租房市场的数据明码

March 13, 2023 · 1 min · jiezi

关于数据挖掘:数据分享PYTHON用决策树分类预测糖尿病和可视化实例附代码数据

全文下载链接:http://tecdat.cn/?p=23848最近咱们被客户要求撰写对于决策树的钻研报告,包含一些图形和统计输入。 在本文中,决策树是对例子进行分类的一种简略示意。它是一种有监督的机器学习技术,数据依据某个参数被间断宰割。决策树剖析能够帮忙解决分类和回归问题 决策树算法将数据集分解成更小的子集;同时,相干的决策树也在逐渐倒退。决策树由节点(测试某个属性的值)、边/分支(对应于测试的后果并连贯到下一个节点或叶子)和叶子节点(预测后果的终端节点)组成,使其成为一个残缺的构造。 ” 扩大:GBDT (Gradient Boosting Decision Tree) 梯度晋升决策树 GBDT (Gradient Boosting Decision Tree) 梯度晋升决策树。DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含意就是用Gradient Boosting的策略训练进去的DT模型。 ** 拓端 ,赞16 在这篇文章中,咱们将学习Python中决策树的实现,应用scikit learn包。 对于咱们的剖析,咱们抉择了一个十分相干和独特的数据集,该数据集实用于医学迷信畛域,它将有助于预测病人是否患有糖尿病 ( 查看文末理解数据收费获取形式 ) ,基于数据集中采集的变量。这些信息来自国家糖尿病、消化道和肾脏疾病研究所,包含预测变量,如病人的BMI、怀孕状况、胰岛素程度、年龄等。让咱们间接用决策树算法来解决这个问题,进行分类。 用Python实现决策树对于任何数据分析问题,咱们首先要清理数据集,删除数据中的所有空值和缺失值。在这种状况下,咱们不是在处理错误的数据,这使咱们省去了这一步。  为咱们的决策树剖析导入所需的库并拉入所需的数据# 加载库from sklearn.model_selection import train_test_split #导入 train_test_split 函数from sklearn import metrics #导入scikit-learn模块以计算准确率# 载入数据集data = pd.read_csv("diabs.csv", header=None, names=col_names)让咱们看看这个数据集的前几行是什么样子的 pima.head() 在加载数据后,咱们理解构造和变量,确定指标变量和特色变量(别离为因变量和自变量)。#在特色和指标变量中拆分数据集X = pima[feature] # 特色y = pima.label # 指标变量咱们把数据按70:30的比例分成训练集和测试集。# 将数据集分成训练集和测试集train_test_split(X, y, test_size=0.3, random_state=1) # 70%的训练和30%的测试规范做法,你能够依据须要调整70:30至80:20。  点击题目查阅往期内容 R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测 左右滑动查看更多 01 02 03 04 应用scikit learn进行决策树剖析# 创立决策树分类器对象clf = DecisionTreeClassifier()预计分类器预测后果的精确水平。准确度是通过比拟理论测试集值和预测值来计算的。# 模型准确率,分类器正确的概率是多少?print("准确率:",metrics.accuracy_score(y_test, y_pred)) 咱们的决策树算法有67.53%的准确性。这么高的数值通常被认为是好的模型。  当初咱们曾经创立了一棵决策树,看看它在可视化的时候是什么样子的决策树的可视化。 Image(graph.create_png()) Python输入你会留神到,在这个决策树图中,每个外部节点都有一个宰割数据的决策规定。 掂量通过决策树剖析创立的节点的不纯度Gini指的是Gini比,掂量决策树中节点的不纯度。人们能够认为,当一个节点的所有记录都属于同一类别时,该节点是纯的。这样的节点被称为叶子节点。 在咱们下面的后果中,因为后果的复杂性,残缺的决策树很难解释。修剪一棵树对于后果的了解和优化它是至关重要的。这种优化能够通过以下三种形式之一进行。 规范:默认="gini"splitter:字符串,可选(默认="best")或宰割策略。抉择宰割策略。能够抉择 "best"来抉择最佳宰割,或者抉择 "random"来抉择最佳随机宰割。max_depth: int或None,可选(默认=None)或树的最大深度 这个参数决定了树的最大深度。这个变量的数值越高,就会导致适度拟合,数值越低,就会导致拟合有余。在咱们的案例中,咱们将扭转树的最大深度作为预修剪的控制变量。让咱们试试max_depth=3。 # 创立决策树分类器对象DecisionTree( max_depth=3) 在Pre-pruning上,决策树算法的准确率进步到77.05%,显著优于之前的模型。 决策树在Python中的实现 Image(graph.create_png())后果: Python输入这个修剪过的模型的后果看起来很容易解释。有了这个,咱们就可能对数据进行分类,并预测一个人是否患有糖尿病。然而,决策树并不是你能够用来提取这些信息的惟一技术,你还能够摸索其余各种办法。 如果你想学习和实现这些算法,那么你应该摸索通过辅助办法学习,并失去专业人士的1对1领导。拓端数据迷信职业轨道打算保障了1:1的领导,我的项目驱动的办法,职业辅导,提供实习工作我的项目保障,来帮忙你将职业生涯转变为数据驱动和决策的角色。请分割咱们以理解更多信息! 数据获取 在上面公众号后盾回复“糖尿病数据”,可收费获取残缺数据。 ...

March 13, 2023 · 1 min · jiezi

关于数据挖掘:R语言APRIORI模型关联规则挖掘分析脑出血急性期用药规律最常配伍可视化

全文链接:http://tecdat.cn/?p=31846原文出处:拓端数据部落公众号本文帮忙客户使用关联规定办法剖析西医医治脑出血方剂,用Apriori模型开掘所选用的次要药物及其用药法则,为临床医治脑出血提供参考。 脑出血急性期用药数据 读取数据a_df3=read.xlsx("脑出血急性期用药最常配伍关联剖析2.xlsx") 将数据转化成关联数据a_df3=a_df3[,-1]     ## set dim names #a_df3=t(a_d3) dimnams(a_df3) <- list(row.ames(a_d                         paste("Tr",c(1:ncol(adf3)), sep 查看每个药品的呈现频率uencPlot(dat1, support = 0.3, cex.names=0.8) 能够看到每个药品呈现的频率,从而判断哪些药品的反对度较高 失去频繁规定开掘 观察求得的频繁项集 依据反对度对求得的频繁项集排序并查看关联规定开掘apriori(dat 设置反对度为0.01,置信度为0.3summary(rules)#查看规定 查看局部规定inspect(rules) 查看置信度、反对度和晋升度quality(head(rules)) 绘制不同规定图形来示意反对度,置信度和晋升度 通过改图 能够看到 规定前项和规定后项别离有哪些药品 以及每个药品的反对度大小,反对度越大则圆圈越大。 从该图能够看到反对度和置信度的关系,置信度越高晋升度也越高 从该图能够看到反对度和置信度的关系,晋升度越高置信度也越高 从上图能够看到 不同药品之间的关联关系 图中的点越大阐明该药品的反对度越高,色彩越深阐明该药品的晋升度越高。 查看最高置信度样本规定rules <- sort(rules, by="confidence") 查看最高晋升度样本规定 失去有价值规定子集x=subset(rules,subset=confidence>0.3 & support>0.2 & lift>=1)    #失去有价值规定子集 对有价值的x汇合进行数据可视化 最受欢迎的见解 1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)Python中的Apriori关联算法-市场购物篮剖析 2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)[](http://tecdat.cn/%e9%80%9a%e8%bf%87%e5%85%b3%e8%81%94%e8%a7%8...)R语言绘制生存曲线预计|生存剖析|如何R作生存曲线图 3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)[](http://tecdat.cn/%e5%9f%ba%e4%ba%8er%e7%9a%84fp%e6%a0%91fp-gr...)用关联规定数据挖掘摸索药物配伍中的法则 4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)通过Python中的Apriori算法进行关联规定开掘 5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)用关联规定数据挖掘摸索药物配伍中的法则 6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae...)采纳SPSS Modeler的Web简单网络对所有腧穴进行剖析 7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a...)R语言如何在生存剖析与COX回归中计算IDI,NRI指标 8.R语言如何找到患者数据中具备差别的指标?(PLS—DA剖析) 9.R语言中的生存剖析Survival analysis早期肺癌患者4例

March 13, 2023 · 1 min · jiezi

关于数据挖掘:专题2022中国新能源汽车发展趋势白皮书报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=31861原文出处:拓端数据公众号新能源汽车市场从政策推动到市场驱动的转变过程中,行业也在通过了一个萌芽期和初期的探索期之后,步入了一个迅速倒退的期间。此外,在科技力量的加持下,品牌、车型、区域等细分畛域都在继续地进行着调整,行业格局曾经初具规模,在继续的翻新中,产业曾经实现了逾越和改革。 因为新能源汽车行业的高成长确定性,因而吸引了泛滥的企业进入。目前,参加汽车产业的公司次要有三类:传统汽车公司、新造汽车公司以及跨界造汽车公司。而传统汽车公司领有成熟的工业零碎,以及极高的知名度,在汽车行业中仍占有很大的份额。以蔚来、现实、小鹏、合众、威马、零跑这些新兴的汽车公司,抓住了中国消费者的须要,以高科技,高体验,高性价比等长处,博得了更多的年轻人的青睐,并在市场上占据着越来越大的位置。华为,百度,小米等互联网公司以各自的技术实力,在与多家公司的合作背景下,以提供差别化的服务,在智能电动车的市场中占有一席之地。 目前,我国新能源汽车的市场主体可划分为两大类:一类是传统的,另一类是新兴的;如果再从属性上进行划分,则能够将其分为传统奢华品牌、传统外资品牌、传统自主品牌、外资新权势品牌和自主新权势品牌五大营垒。 从各个营垒的销量体现来看,在2021年,自主新权势的品牌失去了显著的扩大,它们在不同水平上侵蚀了其余营垒的市场份额,从而使用户的接受度和认可度失去了进一步的进步。 本专题内的参考报告(PDF)目录 智慧芽:新能源汽车行业续航能力技术剖析报告 报告2023-03-13威尔森:2023年1月份新能源汽车行业月报 报告2023-03-13人物博库:2022年新能源汽车行业人群洞察报告 报告2023-03-07唐硕:2022新能源汽车服务-要害体验MOT报告 报告2023-03-03智联招聘:中国新能源汽车人才供需白皮书(2022年) 报告2023-02-13罗克韦尔:自动化新能源汽车及动力电池行业白皮书 报告2023-02-13亿欧智库:比亚迪新能源汽车策略布局钻研报告 报告2023-02-07头豹:2022年中国功率半导体(IGBT)行业钻研-新能源汽车+充电桩... 报告2023-02-07速途车酷研究院:2023中国新能源汽车出海趋势剖析报告 报告2023-01-30赛迪:中国新能源汽车产业发展趋势研判 报告2023-01-29亿欧智库:比亚迪新能源汽车策略布局钻研报告 报告2023-01-13汽车之家&21世纪经济报道:2022中国城市新能源汽车倒退指数 报告2023-01-12中汽核心:新能源汽车动力电池技术将来瞻望 报告2023-01-08头豹:2022年中国新能源汽车产业系列钻研报告-主机厂剖析之特斯拉篇 报告2022-12-29头豹:2022年中国新能源汽车产业系列钻研报告 报告2022-12-28中国电动汽车百人会:中国新能源汽车倒退当先城市评估及优良案例 报告2022-12-25易观剖析:2022年中国新能源汽车出海市场倒退洞察 报告2022-12-15头豹:2022年中国新能源汽车行业系列钻研-主机厂剖析之小鹏篇(上)-... 报告2022-11-20头豹:2022年中国新能源汽车行业系列钻研-车载OS博弈-“兵家必争”... 报告2022-11-20里斯:寰球新能源汽车品类趋势钻研报告 报告2022-11-11新榜:2022新能源汽车品牌KOL口碑报告 报告2022-11-03头豹:2022年中国新能源汽车行业系列钻研-智能化博弈-车载OS兵家必... 报告2022-10-28头豹:2022年中国新能源汽车产业系列钻研报告-从问界窥探华为智能汽车... 报告2022-10-28CBNData:2022新能源汽车营销察看 报告2022-10-25德勤:2022中国新能源汽车行业投资机会察看报告 报告2022-10-21库润数据:2022年女性新能源汽车钻研报告 报告2022-10-18中商产业研究院:2021-2026年中国新能源汽车行业发展趋势及投资预... 报告2022-10-13易观剖析:2022年中国新能源汽车用户体验指数(UEI) 报告2022-09-25头豹:2022年中国新能源汽车行业系列钻研-智能网联之汽车信息服务提供... 报告2022-09-21头豹:2022年中国新能源汽车行业系列钻研――EE架构降级-智能汽车之... 报告2022-09-21头豹:2022年中国新能源汽车行业系列钻研——激光雷达行业动态追踪-量... 报告2022-09-20头豹:2022年中国新能源汽车产业系列钻研报告-车载计算平台-智能驾驶... 报告2022-09-20罗兰贝格&天猫:新能源汽车消费者洞察报告 报告2022-09-13头豹:2022年新能源汽车(蔚来、现实、小鹏、哪吒)企业比照系列报告(... 报告2022-09-09红星资本局:2023年新能源汽车行业趋势钻研报告 报告2022-09-02头豹:2022年中国新能源汽车行业系列钻研-动力电池电解液行业深度剖析... 报告2022-09-01头豹:2022年中国新能源汽车行业系列钻研-汽车智能化下OTA的倒退机... 报告2022-08-31头豹:2022年中国新能源汽车产业系列钻研报告-汽车行业冲击几何? 报告2022-08-31君迪:2022年中国新能源汽车产品魅力指数钻研 报告2022-08-31J.D.Power君迪:新能源汽车市场消费者变动下的机会与思考 报告2022-08-29中汽数据:2022年新能源汽车上半年重点政策总结及趋势预判 报告2022-08-26百分点:2022年6-7月新能源汽车行业舆情剖析报告 报告2022-08-23头豹:2022年新能源汽车(蔚来、现实、小鹏、哪吒)企业比照系列报告(... 报告2022-08-23懂车帝:下沉市场新能源汽车用户消费行为洞察报告 报告2022-08-04电动汽车观察家:2022年中国新能源汽车产业察看报告 报告2022-08-03火石发明:2022中国新能源汽车产业报告 报告2022-08-02中国信通院:2022年上半年新能源汽车行业运行数据报告-新能源汽车继续... 报告2022-08-01头豹:2022年中国新能源汽车行业系列钻研-磷酸铁锂正极资料的降级计划... 报告2022-07-07克劳锐&百度:2022中国新能源汽车内容生态趋势洞察 报告2022-07-05头豹:2022年中国新能源汽车行业系列钻研——特斯拉引领OTA风潮 报告2022-07-04中国汽车&巨量:2022中国新能源汽车发展趋势白皮书 报告2022-06-29亿欧智库:2022寰球新能源汽车动力电池倒退钻研 报告2022-06-14汽车之家:大数据视角下的中国新能源汽车生产洞察(2022年) 报告2022-06-05头豹:2022年中国新能源汽车行业系列钻研:从CTC到滑板底盘,将扭转... 报告2022-05-23安永:新能源汽车保险经纪是车企的下一个突破口 2022 报告2022-05-16艾瑞征询:2021年中国新能源汽车换电市场钻研报告 报告2022-05-11汽车之家&德勤:2021中国新能源汽车市场洞察报告 报告2022-04-27车百智库&懂车帝&巨量算数:中国新能源汽车市场洞察报告2021 报告2022-03-28中国信通院:2021年新能源汽车行业运行监测报告 报告2022-03-16百度营销:百度新能源汽车行业洞察 报告2022-03-1458汽车:2021新能源汽车置换流向钻研报告 报告2022-02-17电动汽车观察家:2022年新能源汽车补贴政策解读 报告2022-02-17百度营销:百度新能源汽车行业洞察 报告2022-01-17Fastdata极数:新能源汽车简史——电动汽车沉浮录 报告2021-11-03新能源汽车国家大数据联盟:中国新能源汽车城柳州范本大数据报告 报告2021-10-26今日头条:2019年巨量引擎新能源汽车市场洞察 报告2020-01-13

March 13, 2023 · 1 min · jiezi

关于数据挖掘:Matlab决策树对空气质量和天气温度及天气数据做交通出行推荐预测

全文链接:http://tecdat.cn/?p=31784原文出处:拓端数据部落公众号为解决城市交通拥堵问题,本文提出了一种基于 Matlab决策树的交通预测办法,咱们通过采集上海地区的空气质量数据和温度数据,帮忙客户在 Matlab中实现决策树建模,利用所提取的天气和温度特色建设决策树,对将来的出行工夫、出行路线等进行预测。结果表明:该办法可实现交通工夫、出行路线的预测,并能在将来三天进行无效预测工夫长度与空气质量、温度相干。 数据外面一个是天气数据(区县主动站实况数据),只把地区为徐家汇的取出来,其余地点的不必参考。 另一个是空气数据(实时空气质量数据)。 预期后果依据空气中的空气质量和天气数据中的温度及天气情况做一个交通出行的举荐。 举个例子:明天温度0度 天气晴朗 空气质量优 出行形式能够为 公交车或地铁。 明天温度15度 天气晴朗 空气质量优 出行形式为 步行。 明天温度15度 天气晴朗 管制品质轻度净化 呈现形式为 公交车或地铁。 读取气温数据[data, ~, raw] = xlsread('区县主动站实况数据.xlsx','Sheet2');筛选对应日期数据data=data(1:9649,:);raw=raw(1:9649,:);找出徐家汇地区的数据index=strcmp(raw(:,3),'徐家汇')读取空气质量数据[data2, ~, raw2, dateNums] = xlsread('实时空气质量数据(历史)2.xlsx','Sheet1','','筛选对应日期数据data2=data2(4415:end,:);raw2=raw2(4415:end,:);失去对应工夫 index=1:3:2880失去对应工夫的 空气质量数据 mydata=[raw,raw2]; 建设决策规定分类类别号 label=mydata(:,18);%label=label(2:end);将类别号赋值给outData outData=label;取得特色变量矩阵 inData = [data,data2]; % 输出特色矩阵依据训练集数据创立决策树 classregtree(inData, o)查看决策树 view(mytree); 决策树规定Decision tree for classification  1  if x5<11.5 then node 2 elseif x5>=11.5 then node 3 else 步行  2  if x5<3.5 then node 4 elseif x5>=3.5 then node 5 else 步行  3  if x13<0.45 then node 6 elseif x13>=0.45 then node 7 else 步行  4  if x1<2.01504e+011 then node 8 elseif x1>=2.01504e+011 then node 9 else 公交车或地铁  5  if x12<91.5 then node 10 elseif x12>=91.5 then node 11 else 步行  6  if x11<11.5 then node 12 elseif x11>=11.5 then node 13 else 步行  7  if x9<27.5 then node 14 elseif x9>=27.5 then node 15 else 公交车或地铁  8  if x6<1.6 then node 16 elseif x6>=1.6 then node 17 else 公交车或地铁  9  class = 步行 10  if x8<86.5 then node 18 elseif x8>=86.5 then node 19 else 步行 11  class = 公交车或地铁 12  if x7<1.5 then node 20 elseif x7>=1.5 then node 21 else 步行 13  if x9<94 then node 22 elseif x9>=94 then node 23 else 公交车或地铁 14  if x9<8.5 then node 24 elseif x9>=8.5 then node 25 else 步行 15  if x6<2.75 then node 26 elseif x6>=2.75 then node 27 else 公交车或地铁 16  class = 公交车或地铁 17  class = 步行 18  class = 步行 19  if x1<2.01502e+011 then node 28 elseif x1>=2.01502e+011 then node 29 else 步行 20  class = 步行 21  if x1<2.01504e+011 then node 30 elseif x1>=2.01504e+011 then node 31 else 步行 22  if x4<6.95 then node 32 elseif x4>=6.95 then node 33 else 公交车或地铁 23  class = 步行 24  if x6<0.35 then node 34 elseif x6>=0.35 then node 35 else 公交车或地铁 25  if x8<49.5 then node 36 elseif x8>=49.5 then node 37 else 步行 26  if x6<2.25 then node 38 elseif x6>=2.25 then node 39 else 公交车或地铁 27  if x11<26.5 then node 40 elseif x11>=26.5 then node 41 else 步行 28  class = 步行 29  class = 公交车或地铁 30  class = 步行 31  class = 公交车或地铁 32  if x5<142.5 then node 42 elseif x5>=142.5 then node 43 else 步行 33  class = 公交车或地铁 34  class = 步行 35  if x5<311 then node 44 elseif x5>=311 then node 45 else 公交车或地铁 36  if x9<22 then node 46 elseif x9>=22 then node 47 else 公交车或地铁 37  if x12<135 then node 48 elseif x12>=135 then node 49 else 步行 38  if x5<102.5 then node 50 elseif x5>=102.5 then node 51 else 公交车或地铁 39  if x8<18.5 then node 52 elseif x8>=18.5 then node 53 else 公交车或地铁 40  if x12<40.5 then node 54 elseif x12>=40.5 then node 55 else 步行 41  if x6<3 then node 56 elseif x6>=3 then node 57 else 公交车或地铁 42  class = 步行 43  if x1<2.01503e+011 then node 58 elseif x1>=2.01503e+011 then node 59 else 公交车或地铁 44  class = 公交车或地铁 45  class = 步行 46  if x4<21.75 then node 60 elseif x4>=21.75 then node 61 else 公交车或地铁 47  if x14<40.5 then node 62 elseif x14>=40.5 then node 63 else 步行 48  if x12<78.5 then node 64 elseif x12>=78.5 then node 65 else 步行 49  if x5<212 then node 66 elseif x5>=212 then node 67 else 公交车或地铁 50  if x14<35.5 then node 68 elseif x14>=35.5 then node 69 else 公交车或地铁 51  if x6<1.85 then node 70 elseif x6>=1.85 then node 71 else 步行 52  class = 公交车或地铁查看所有预测的分类标签 ...

March 10, 2023 · 3 min · jiezi

关于数据挖掘:R语言因子分析相关性分析大学生兼职现状调查问卷数据可视化报告

全文链接:http://tecdat.cn/?p=31765原文出处:拓端数据部落公众号随着大学的普及教育,大学生待业局势变得更加艰难,很多学生都意识到这个问题。所以走出象牙塔,去接触社会,来增长社会教训也会成为一个必然趋势。而大学生兼职既能够接触社会锤炼本人,又能够使本人的经济条件失去肯定的改善,因此成为很多大学生的不二之选,慢慢造成一种普遍现象。然而在兼职过程中大学生也会碰到各种各样的挫折,甚至很多人逐步把重心转移到高收益上,远离了锤炼本人的初衷,同时因为法律意识的缺失,大学生在兼职过程中有可能上当受骗,甚至误入歧途,怎么解决这些存在的问题成了兼职景象中不得漠视的一个重要问题。而大学生从兼职中理论的失去了哪些播种,更是最基本的问题。 带着这些问题,咱们帮忙客户进行了本次考察,以理解大学生兼职的状况,从而为大学生兼职提供一些倡议和帮忙。 钻研的办法:1.问卷调查法:问卷调查法是指利用印好的问题表或卷子考察所要测定的问题的办法。该办法具备对立、高效、便于操作等特点。为了全面、精确地理解当今大学生兼职的现状、反映大学生兼职这一非凡景象所引起的一系列问题,笔者采纳自编问卷的形式对大学生的兼职现状进行考察。 2.文献研究法:许多学者老师和钻研人员已从不同的方面对于大学生兼职问题做过大量的钻研,通过宽泛地查阅、剖析、整顿相干材料和文献,从中理解到那些问题曾经解决,借鉴前人的研究成果,造成本人的独特观点。 对象:采取随机抽取的办法对某大学大学生进行随机考察,考察地点是宿舍及饭堂,共发放问卷450份,无效回收400份。 因子分析和关联度1. 数据预处理查看原始数据 data=read.csv("问卷汇总.csv")head(data)## 序号 X1.您的性别是... X2.您的年级是.. X3.你认为大学生有必要做兼职吗.## 1 1 2 4 1## 2 2 2 4 2## 3 3 1 3 1## 4 4 2 4 1## 5 5 2 4 1## 6 6 1 4 1## X4.你是否做过兼职. X5.你认为兼职会影响你的学业吗.## 1 1 2## 2 2 2## 3 1 4## 4 1 2## 5 1 2## 6 2 2## X6.当兼职与上课抵触时.你会怎么做啊. X7.您的家长是否批准您做兼职..查看数据str(data)## 'data.frame': 172 obs. of 33 variables:## $ 序号 : int 1 2 3 4 5 6 7 8 9 10 ...## $ X1.您的性别是... : int 2 2 1 2 2 1 2 2 2 2 ...## $ X2.您的年级是.. : int 4 4 3 4 4 4 4 4 4 3 ...## $ X3.你认为大学生有必要做兼职吗. : int 1 2 1 1 1 1 1 1 2 1 ...## $ X4.你是否做过兼职. : int 1 2 1 1 1 2 1 1 2 2 ...## $ X5.你认为兼职会影响你的学业吗. : int 2 2 4 2 2 2 2 2 2 2 ...## $ X6.当兼职与上课抵触时.你会怎么做啊. : int 1 2 3 3 3 2 3 3 2 3 ...## $ X7.您的家长是否批准您做兼职.. : int 1 2 1 2 2 3 1 1 3 2 ...## $ X8.你会抉择做哪类兼职工作. : int 1 1 2 1 1 1 5 1 4 1 ...## $ X9.你认为兼职过程中.你最大的劣势是什么. : int 2 2 1 4 1 3 1 2 2 1 ...## $ 第10题.A.海报或广告专门的中介机构网站. : int 0 1 1 0 1 0 0 1 0 0 ...## $ 第10题.B.本人寻找. : int 1 0 1 0 1 0 1 1 1 1 ...## $ 第10题.C.学校勤工俭学核心.老师等介绍. : int 0 0 0 0 0 1 0 0 0 0 ...## $ 第10题.D.经熟人介绍或帮忙.包含家人.亲朋.同学.. : int 1 1 1 1 1 1 0 1 0 0 ...## $ X11.若有兼职工作.您个别会抉择什么工夫的去做... : int 1 1 1 2 1 2 1 2 2 3 ...## $ X12.你所做兼职是否与你的业余相干. : int 3 3 1 4 3 3 1 1 3 3 ...## $ X13.你的月收入大略是多少. : int 5 3 4 1 5 6 6 4 3 5 ...## $ X14.你理论的兼职日支出是多少. : int 2 1 2 2 3 2 3 2 1 2 ...## $ X15.您会将您的兼职支出次要用于何处. : int 2 2 3 3 2 2 2 3 2 3 ...## $ 第16题.A.进步消费水平. : int 1 0 0 0 1 0 1 0 0 1 ...## $ 第16题.B.经济独立.可能本人领取的局部费用.减少本身成就感. : int 1 1 1 1 1 1 0 1 0 1 ...## $ 第16题.C.扩充交际圈.接触并意识更多的人.让本人更大胆地与别人交换. : int 1 0 1 1 1 1 0 1 1 0 ...## $ 第16题.D.减少工作教训和社会经历.为当前的工作奠定根底. : int 1 1 1 0 1 0 0 1 0 0 ...## $ X17.加入了兼职你感觉本人的社会能力有进步吗. : int 3 2 1 3 2 3 1 1 2 2 ...## $ 第18题.A.薪酬较低.或不按时发工资.且工作要求刻薄. : int 0 1 0 0 0 1 1 0 0 0 ...## $ 第18题.B.未享受到相干社会福利. : int 0 0 1 1 0 0 0 0 0 1 ...## $ 第18题.C.本人的合法权益得不到爱护.没有与雇主签订劳动合同等. : int 0 1 0 1 0 0 0 0 1 0 ...## $ 第18题.D.技术.技能程度有余. : int 0 0 0 1 1 0 0 1 1 1 ...## $ 第18题.E.对岗位信息不足理解. : int 1 0 0 0 1 1 0 0 0 0 ...## $ 第18题.F.其余. : int 0 0 0 0 0 0 0 0 0 0 ...## $ X19.你有过兼职上当的经验吗. : int 2 2 2 2 2 2 1 2 2 2 ...## $ X20..如果.被骗后.你会如何解决. : int 1 2 2 1 1 1 3 2 1 3 ...## $ X21.您认为是否须要成立专门的兼职领导机构.为无意兼职的学生提供帮忙和平安保障..: int 1 2 1 1 1 1 1 1 1 1 ...删除缺失 data=data[complete.cases(data),]2.绘制不同变量之间的关系data=data[,c( "X1.您的性别是...", "X2.您的年级是..", "X3.你认为大学生有必要做兼职吗.", "X4.你是否做过兼职.", "X5.你认为兼职会影响你的学业吗.", "X6.当兼职与上课抵触时.你会怎么做啊.", "X7.您的家长是否批准您做兼职..", "X8.你会抉择做哪类兼职工作.", "X9.你认为兼职过程中.你最大的劣势是什么.", "第10题.A.海报或广告专门的中介机构网站.", "第10题.B.本人寻找.", "第10题.C.学校勤工俭学核心.老师等介绍.", "第10题.D.经熟人介绍或帮忙.包含家人.亲朋.同学..", "X11.若有兼职工作.您个别会抉择什么工夫的去做..." , "X12.你所做兼职是否与你的业余相干." , "X13.你的月收入大略是多少." , "X14.你理论的兼职日支出是多少." , "X15.您会将您的兼职支出次要用于何处." , "第16题.A.进步消费水平." , "第16题.B.经济独立.可能本人领取的局部费用.减少本身成就感." , "第16题.C.扩充交际圈.接触并意识更多的人.让本人更大胆地与别人交换." , "第16题.D.减少工作教训和社会经历.为当前的工作奠定根底." , "X17.加入了兼职你感觉本人的社会能力有进步吗." , "第18题.A.薪酬较低.或不按时发工资.且工作要求刻薄." , "第18题.B.未享受到相干社会福利." , "第18题.C.本人的合法权益得不到爱护.没有与雇主签订劳动合同等." , "第18题.D.技术.技能程度有余." , "第18题.E.对岗位信息不足理解." , "第18题.F.其余." , "X19.你有过兼职上当的经验吗." , "X20..如果.被骗后.你会如何解决." , "X21.您认为是否须要成立专门的兼职领导机构.为无意兼职的学生提供帮忙和平安保障.." )]plot(data[,c(1:8)]) ...

March 9, 2023 · 11 min · jiezi

关于数据挖掘:R语言两阶段最小二乘法2SLS回归工具变量法分析股息收益股权溢价和surfaces曲面图可视化

全文链接:http://tecdat.cn/?p=31757原文出处:拓端数据部落公众号投资者最关怀的两个问题就是收益率和股息,两者作为公司经营情况的两个重要方面,往往同时呈现在投资报告中,二者之间具备较强的关联性。目前,国内外对于股票股息收益、股息收益率和股权溢价等方面的钻研已有很多,但大多数是对于市场环境或宏观因素对上述指标产生影响的钻研。 本文抉择沪深两市股票作为钻研对象,帮忙客户构建两阶段最小二乘法2 SLS回归、工具变量法分析股息收益、股息收益率和股权溢价,旨在探索指标间是否具备显著相干关系。钻研论断不仅为投资者提供了剖析投资机会的理论依据,还有助于上市公司进行决策分析。此外,文章还对相干行业的倒退具备肯定指导意义。 1.数据表格中包含从1965年到2014年的月度数据,须要用到的是: yyyymm(年⽉), index(s&p 500 price index) , Dividend, D12(dividend yield), Rfree(risk-free rate) 读取数据,查看数据 head(data)##   yyyymm Index Dividend     D12     E12       b/m    tbl    AAA    BAA ## 1 196501 87.56  2.51667 2.51667 4.59333 0.4717232 0.0381 0.0443 0.0480 ## 2 196502 87.43  2.53333 2.53333 4.63667 0.4713995 0.0393 0.0441 0.0478 ## 3 196503 86.16  2.55000 2.55000 4.68000 0.4694899 0.0393 0.0442 0.0478 ## 4 196504 89.11  2.57000 2.57000 4.73333 0.4525593 0.0393 0.0443 0.0480 ## 5 196505 88.42  2.59000 2.59000 4.78667 0.4546643 0.0389 0.0444 0.0481 ## 6 196506 84.12  2.61000 2.61000 4.84000 0.4808590 0.0380 0.0446 0.0485 ##      lty       ntis       Rfree         infl    ltr   corpr         svar ## 1 0.0422 0.01790289 0.003175000 0.0009600000 0.0040  0.0081 0.0001534973 ## 2 0.0424 0.01482236 0.003275000 0.0000000000 0.0014  0.0009 0.0003681211 ## 3 0.0422 0.01913336 0.003275000 0.0009590793 0.0054  0.0012 0.0001431412 ## 4 0.0422 0.01472169 0.003275000 0.0022357074 0.0036  0.0021 0.0001654871 ## 5 0.0423 0.01624416 0.003241667 0.0031867431 0.0018 -0.0008 0.0003363517 ## 6 0.0423 0.01755028 0.003166667 0.0041296061 0.0047  0.0003 0.0018498325 ##             csp CRSP_SPvw CRSP_SPvwx ## 1 -0.0022007442  0.034791   0.033837 ## 2 -0.0022017761  0.003746  -0.000853 ## 3 -0.0021373681 -0.012213  -0.013685 ## 4 -0.0021429735  0.035612   0.034769 ## 5 -0.0025656153 -0.003122  -0.008354 ## 6 -0.0023808197 -0.046880  -0.048367#须要用到的是有红色标记的:yyyy(年份),price index(s&p 500 price index),D12(dividend yield),Rfree(risk-free)CampaignData <- na.omit(subset(AllData, select=c("yyyymm","Index","D12","Rfree","Dividend")))2.自变量x⾃变量x是D12(dividend-yield), DY(t)=log[D(t)/P(t-1)],这⾥的D(t)就是表格中的Dividend。 P(t-1) 就是表格中的index. ...

March 8, 2023 · 2 min · jiezi

关于数据挖掘:极值理论-EVTPOT超阈值GARCH-模型分析股票指数VaR条件CVaR多元化投资组合预测风险测度分析附代码数据

全文链接:http://tecdat.cn/?p=24182最近咱们被客户要求撰写对于极值实践的钻研报告,包含一些图形和统计输入。 本文用 R 编程语言极值实践 (EVT) 以确定 10 只股票指数的危险价值(和条件 VaR) 应用 Anderson-Darling 测验对 10 只股票的组合数据进行正态性测验,并应用 Block Maxima 和 Peak-Over-Threshold 的 EVT 办法预计 VaR/CvaR。最初,应用条件异向性 (GARCH) 解决的狭义自回归来预测将来 20 天后指数的将来值。本文将确定计算危险因素的不同办法对模型后果的影响。 极值实践(最后由Fisher、Tippett和Gnedenko提出)表明,独立同散布(iid)变量样本的分块最大值的散布会收敛到三个极值散布之一。 最近,统计学家对极其值建模的趣味又有了新的变动。极限值剖析已被证实在各种危险因素的案例中很有用。在1999年至2008年的金融市场动荡之后,极值剖析取得了有效性,与之前的危险价值剖析不同。极限值代表一个零碎的极其稳定。极限值剖析提供了对极其事件的概率、规模和爱护老本的关系进行建模的能力。 参考https://arxiv.org/pdf/1310.3222.pdf https://www.ma.utexas.edu/mp_arc/c/11/11-33.pdf http://evt2013.weebly.com/uploads/1/2/6/9/12699923/penalva.pdf Risk Measurement in Commodities Markets Using Conditional Extreme Value Theory 第 1a 节 - 工作目录、所需的包和会话信息为了开始剖析,工作目录被设置为蕴含股票行情的文件夹。而后,装置所需的 R 编程语言包并蕴含在包库中。R 包包含极值实践函数、VaR 函数、工夫序列剖析、定量交易剖析、回归剖析、绘图和 html 格局的包。 library(ggplot2)library(tseries)library(vars)library(evd)library(POT)library(rugarch)第 1b 节 - 格式化专有数据用于此剖析的第一个文件是“Data_CSV.csv”。该文件蕴含在 DAX 证券交易所上市的 15 家公司的股票代码数据,以及 DAX 交易所的市场投资组合数据。从这个数据文件中选出了 10 家公司,这些公司最近十年的股价信息是从谷歌财经下载的。 第 1c 节 - 下载股票代码数据股票价格数据下载并读入 R 编程环境。收益率是用“开盘价/收盘价 ”计算的,十家公司的数据合并在一个数据框中,(每家公司一列)。 ...

March 7, 2023 · 3 min · jiezi

关于数据挖掘:主题挖掘LDA和情感分析图书馆话题知乎用户问答行为数据附代码数据

全文链接:http://tecdat.cn/?p=16890最近咱们被客户要求撰写对于主题开掘LDA和情感剖析的钻研报告,包含一些图形和统计输入。 以后是大数据流行的时代,各种用户信息行为数据分析的后果影响着人们的生存和学习,同时对图书馆的倒退也有着影响▼   本文在图书馆话题下知乎用户问答行为数据的根底上,剖析了图书馆信息资源建设的新要求,并提出了相干倡议。   图书馆热门话题  通过主题开掘剖析知乎热门图书馆话题下的问答,理解到目前大多数用户去图书馆不再单纯的以获取资源为目标,除了借还书和查阅文献资料外,更多的读者是抉择来图书馆进行自习、温习、备考,他们认为图书馆更有学习的气氛,同时有很多用户关注图书馆交友的话题。     图表1     咱们从评论数量、被关注度和同意数量来评估用户的参加水平,能够看到图书馆交友话题(主题1)关注人数和同意人数最多(如图书馆怎么意识女生?),其次是考研、温习(主题3)的相干话题(如图书馆应该为考研学生提供特权吗?),该话题下探讨的人数最多。接下来是学校图书馆对外开放(主题2)的话题(如公办大学的图书馆/自习室该不该对外开放?)和学习环境话题(主题4)(如本部图书馆外部环境设置怎么样,在同类高校中是属于很古老的还是很现代化的?)。 点击题目查阅往期内容 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 左右滑动查看更多 01 02 03 04   图书馆话题内容表白的情感  接下来,通过主题开掘和情感剖析(也称为意见开掘)知乎热门话题下的问答,咱们具体看下热门话题中用户表白了哪些情感。     图表2     从图书馆资源设施和学习环境话题来看,环境优美、设施齐全的图书馆的上座率更高,在期末备考或者迎接大型考试的后期图书馆的上座率又广泛回升,大多用户对占座表白出负面情绪,这阐明在用户看来图书馆是整个学校最能提供足够学习气氛的场合,融休闲与学习为一体的咖啡厅式图书馆更受宽广用户的青睐。图书馆交友话题最为热门,很多用户有“书中自有颜如玉”的想法,预设图书馆是浪漫邂逅的中央。同时,从聊天、吵闹等负面关键词来看大多数用户表白出他们更违心在宁静愜意的图书馆环境里来读书。     疫情前后的图书馆话题    新型冠状病毒导致的肺炎疫情给大学图书馆信息资源建设工作带来了极大影响和冲击,通过工夫线的比照,咱们发现疫情前后的图书馆话题数量和情感体现产生显著变动。     图表3     因为疫情起因,图书馆闭馆后,很多用户表白出了开馆少、无奈自习、借书逾期等负面情感。从侧面情感来看,一些用户答复示意图书馆增强了网络在线服务,确保数据库资源失常应用和相干文献资源使用权,还策动了一些列流动以期更加全面地帮忙全校师生在疫情防控期间充分利用网络进行业余资源,助力师生更好地发展学习、生存和科研等工作。同时,图书馆罢黜读者在疫情防控期间所产生的图书逾期费用。面对新冠病毒导致的肺炎疫情带来的深远冲击,抓住机遇,引入新技术、新模式,更好地保障用户的科研、学习需要,是以后图书馆的必然选择。 本文摘选 《 数据视域下图书馆话题情感剖析 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 [](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=22475084...)文本开掘NLP剖析:LDA主题模型剖析网购数据 游记数据感知游览目的地形象 数据类岗位需要的数据面NLP自然语言解决—主题模型LDA案例:开掘人民网留言板文本数据 Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 R语言对NASA元数据进行文本开掘的主题建模剖析 R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 用于NLP的Python:应用Keras进行深度学习文本生成 长短期记忆网络LSTM在工夫序列预测和文本分类中的利用 用Rapidminer做文本开掘的利用:情感剖析 R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研 R语言对推特twitter数据进行文本情感剖析 Python应用神经网络进行简略文本分类 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 R语言文本开掘应用tf-idf剖析NASA元数据的关键字 R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据 Python应用神经网络进行简略文本分类 R语言自然语言解决(NLP):情感剖析新闻文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言对推特twitter数据进行文本情感剖析 R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析 R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation) ...

March 7, 2023 · 1 min · jiezi

关于数据挖掘:基于ARIMASVM随机森林销售的时间序列预测附代码数据

原文链接  http://tecdat.cn/?p=1130最近咱们被客户要求撰写对于销售工夫序列预测的钻研报告,包含一些图形和统计输入。 现在DT(数据技术)时代,数据变得越来越重要,其外围利用“预测”也成为互联网行业以及产业改革的重要力量。 对于批发行业来说,预测简直是商业智能(BI)钻研的终极问题,单纯从机器学习的角度来说,做到精准预测很容易,然而联合业务进步企业利润却很难。预测精确性是外围痛点。   业务挑战 扎对 ,将产品粗略分为:根本款和时装。 对于根本款,每年都没什么大变动,国内风行的影响也不大,那么能够进行长打算生产。对于时装,决定潮流走向的决策权不在某个区域,一个中央的买手们也没有成长到能够精确预判国内风行趋势,所以须要联合不同区域的各种因素,进行预测。对应的,在新货形成中,销量预测策略为:根本款打算生产,时尚款机动调整。 解决方案 工作/指标 依据服装批发业务营销要求,使用多种数据源剖析实现精准销量预测。 数据源筹备 沙子进来沙子出,金子进来金子出。无数据或数据品质低,会影响模型预测成果。在建设的一个正当的模型之前,对数据要进行收集,收集除已有销量数据之外的额定信息(比方天气,地点,节假日信息等),再在收集的数据根底上进行预处理。 有了数据,然而有一部分特色是算法不能间接解决的,还有一部分数据是算法不能间接利用的。 特色转换 把不能解决的特色做一些转换,解决成算法容易解决的洁净特色举例如下: 销售日期。就工夫属性自身来说,对模型来说不具备任何意义,须要把日期转变成到年份,月份,日,周伪变量。 产品特色。从产品信息表外面能够失去样式,色彩,质地以及这款产品是否是限量版等。然而并没有这些变量。这就须要咱们从产品名字抽取这款产品的上述特色。 以上例举的只是局部特色。 结构 以上阐明了如何抽取相干特色,咱们大抵有如下训练样本(只列举局部特色)。 划分训练集和测试集 思考到最终模型会预测未来的某时间段的销量,为了更实在的测试模型成果,以工夫来切分训练集和测试集。具体做法如下:假如咱们有2014-02-01~2017-06- 17的销量相干数据。以2014-02-01~2016-03-19的销量数据作为训练,2016-03-20~2017-06-17的数据作为测试。 建模 ARIMA, 个别利用在股票和电商销量畛域 ARIMA模型是指将非安稳工夫序列转化为安稳工夫序列,而后将后果变量做自回归(AR)和自平移(MA)。 随机森林 用随机的形式建设一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在失去森林之后,当有一个新的输出样本进入的时候,就让森林中的每一棵决策树别离进行一下判断,看看这个样本应该属于哪一类(对于分类算法),而后看看哪一类被抉择最多,就预测这个样本为那一类。 反对向量回归(SVR) SVR最实质与SVM相似,都有一个缘,只不过SVM的保证金是把两种类型离开,而SVR的保证金是指外面的数据会不会对回归有帮忙。 模型优化 1.上线之前的优化:特征提取,样本抽样,参数调参。 2.上线之后的迭代,依据理论的A / B测试和业务人员的倡议改良模型 点击题目查阅往期内容 数据分享|R语言剖析上海空气质量指数数据:kmean聚类、档次聚类、工夫序列剖析:arima模型、指数平滑法 左右滑动查看更多 01 02 03 04 从上图能够看出,在此案例中,反对向量机和随机森林算法模型的预测误差最小,使用3种办法预测某商品的销量,其可视化图形如下: 能够看出,销量的预测值的趋势曾经根本与实在销量趋势保持一致,然而在预测期较长的区间段,其预测值之间的差异较大。 评估成果不能只看销量,要综合思考,须要参考业务对接,预测精度,模型可解释性和产业链整体能力等因素综合思考;不能简略作为企业利润减少的唯一标准咱们的教训是,预测后果仅作为参考一个权重值,还须要专家意见,依照肯定的权重来计算。 瞻望 除了以上列举的一些办法,咱们曾经在尝试更简单的销售预测模型,如HMM,深度学习(Long Short-Term Memory网络,卷积神经网络(CNN))等;同时须要思考到模型的可解释性,可落地性和可扩展性,防止“黑箱”预测 ;还在尝试采纳混合的机器学习模型,比方GLM + SVR,ARIMA + NNET等。 ...

March 7, 2023 · 1 min · jiezi

关于数据挖掘:NLP自然语言处理主题模型LDA案例挖掘人民网留言板文本数据附代码数据

全文链接:tecdat.cn/?p=2155最近咱们被客户要求撰写对于NLP自然语言解决的钻研报告,包含一些图形和统计输入 随着网民规模的不断扩大,互联网不仅是传统媒体和生存形式的补充,也是民心凸显的地带。领导干部参加网络问政的制度化正在成为一种发展趋势,这种趋势与互联网倒退的时代需要是分不开的 ▼ 人民网《中央领导留言板》是备受百姓注目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”。 基于以上背景,tecdat钻研人员对北京留言板外面的留言数据进行剖析,摸索网民们在呐喊什么。 数量与情感 朝阳区大众最沉闷 图表 从上图能够看出不同地区留言板的情感偏向散布,总的来说,负面情感留言数目和踊跃情感相差不多,负面情感留言较多,占比46%,踊跃情感留言占比42%,中立情感的留言占比11%。 从地区来看,沉闷在各大媒体的“朝阳区大众”留言数目也是最多的,其次是海淀区,昌平区。因而,从情感散布来看大部分留言还是在反馈存在的问题,而不是一味赞美或者灌水。 点击题目查阅往期内容 python主题建模可视化LDA和T-SNE交互式可视化 左右滑动查看更多 01 02 03 04 主题剖析 当地户口问题呼声最高 接下来,咱们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行剖析,换言之,LDA提供了一种较为不便地量化钻研主题的机器学习办法。 咱们应用最大似然预计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比拟大。将模型生成的20个主题中的前五个高频词取出,如下表所示。 图表 而后咱们将占比最高的前六个主题与它们的情感偏向进行剖析。 图表 从上图能够看出大家对于6大主题的探讨: 主题1反馈孩子,当地户口办理的问题是最多的,反馈了当地落户北京相干的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。 主题2是反馈环境革新及棚户革新(e.g.棚户屋宇破旧、墙面湿润、上下水管道老化腐烂景象重大常常造成跑冒滴漏,遇到雨雪天气,路线积水、泥泞不堪,大院居民尤其是老人小孩出行十分不便)。 主题3是反馈高考和医保(e.g.外地人衷心的心愿政府能关注一下孩子在北京的高考问题)。 主题4是汽车摇号政策(e.g.现行的摇号计划是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车基本摇不号;有的是不想买车就摇上了)。 主题5是反馈工资和租房问题(e.g.我是当地退休老师。因为孩子在北京工作,故到北京帮忙孩子操持家务,以反对孩子工作。因为北京房价低廉,咱们买不起大房,三代人只能挤着住。我想问问市长,咱们是否也能住公租房)。 主题6是守法修建(e.g.XX雅苑许多一层业主私搭乱建成风,且物业能干,造成极大的安全隐患)。 地区、主题与情感得分 ** ** 接下来咱们剖析了不同主题和地区的情感偏向散布。从下图能够看出,主题3高考和医保、主题6 守法修建、主题13教育拆迁的留言内容中踊跃情感占较大比例。 图表 咱们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也能够发现,情感得分最高的是在主题11居民生存下的朝阳区留言内容。总的来说,依据踊跃情感的内容散布来看,主题3高考和医保、主题6 守法修建、主题13教育拆迁的留言内容中体现出较好的反馈。 本文摘选 《 数据凝听人民网留言板的那些网事 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 R语言对NASA元数据进行文本开掘的主题建模剖析 R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 用于NLP的Python:应用Keras进行深度学习文本生成 长短期记忆网络LSTM在工夫序列预测和文本分类中的利用 用Rapidminer做文本开掘的利用:情感剖析 R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研 R语言对推特twitter数据进行文本情感剖析 Python应用神经网络进行简略文本分类 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 R语言文本开掘应用tf-idf剖析NASA元数据的关键字 R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据 Python应用神经网络进行简略文本分类 R语言自然语言解决(NLP):情感剖析新闻文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言对推特twitter数据进行文本情感剖析 R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析 R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation) ...

March 7, 2023 · 1 min · jiezi

关于数据挖掘:SAS数据挖掘EM贷款违约预测分析逐步Logistic逻辑回归决策树随机森林

全文链接:http://tecdat.cn/?p=31745原文出处:拓端数据部落公众号近几年来,各家商业银行陆续推出多种贷款业务,如何辨认贷款守约因素曾经成为各家商业银行衰弱有序倒退贷款业务的要害。在贷款守约预测的数据的根底上,摸索是否能通过借贷者的数据判断其守约危险,从而帮忙商业银行提前做好应答。 解决方案工作/指标依据借款者的个人信息和贷款的属性,使用SAS EM软件,应用多种模型进行剖析。 数据源筹备因获取数据的能力无限,并为了保障数据量足够微小且数据品质较高,咱们抉择了贷款守约预测的数据。整个数据集为有800,000条数据,每条数据除了ID、是否守约isDefault该目标值,还包含loanAmnt、term、interestRate、installment、grade、employmentTitle、employmentLength、homeOwnership 29个变量,变量的具体情况在数据摸索中进行形容。 特色转换为了进一步探索issueDate和earliesCreditLine这两个工夫ID的工夫长远性是否会对咱们的预测产生影响,另外减少了两个变量,别离是interval_issueDate和Interval_earliesCreditLine,都是用2020减去issueDate和earliesCreditLine的年份失去的。对缺失数据进行补缺,批改年份变量为区间型变量并对其进行分箱解决,对偏正态分布的变量进行对数解决,回绝单值型变量。 划分训练集和测试集划分数据集的50%为训练集,50%为验证集。 建模应用逐渐Logistic回归回归结果显示,贷款守约危险与年收入负相关,与债权支出比正相干,与利率正相干,与贷款金额正相干;对于分类变量,贷款年限3年的贷款守约危险显著小于贷款5年,2013-2015年的贷款守约危险显著大于2015-2017年等等。 决策树应用二分支和三分支决策树进行剖析,结果显示影响贷款守约的重要因素有homeOwnership、ficoRangeHigh、dti、grade、term、issueDate等。 随机森林调参后设置最大树个数为100,最大深度为50,显著性程度为0.05,结果显示训练误分类率为0.1964,验证误分类率为0.1974,依据Gini缩减,对分类准确度影响较大的变量为grade、interestRate、term、dti、ficoRangeHigh等。 模型比拟通过比拟发现,Logistic回归具备最小的验证误分类率,为0.1965,其次是三分支决策树和随机森林,最差的为二分支决策树。 在累积晋升度和ROC曲线上,Logistic回归和随机森林体现相近,二分支决策树和三分支决策树体现相近,然而Logistic回归和随机森林模型体现显著优于两个决策树模型。 逐步回归模型的验证误分类率低于决策树1、决策树2和随机森林模型,这表明在这四个模型中,逐步回归模型相比其余模型对于新样本具备更强的泛化能力,在对新样本守约概率的预测上更加精确。 依据后果,就数值型变量而言,守约危险与借款人的债权支出比dti、循环额度利用率revolUtil、贷款利率interestRate、贷款金额loanAmnt、借款人信用档案中未结信用额度的数量openAcc显著正相干;与待业职称employmentTitle、年收入annualIncome、借款人在贷款发放时的FICO所属的上限范畴ficoRangeLow、分期付款金额installment、信贷周转余额共计revolBal、借款人信用档案中以后的信用额度总数totalAcc显著负相关。 对于贷款发放年份issueDate,相较于2017年6月之后发放的贷款,2013年6月之前发放的贷款守约危险显著更大,贷款发放年份在2013.6-2015.6年的守约危险稍低,在2015.6-2017.6年的贷款则显著更小。 申请类型applicationType为0时,其守约危险显著小于其值为1时。 绝对于贷款等级G,贷款等级为A、B、C时,其守约危险显著更大,贷款等级为D、E、F时,守约危险则显著更小。 绝对于屋宇所有权情况homeOwnership为5时,homeOwnership为1时,守约危险显著更小,homeOwnership为0,2,3时,守约危险减小,但其后果在统计学上不显著;homeOwnership为4时,守约危险升高,但在统计学上依然不显著。 贷款用处purpose为0,4,5,8,12时,守约危险显著大于用处为13,用处为1,7,9时,守约危险显著更小,用处为2,3,6,10,11时,其守约危险绝对于13没有统计学意义。 贷款期限term为3年时,其守约危险显著小于贷款期限为5年。 验证状态verificationStatus为0时,绝对于其值为2时守约危险显著更大。其值为1时则绝对于2守约危险显著更小。 因而,倡议贷款发放机构在评估借款人的守约危险时,重点关注借款人的负债支出比、待业职称、年收入、屋宇所有权情况等个人信息,并剖析借款人的借款行为,包含其申请贷款的金额、利率、分期付款金额、用处、申请类型、贷款等级、贷款期限、验证状态,考察借款人的历史借款记录,包含循环额度利用率、借款人信用档案中未结信用额度的数量、贷款发放时的FICO所属的上限范畴、信贷周转余额共计、信用档案中以后的信用额度总数。 对于曾经发放的贷款,如果贷款行为产生于2013年6月之前,贷款发放机构应该尽快追回并做好坏账筹备。 对于分析师在此对Jiasong Xue对本文所作的奉献示意诚挚感激,他在中山大学实现了管理科学业余的学位,专一商业数据分析畛域。善于SPSS、R语言、Python。

March 7, 2023 · 1 min · jiezi

关于数据挖掘:R语言Lasso回归模型变量选择和糖尿病发展预测模型附代码数据

全文链接:http://tecdat.cn/?p=22721最近咱们被客户要求撰写对于Lasso回归的钻研报告,包含一些图形和统计输入。 Lease Absolute Shrinkage and Selection Operator(LASSO)在给定的模型上执行正则化和变量抉择 依据惩办项的大小,LASSO将不太相干的预测因子放大到(可能)零。因而,它使咱们可能思考一个更扼要的模型。在这组练习中,咱们将在R中实现LASSO回归。 练习1加载糖尿病数据集。这有对于糖尿病的病人程度的数据。数据为n = 442名糖尿病患者中的每个人取得了10个基线变量、年龄、性别、体重指数、均匀血压和6个血清测量值,以及感兴趣的反馈,即一年后疾病停顿的定量测量。" 接下来,加载包用来实现LASSO。 head(data) 向下滑动查看后果▼ 练习2数据集有三个矩阵x、x2和y。x是较小的自变量集,而x2蕴含残缺的自变量集以及二次和交互项。 查看每个预测因素与因变量的关系。生成独自的散点图,所有预测因子的最佳拟合线在x中,y在纵轴上。用一个循环来主动实现这个过程。 summary(x) for(i in 1:10){  plot(x[,i], y)  abline(lm(y~x[,i])} 向下滑动查看后果▼ 点击题目查阅往期内容 基于R语言实现LASSO回归剖析 左右滑动查看更多 01 02 03 04 练习3应用OLS将y与x中的预测因子进行回归。咱们将用这个后果作为比拟的基准。 lm(y ~ x) 向下滑动查看后果▼ 练习4绘制x的每个变量系数与向量的L1准则的门路。该图表明每个系数在哪个阶段缩减为零。 plot(model_lasso) 向下滑动查看后果▼ 练习5失去穿插验证曲线和最小化均匀穿插验证误差的lambda的值。 plot(cv_fit) 向下滑动查看后果▼ 练习6应用上一个练习中的lambda的最小值,失去预计的矩阵。留神,有些系数曾经缩减为零。这表明哪些预测因子在解释y的变动方面是重要的。 > fit$beta 向下滑动查看后果▼ 练习7为了失去一个更扼要的模型,咱们能够应用一个更高的值,即在最小值的一个标准误差之内。用这个lambda值来失去系数。留神,当初有更多的系数被缩减为零。 lambda.1se beta 向下滑动查看后果▼ 练习8如前所述,x2蕴含更多的预测因子。应用OLS,将y回归到x2,并评估后果。 summary(ols2) 向下滑动查看后果▼ 练习9对新模型反复练习-4。 lasso(x2, y)plot(model_lasso1) 向下滑动查看后果▼ 练习10对新模型反复练习5和6,看看哪些系数被缩减为零。当有很多候选变量时,这是放大重要预测变量的无效办法。 plot(cv_fit1) beta![图片]() 向下滑动查看后果▼ 本文摘选 《 R语言Lasso回归模型变量抉择和糖尿病倒退预测模型 》 ,点击“浏览原文”获取全文残缺材料。 ...

March 6, 2023 · 1 min · jiezi

关于数据挖掘:R语言随机森林RandomForest逻辑回归Logisitc预测心脏病数据和可视化分析附代码数据

全文链接:http://tecdat.cn/?p=22596最近咱们被客户要求撰写对于预测心脏病数据的钻研报告,包含一些图形和统计输入。 本报告是对心脏钻研的机器学习/数据迷信考察剖析。更具体地说,咱们的指标是在心脏钻研的数据集上建设一些预测模型,并建设探索性和建模办法。但什么是心脏钻研? 钻研纲要介绍数据集和钻研的指标摸索数据集可视化应用Chi-Square独立测验、Cramer's V测验和GoodmanKruskal tau值对数据集进行摸索预测模型,Logisitic回归和RandomForeststep()bestglm()两个逻辑回归的实例应用5折穿插验证对模型实例进行评估变量抉择改良随机森林模型用RandomForest和Logisitc回归进行预测应用可视化进行最终的模型摸索论断和下一步改良1.简介咱们浏览了对于FHS的材料: 心脏钻研是对社区自在生存的人群中心血管疾病病因的长期前瞻性钻研。心脏钻研是流行病学的一个里程碑式的钻研,因为它是第一个对于心血管疾病的前瞻性钻研,并确定了危险因素的概念。该数据集是FHS数据集的一个相当小的子集,有4240个观测值和16个变量。这些变量如下: 观测值的性别。该变量在数据集中是一个名为 "男性 "的二值。年龄:体检时的年龄,单位为岁。教育 : 参与者教育水平的分类变量,有不同的级别。一些高中(1),高中/GED(2),一些大学/职业学校(3),大学(4)目前吸烟者。每天抽的烟的数量查看时应用抗高血压药物的状况流行性中风。流行性中风(0 = 无病)。流行性高血压(prevalentHyp)。流行性高血压。如果承受医治,受试者被定义为高血压糖尿病。依据第一次查看的规范医治的糖尿病患者总胆固醇(mg/dL)收缩压(mmHg)舒张压(mmHg)BMI: 身材品质指数,体重(公斤)/身高(米)^2心率(次/分钟)葡萄糖。血糖程度(mg/dL)最初是因变量:冠心病(CHD)的10年危险。 这4240条记录中有3658条是残缺的病例,其余的有一些缺失值。 2.理解数据的意义在每一步之前,要加载所需的库。 require(knitr)require(dplyr)require(ggplot2)require(readr)require(gridExtra) #出现多幅图而后,加载心脏钻研的数据集。 2.1 变量和数据集构造的查看咱们对数据集进行一次查看。 dim(dataset) kable(head(dataset)) str(dataset) ##查看变量的摘要summary(dataset) 2.2 数据集的单变量图生成一个数据集的所有单变量图。 # 须要删除字符、工夫和日期等变量                                                     geom_bar(data = dataset,                                                     theme_linedraw()+#colnames(dataset)        marrangeGrob(grobs=all_plots, nrow=2, ncol=2) 这是为了取得对变量,对整个问题和数据集的了解,将通过多变量或至多双变量的可视化来实现。 点击题目查阅往期内容 数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 左右滑动查看更多 01 02 03 04 2.3 数据集的双变量图:因变量和预测因素之间的关系当初咱们能够进行一些双变量的可视化,特地是为了看到因变量(TenYearCHD)和预测因素之间的关系。因为图的数量太多,不是所有的一对变量都能被考察到!咱们能够在前面的步骤中持续考察。咱们能够稍后再回到这一步,深刻理解。 上面的代码能够生成因变量的所有双变量图。因为因变量是一个二元变量,所以当预测变量是定量的时候,咱们会有boxplots,或者当预测变量是定性的时候,咱们会有分段的bar图。 for (var in colnames(dataset) ){        if (class(dataset[,var]) %in% c("factor","logical") ) {ggplot(data = dataset)  +                         geom_bar( aes_string(x = var,                                                                                   } else if (class(dataset[,var]) %in% c("numeric","double","integer") ) { ggplot(data = dataset) +                         geom_boxplot() 依据咱们把握的状况,男性与TenYearCHD间接相干,因而男性这个变量仿佛是一个绝对较好的预测因素。同样,年龄仿佛也是一个很好的预测因素,因为TenYearCHD == TRUE的病人有较高的年龄中位数,其散布简直类似。相同,不同类别的教育和因变量之间仿佛没有关系。目前的吸烟者变量与因变量有轻微的关系,因为目前的吸烟者患TenYearCHD的危险略高。 2.4 应用Goodman&Kruskal tau测验定性变量之间的关系然而,除了这些实质上是定性办法的图表外,人们可能心愿对这种关联有一个数字值。为了有这样的数字测量,我想应用Goodman&Kruskal的tau测量,这是两个无序因子,即两个分类/名义变量之间的关联测量。在咱们这个数据集中的因子变量中,只有教育是_序数变量_,即它的类别有意义。这种测量方法比Cramer's V或chi-square测量方法更具信息量。 GKtauData(cat_variables)plot(dataset) 能够看出,对于因变量的变异性,预测因素的解释力十分小。换句话说,依据Goodman和Kruskal's tau度量,咱们的预测因素和因变量之间简直没有关联。这能够从TenYearCHD一栏的数值中看出。 假如我的G&Ktau测验正确的话,这对模型来说并不是一个好消息。 为了测验这些发现,咱们能够用Chi-square测验来测验分类变量与因变量的关联的显著性,而后用Phi相关系数来评估可能的关联的强度。Phi用于2x2等值表。对于更大的表格,即有更多层次的变量,能够利用Cramer's V。 chisq.test(table(dataset_cat$p.value ))         phi(matrix(table(dataset_cat_variables[,7], 奇怪的是,当Chi-square的P值如此之低时,可能的关联的显著性为零。这两个测试(Chi-square和Phi相干)在大量的察看中基本上得出雷同的后果,因为一个是基于正态分布的,另一个是基于t散布的。 2.5 多重共线性的双变量剖析该模型的真正问题在于共线性现象。共线性关系产生在两个预测因子高度相干的状况下。咱们须要查看这种个性,而后持续建设对数回归模型。 依据Goodman和Kruskal's tau图,咱们不应该放心共线性。然而,有序变量的教育变量呢?Cramer's V测验显示,其强度不大。 #  教育与其余分类变量的Chi square独立性测试  chisq.test(table(education,variables[,x]))$p.value ) #将教育变量从新定位到数据集的第一个变量上         assocstats(x = table(dataset_cat_variables[,1], dataset_$cramer ) ) ...

March 6, 2023 · 1 min · jiezi

关于数据挖掘:R语言用贝叶斯线性回归贝叶斯模型平均-BMA来预测工人工资附代码数据

全文链接:http://tecdat.cn/?p=24141最近咱们被客户要求撰写对于用贝叶斯线性回归的钻研报告,包含一些图形和统计输入。 在本文中,贝叶斯模型提供了变量抉择技术,确保变量抉择的可靠性。对社会经济因素如何影响支出和工资的钻研为利用这些技术提供了充沛的机会,同时也为从性别歧视到高等教育的益处等主题提供了洞察力 背景上面,贝叶斯信息准则(BIC)和贝叶斯模型平均法被利用于构建一个扼要的支出预测模型。 这些数据是从 935 名受访者的随机样本中收集的。该数据集是_计量经济学数据集_系列的一部分 。 加载包数据将首先应用该dplyr 包进行摸索 ,并应用该ggplot2 包进行可视化 。稍后,实现逐渐贝叶斯线性回归和贝叶斯模型均匀 (BMA)。 数据数据集网页提供了以下变量形容表: 变量形容wage每周支出(元)hours每周均匀工作工夫IQ智商分数kww对世界工作的理解得分educ受教育年数exper多年工作教训tenure在现任雇主工作的年数age年龄married=1 如果已婚black=1 如果是黑人south=1 如果住在北方urban=1 如果寓居在都市sibs兄弟姐妹的数量brthord出世程序meduc母亲的教育(年)feduc父亲的教育(年)lwage工资自然对数 wage`` 摸索数据与任何新数据集一样,一个好的终点是规范的探索性数据分析。汇总表是简略的第一步。 # 数据集中所有变量的汇总表--包含连续变量和分类变量summary(wage) 因变量(工资)的直方图给出了正当预测应该是什么样子的。 #工资数据的简略柱状图hst(wge$wae, breks = 30) 直方图还可用于大抵理解哪些地方不太可能呈现后果。 # 查看图表 "尾部 "的点的数量sm(wage$ge < 300)## [1] 6sm(wae$wge > 2000)## [1] 20简略线性回归因为周工资('wage')是该剖析中的因变量,咱们想摸索其余变量作为预测变量的关系。咱们在数据中看到的工资变动的一种可能的、简略的解释是更聪慧的人赚更多的钱。下图显示了每周工资和 IQ 分数之间的散点图。 gplot(wae, es(iq, wge)) + gom_oint() +gom_smoth() 点击题目查阅往期内容 R语言和STAN,JAGS:用RSTAN,RJAG建设贝叶斯多元线性回归预测选举数据 左右滑动查看更多 01 02 03 04 IQ 分数和工资之间仿佛存在轻微的正线性关系,但仅靠 IQ 并不能牢靠地预测工资。尽管如此,这种关系能够通过拟合一个简略的线性回归来量化,它给出: 工资 i = + ⋅iqi + iwagei = + ⋅iqi + i m_wg_iq = lm(wge ~ iq, dta = age)coefients 工资 i = 116.99 + 8.3 ⋅iqi + iwagei = 116.99 + 8.3 ⋅iqi + i ...

March 6, 2023 · 1 min · jiezi

关于数据挖掘:MATLABR基于Copula方法和kmeans聚类的股票选择研究上证A股数据

全文链接:http://tecdat.cn/?p=31733原文出处:拓端数据部落公众号Copula办法是测度金融市场间尾部相关性比拟无效的办法,而且可用于钻研非正态、非线性以及尾部非对称等较简单的相依特色关系。因而,Copula办法开始逐步代替多元GARCH模型的相关性剖析,成为考查金融变量间关系的风行办法,被宽泛地用于市场一体化、风险管理以及期货套期保值的钻研中。 国内外学者对于尾部相关性和Copula办法曾经有了深刻的钻研,提出多种Copula模型来一直优化尾部相关系数对于不同状况下股票之间相关性的刻画,对于股票的聚类办法也进行了改良和拓展,然而可能联合这些办法对于资产抉择进行钻研的较少。尤其是在面对现今股票市场海量级的股票数据,如何从股票间的尾部相关性开掘到无效信息,失去可能无效躲避危险的资产组合是很少有人钻研的问题。并且大多尾部相干的剖析都只停留在定性的剖析中,并且多是在市场与市场之间,板块与板块之间的相关性剖析,对于股票间定量的相关性钻研还有有余。置信研究成果对于投资者无效的躲避危险,寻求最佳的投资组合有较大的帮忙。 本文联合Copula办法和聚类思维对大数量级的股票间尾部相关性进行剖析,帮忙客户构建混合Copula模型并计算股票间尾部相关系数,再依据尾部相关系数选用正当高效的聚类办法进行聚类,为投资者抉择投资组合提供无效的倡议。 上证A股数据本文选取上证A股数据,其数据来源于wind数据库。因为工夫距离较长,本文将通过对相关系数进行计算来剖析其之间的相关性,而后再通过聚类分析将其合并来进行钻研。具体步骤如下: 非参数核预计边缘散布j=1077aj=median(sy(:,j)); %(j=1(SZGY),2(SZSY),3(SZDC),4(GYSY))bj=median(abs(sy(:,j)-aj))/0.6745;hj=1.06*bj*1077^(-1/5);1,固定函数的参数,抉择权重的初值为: 1/ 3。对权重进行预计。d=cdf('Normal',(sy(n,j)-wj(i))/hj,0,1);sum=sum+d;end2,固定权重为第 1 步的估计值,抉择参数的初值为第上一节的估计值,对函数的参数进行预计。%求似然值%fenbu=xlsread('fenbu.xlsx'); %读取数据,fenbu=sy;u=mean(sy);3,将第 2 步预计失去的参数值作为固定值,权重初值抉择第 1 步的估计值,进行权重预计。s(j)=s(j)+b(i); %求似然值endend预计混合 Copula 权重theta=0.5;for j=1:1000;k1(1)=0.2; %权重初值k2(1)=0.3 ;c3(i)=1077^(-1)*k3(j)*fr(i)*(k1(j)*gu(i)+k2(j)*cl(i)+k3(j)*fr(i))^(-1);k1(j+1)=k1(j+1)+c1(i); %gu(i),cl(i),fr(i)示意三个函数的密度函数abs(k3(j+1)-k3(j))<=0.000001); %满足收敛条件是跳出endl=length(k1') %收敛时的步骤数目k1(l),k2(l),k3(l) %收敛时的后果预计混合 Copula 模型的函数参数%b=b(0); %参数初值for j=1:1000; %运算步骤h1(i)=k1*gu_p(i)*gu(i)/(gu_m(i)*(k1*gu(i)+k2*cl(i)+k3*fr(i)));s1=s1+h1(i); %gu_p 是 Gumbel 密度函数,gu_m 是 Gumbel 的密度函数n=13;d=array(0 dim=c(13 13)) for(i in 1:(n-1)){   d[i i]=1   for(j in (i+1):n){     clayton.cop=claytonCopula(3 dim=2);clayton.cop     u=pobs(b);u 生成随机数M=0.247060*G'+0.441831*C'+0.311109*F'; %生成混合 Copula 随机数计算每个不同类时的 k-means 聚类后果,并计算平均偏差,且画出图形for c = 2:8  [idx,ctrs] = kmeans(M,c); [aic,bic] = aicbic([logL1;logL2;logL3;logL4], ...

March 6, 2023 · 1 min · jiezi

关于数据挖掘:专题2022数字化运营白皮书报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=31742原文出处:拓端数据公众号"放眼世界,咱们面对的是百年未有之大变局"。在当今的世界中,百年变局与疫情交错,寰球经济受到大冲击,截至目前尚未从余波中脱身。物联网、云计算、人工智能、大数据、5G等技术的倒退突飞猛进,彼此间深度交融而迸发出的商业价值更是有限,成为寰球简直所有国家和地区经济倒退依靠的重要抓手。 在公布的十四五布局中,数字化倒退拓新与守成兼而有之。布局提出,促成数字技术与实体经济深度交融,赋能传统产业转型降级,同时催生新产业新业态新模式,壮大经济倒退新引擎。此外,布局提出适应数字技术全面融入社会交往和日常生活新趋势,促成公共服务和社会运行形式翻新,构筑全民畅享的数字生存。 现状∶近3成认为数字化经营无效进步资产管理效率资产经营治理方面,29%的受访者认为数字化赋予了精细化治理、能源配置调控等性能,无效进步了资产经营的管理效率,以及在可继续倒退指标方面施展着重要作用。简而言之,数字化切实实现了降本增效的指标。 本专题内的参考报告(PDF)目录灼识征询:2023寰球数字化女性衰弱行业蓝皮书 报告2023-03-05CTR:2022年广电媒体数字化倒退钻研报告 报告2023-03-02央国企信创白皮书:基于信创体系的数字化转型(2022年) 报告2023-03-02Meltwater融文:2023年寰球数字化营销洞察报告 报告2023-03-02元年:数字化时代的全面估算治理洞察钻研报告 报告2023-02-27神策数据:2022汽车行业数字化经营白皮书 报告2023-02-27百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-02-27微吼:营销的进化:数字化流动营销策略白皮书 报告2023-02-26腾讯研究院:全真互联-银行数字化倒退钻研报告 报告2023-02-26艾媒征询:2022年中国声音经济数字化利用发展趋势报告 报告2023-02-26阿里云:2023云原生实战指南-以利用为核心构建数字化转型最短门路 报告2023-02-26腾讯研究院:探元打算2022-中国文化遗产数字化钻研报告 报告2023-02-24安永:2020年及当前的数字化转型-寰球电信业考察 报告2023-02-24爱剖析:2022-2023营销数字化实际报告 报告2023-02-19SAP:减速高科技企业数字化转型 报告2023-02-19易观剖析:中国产业数字化趋势报告2023 报告2023-02-16SAP:赋能企业数字化制作能力,晋升竞争劣势与效益 报告2023-02-16Morketing研究院:营销数字化转型实际白皮书 报告2023-02-16SAP:通过SAP数字化供应链打造韧性供应链 报告2023-02-15石基信息:寰球旅游业数字化倒退钻研报告 报告2023-02-14普华永道:2022年数字化工厂转型调研报告 报告2023-02-14SAP:智慧新国潮-数字化转型须要数字化外围 报告2023-02-14甲子光年:2023年Web3.0体验营销方法论白皮书-营销数字化:从新... 报告2023-02-12爱剖析:2022出海数字化系列报告之“出海实时互动与通信”厂商全景报告 报告2023-02-11爱剖析:2022出海数字化系列报告之“出海实时互动与通信”厂商全景报告 报告2023-02-11贝恩公司:中国数字化批发银行报告(2023) 报告2023-02-10中金资本:私募股权投资行业数字化白皮书 报告2023-02-08前瞻研究院:新经济下中国企业数字化转型之路-灯塔工厂专题报告2023 报告2023-02-08神策数据:2022跨境出海数字化营销白皮书 报告2023-02-06微吼&直播研究院出品:2023数字化流动营销布局指南 报告2023-02-05神策研究院:B2B电商数字化经营白皮书 报告2023-02-05百分点:地产行业数字化转型范式与利用 报告2023-02-05中国汽研&腾讯广告:新型生产趋势下车企的营销数字化转型 报告2023-02-04BCG:行领导如何落实银保监会对于银保业数字化转型的领导意见 报告2023-02-03径硕科技:2023工业制作企业市场部数字化转型数据洞察报告 报告2023-02-01IBM:解码无界,发明数字化转型的有限可能:中国银行业企业架构施行现状... 报告2023-02-01英特尔&联想:中国生产电子制作数字化转型白皮书2023 报告2023-01-30阿里云&达摩院:2022企业数字化咨询服务白皮书 报告2023-01-30腾讯研究院 :2023腾讯制造业数字化转型洞察报告 报告2023-01-29红杉中国:2022企业数字化年度指南 报告2023-01-29甲子光年:2023中小企业数字化模式翻新钻研报告 报告2023-01-27钉钉&中国信通院:“小快轻准”继续升高数字化转型门槛 报告2023-01-27中国联通:中国联通新型智慧城市数字化经营服务白皮书 报告2023-01-25易观剖析:中国产业数字化趋势报告2023 报告2023-01-25亿欧智库:国有企业数字化转型策略与门路 报告2023-01-25华为:财政数字化最佳实际白皮书 报告2023-01-25蛋壳研究院:数字化心理健康行业钻研报告:互联网医疗和数字疗法构筑心理健... 报告2023-01-25爱剖析:2022消费品批发数字化厂商全景报告 报告2023-01-25易观剖析:2022中国产业数字化倒退成熟度指数报告 报告2023-01-19Thoughtworks&中金资本:私募股权投资行业数字化白皮书 报告2023-01-17易观剖析:2023年中国企业数字化技术利用十大趋势 报告2023-01-16友泰:保险业数字化客户经营能力体系建设规范报告暨蓝皮书 报告2023-01-14毕马威:汽车营销与研发数字化交换 报告2023-01-14拉勾招聘:2022年度数字化科技人才招聘白皮书 报告2023-01-12毕马威:城市数字化转型准则:将来城市畅想 报告2023-01-12艾瑞征询:2022年中国影像数字化行业钻研报告 报告2023-01-12启信宝:2022年数字化洽购与供应商治理白皮书 报告2023-01-11江苏数字化倒退钻研报告(智慧城市篇) 报告2023-01-10中国信通院:数字化绿色化协同倒退白皮书(2022年) 报告2023-01-09中国信通院:工业数字化绿色化交融倒退白皮书(2022年) 报告2023-01-09中国信通院:电信业数字化转型倒退白皮书(2022年) 报告2023-01-09拉勾招聘:2022年智能汽车行业数字化人才白皮书 报告2023-01-08拉勾招聘:2022国央企数字化转型人才白皮书 报告2023-01-06MobTech袤博&天眼查&卫瓴科技:2022年企业级SaaS数字化营... 报告2023-01-06亿欧智库:2022中国人力资源数字化倒退钻研报告 报告2023-01-04月狐数据:2022年汽车行业数字化营销趋势洞察报告 报告2023-01-01神策数据:2022汽车行业数字化经营白皮书 报告2023-02-27神策研究院:B2B电商数字化经营白皮书 报告2023-02-05中国联通:中国联通新型智慧城市数字化经营服务白皮书 报告2023-01-25convertlab:2022年数字化经营增长指南-企业数字化案例深度... 报告2022-09-24神策研究院:教育机构数字化经营的方法论及实战 报告2022-09-17神策研究院:跨境电商独立站数字化经营指南 报告2022-08-18神策数据:本地生存数字化经营解决方案 报告2022-08-12神策数据:教育机构数字化经营的方法论及实战 报告2022-07-11观点指数&施耐德:2022数字化经营白皮书 报告2022-07-10中国连锁经营协会&微盟:2022批发连锁品牌数字化经营钻研及策略报告 报告2022-06-26观远数据:数字化经营赋能新锐品牌精益增长-2022私域新增长线上峰会 报告2022-06-26观点指数&施耐德:2022数字化经营白皮书 报告2022-06-21神策数据:在线医疗数字化经营解决方案2022 报告2022-05-13神策:2022中国企业数字化经营成熟度报告 报告2022-04-02爱点击:SaaS X-2022爱点击数字化经营白皮书 报告2022-03-30普华永道:2020年能源行业数字化经营钻研:石油天然气 报告2021-04-14普华永道:2018年寰球数字化经营调研报告 报告2018-06-28IBM:数字化经营中引领认知潮流 报告2018-04-01

March 6, 2023 · 1 min · jiezi

关于数据挖掘:天猫商品详情数据上架京东店铺无货源铺货商品数据采集接口代码展示

业务场景:大家有探讨稳固采集天猫商品详情搬货至京东店铺,采集数据包含:获取商品列表和商品详情页面数据,包含:价格,主图、价格、题目,sku,sku形容等页面上有的数据接口残缺解决方案。这个引起了我技术挑战的趣味。目前,本人做了压测,QPS高、出滑块概率极低,API整体稳固,可满足业务场景的性能需求。 解决方案:经探讨封装成item_get-取得天猫商品详情接口和item_search-按关键字搜寻天猫商品接口及item_search_shop-取得店铺的所有商品接口,利用这些接口能够拿到商品ID,商品题目,商品优惠券,商品到手价,商品价格,商品优惠价,商品sku属性,商品图片,商品视频,商品sku属性图片,商品属性形容,商品库存,商品销量,店铺优惠券信息,商品评论日期,评论内容,评论图片,买家昵称,追评内容,商品属性,追评属性图片等商品详情页面有的数据均能够拿到,能够联合其余接口关键词搜寻接口,详情接口,销量接口,店铺所有商品接口,店铺订单,店铺上传接口,买家订单接口,商品评论接口,图片搜寻接口,淘口令接口等接口,整个平台页面上能够看的到数据均能够拿到,接口实用于淘宝天猫,京东,拼多多,阿里巴巴,微店,抖音,亚马逊,速卖通,lazada,shopee等寰球出名的30多个电商平台,接口利用于:商品剖析,竞品剖析,品牌监控,商品搬家,商品上传,商城建设,淘宝客,erp选品,店铺同步,CID店铺订单回传接口等泛滥业务场景,接下来将展现接口代码: 1.申请参数 (反对taobao(tmall),JD,1688,Pinduoduo,lazada,amazon,aliexpress等寰球30多个出名电商平台数据,同样的形式拿数据)(点击复制获取key和secret:https://o0b.cn/iiandy) 申请参数:num_iid=652874751412&is_promotion=1 参数阐明:num_iid:天猫商品IDis_promotion:是否获取取促销价备注:因文章字符限度,只展现详情接口采集代码2.申请代码示例,反对高并发申请(CURL、PHP 、PHPsdk 、Java 、C# 、Python…) # coding:utf-8"""Compatible for python2.x and python3.xrequirement: pip install requests"""from __future__ import print_functionimport requests# 申请示例 url 默认申请参数曾经做URL编码url = "https://wx19970108018/taobao/item_get/?key=<您本人的apiKey>&secret=<您本人的apiSecret>&num_iid=652874751412&is_promotion=1"headers = { "Accept-Encoding": "gzip", "Connection": "close"}if __name__ == "__main__": r = requests.get(url, headers=headers) json_obj = r.json() print(json_obj)3.响应示例因文章字符限度,暂不展现,欢送代码交换。

March 5, 2023 · 1 min · jiezi

关于数据挖掘:R语言Apriori关联规则kmeans聚类决策树挖掘研究京东商城网络购物用户行为数据可视化附代码数据

全文链接:http://tecdat.cn/?p=30360最近咱们被客户要求撰写对于网络购物用户行为的钻研报告,包含一些图形和统计输入。 随着网络的迅速倒退,依靠于网络的购物作为一种新型的生产形式,在全国乃至寰球范畴内飞速发展 电子商务成为越来越多消费者购物的重要途径。咱们被客户要求撰写对于网络购物行为的钻研报告。 我的项目打算应用数据挖掘的办法,以京东商城网购用户的网络购物数据为根底,对网络购物行为的三个因素:行为过程、行为后果、行为主体进行剖析。 (1)应用关联规定分析方法剖析网络购物用户的行为过程,别离探析信誉度、搜寻排名对网购用户购买决策的影响水平; (2)应用聚类分析办法,对网购用户的行为后果进行探讨,发现不同网购群体的网购习惯和特色; (3)应用分类/预测分析方法,对网购行为主体进行钻研。本我的项目还将援用其它钻研的数据及观点对本数据分析所得论断进行比拟验证。 本我的项目的论断为以京东商城为代表的网购平台运营商、商家提供网站治理、网店经营方面的参考,为商家制订网络营销策略提供决策反对。 关联规定开掘  data1[,i]=as.factor(data1[,i])##将每个变量转成因子模式}inspect(frequentsets[1:10])#查看频繁项集 从下面的表 能够看到局部频繁呈现的一些选项规定,抽取的10个频繁项集的反对度在0.3左右。 而后查看反对度最高的前10个规定 能够看到反对度最高的前十个选项汇合(称为频繁项集)的反对度在0.9左右,因而在上面应用apriori模型对数据进行剖析时,选取最小反对度为0.9左右,以便发现适合数量的规定。 set of 47 rules rule length distribution (lhs + rhs):sizes 1  2  311 24 12    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.  1.000   2.000   2.000   2.021   2.500   3.000 summary of quality measures:    support         confidence          lift       Min.   :0.9000   Min.   :0.9000   Min.   :0.9977  1st Qu.:0.9050   1st Qu.:0.9400   1st Qu.:1.0000  Median :0.9150   Median :0.9585   Median :1.0043  Mean   :0.9191   Mean   :0.9572   Mean   :1.0043  3rd Qu.:0.9300   3rd Qu.:0.9846   3rd Qu.:1.0083  Max.   :0.9850   Max.   :0.9945   Max.   :1.0141  mining info:  data ntransactions support confidence trans           200     0.9        0.3咱们失去规定的概述,能够看到他们的反对度在0.9到0.98之间,置信度也十分高,阐明这些规定具备较高的的可预测度(Predictability)。因而从这些规定能够失去比拟牢靠的推断论断。置信度太低的规定在理论利用中也不会有多大用处。 ...

March 3, 2023 · 1 min · jiezi

关于数据挖掘:PYTHON用户流失数据挖掘建立逻辑回归XGBOOST随机森林决策树支持向量机朴素贝叶斯和KMEANS附代码数据

原文链接:http://tecdat.cn/?p=24346最近咱们被客户要求撰写对于用户散失数据挖掘的钻研报告,包含一些图形和统计输入。 在明天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的抢夺上 “用户就是上帝”促使泛滥的企业不惜代价去抢夺尽可能多的客户。然而企业在不惜代价倒退新用户的过程中,往往会漠视或无暇顾及已有客户的散失状况,后果就导致呈现这样一种窘况:一边是新客户在源源不断地减少,而另一方面是辛辛苦苦找来的客户却在悄然无声地散失。因而对老用户的散失进行数据分析从而挖掘出重要信息帮忙企业决策者采取措施来缩小用户散失的事件至关重要,火烧眉毛。 1.2 目标:深刻理解用户画像及行为偏好,挖掘出影响用户散失的关键因素,并通过算法预测客户拜访的转化后果,从而更好地欠缺产品设计、晋升用户体验。 ** 拓端 ,赞25 1.3 数据阐明:此次数据是携程用户一周的拜访数据,为爱护客户隐衷,曾经将数据通过了脱敏,和理论商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。 2 读取数据 # 显示全副特色df.head()  3 切分数据# 划分训练集,测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)3.1 了解数据能够看到变量比拟的多,先进行分类,除去指标变量label,此数据集的字段能够分成三个类别:订单相干指标、客户行为相干指标、酒店相干指标。 4 特色工程 # 用训练集进行数据摸索train = pd.concat([X_train,y_train],axis=1) 4.1 数据预处理 4.1.1 删除不必要的列X_train.pop("sampleid")X_test.pop("sampleid")train.pop("sampleid") 4.1.2 数据类型转换字符串类型的特色须要解决成数值型能力建模,将arrival和d相减失去"提前预约的天数",作为新的特色 # 减少列# 将两个日期变量由字符串转换为日期格局类型train["arrial"] = pd.to_datimetain["arrval"])X_tst["arival"] = d.to_daetime(X_est["arival"])# 生成提前预约工夫列(衍生变量)X_trin["day_adanced"] = (X_rain["arival"]-Xtrain["d"]).dt.days## 删除列X_tran.dro(columns="d","arrivl"],inpace=True)4.1.3 缺失值的变量生成一个批示哑变量 zsl = tain.isnll().sum()[tain.isnll(.sum()!=0].inex4.1.4 依据业务教训填补空缺值 ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充 一年内间隔上次下单时长,ordercanncelednum 用0填充 用户一年内勾销订单数,ordercanceledprecent 用0t填充 用户一年内勾销订 单率 242114 242114 -为空 有2种状况 1:新用户未下订单的空-88.42% 214097 2.老用户1年以上未生产的空 减少编码列未下订单新用户和 1年未下订单的老用户 price\_sensitive -0 ,中位数填充 价格敏感指数,consuming\_capacity -0 中位数填充 生产能力指数 226108 -为空状况 1.从未下过单的新用户214097 2.12011集体为空起因暂不明确 uv\_pre -24小时历史浏览次数最多酒店历史uv. cr\_pre -0,中位数填充 -24小时历史浏览次数最多酒店历史cr -0,中位数填充 29397 -为空 1.用户当天未登录APP 28633 2.刚上线的新酒店178 586 无uv,cr记录 编码增加 该APP刚上线的新酒店 764 29397 customereval_pre2 用0填充-24小时历史浏览酒店客户评分均值, landhalfhours -24小时内登陆时长 -用0填充28633 -为空:用户当天未登录APP 28633 hotelcr ,hoteluv -中位数填充 797 ...

March 3, 2023 · 2 min · jiezi

关于数据挖掘:R语言主成分PCA因子分析聚类对地区经济研究分析重庆市经济指标附代码数据

全文下载链接:http://tecdat.cn/?p=27515 最近咱们被客户要求撰写对于主成分PCA、因子分析、聚类的钻研报告,包含一些图形和统计输入。 建设重庆市经济指标倒退体系,以重庆市一小时经济圈作为样本,使用因子分析办法进行实证剖析,在借鉴了相干评估实践和评估办法的根底上,本文提取出经济规模、人均倒退程度、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标形成的指标体系数据对重庆市38个区县经济倒退根本状况的八项指标进行剖析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析 结果表明:依据综合得分,能够看出各区县社会经济倒退程度排前三的是渝中区、渝北区、九龙坡区,得分最低的三个是巫山县、巫溪县、城口县,联合总体的剖析能够看出渝中区、九龙坡区在经济总体规模和建筑业方面较好,而重庆周边的地区经济实力较差,投资环境不好,特地是在修建方面的不足,以至于经济倒退相对而言单薄的地区,不管从哪方面来说重庆各区县中渝中区的经济实力是最好的。 评估指标的建设评估地区的之间的经济倒退程度,必须建设适当的指标体系。思考到地区经济指标的复杂性、多样性和可操作性,本文在此基础上建设了一套较为残缺的易于定量分析的地区经济评价指标体系,别离从不同的角度反映地区经济倒退特色。 本文所建设的指标体系共包含8个指标,别离从经济规模、人均倒退程度、经济发展潜力等方面来反映地区经济倒退特色。具体指标如下: 地区生产总值(万元)(X1)               社会消费品零售总额(万元)(X2) 工业总产值(万元)(X3) 建筑业总产值(万元)(X4) 高技术生产总值(万元)(X5) 全社会固定资产投资(万元)(X6) 人均可摆布支出(元)(X7) 人均地区生产总值(元)(X8) 因子分析在地区经济钻研中的利用因子分析模型及其步骤因子分析是一种数据简化的技术。它通过钻研泛滥变量之间的外部依赖关系,探究观测数据中的根本构造,并用少数几个假想变量来示意其根本的数据结构。这几个假想变量可能反映原来泛滥变量的次要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。设p个变量,则因子分析的数学模型可示意为: 称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是非凡因子,是不能被前m个公共因子蕴含的局部。因子分析步骤如下: (1)将原始数据标准化,仍记为X;(2)建设相关系数矩阵R;(3)解特征方程,计算特征值和特征向量,当累计贡献率不低于85%时,提取k个主成分代替原来的m个指标,计算因子载荷矩阵A;(4)对A进行最大正交旋转替换;(5)对主因子进行命名和解释。如需进行排序,则计算各个主因子的得分,以贡献率为权重,对加权计算综合因子得分。 样本选取及数据起源本文选取了重庆市38个区县作为样本进行剖析,目标在于摸索如何基于R统计软件的因子分析和聚类分析办法钻研地区经济倒退。具体数据如下: 数据分析过程将原始数据录入R软件中,选取地区生产总值(万元)(X1)、社会消费品零售总额(万元)(X2)、工业总产值(万元)(X3)、建筑业总产值(万元)(X4)、高技术生产总值(万元)(X5)、全社会固定资产投资(万元)(X6)、人均可摆布支出(元)(X7)、人均地区生产总值(元)(X8)。 在进行因子分析之前,咱们通过观察相关系数矩阵,并用KMO and Bartlett’s Test测验一下数据是否适宜作因子分析。再做描述性剖析Analysis-factor-description失去初始公因子方差、因子、特征值以及由每个因子解释的百分比和累计百分比。剖析后果如下: coebaltt(COR,)#Bartlett球形检 Bartlett 的球形度测验的p值(显著性概率值sig)<0.05,表明通过测验,散布能够近似为正态分布,由此则能够进行因子分析。 sreeot(PCA,type="lines") 点击题目查阅往期内容 数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化 左右滑动查看更多 01 02 03 04 从表能够得出,提取3个因子的累计方差贡献率曾经达到89.854%>86%,信息损失仅为10.146%,从第4个因子开始方差贡献率都低于5%,因而选取3个公因子进行因子分析成果较为理想;从图的碎石图能够看出从第4个因子开始,特征值差别变动很小,综上所述:在特征值大于0.5的条件下,所提取的三个因子能通过测验并能很好的形容8个指标,所以提取前3个特征值建设因子载荷矩阵。  表中为初始因子载荷矩阵表, F1、F2、F3别离作为第一、第二、第三公共因子。建设了因子分析数学目标不仅仅要找出公共因子以及对变量进行分组,更重要的要晓得每个公共因子的意义,以便进行进一步的剖析,如果每个公共因子的含意不清,则不便于进行理论背景的解释。因为因子载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。目标是使因子载荷阵的构造简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种次要的正交旋转法。四次方最大法、方差最大法和等量最大法。 因而需要进行因子旋转,使得因子对变量的奉献达到极化的成果。为此采纳方差最大化的正交旋转形式,使各变量在某个因子上产生较高载荷,而其余因子上载荷较小,从而失去旋转后的因子载荷矩阵,如下表所示: 由表和旋转后的因子图能够看出,通过旋转后的公共因子的解释原始数据的能力进步了,体现为公共因子F1在X1(地区生产总值),X6(全社会固定资产投资)和X8(人均地区生产总值)上的载荷值都很大。因而咱们能够把第一公共因子确立为综合经济实力因子,宏观上反映了地区经济倒退规模的总体状况,在这个因子上的得分越高,阐明城市经济倒退的总体状况越好。 利用各公共因子方差贡献率计算综合得分,并计算综合得分=因子1的方差贡献率因子1的得分+因子2的方差贡献率因子2的得分+因子3的方差贡献率*因子3的得分。将数据按综合得分降序排列,失去局部因子得分和综合得分状况如下图所示: 后果探讨基于上述因子得分,能够得出2012年重庆38个区县的经济倒退情况如下: 1、依据经济实力因子F1得分大于1的顺次有渝中区、渝北区、九龙坡区、江北区和万州区,分数别离为4.4211、1.8967、1.7808、1.201、1.2804。阐明在经济总体规模和建筑业方面,渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是最好的,规模较大,经济实力最强,发展前景很好,经济倒退实力雄厚的地区。 2、依据经济发展潜力因子F2得分大于1的有沙坪坝区和渝北区,分数别离为3.7052、3.4396。阐明在高技术科技和工业方面比较发达,固定资产投资最大,这两个地区都在主城,对外开放水平高,科技翻新方面比拟好,有本人的工业倒退,已根本造成了本人的产业结构,充分发挥了本人的天文劣势和资源环境劣势,发展潜力较大。 基于主因子得分的聚类分析零碎聚类分析聚类分析又称群剖析,就是将数据分组成为多个类。在同一个类内对象之间具备较高的类似度,不同类之间的对象差异较大。在社会经济畛域中存在着大量分类问题,比方若对某些大城市的物价指数进行考查,而物价指数很多,有农用生产物价指数、服务项目价指数、食品生产物价指数、建材零售价格指数等等。因为要考查的物价指数很多,通常先对这些物价指数进行分类。总之,须要分类的问题很多,因而聚类分析这个有用的工具越来越受到人们的器重,它在许多畛域中都失去了宽泛的利用。  聚类分析内容十分丰盛,有零碎聚类法、有序样品聚类法、动静聚类法、含糊聚类法、图论聚类法、聚类预报法等;最罕用最胜利的聚类分析为零碎聚类法,零碎聚类法的根本思维为先将n个样品各自看成一类,而后规定样品之间的“间隔”和类与类之间的间隔。抉择间隔最近的两类合并成一个新类,计算新类和其余类(各以后类)的间隔,再将间隔最近的两类合并。这样,每次合并缩小一类,直至所有的样品都归成一类为止。  零碎聚类法的根本步骤:  1、计算n个样品两两间的间隔。  2、结构n个类,每个类只蕴含一个样品。  3、合并间隔最近的两类为一新类。  4、计算新类与各以后类的间隔。  5、反复步骤3、4,合并间隔最近的两类为新类,直到所有的类并为一类为止。  6、画聚类谱系图。  7、决定类的个数和类。  零碎聚类办法:1、最短距离法;2、最长距离法;3、两头间隔法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。  ...

March 3, 2023 · 1 min · jiezi

关于数据挖掘:R语言回归anova方差分析相关性分析-精品购物指南调研数据可视化附代码数据

全文链接:http://tecdat.cn/?p=30990最近咱们被客户要求撰写对于回归、anova方差分析、相关性剖析的钻研报告,包含一些图形和统计输入。 在剖析时,咱们向客户演示了用R语言回归、anova方差分析、相关性剖析能够提供的内容 第一节 钻研背景与目标《精品购物指南》是中国外乡经营规模最大、最具影响力的时尚媒体品牌,1999年《精品购物指南》即进入全国报业广告十强,2005~2007间断三年取得国家新闻出版总署颁布的“全国生存服务类报纸竞争力10强”,并蝉联第一。2013年,《精品购物指南》被国家新闻出版广电总局评为“全国百强报纸”。 本钻研应用对《精品购物指南》所做的一次调查结果作为本次案例剖析的数据。试图剖析目前浏览《精品购物指南》的群体特色,以及影响浏览《精品购物指南》的工夫的因素,从而更好地对受众群体和市场做出剖析。 第二节描述性统计1. 数据预处理 ##变量赋值colnames(data)=c( "编号", "性别", "年龄", "婚姻状况", "受教育水平", "职业或身份", "集体月平均收入", "报摊购买", "集体订阅", "单位订阅", "赠阅", "借阅别人", "其余", "下班途中", "上班途中", "午休工夫", "逛衔购物时", "不定时", "对《精品购物指南》的零购状况", "家人是否会揭示购买《精品》", "是第几抉择", "家人是否浏览《精品》", "", "", "始终购买(或订阅)本报(习惯)", "豪华版内容吸引人", "一般版文章吸引人", "查找广告信息", "加入读者乐园版的流动", "逛商场购物须要", "价格便宜", "没有什么起因想起来就买", "其余", "住所", "工作场合", "车站或乘车道路", "娱乐场所", "其余场合", "多少人浏览同一份报纸", "浏览《精品》的工夫", "每天读报工夫", "对我生产有领导", "进步我的生存品位和品位", "信息实用性强", "关注社会新闻", "信息量大", "信息品质高", "报道畛域全面", "内容贴近市场", "寻找有用的信息和广告", "放松自我", "通俗易懂", "广告信息丰盛", "版面编排正当", "售价正当", "订阅或零购不便", "其余", "均匀每月浏览几期《精品》", "首先观赏豪华版", "先看题目,再拣有意思的看", "我只看本人喜爱的固定栏目", "看完喜爱的文章,再浏览其余内容", "只查找对本人有用的信息", "无目的地翻阅报纸", "如果未能看到某一期《精品》", "可能浏览完《精品》内容", "封面要闻", "百姓生活新闻", "北京都市新闻", "生产新闻", "读者乐园", "体坛新闻", "关注足球", "篮球时空", "绿茵评说", "精品回顾", "文化资讯", "影视介绍", "读书生存", "音乐欣赏", "外企专递", "留学必备", "充电课堂", "人才聚焦", "处世情感", "衰弱", "美食", "休闲游览", "保险", "律师", "百货新品", "休闲宠物", "户外休闲", "美食", "家庭保健", "超市SHOPPER" ,"新品试验" ,"样品透视" ,"汽车时代" ,"电脑" ,"市场行情" ,"通信网络" ,"楼市了望" ,"房产金融" ,"政策扫描" ,"家具世界" ,"家装热点" ,"选材指南" ,"饰品快递" ,"十分男人" ,"特地女人" ,"新新人类" ,"网络家庭" ,"扮美家居" ,"今日妈咪" ,"选题大众化" ,"信息实用性强" ,"可读性强" ,"帮忙我生产抉择" ,"趣味性强" ,"报道畛域全面" ,"帮忙我理解市场行情" ,"放松自我" ,"文字柔美" ,"观点新鲜" ,"版式活跃" ,"品位鄙俗" ,"格调突出" ,"广告内容丰盛" ,"其余" ,"招商展览" ,"电脑" ,"通信" ,"汽车" ,"房地产" ,"家电" ,"食品酒类" ,"游览娱乐" ,"商场饭店" ,"服装服饰" ,"美容用品" ,"保健品" ,"医疗器械" ,"家居用品" ,"航空订票" ,"招生" ,"人才招聘" ,"公益广告" ,"文化用品" ,"屋宇祖赁" ,"金融证券" ,"发行广告" ,"其余" ,"广告对于生产是否有帮忙" ,"广告数量适中" ,"广告信息丰盛" ,"广告信息及时" ,"广告设计新鲜" , ...

March 3, 2023 · 3 min · jiezi

关于数据挖掘:R语言MCMCGARCH风险价值VaR模型股价波动分析上证指数时间序列

全文链接:http://tecdat.cn/?p=31717原文出处:拓端数据部落公众号分析师:Ke Liu随着金融市场全球化的倒退,金融产品逐步受到越来越多的关注,而金融产品的危险度量成为投资者最关怀的问题。金融风险是指因为经济流动的不确定性、市场环境的变动、决策的失误等因素的影响,导致理论回报与预期回报呈现偏离的可能性。 VaR通过建设系统分析办法定量化剖析危险,能够评估简单的金融产品、反映危险的敏感,在正当的范畴内躲避危险,是量化市场危险卓有成效的工具。文章将帮忙客户采纳危险价值VaR模型定量刻画危险,钻研合乎模型特点的求解办法,基于VaR模型对股价指数工夫序列进行建模剖析,迷信评估危险的预期损失,防止因为高估或低估危险而带来投资的决策失误,从而对制订政策、保护市场稳固、监管金融机构等方面提供了必要保障。 解决方案工作/指标依据股票价格指数工夫序列数据进行建模剖析,对金融市场的稳定进行合成与预测,比拟不同估算办法的实用水平。 数据的解决与测验以上海证券股价综合指数作为总体钻研指标,选取2015年1月至2020年1月的每日收盘价序列作为样本数据集,共1220个价格数据形成金融工夫序列,数据获取起源为上海证券交易所网站。 因为股票价格的非负性,咱们采纳取对数的办法解决上证综指的收盘价Ct,而后进行一阶差分,失去收益率序列Yt,再进行描述性剖析与测验,计算公式如下: 基于 MCMC-GARCH 模型预计后果及测验在本次实证剖析中,利用 MCMC算法,随机生成两条马尔科夫链,别离对两条链进行抽样,以确保参数是从安稳散布中进行预计。 MCMC算法下所要拟合的GARCH(1,1)模型为: 利用贝叶斯MCMC 办法对 GARCH(1,1)模型进行未知参数估计。在随机抽样过程中,别离模仿了两条马尔科夫链。首先在R中进行迭代3000次,应用方差比法判断收敛成果,各个参数的方差比为,各个方差比均约为1,,阐明收敛状况良好。迭代轨迹图如图所示: 利用上证综指收益率序列的后半局部数据对正态分布下MCMC-GARCH(1,1)模型的参数估计后果如下: 表 基于正态分布的MCMC--GARCH(1,1)模型系数的预计  估计值规范误95%置信区间00.033380.01792(0.01101,0.08155)10.099130.03522(0.04546,0.18589)10.891970.03467(0.81061,0.94656)即MCMC-GARCH(1,1)模型的方差方程为: 剖析比拟利用上证综指序列的后半局部样本数据别离对ML与MCMC办法的拟合误差进行度量,各指标的值如下:    ML与MCMC办法在样本期内的拟合误差度量指标  MSE1MSE2MAE1MAE2QLIKER²LNML9.2340955657.9911.12325711.748419.695280.5750861MCMC8.7074865628.3281.11057211.854875.852641-0.01556125从上表能够看出,基于贝叶斯框架下MCMC算法失去各项拟合误差度量指标要小于极大似然预计办法失去的误差度量指标,阐明MCMC-GARCH模型拟合成果要优于ML-GARCH模型失去的拟合后果,接下来对上证综指收益率标准化残差的自相干图,能够从图看出,标准化后的绝大部分残差序列值在置信区间内,比照图能够判断,MCMC-GARCH模型将样本序列中的异方差信息较完整的提取了进去,阐明基于MCMC预计的GARCH模型成果更优。 MCMC-GARCH(1,1)模型平方残差自相干图 VaR 模型的建设与预测又前文已知VaR模型的基本原理,记: 由上文所得,上证综指收益率序列后半局部数据的均值为0.005626654,所以得VaR模型为: 因而在ML和MCMC下别离为: 取上证综指收益率序列的后半局部数据对稳定率序列进行预测,别离用ML-GARCH和MCMC-GARCH计算VaR,在95%的置信水平下失去如下值:  基于ML和MCMC办法的VaR值  中位数均值标准差ML1.70161.96661.319663MCMC1.83482.31391.249384通过上表可知,基于ML-GARCH和MCMC-GARCH计算的VaR值有肯定的差异,基于MCMC-GARCH计算的VaR值更高、标准差更低。 两种办法拟合的时序图如下: 基于ML和MCMC办法的VaR时序图 对于作者在此对Ke Liu对本文所作的奉献示意诚挚感激,她毕业于中南财经政法大学经济统计学业余,善于金融工夫序列数据分析与预测等。 最受欢迎的见解 1.用R语言模仿混合制排队随机服务排队零碎 2.R语言中应用排队论预测等待时间 3.R语言中实现马尔可夫链蒙特卡罗MCMC模型 4.R语言中的马尔科夫机制转换(Markov regime switching)模型 5.python中应用马尔可夫决策过程(MDP)动静编程来解决最短门路强化学习问题 6.用R语言模仿混合制排队随机服务排队零碎 7.Python基于粒子群优化的投资组合优化 8.R语言几何布朗运动 GBM模仿股票价格优化建设期权定价概率加权收益曲线可视化 9.R语言进行反对向量机回归SVR和网格搜寻超参数优化

March 3, 2023 · 1 min · jiezi

关于数据挖掘:R语言广义线性模型GLM全子集回归模型选择检验分析全国风向气候数据附代码数据

全文链接:http://tecdat.cn/?p=30914最近咱们被客户要求撰写对于狭义线性模型(GLM)的钻研报告,包含一些图形和统计输入。 咱们正和一位敌人探讨如何在R软件中用GLM模型解决全国的气象数据。本文获取了全国的2021年全国的气象数据 采样工夫:2021年1月1号~2021年12月31号  采样地点:全国各地。 本次考察收集了2021年全国不同地区的风向、降雨量、风速、风速变动、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了考察,对国家数据预测的错误率进行了GLM模型拟合。 读取数据 library(car)library(MuMIn)head(data) 读取因变量numberFaults=data$numbltshead(data1) 相干剖析考察的出的各指标数据用R软件进行解决并且用箱图进行比照显示。 局部指标的箱线图 查看各变量之间的相关系数 有显著的相干关系。从变量相干关系图和矩阵,能够看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之间,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之间都有教显著的线性相关关系。yearDay和windChill之间也有肯定的相干关系。 glm 线性回归模型summary(glm.po) 点击题目查阅往期内容 数据分享|R语言用lme4多层次(混合效应)狭义线性模型(GLM),逻辑回归剖析教育留级考察数据 左右滑动查看更多 01 02 03 04 测验是否存在多重共线性问题kappa(cor(data[,c(1:15,17:20)]), exact=T)## [1] 3.020456e+18判断多重共线性变量 进一步模型优化step(glm.po2) summary(glm.step) vif 从模型中变量的VIF值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值散布在0四周,阐明拟合后果较现实。981,2331和524号样本可能为异样点。从正态分布qq图来看,大部分点散布在图中直线左近。阐明样本点遵从正态分布。同样,拟合值的规范残差也散布在红线四周,阐明拟合成果较好。同样,大部分样本的cook’ distance间隔在失常范畴内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。 全子集回归来选出最优的模型全子集回归,即基于全模型取得可能的模型子集,并依据AIC值等对子集排序以从中获取最优子集。 从新拟合模型 优化模型avg(ms1, subset = delta < 10,fit=T,rank = "AIC")残差图plot(pre-numberFaults) 计算R-squre值,查看模型拟合状况Rsquare=ssr/sst 从逻辑回归后果来看,模型中局部自变量对因变量的影响较为显著,达到了0.01的显著性程度,具备肯定的理论意义。然而从AIC的值来看,达到了4024.881,数值较大,阐明模型的拟合度较差,有进一步改良的空间。个别认为计算条件数kappa(X),k<100,阐明共线性水平小,如果1001000,存在重大的多重共线性。从后果来看,kappa值远远大于1000,因而判断该模型存在重大的共线性问题,即线性回归模型中的解释变量之间因为存在准确相干关系或高度相干关系而使模型预计失真或难以估计精确。changintemp,changinrainfall,windspeedmin,lightningcategory ,rainfallMax之间存在较高的相干关系会对模型的拟合失真并且难以用以预计和预测,因而,删掉这些变量后从新对模型进行拟合。删除局部共线性水平高的变量后能够看到模型的AIC升高了,因而,模型的拟合水平进步了。大部分样本的cook’ distance间隔在失常范畴内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《R语言狭义线性模型(GLM)、全子集回归模型抉择、测验剖析全国风向气象数据》。 ...

March 2, 2023 · 1 min · jiezi