关于数据挖掘:视频什么是非线性模型与R语言多项式回归局部平滑样条-广义相加GAM分析工资数据数据分享附代码数据

全文链接:http://tecdat.cn/?p=9706最近咱们被客户要求撰写对于非线性模型的钻研报告,包含一些图形和统计输入。 在这文中,我将介绍非线性回归的基础知识。非线性回归是一种对因变量和一组自变量之间的非线性关系进行建模的办法。最初咱们用R语言非线性模型预测集体工资数据是否每年支出超过25万 这些数据点对应于一段时间内的中国国内生产总值或 GDP。 第一栏是年份,第二栏是中国当年相应的年国内总收入。这就是数据点的样子。当初,咱们有几个乏味的问题。 首先,GDP能够依据工夫来预测吗? 其次,咱们能够应用简略的线性回归对其进行建模吗? 确实。如果数据显示曲线趋势,则与非线性回归相比,线性回归不会产生十分精确的后果。仅仅是因为,顾名思义,线性回归假设数据是线性的。 散点图显示 GDP 与工夫之间仿佛存在很强的关系,但这种关系不是线性的。如您所见,增长开始迟缓,而后从 2005 年开始,增长十分显着。最初,它在 2010 年代略有加速。它看起来像逻辑函数或指数函数。因而,它须要一种非凡的非线性回归过程预计办法。 存在许多不同的回归,可用于拟合数据集的外观。你能够在这里看到二次和三次回归线,它能够有限延长。实质上,咱们能够将所有这些称为多项式回归,其中自变量 X 和因变量 Y 之间的关系被建模为 X 中的 N 次多项式。有多种回归类型可供选择,很有可能其中一个将非常适合您的数据集。请记住,抉择最适宜数据的回归十分重要。 什么是多项式回归?多项式回归将曲线拟合到您的数据。Thetas 是要预计的参数,使模型齐全适宜根底数据。尽管这里 X 和 Y 之间的关系是非线性的,多项式回归无奈拟合它们,但多项式回归模型依然能够示意为线性回归。 给定三次多项式方程,将模型转换为具备新变量的简略线性回归。这个模型在要预计的参数中是线性的,对吧? 因而,这种多项式回归被认为是传统多元线性回归的一个特例。因而,您能够应用与线性回归雷同的机制来解决此类问题。因而,多项式回归模型能够应用最小二乘模型进行拟合。最小二乘法是一种通过最小化给定数据集中察看到的因变量与线性函数预测的因变量之间差别的平方和来预计线性回归模型中未知参数的办法。 什么是非线性回归?首先,非线性回归是一种对因变量和一组自变量之间的非线性关系建模的办法。 其次,对于一个被认为是非线性的模型,Y必须是参数Theta的非线性函数,不肯定是特色X。当波及到非线性方程时,它能够是指数,对数,和逻辑函数,或许多其余类型。正如您在所有这些方程中看到的那样,Y 的变动取决于参数 Theta 的变动,不肯定只取决于 X。也就是说,在非线性回归中,模型在参数上是非线性的。与线性回归相比,咱们不能应用一般的最小二乘法来拟合非线性回归中的数据。一般来说,参数的预计并不容易。 让我在这里答复两个重要的问题。 首先,我怎样才能以简略的形式晓得问题是线性的还是非线性的? 要答复这个问题,咱们必须做两件事。首先是直观地确定关系是线性的还是非线性的。最好用每个输出变量绘制输入变量的双变量图。此外,您能够计算自变量和因变量之间的相关系数,如果所有变量的相关系数为 0.7 或更高,则存在线性趋势,因而不适宜拟合非线性回归。咱们要做的第二件事是当咱们无奈精确地建模与线性参数的关系时,应用非线性回归而不是线性回归。 *第二个重要问题是,如果我的数据在散点图上显示为非线性,我应该如何建模? 要解决这个问题,您必须应用多项式回归、应用非线性回归模型或转换您的数据。 R语言里的非线性模型:多项式回归、部分样条、平滑样条、 狭义相加模型GAM剖析在这里,咱们放宽了风行的线性办法的假如。有时线性假如只是一个很差的近似值。有许多办法能够解决此问题,其中一些办法能够通过应用正则化办法升高模型复杂性来  解决  。然而,这些技术依然应用线性模型,到目前为止只能进行改良。本文本专一于线性模型的扩大 _多项式回归_    这是对数据提供非线性拟合的简略办法。_阶跃函数_  将变量的范畴划分为  _K个_  不同的区域,以生成定性变量。这具备拟合分段常数函数的成果。_回归样条_  比多项式和阶跃函数更灵便,并且实际上是两者的扩大。_部分样条曲线_  相似于回归样条曲线,然而容许区域重叠,并且能够平滑地重叠。_平滑样条曲线_  也相似于回归样条曲线,然而它们最小化平滑度惩办的残差平方和准则 。_狭义加性模型_  容许扩大上述办法以解决多个预测变量。多项式回归这是扩大线性模型的最传统办法。随着咱们减少 多项式的项,多项式回归使咱们可能生成非线性的曲线,同时仍应用最小二乘法预计系数。 点击题目查阅往期内容 应用R语言进行多项式回归、非线性回归模型曲线拟合 左右滑动查看更多 01 02 ...

May 8, 2023 · 4 min · jiezi

关于数据挖掘:高维数据惩罚回归方法主成分回归PCR岭回归lasso弹性网络elastic-net分析基因数据附代码数据

全文链接:http://tecdat.cn/?p=23378最近咱们被客户要求撰写对于高维数据惩办回归办法的钻研报告,包含一些图形和统计输入。 在本文中,咱们将应用基因表白数据。这个数据集蕴含120个样本的200个基因的基因表白数据。这些数据来源于哺乳动物眼组织样本的微阵列试验 1 介绍在本文中,咱们将钻研以下主题 证实为什么低维预测模型在高维中会失败。进行主成分回归(PCR)。应用glmnet()进行岭回归、lasso 和弹性网elastic net对这些预测模型进行评估1.1 数据集在本文中,咱们将应用基因表白数据。这个数据集蕴含120个样本的200个基因的基因表白数据。这些数据来源于哺乳动物眼组织样本的微阵列试验。 该数据集由两个对象组成: genes: 一个120×200的矩阵,蕴含120个样本(行)的200个基因的表白程度(列)。trim32: 一个含有120个TRIM32基因表白程度的向量。##查看刚刚加载的对象str(genes) 这个练习的目标是依据微阵列试验中测量的200个基因的表白程度预测TRIM32的表白程度。为此,须要从构建中心化数据开始。咱们将其存储在两个矩阵X和Y中。 X <- scale(gen, center = TRUE, scale = TRUE) Y <- scale(tri, center = TRUE)请记住,标准化能够防止量纲上的差别,使一个变量(基因)在后果中具备更大的影响力。对于Y向量,这不是一个问题,因为咱们探讨的是一个繁多的变量。不进行标准化会使预测后果可解释为 "偏离平均值"。 1.2 奇怪性咒骂咱们首先假如预测因子和后果曾经中心化,因而截距为0。咱们会看到通常的回归模型。 咱们的指标是失去的最小二乘估计值,由以下公式给出 其中p×p矩阵(XTX)-1是要害! 为了可能计算出XTX的逆,它必须是满秩p。咱们检查一下。 dim(X) # 120 x 200,  p > n!#> [1] 120 200qr(X)$rank#> [1] 119XtX <- crossprod(X) # 更无效地计算t(X) %*% Xqr(XtX)$rank#> [1] 119#  尝试用solve进行求解。 solve(XtX)   咱们意识到无奈计算(XTX)-1,因为(XTX)的秩小于p,因而咱们无奈通过最小二乘法失去^! 这通常被称为奇怪性问题。 2 主成分回归解决这种奇怪性的第一个办法是应用主成分绕过它。因为min(n,p)=n=120,PCA将失去120个成分,每个成分是p=200个变量的线性组合。这120个PC蕴含了原始数据中的所有信息。咱们也能够应用X的近似值,即只应用几个(k<120)PC。因而,咱们应用PCA作为缩小维度的办法,同时尽可能多地保留观测值之间的变动。一旦咱们有了这些PC,咱们就能够把它们作为线性回归模型的变量。 2.1对主成分PC的经典线性回归咱们首先用prcomp计算数据的PCA。咱们将应用一个任意的k=4个PC的截止点来阐明对PC进行回归的过程。 k <- 4 #任意抉择k=4Vk <- pca$rotation[, 1:k] # 载荷矩阵Zk <- pca$x[, 1:k] # 分数矩阵# 在经典的线性回归中应用这些分数 因为X和Y是中心化的,截距近似为0。 输入结果显示,PC1和PC4的估计值与0相差很大(在p<0.05),然而后果不能轻易解释,因为咱们没有对PC的间接解释。 2.2 应用软件包PCR也能够间接在数据上进行(所以不用先手动进行PCA)。在应用这个函数时,你必须牢记几件事。 要应用的成分(PC)的数量是通过参数ncomp来确定该函数容许你首先对预测因子进行标准化(set scale = TRUE)和中心化(set center = TRUE)(在这里的例子中,XX曾经被中心化和标准化了)。你能够用与应用lm()雷同的形式应用pcr()函数。应用函数summary()能够很容易地查看得出的拟合后果,但输入后果看起来与你从lm失去的后果齐全不同。 #X曾经被标准化和中心化了   首先,输入显示了数据维度和应用的拟合办法。在本例中,是基于SVD的主成分PC计算。summary()函数还提供了应用不同数量的成分在预测因子和响应中解释方差的百分比。例如,第一个PC只解释了所有方差的61.22%,或预测因子中的信息,它解释了后果中方差的62.9%。请留神,对于这两种办法,主成分数量的抉择都是任意抉择的,即4个。 在前面的阶段,咱们将钻研如何抉择预测误差最小的成分数。 3 岭回归、Lasso 和弹性网Elastic Nets岭回归、Lasso 回归和弹性网Elastic Nets都是密切相关的技术,基于同样的想法:在预计函数中退出一个惩办项,使(XTX)再次成为满秩,并且是可逆的。能够应用两种不同的惩办项或正则化办法。 L1正则化:这种正则化在预计方程中退出一个1‖‖1。该项将减少一个基于系数大小绝对值的惩办。这被Lasso回归所应用。 L2正则化:这种正则化在预计方程中减少了一个项2‖‖22。这个惩办项是基于系数大小的平方。这被岭回归所应用。 弹性网联合了两种类型的正则化。它是通过引入一个混合参数来实现的,该参数实质上是将L1和L2标准联合在一个加权均匀中。  4 练习:岭回归的验证在最小平方回归中,预计函数的最小化 能够失去解。 对于岭回归所应用的惩罚性最小二乘法准则,你要最小化,能够失去解。  其中II是p×p的辨认矩阵。 脊参数将系数缩减为0,=0相当于OLS(无缩减),=+∞相当于将所有^设置为0。最佳参数位于两者之间,须要由用户进行调整。 习题应用R解决以下练习。 验证 秩为200,对于任何一个  .gamma <- 2 # # 计算惩办矩阵XtX_gammaI <- XtX + (gamma * diag(p))dim(XtX_gammaI)#> [1] 200 200qr(XtX_gammaI)$rank == 200 # #> [1] TRUE向下滑动查看后果▼ 查看的逆值是否能够计算出来。# 是的,能够被计算。XtX_gammaI_inv <- solve(XtX_gammaI) 向下滑动查看后果▼ 最初,计算。## 计算岭估计值## 应用`drop`来删除维度并创立向量length(ridge_betas) # 每个基因都有一个#> [1] 200 咱们当初曾经手动计算了岭回归的估计值。 向下滑动查看后果▼ 5 用glmnet进行岭回归和套索lasso回归glmnet容许你拟合所有三种类型的回归。应用哪种类型,能够通过指定alpha参数来决定。对于岭回归,你将alpha设置为0,而对于套索lasso回归,你将alpha设置为1。其余介于0和1之间的值将适宜一种弹性网的模式。这个函数的语法与其余的模型拟合函数略有不同。你必须传递一个x矩阵以及一个y向量。 管制惩办 "强度 "的gamma值能够通过参数lambda传递。函数glmnet()还能够进行搜寻,来找到最佳的拟合伽马值。这能够通过向参数lambda传递多个值来实现。如果不提供,glmnet将依据数据本人生成一个数值范畴,而数值的数量能够用nlambda参数管制。这通常是应用glmnet的举荐形式,详见glmnet。 示范:岭回归 让咱们进行岭回归,以便用200个基因探针数据预测TRIM32基因的表白程度。咱们能够从应用值为2开始。 glmnet(X, Y, alpha = 0, lambda = gamma)#看一下前10个系数 第一个系数是截距,基本上也是0。但的值为2可能不是最好的抉择,所以让咱们看看系数在的不同值下如何变动。 ...

May 8, 2023 · 1 min · jiezi

关于数据挖掘:R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化

全文链接:http://tecdat.cn/?p=32316原文出处:拓端数据部落公众号咱们常说的中药开掘,个别是用药开掘,还有穴位的开掘,次要是想找出一些用药的法则。在西医开掘中,数据的起源比拟宽泛,有的是通过临床收集用药处方,比方,一个驰名老中医针对某一疾病的用药状况;有的是通过古籍,现代流传下来的药方;还有一种状况是在论文数据框里查找专门医治某一疾病的文献,从中找到处方,用来剖析。 Apriori算法是一种最有影响的开掘关联规定频繁项集的算法。其外围是基于两阶段频集思维的递推算法。该关联规定在分类上属于单维、单层、布尔关联规定,Apriori 算法采纳了逐层搜寻的迭代的办法,算法简单明了,没有简单的实践推导,也易于实现。 因为Apriori算法的个性,非常适宜中药处方、膏方、方剂的开掘,甚至于穴位的开掘。 本文帮忙客户得出不同处方的药物组合和频率,挖掘出药方外在的法则。 中药处方数据 读取数据a_df3=read.xlsx("开掘用.xlsx",startRow=0, colNames = F) 转换数据结构a_list=list(0) for(i in 1:nrow(a_df3)){     ##删除事务中的反复我的项目 a_list[[i]]= unique(strsplit(a_df3[i,],",")[[1]]) 将数据转换成事务类型trans2 <- as(a_list, "tran查看每个商品的呈现频率 能够看到每个物品呈现的频率,从而判断哪些物品的反对度较高。 关联规定开掘药对开掘at(dat1,parameter=list(support=0.3,minlen=2,maxle 失去频繁规定开掘inspect(frequent 查看求得的频繁项集spect(sort(frequentsets,by="suppo 依据反对度对求得的频繁项集排序并查看(等价于inspect(sort(frequentsets)[1:10])。 建设模型apriori(dat1,parame 设置反对度为0.01,置信度为0.3summary(rules)#查看规定 查看局部规定 查看置信度 反对度和晋升度 可视化绘制不同规定图形来示意反对度,置信度和晋升度。 通过该图能够看到规定前项和规定后项别离有哪些物品 以及每个物品的反对度大小,反对度越大则圆圈越大。 ules, method = NULL,      measure = "support", shading = "lift", int 从该图能够看到反对度和置信度的关系,置信度越高晋升度也越高。 从该图能够看到反对度和置信度的关系,晋升度越高置信度也越高。 ules, method="matrix3D", measure="lift 从上图能够看到不同物品之间的关联关系,图中的点越大阐明该物品的反对度越高,色彩越深阐明该物品的晋升度越高。 plot(rules, method="doubledecker" ) 查看最高的反对度样本规定ules::inspect(head(rules 查看最高置信度样本规定sort(rules, by="confidencnspect(head(rules sort(rules, by="lift 失去有价值规定子集rules,subset=confidence>0.3 & support>0.2 & lift>=1summary(x) 依照反对度排序sort(x,by="support 依照置信度排序inspect(sort(x,by="confide 对有价值的x汇合进行数据可视化。 ...

May 8, 2023 · 2 min · jiezi

关于数据挖掘:看火山引擎DataLeap如何做好电商治理一挑战与痛点

当初人们的日常生活中,网购曾经成为人们生存中不可或缺的购物模式。依据中国电子商会公布的《中国社交电商行业倒退白皮书(2022)》的数据显示,2022年社交电商市场交易规模达到28542.8亿元,预计2023年中国社交电商行业交易规模将达34165.8亿元。同时在2022年,抖音电商每月新增超2亿条短视频、900多万场电商直播,在优质内容驱动下,用户购物行为快速增长。这么大市场规模背地,如何解决电商场景下的商品平安、内容平安、商家达人社区平安,晋升服务体验,做好内容生态等问题显得尤为重要。DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成、开发、运维、治理、资产治理能力于一身的大数据研发治理套件。利用火山引擎DataLeap 用户能够很好的监测电商场景下的商品平安、内容平安、商家达人社区平安,对于做好内容生态带了极大的便当。据理解,火山引擎平台治理团队目前已达百人团队规模,团队散布遍布国内外,次要监测一些电商场景下红线违规的问题,同时一些优质的商品信息和短视频,使其在整个生电商的生态外面有更多露出,欠缺平台的治理能力建设。在日常做一些电商平台治理会遇到如下挑战与痛点:1、大数据量的训练集如何疾速进行数据预处理以前在去筹备这种训练集的时候,模型的训练集一般来说可能都是百万级、千万级的。如果把这种十分大的一个数据,把它放到本地,比方像 workspace 或者是一些其余开发机上去做解决,它会很慢,有时候即便研发人员开多线程或者多过程解决起来的话,并发度还是不够的。2、如何验证模型的精确模型准确性验证个别是从两个维度,一个维度是有偏,另一个维度是无偏。个别要是来评估这个模型的话,须要在离线训练模型的时候去验证,这个时候可能是一个有偏测试集,让正负样本尽量平衡一点,再去验证指标,在正式上线之前结构一个无偏的测试集去模仿,等真正的把这个模型上线之后,预计它的召回是什么样的,召回之后它的准确性怎么样,以及评估一下这个模型的一个影响面,难点就在于此。不论是有偏还是无偏测试集,对于测试集标签的准确性要求是比拟高的,如果测试集的标签准确性不高,就会影响模型评估的准确性,这也是难点。3、如何监控要想做好监控,首先要有本人平台的统计指标:比方召回率 、漏放率、审出率、驳回率 等等,把指标做成数据集,建设属于本人的监控看板,同时如果平台有badcase,要进行深刻的剖析,进而优化算法模型。那么这一整个流程下来,如果没有很好的工具辅助,是十分低效的。如何解决好上述的挑战与痛点?后续文章笔者会接着剖析。

May 8, 2023 · 1 min · jiezi

关于数据挖掘:HARRVJ与递归神经网络RNN混合模型预测和交易大型股票指数的高频波动率附代码数据

原文链接:http://tecdat.cn/?p=5277最近咱们被客户要求撰写对于递归神经网络的钻研报告,包含一些图形和统计输入。 本文剖析了S&P500指数和SPY ETF,VIX指数和VXX ETN的稳定率的可预测性和可交易性。只管已有大量对于预测高频稳定的文献,但大多数仅依据统计误差评估预测 实际上,这种剖析只是对预测的理论经济意义的一个小的批示。因而,在咱们的办法中,咱们还通过交易适当的稳定率衍生品来测试咱们的预测。 简介波动性在资产定价和调配以及风险管理中起着核心作用,例如危险价值(_VaR_)与冀望损失(_ES_)。对计量经济学家,统计学家和从业者来说,建模和预测波动性十分重要。然而,传统的狭义自回归条件异方差(GARCH)和随机稳定率(SV)模型的利用并不适宜用于应用高频数据的利用。 本文将HAR-RV-J与递归神经网络(RNN)和混合 HAR-RV-J- RNN模型进行比拟,以预测波动性,从而剖析预测性。 循环神经网络人工神经网络是一种功能强大的非参数工具,用于信号滤波,模式识别和插值,也能够容忍有误差的数据,并找到模型参数之间的非线性关联 。大多数计量经济模型是通过捕捉工夫序列的特定特色(例如长记忆)或假如变量之间的函数关系而开发的,人工神经网络的次要长处是它们蕴含非线性并蕴含所有变量。 具备一个暗藏层的单输入RNN模型  混合模型混合模型也被设计为RNN。然而,作为附加输出,咱们将线性模型的预测提供给RNN。咱们还保留了四个基 输出。因而,在混合模型的状况下,输出的总数减少到5。 所有其余模型参数放弃不变。具体地,如上确定暗藏神经元的数量。此外,模型架构放弃雷同。 应用混合模型的动机源于心愿利用每个模型。通过将线性预测提供给RNN,咱们能够从预测工作中删除任何线性重量。这应该为更好地匹配线性预测误差的非线性残差留出更多空间。 数据咱们的根底数据集包含来自于1996年1月2日至2016年6月2日开始的规范普尔500指数。 后果每日S&P500 RV。留神:顶部面板别离显示每日实现的稳定率及其对数变换,和。上面的图表显示了跳转成分,和 论断本文剖析了异质自回归模型的后劲,包含跳跃预测实现稳定率(RV)。对于这种办法,咱们依据规范普尔500指数的5年日内数据的20年历史计算RV。咱们的结果表明,根底HAR-RV-J模型的确可能提供令人满意的RV预测。 有问题欢送分割咱们! 本文摘选 《 R语言HAR-RV-J与递归神经网络(RNN)混合模型预测和交易大型股票指数的高频稳定率 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 R语言预测期货稳定率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比拟 PYTHON用GARCH、离散随机稳定率模型DSV模仿预计股票收益工夫序列与蒙特卡洛可视化 极值实践 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测危险测度剖析 Garch稳定率预测的区制转移交易策略 金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言危险价值:ARIMA,GARCH,Delta-normal法滚动预计VaR(Value at Risk)和回测剖析股票数据 R语言GARCH建模罕用软件包比拟、拟合规范普尔SP 500指数稳定率工夫序列和预测可视化 Python金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 MATLAB用GARCH模型对股票市场收益率工夫序列稳定的拟合与预测R语言GARCH-DCC模型和DCC(MVT)建模预计 Python 用ARIMA、GARCH模型预测剖析股票市场收益率工夫序列 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言ARIMA-GARCH稳定率模型预测股票市场苹果公司日收益率工夫序列 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 R语言工夫序列GARCH模型剖析股市稳定率 R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 应用R语言对S&P500股票指数进行ARIMA + GARCH交易策略 R语言用多元ARMA,GARCH ,EWMA, ETS,随机稳定率SV模型对金融工夫序列数据建模 R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性剖析 R语言多元Copula GARCH 模型工夫序列预测 R语言应用多元AR-GARCH模型掂量市场危险 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言用Garch模型和回归模型对股票价格剖析 GARCH(1,1),MA以及历史模拟法的VaR比拟 matlab预计arma garch 条件均值和方差模型R语言POT超阈值模型和极值实践EVT剖析 R语言极值推断:狭义帕累托散布GPD应用极大似然预计、轮廓似然预计、Delta法 R语言极值实践EVT:基于GPD模型的火灾损失散布剖析 R语言有极值(EVT)依赖构造的马尔可夫链(MC)对洪水极值剖析 R语言POT超阈值模型和极值实践EVT剖析 R语言混合正态分布极大似然预计和EM算法 R语言多项式线性模型:最大似然预计二次曲线 R语言Wald测验 vs 似然比测验 R语言GARCH-DCC模型和DCC(MVT)建模预计 R语言非参数办法:应用核回归平滑预计和K-NN(K近邻算法)分类预测心脏病数据 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 R语言基于Bootstrap的线性回归预测置信区间预计办法 R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归(BVAR)模型 Matlab马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility) 模型 Matlab马尔可夫区制转换动静回归模型预计GDP增长率R语言极值推断:狭义帕累托散布GPD应用极大似然预计、轮廓似然预计、Delta法 ...

May 6, 2023 · 1 min · jiezi

关于数据挖掘:PYTHON用户流失数据挖掘建立逻辑回归XGBOOST随机森林决策树支持向量机附代码数据

原文链接:http://tecdat.cn/?p=24346最近咱们被客户要求撰写对于用户散失数据挖掘的钻研报告,包含一些图形和统计输入。 在明天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的抢夺上 “用户就是上帝”促使泛滥的企业不惜代价去抢夺尽可能多的客户。然而企业在不惜代价倒退新用户的过程中,往往会漠视或无暇顾及已有客户的散失状况,后果就导致呈现这样一种窘况:一边是新客户在源源不断地减少,而另一方面是辛辛苦苦找来的客户却在悄然无声地散失。因而对老用户的散失进行数据分析从而挖掘出重要信息帮忙企业决策者采取措施来缩小用户散失的事件至关重要,火烧眉毛。 1.2 目标:深刻理解用户画像及行为偏好,挖掘出影响用户散失的关键因素,并通过算法预测客户拜访的转化后果,从而更好地欠缺产品设计、晋升用户体验。 ** 拓端 ,赞29 1.3 数据阐明:此次数据是携程用户一周的拜访数据,为爱护客户隐衷,曾经将数据通过了脱敏,和理论商品的订单量、浏览量、转化率等有一些差距,不影响问题的可解性。 2 读取数据 # 显示全副特色df.head()  3 切分数据# 划分训练集,测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)3.1 了解数据能够看到变量比拟的多,先进行分类,除去指标变量label,此数据集的字段能够分成三个类别:订单相干指标、客户行为相干指标、酒店相干指标。 4 特色工程 # 用训练集进行数据摸索train = pd.concat([X_train,y_train],axis=1) 4.1 数据预处理 4.1.1 删除不必要的列X_train.pop("sampleid")X_test.pop("sampleid")train.pop("sampleid") 4.1.2 数据类型转换字符串类型的特色须要解决成数值型能力建模,将arrival和d相减失去"提前预约的天数",作为新的特色 # 减少列# 将两个日期变量由字符串转换为日期格局类型train["arrial"] = pd.to_datimetain["arrval"])X_tst["arival"] = d.to_daetime(X_est["arival"])# 生成提前预约工夫列(衍生变量)X_trin["day_adanced"] = (X_rain["arival"]-Xtrain["d"]).dt.days## 删除列X_tran.dro(columns="d","arrivl"],inpace=True)4.1.3 缺失值的变量生成一个批示哑变量 zsl = tain.isnll().sum()[tain.isnll(.sum()!=0].inex4.1.4 依据业务教训填补空缺值 ordernum_oneyear 用户年订单数为0 ,lasthtlordergap 11%用600000填充 88%用600000填充 一年内间隔上次下单时长,ordercanncelednum 用0填充 用户一年内勾销订单数,ordercanceledprecent 用0t填充 用户一年内勾销订 单率 242114 242114 -为空 有2种状况 1:新用户未下订单的空-88.42% 214097 2.老用户1年以上未生产的空 减少编码列未下订单新用户和 1年未下订单的老用户 price\_sensitive -0 ,中位数填充 价格敏感指数,consuming\_capacity -0 中位数填充 生产能力指数 226108 -为空状况 1.从未下过单的新用户214097 2.12011集体为空起因暂不明确 uv\_pre -24小时历史浏览次数最多酒店历史uv. cr\_pre -0,中位数填充 -24小时历史浏览次数最多酒店历史cr -0,中位数填充 29397 -为空 1.用户当天未登录APP 28633 2.刚上线的新酒店178 586 无uv,cr记录 编码增加 该APP刚上线的新酒店 764 29397 customereval_pre2 用0填充-24小时历史浏览酒店客户评分均值, landhalfhours -24小时内登陆时长 -用0填充28633 -为空:用户当天未登录APP 28633 hotelcr ,hoteluv -中位数填充 797 ...

May 6, 2023 · 2 min · jiezi

关于数据挖掘:R语言用多元ARMAGARCH-EWMA-ETS随机波动率SV模型对金融时间序列数据建模附代码数据

全文下载链接:http://tecdat.cn/?p=20015最近咱们被客户要求撰写对于金融工夫序列的钻研报告,包含一些图形和统计输入。 本文将阐明单变量和多变量金融工夫序列的不同模型,特地是条件均值和条件协方差矩阵、稳定率的模型 均值模型本节探讨条件均值模型。 iid模型咱们从简略的iid模型开始。iid模型假设对数收益率xt为N维高斯工夫序列: 均值和协方差矩阵的样本估计量别离是样本均值 和样本协方差矩阵 咱们从生成数据开始,相熟该过程并确保预计过程给出正确的后果(即完整性检查)。而后应用实在的市场数据并拟合不同的模型。 让咱们生成合成iid数据并估算均值和协方差矩阵: # 生成综合收益数据X <- rmvnorm(n = T, mean = mu, sigma = Sigma)# 样本预计(样本均值和样本协方差矩阵)mu_sm <- colMeans(X)Sigma_scm <- cov(X)# 误差norm(mu_sm     - mu, "2")#> [1] 2.44norm(Sigma_scm - Sigma, "F")#> [1] 70.79当初,让咱们针对不同数量的观测值T再做一次: # 首先生成所有数据X <- rmvnorm(n = T_max, mean = mu, sigma = Sigma)# 当初遍历样本的子集for (T_ in T_sweep) {  # 样本估算  mu_sm <- colMeans(X_)  Sigma_scm <- cov(X_)  # 计算误差  error_mu_vs_T    <- c(error_mu_vs_T,    norm(mu_sm     - mu, "2"))  error_Sigma_vs_T <- c(error_Sigma_vs_T, norm(Sigma_scm - Sigma, "F"))# 绘图plot(T_sweep, error_mu_vs_T,      main = "mu预计误差", plot(T_sweep, error_Sigma_vs_T     main = "Sigma预计中的误差", ylab = "误差" 单变量ARMA模型对数收益率xt上的ARMA(p,q)模型是 其中wt是均值为零且方差为2的白噪声序列。模型的参数是系数i,i和噪声方差2。 请留神,ARIMA(p,d,q)模型是时间差分为d阶的ARMA(p,q)模型。因而,如果咱们用xt代替对数价格,那么先前的对数收益模型实际上就是ARIMA(p,1,q)模型,因为一旦对数价格差分,咱们就取得对数收益。 rugarch生成数据 咱们将应用rugarch包  生成单变量ARMA数据,预计参数并进行预测。 首先,咱们须要定义模型: # 指定具备给定系数和参数的AR(1)模型#> #> *----------------------------------*#> *       ARFIMA Model Spec          *#> *----------------------------------*#> Conditional Mean Dynamics#> ------------------------------------#> Mean Model           : ARFIMA(1,0,0)#> Include Mean     : TRUE #> #> Conditional Distribution#> ------------------------------------#> Distribution :  norm #> Includes Skew    :  FALSE #> Includes Shape   :  FALSE #> Includes Lambda  :  FALSE#>          Level Fixed Include Estimate LB UB#> mu        0.01     1       1        0 NA NA#> ar1      -0.90     1       1        0 NA NA#> ma        0.00     0       0        0 NA NA#> arfima    0.00     0       0        0 NA NA#> archm     0.00     0       0        0 NA NA#> mxreg     0.00     0       0        0 NA NA#> sigma     0.20     1       1        0 NA NA#> alpha     0.00     0       0        0 NA NA#> beta      0.00     0       0        0 NA NA#> gamma     0.00     0       0        0 NA NA#> eta1      0.00     0       0        0 NA NA#> eta2      0.00     0       0        0 NA NA#> delta     0.00     0       0        0 NA NA#> lambda    0.00     0       0        0 NA NA#> vxreg     0.00     0       0        0 NA NA#> skew      0.00     0       0        0 NA NA#> shape     0.00     0       0        0 NA NA#> ghlambda  0.00     0       0        0 NA NA#> xi        0.00     0       0        0 NA NAfixed.pars#> $mu#> [1] 0.01#> #> $ar1#> [1] -0.9#> #> $sigma#> [1] 0.2true_params#>    mu   ar1 sigma #>  0.01 -0.90  0.20而后,咱们能够生成工夫序列: # 模仿一条门路apath(spec, n.sim = T)# 转换为xts并绘图plot(synth_log_returns, main = "ARMA模型的对数收益率"plot(synth_log_prices, main = "ARMA模型的对数价格" ARMA模型当初,咱们能够预计参数(咱们曾经晓得): # 指定AR(1)模型arfimaspec(mean.model = list(armaOrder = c(1,0), include.mean = TRUE))# 预计模型#>           mu          ar1        sigma #>       0.0083      -0.8887       0.1987#>    mu   ar1 sigma #>  0.01 -0.90  0.20咱们还能够钻研样本数量T对参数估计误差的影响: # 循环for (T_ in T_sweep) {  estim_coeffs_vs_T <- rbind(estim_coeffs_vs_T, coef(arma_fit))  error_coeffs_vs_T <- rbind(error_coeffs_vs_T, abs(coef(arma_fit) - true_params)/true_params)# 绘图matplot(T_sweep, estim_coeffs_vs_T,         main = "预计的ARMA系数", xlab = "T", ylab = "值", matplot(T_sweep, 100*error_coeffs_vs_T,         main = "预计ARMA系数的相对误差", xlab = "T", ylab = "误差 (%)", 首先,真正的简直为零,因而相对误差可能显得不稳固。在T = 800个样本之后,其余系数失去了很好的预计。 ARMA预测为了进行健全性查看,咱们当初将比拟两个程序包 Forecast 和 rugarch的后果: # 指定具备给定系数和参数的AR(1)模型spec(mean.model = list(armaOrder = c(1,0), include.mean = TRUE),                              fixed.pars = list(mu = 0.005, ar1 = -0.9, sigma = 0.1))# 生成长度为1000的序列arfima(arma_fixed_spec, n.sim = 1000)@path$seriesSim# 应用 rugarch包指定和拟合模型spec(mean.model = list(armaOrder = c(1,0), include.mean = TRUE))# 应用包“ forecast”拟合模型#> ARIMA(1,0,0) with non-zero mean #> #> Coefficients:#>           ar1    mean#>       -0.8982  0.0036#> s.e.   0.0139  0.0017#> #> sigma^2 estimated as 0.01004:  log likelihood=881.6#> AIC=-1757.2   AICc=-1757.17   BIC=-1742.47# 比拟模型系数#>          ar1    intercept        sigma #> -0.898181148  0.003574781  0.100222964#>           mu          ar1        sigma #>  0.003605805 -0.898750138  0.100199956的确,这两个软件包给出了雷同的后果。 ARMA模型抉择 在先前的试验中,咱们假如咱们晓得ARMA模型的阶数,即p = 1和q = 0。实际上,阶数是未知的,因而必须尝试不同的阶数组合。阶数越高,拟合越好,但这将不可避免地导致适度拟合。曾经开发出许多办法来惩办复杂性的减少以防止适度拟合,例如AIC,BIC,SIC,HQIC等。 # 尝试不同的组合# 查看排名#>    AR MA Mean ARFIMA         BIC converged#> 1   1  0    1      0 -0.38249098         1#> 2   1  1    1      0 -0.37883157         1#> 3   2  0    1      0 -0.37736340         1#> 4   1  2    1      0 -0.37503980         1#> 5   2  1    1      0 -0.37459177         1#> 6   3  0    1      0 -0.37164609         1#> 7   1  3    1      0 -0.37143480         1#> 8   2  2    1      0 -0.37107841         1#> 9   3  1    1      0 -0.36795491         1#> 10  2  3    1      0 -0.36732669         1#> 11  3  2    1      0 -0.36379209         1#> 12  3  3    1      0 -0.36058264         1#> 13  0  3    1      0 -0.11875575         1#> 14  0  2    1      0  0.02957266         1#> 15  0  1    1      0  0.39326050         1#> 16  0  0    1      0  1.17294875         1#选最好的armaOrder#> AR MA #>  1  0在这种状况下,因为察看次数T = 1000足够大,因而阶数被正确地检测到。相同,如果尝试应用T = 200,则检测到的阶数为p = 1,q = 3。 ARMA预测 一旦预计了ARMA模型参数i  ^ i和^j,就能够应用该模型预测将来的值。例如,依据过来的信息对xt的预测是 并且预测误差将为xt-x ^ t = wt(假如参数已被预计),其方差为2。软件包 rugarch 使对样本外数据的预测变得简略: # 预计模型(不包含样本外)coef(arma_fit)#>           mu          ar1        sigma #>  0.007212069 -0.898745183  0.200400119# 整个样本外的预测对数收益forecast_log_returns <- xts(arma_fore@forecast$seriesFor[1, ], dates_out_of_sample)# 复原对数价格prev_log_price <- head(tail(synth_log_prices, out_of_sample+1), out_of_sample)# 对数收益图plot(cbind("fitted"   = fitted(arma_fit),# 对数价格图plot(cbind("forecast" = forecast_log_prices,     main = "对数价格预测", legend.loc = "topleft") 点击题目查阅往期内容 GARCH-DCC模型和DCC(MVT)建模预计 左右滑动查看更多 01 02 03 04 ...

May 6, 2023 · 2 min · jiezi

关于数据挖掘:R语言kShape时间序列聚类方法对股票价格时间序列聚类附代码数据

原文链接 :http://tecdat.cn/?p=3726最近咱们被客户要求撰写对于工夫序列聚类的钻研报告,包含一些图形和统计输入。 本文咱们将应用k-Shape工夫序列聚类办法查看与咱们有业务关系的公司的股票收益率的工夫序列 企业对企业交易和股票价格在本钻研中,咱们将钻研具备交易关系的公司的价格变化率的工夫序列的相似性。 因为特定客户的销售额与供应商公司的销售额之比拟大,当客户公司的股票价格发生变化时,对供应商公司股票价格的反馈被认为更大。  k-Shapek-Shape [Paparrizos和Gravano,2015]是一种关注工夫序列形态的工夫序列聚类办法。在咱们进入k-Shape之前,让咱们谈谈工夫序列的不变性和罕用工夫序列之间的间隔测度。 工夫序列间隔测度欧几里德间隔(ED)和_动静工夫_规整(DTW)通常用作间隔测量值,用于工夫序列之间的比拟。 两个工夫序列x =(x1,...,xm)和y =(y1,...,ym)的ED如下。 DTW是ED的扩大,容许部分和非线性对齐。 k-Shape提出称为基于形态的间隔(SBD)的间隔。 k-Shape算法k-Shape聚类侧重于归一化和移位的不变性。k-Shape有两个次要特色:基于形态的间隔(SBD)和工夫序列形态提取。 SBD相互关是在信号处理畛域中常常应用的度量。应用FFT(+)代替DFT来进步计算效率。 归一化相互关(系数归一化)NCCc是相互关系列除以单个系列自相干的几何平均值。检测NCCc最大的地位。 SBD取0到2之间的值,两个工夫序列越靠近0就越类似。 形态提取通过SBD找到工夫序列聚类的质心向量 。 k-Shape的整个算法如下。 k-Shape通过像k-means这样的迭代过程为每个工夫序列调配聚类簇。 将每个工夫序列与每个聚类的质心向量进行比拟,并将其调配给最近的质心向量的聚类更新群集质心向量反复上述步骤1和2,直到集群成员中没有产生更改或迭代次数达到最大值。 R 语言k-Shape> start <- "2014-01-01"> df_7974 %>%+     filter(date > as.Date(start))# A tibble: 1,222 x 10   date        open  high   low close   volume close_adj change rate_of_change  code                                  1 2014-01-06 14000 14330 13920 14320  1013000     14320    310       0.0221    7974 2 2014-01-07 14200 14380 14060 14310   887900     14310    -10      -0.000698  7974 3 2014-01-08 14380 16050 14380 15850  3030500     15850   1540       0.108     7974 4 2014-01-09 15520 15530 15140 15420  1817400     15420   -430      -0.0271    7974 5 2014-01-10 15310 16150 15230 16080  2124100     16080    660       0.0428    7974 6 2014-01-14 15410 15755 15370 15500  1462200     15500   -580      -0.0361    7974 7 2014-01-15 15750 15880 15265 15360  1186800     15360   -140      -0.00903   7974 8 2014-01-16 15165 15410 14940 15060  1606600     15060   -300      -0.0195    7974 9 2014-01-17 15100 15270 14575 14645  1612600     14645   -415      -0.0276    797410 2014-01-20 11945 13800 11935 13745 10731500     13745   -9缺失度量用前一个工作日的值补充。(K-Shape容许一些偏差,但以防万一) 每种股票的股票价格和股票价格变化率。 点击题目查阅往期内容 对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 左右滑动查看更多 01 02 03 04 将zscore作为“preproc”,“sbd”作为间隔,以及centroid =“shape”,k-Shape聚类后果如下。 > df_res %>%+     arrange(cluster)  cluster centroid_dist code           name1       1     0.1897561 1928     積水ハウス2       1     0.2196533 6479 ミネベアミツミ3       1     0.1481051 8411         みずほ4       2     0.3468301 6658 シライ電子工業5       2     0.2158674 6804       ホシデン6       2     0.2372485 7974         任天堂Nintendo,Hosiden和Siray Electronics Industries被调配到同一个集群。Hosiden在2016年对任天堂的销售比例为50.5%,这表明公司之间的业务关系也会影响股价的变动。 另一方面,MinebeaMitsumi成为另一个集群,然而在2017年Mitsumi与2017年的Minebea合并, 没有应答2016年7月Pokemon Go公布时股价飙升的影响 。 如果您有任何疑难,请在上面发表评论。  本文摘选 《 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 K-means和档次聚类分析癌细胞系微阵列数据和树状图可视化比拟 KMEANS均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化剖析和抉择最佳聚类数 PYTHON实现谱聚类算法和扭转聚类簇数后果可视化比拟 无限混合模型聚类FMM、狭义线性回归模型GLM混合利用剖析威士忌市场和钻研专利申请数据 R语言多维数据档次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据 r语言无限正态混合模型EM算法的分层聚类、分类和密度估计及可视化 Python Monte Carlo K-Means聚类实战钻研 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 R语言谱聚类、K-MEANS聚类分析非线性环状数据比拟 R语言实现k-means聚类优化的分层抽样(Stratified Sampling)剖析各市镇的人口 R语言聚类有效性:确定最优聚类数剖析IRIS鸢尾花数据和可视化Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言k-means聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花iris数据集 R语言无限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发工夫 R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化 R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类 R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析 R语言简单网络分析:聚类(社区检测)和可视化 R语言中的划分聚类模型 基于模型的聚类和R语言中的高斯混合模型 r语言聚类分析:k-means和档次聚类 SAS用K-Means 聚类最优k值的选取和剖析 用R语言进行网站评论文本开掘聚类 基于LDA主题模型聚类的商品评论文本开掘 R语言鸢尾花iris数据集的档次聚类分析 R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归 R语言聚类算法的利用实例 ...

May 6, 2023 · 1 min · jiezi

关于数据挖掘:R语言文本挖掘kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

全文链接:http://tecdat.cn/?p=32307原文出处:拓端数据部落公众号互联网时代,大量的新闻信息、网络交互、舆情信息以文本模式存储在数据库中,如何利用数据分析和文本开掘的算法,将海量文本的价值开掘进去,成为咱们团队近期的一个钻研方向,本案例就是咱们的一个尝试。 文本聚类其实也就是聚类分析在文本方向上的利用,首先咱们要把一个个文档的自然语言转换成数学信息,这样造成高维空间点之后再去计算点与点之间的间隔,而后将这些间隔比拟近的聚成一个簇,这些簇的核心成为簇心。而咱们做的就是保障簇内点的间隔足够近,簇与簇的间隔足够远。 本文将通过R语言帮忙客户来实现文本开掘、聚类和词云可视化技术,体验一下舆情剖析的魅力。 原始评论数据本文获取上海玛雅水公园景区评论数据共计1692条数据: 读取数据 pinglun=read.xlsx("玛雅景区数据5.8.xlsx")文本预处理res=pinglun1[pinglun1!=" "]; #剔除通用题目 # res=gsub(pattern="[專賣店【未拆封順豐】|<b>|</b>]+"," ",res); #剔除非凡词 res=gsub(pattern="[我|你|的|了|是]"," ",res); #清理文本里的回车!否则每个回车就会被辨认成一段文本res=gsub("\n","",res)分词+频数统计words=unlist(lapply(X=res, FUN=segmentCN)); 过滤掉1个字和词频小于100的记录d=subset(d, nchar(as.character(d$word))>1 & d$freq>=100) 输入关键词后果 write.table(d, file="/worldcup_keyword.txt", row.names=FALSE) 绘制词汇图wordcloud(d$word,d$freq,random.order=FALS kmeans聚类局部转换成评估矩阵 rating=matrix(0,length(res1),dim(d)[1])#生成评估矩阵for(i in 1:length(res1)){ words=unlist(lapply(X=res1[i], FUN=segmentCN));#对每一条记录剖析取得词频 #输入评估矩阵###############################write.table(rating, file="评估矩阵.txt", row.names=FALSE) 对评估矩阵进行k均值聚类kmeans(rating,5)#对评估矩阵进行k均值聚类词云可视化#第一个类别################################mycolors <- brewer.pal(8,"Dark2")#设置一个色彩系:wordcloud(colnames(result)[-c(115,116)],freq1[ 第二个类别wordcloud(colnames(result)[-c(115,116)],f 第三个类别wordcloud(colnames(result)[-c(115,116)],freq3[-c( 1.被提及了哪些维度第一个维度是指开心好玩,能够认为是景点的可玩性水平。 第二个维度是 排队的关键词 另外蕴含工夫,因而能够认为是景点的秩序问题 第三个维度是我的项目 公园 喇叭 寒带 漂流等关键词,能够认为是景点的玩耍我的项目维度. 2.各维度关注度如何(即被提及的频率)#第一类的关注度 可玩性水平。guanzhu1=length(which(result$kmeansmod.cluster==1))#第二类的关注度 景点的秩序问题guanzhu2=length(which(result$kmeansmod.cluster==4))#第三类的关注度 玩耍我的项目维度guanzhu3=length(which(result$kmeansmod.cluster==3))3.各维度的满意度指数#第一类的满意度指数 可玩性水平。manyi1=sum(na.omit(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==1)]))#第二类的满意度指数 景点的秩序问题manyi2=sum(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==4)]) #第三类的满意度指数 玩耍我的项目维度manyi3=sum(result$pinglun.星级.1.nrow.rating.. [which(result$kmeansmod.cluster==3)])4.三张图:各维度关注度,各维度满意度,词云colnames(manyi)=c("可玩性水平","景点的秩序问题","玩耍我的项目维度")barplot(manyi,ylab="满意度") 最受欢迎的见解 1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组 2.R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 3.r语言文本开掘tf-idf主题建模,情感剖析n-gram建模钻研 4.游记数据感知游览目的地形象 5.疫情下的新闻数据察看 6.python主题lda建模和t-sne可视化 7.r语言中对文本数据进行主题模型topic-modeling剖析 ...

May 6, 2023 · 1 min · jiezi

关于数据挖掘:R语言决策树随机森林逻辑回归临床决策分析NIPPV疗效和交叉验证

全文链接:http://tecdat.cn/?p=32295原文出处:拓端数据部落公众号临床决策(clinical decision making)是医务人员在临床实践过程中,依据国内外医学科研的最新进展,一直提出新计划,与传统计划进行比拟后,取其最优者付诸实施,从而进步疾病诊治程度的过程。 在临床医疗实际中,许多事件的产生是随机的,对个体患者来说医治措施的疗效、远期预后经常是不确定的和不可精确预测的,到底何种抉择最好很难简略做出决定。 本文帮忙客户进行决策分析NIPPV疗效数据,在充沛评估不同计划的危险及利益之后举荐一个最佳的计划,最大限度地保障患者权利,缩小临床实践及卫生决策失误。 决策树剖析步骤 决策树分析法是通过决策树图形展现临床重要事件的可能倒退过程及终局,比拟各种备选计划的预期后果从而进行择优决策的办法。决策树分析法通常有6个步骤。 明确决策问题,确定备选计划 对欲解决的问题有分明的界定,应列出所有可能的备选计划。在决策树上决策的抉择利用决策结来代表,通常用方框示意,每个备选计划用从方框引出的臂示意,示意最终决策后果的决策结总是放在决策树的最左端。 用树形图展现决策事件决策 树的画法是从左至右,可能产生的最终终局总是放在决策树最右端,用小三角形示意,称为终局结。每一种终局都是一系列机会事件按工夫程序天然倒退的后果,在决策树上这种事件,用圆圈符号示意,称为机会结。每一个机会事件的间接终局用与圆圈联结的臂示意,不同机会结从左至右的程序是事件产生的时相关系的反映。一个机会结能够有多个间接终局,从每个机会结引出的终局必须是独立、互不容纳的状态。 表明各种事件可能呈现的概率 每一种事件呈现的可能性用概率示意,个别应从品质牢靠的文献中查找并联合专家的临床经验及本单位状况进行揣测。从每一个事件产生的各种后续事件的可能性遵从概率论的加法定律,即每一个机会结收回的间接终局的各臂概率之和必须为1.0。 对最终终局赋值 可用效用值为最终终局赋值,效用值是对患者衰弱状态偏好水平的测量,通常利用0~1的数字示意,最好的衰弱状态为1,死亡为0。有时能够用寿命年、品质调整寿命年示意。 计算每一种备选计划的期望值 计算备选计划期望值的办法是从“树尖”开始向“树根”的方向(从右向左)进行计算,效用值与其产生概率的乘积即是冀望效用值,每个机会结的冀望效用值为该机会结所有可能事件的冀望效用值之总和。在决策树中如果有次级决策结时,与机会结冀望效用值的计算方法不同,只能抉择可提供最大冀望效用值的决策臂,而疏忽其余臂。最初,抉择期望值最高的备选计划为决策计划。 对论断进行敏感性剖析 因为临床实践中的事件产生概率值及衰弱状态的效用值等都可能在肯定范畴内变动,须要进行敏感性剖析。敏感性剖析要答复的问题是:当概率及终局效用值等在一个正当的范畴内变动时,决策分析的论断方向会扭转吗?敏感性剖析的目标是测试决策分析论断的稳定性。 NIPPV疗效数据 剔除缺失数据datanew=**na.omit**(datanew)建设决策树:疗效datanew.train1=datanew.train[train2,] datanew.train2=datanew.train[-train2,]剪枝CARTmodel1 = **rpart**( (疗效) ~. **printcp**(CARTmodel1) 不剪枝 输入决策树cp值 依据cp值对决策树进行剪枝able[**which.min**(CARTmodel$c**prune**(CARTmodel, cp= C 对数据进行预测 失去训练集混同矩阵准确度和MSE#########################################准确度 **sum**(**diag**(tab))/**sum**(tab)## [1] 0.7755102###############################################MSE############## MSE=function(y,pred)**sqrt**(**mean**(**as.numeric**(y)-**as.numeric**(pred))^2) **MSE**(tree.pred,datanew.test$疗效)## [1] 0.06122449用predict的算下错率 预测分类号 输入后果到excel**brules.table**(CARTmodel2)[,**c**("Subrule","Variable","Value")] 变量重要水平 随机森林 变量重要水平**importance**(rf) **plot**(d,center=TRUE,leaflab= 混同矩阵  ###########################################准确率 **sum**(**diag**(tab))/**sum**(tab)## [1] 0.8163265*# [1] 0.7755102* ###############################################MSE############## **MSE**(**predict**(rf,datanew.test),datanew.test$疗效)## [1] 0.02040816预测分类号 逻辑回归模型M2 <- **glm**(formula = 疗效 ~ .,fami迭代回归之前的回归模型参数 迭代回归后的模型参数 逻辑回归预测 #########################################准确度 **sum**(**diag**(tab))/**sum**(tab)## [1] 0.7755102##############################################预测分类号 pred##   2   3   9  13  14  15  17  22  23  26  29  30  32  35  38  39  42  44 ##   1   1   1   1   1   1   1   1   1   2   1   1   2   2   1   1   1   2 ##  52  53  56  57  60  61  63  64  66  68  69  79  83  87  88  92  94  99 ##   1   2   1   1   1   2   1   1   2   1   1   2   1   2   2   1   2   1 ## 102 105 106 108 109 112 113 118 123 134 139 140 143 ##   2   2   2   2   2   2   1   1   1   2   2   2   1穿插验证决策树穿插验证cv.model=**cv.tree**(cpus.ltr, , prune.tree,K =10) best.size <- cv.model$size[**which**(cv.model$dev==**min**(cv.model$dev))] *# wh* ...

May 5, 2023 · 1 min · jiezi

关于数据挖掘:R语言改进Apriori关联规则挖掘研究西安PM25含量与天气因素关系数据可视化

全文链接:http://tecdat.cn/?p=32284原文出处:拓端数据部落公众号随着社会的倒退,大数据(big data)一词越来越多地被提及,人们用它来形容和定义信息爆炸时代产生的海量数据,并命名与之相干的技术倒退与翻新。而大数据的意义并不在“大”,而在于“有用”。价值含量、开掘老本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为博得竞争的要害。 关联剖析又称关联开掘,就是在交易数据、关系数据或其余信息载体中,查找存在于我的项目汇合或对象汇合之间的频繁模式、关联、相关性或因果构造。或者说,关联剖析是发现交易数据库中不同商品(项)之间的分割。关联剖析是一个很有用的数据挖掘模型,可能帮忙企业、政府做很多有用的决策,而“基于大数据的天气状况钻研”目标是通过应用数据挖掘办法对某区域某段时间的天气情况和细颗粒物净化情况进行了剖析,钻研了细颗粒物净化水平与天气状况的关系,可视化出现了地区天气温度等的变化趋势,最初得出对民众生存具备参考价值的论断。 大数据时代,气象服务在一直地拓宽畛域,2012 年 12 月,绿色战争与北京大学公共卫生学院独特公布的 《 PM2.5 的衰弱危害和经济损失评估钻研》指出:PM2.5净化对公众衰弱有致命危害。中国对 PM2.5 的浓度监测刚刚起步,对于 PM2.5 的起源、如何治理 PM2.5 的探讨也刚刚开始,PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因而通过剖析天气因素与 PM2.5 值的相关性,能够更好的理解以及管制 PM2.5 净化情况。 在这些美妙蓝图的背地,数据分析、数据挖掘技术失去了充沛的关注和钻研。但在现在的大数据背景下,海量数据只有在被正当采集、解读与表白之后能力完满展示它们的绮丽与深奥,而可视化则无疑是让数据变的亲切和便于了解的最无效的路径。只有在了解了数据可视化概念的实质之后,能力通过对其原理和办法进行钻研和正当使用,获取数据背地隐含的价值。 在天气状况状况钻研 的利用和钻研现状随着寰球工业化过程的一直减速,工业污染日趋严重,各地气象灾祸频发,因而迫切需要对各类气象数据进行采集、解决和剖析,对气象灾祸进行预测和预警,缩小经济损失。大数据技术的倒退,使得解决海量、分布式的气象数据成为可能。国内硕士博士都进行着相干实践钻研。 # 工作概述 指标PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因而通过剖析天气与PM2.5值的相关性,能够更好的理解 PM2.5净化情况。 在钻研 PM2.5 含量与天气因素关系时采纳了西安PM值与天气状况作为样本,通过应用数据挖掘软件R对上述取得的数据进行预处理、可视化剖析,从而失去对于天气状况和PM2.5值的关系剖析。 用户特点 该平台利用西安地区天气状况数据,尤其是PM值与天气因素的相关性,因而其次要用户为一般市民大众。PM2.5是指大气中直径小于或等于2.5微米的颗粒物,PM2.5被吸入人体后易引发包含哮喘、支气管炎和心血管病等方面的疾病。因而利用大数据来钻研天气因素与PM2.5值的相关性以及温度走向,能够更好的服务普通群众,给大众的生存和出行带来不便。   假设和束缚为了得出PM2.5与天气状况(气温、风力风向等)的相关性剖析后果。首先要取得西安地区六个月的PM2.5数值与天气状况(气温、风力风向等)的数据.在失去数据之后,将数据导入到 R软件中,实现数据的预处理和可视化后,采纳 Apriori 算法对数据进行关联规定剖析。为了将问题进一步简化,现作如下假如: 1、所查的数据均真实有效; 2、检测到的数据均为天气预报数据,疏忽当天天气的变动; 关联剖析在钻研PM2.5含量与天气因素关系时采纳了西安的PM值与天气因素作为样本。通过应用数据挖掘软件 R 对上述取得的数据进行解决从而失去对于天气状况和 PM2.5 值的关系剖析。在本次钻研中,釆用了气温、天气情况( 晴天,多云,阴天,雾天,小雪,雪天,雾霾,小雨,雨天)和风向 ( 东风,东风,南风,北风,大风)作为选取的天气因素,将其与 PM2.5(以空气污染指数代替,分为优良,良好,轻微净化,轻度净化,中度净化,重度净化)一起作为数据挖掘对象。 原始数据 读取数据x=**read.xlsx**("西安近6个月天气情况数据源.xlsx" )查看数据**head**(x) 查看数据概述 **summary**(x) 改良算法CRAprioriCRApriori=function(support,confidence){ for(i in 1:2){ (minlen=i,support=saxlen=i)) **inspect**(frequentsets) *#查看i项频繁项集* *#这里如果反对度选的比拟大,兴许没有10这么多,这里就不能写[1:10].* **inspect**(**sort**(frequentsets,by="support")[1:10]) *#排序后查看* *#多选几次反对度阈值,更好的发现频繁模式。* fqout=**capture.output**(**inspect**(frequentsets)) *#取得i项频繁项集* for(ii in 1:**length**(data)){   data[[ii]]=**intersect**(data[[ii]],fq3) *#使用改良算法CRApriori删除事务集中不包含候选项集Ci即频繁i-1项集L(i-1),* }parameter = **list**(sup,                                   target = "rules") )查看模型后果关联规定概述 ...

May 5, 2023 · 1 min · jiezi

关于数据挖掘:论存储在智算与超算平台建设中的重要性

日前,科技部启动“人工智能驱动的科学研究”专项部署工作,将推动面向重大迷信问题的人工智能模型和算法翻新,放慢推动国家新一代人工智能公共算力凋谢翻新平台建设,反对高性能计算中心与智算核心异构交融倒退,激励绿色能源和低碳化,推动软硬件计算技术升级。 各个领域产业化正在经验粗浅改革,“数字化”、“智能化”正在成为社会倒退无效推动力,包含近来 AGI 畛域的 GPT-4,已成为世界各国发力的一个方向,如同互联网浪潮个别迅猛。 本篇文章基于上述背景,帮忙大家理解存储在智算和超算平台建设中的重要性。首先,咱们一起理解智算与超算平台各自钻研的方向及利用场景所笼罩的范畴,在此基础上,剖析两个平台数据在各维度的复杂度。进而更好的理解在智算 + 超算交融驱动模式下,该如何构建计算·存储·网络一体的 IT 基础设施。 智算和超算钻研方向及市场规模智算核心:全称是人工智能计算中心,是基于最新人工智能实践,采纳当先的人工智能计算架构,提供人工智能利用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和开释,高效撑持数据凋谢共享、智能生态建设、 产业翻新汇集,无力促成 AI 产业化、产业 AI 化及政府治理智能化。智算核心以多种异构形式独特倒退的 AI 服务器算力机组为算力底座,一直晋升智能计算能力和速度,满足人工智能利用场景下大规模、多线并行的计算需要,为各行业各畛域人工智能利用提供稳固的技术撑持,打造可继续倒退的算力生态。企业和钻研机构能够依靠智算核心提供的弱小算力,驱动 AI 模型进行数据深度加工,实现 AI 利用翻新。 随着人工智能技术的高速倒退,智能化正以前所未有的速度重塑各行各业,我国算力构造也随之一直演变,对智能算力的需要一劳永逸。5G、工业互联网、物联网、 人工智能等信息技术减速倒退带动数据量爆炸式增长。《 2022-2023 中国人工智能计算力倒退评估报告》 数据显示,2021 年中国智能算力规模达 155.2 EFLOPS(FP16), 预计到 2026 年中国智能算力规模将达到 1,271.4 EFLOPS。2021-2026 年期间,预计中国智能算力规模年复合增长率达 52.3%,同期通用算力规模年复合增长率为 18.5%。一个智算核心能够同时撑持的产业场景很多,例如智能汽车、智慧医疗、智慧城市、智慧交通、智能制作等。 我国智能算力倒退状况 超级计算:也称之为高性能计算(HPC,High Performance Computing),利用并行工作的多台计算机零碎的集中式计算资源,解决极其简单或数据密集型的问题。超级计算具备极强的计算能力,其浮点运算速度可能达到千万亿次每秒。超级计算作为国家科技倒退的重要制高点之一不仅是国家的科技实力的体现,更是国家高精尖技术倒退的重要保障。 在科技的赋能下,越来越多的企业服务场景将面临显著的高性能计算服务需要,超算服务将在社会经济、科技倒退的带动下,进入新的蓬勃发展期。预计 2025 年中国超算服务市场规模将达到 466 亿元,2021-2025 年复合增速无望达到 24%。高性能计算是撑持国防、生物、能源、自然科学等高科技行业倒退的松软底座。推动超算建设是打造我国算力底座的必经之路。随着算法获得冲破、数据量指数增长、诸多高科技畛域疾速倒退,社会对超算算力的需要一直晋升。 超算工作中往往随同着大量数据产生,剖析和使用这些数据就是各个领域应用超算的目标,超算通过剖析这些数据来理解试验后果。超算行业利用算力资源解决来自用户的海量数据,波及数据回收与剖析、数据模仿等多个环节。传统超算行业的服务场景围绕气象陆地、地质勘探、工业仿真、物理模仿等畛域,服务对象次要为高等院校、科研院所主导的科技工程项目等。 综上总结为,智算和超算作为计算畛域倒退的两个重要方向,两者互相补充,协同倒退。超算核心并重高性能计算,定位在国家大工程、大迷信的问题求解,专一于大规模科学计算。超算核心对晋升整体科研翻新实力和重大工程计算能力具备重要意义。智算核心并重人工智能的算法和模型翻新,定位于赋能千行百业,推动产业智能化,晋升生产效率和优化产业结构,将反对人工智能算法开发和大规模利用部署。 超算/智算平台数据各维度复杂度剖析超算场景如气象预测、能源勘探、卫星遥感等,随着观测尺度和精度的晋升,数据量将越来越大;而很多新增的超算场景,基因测序等 80% 以上是 PB 级的数据密集型场景,局部业务单文件数量达到 TB 级别。更大的数据量、更多的数据类型,都须要超算存储能够提供更大的带宽、更高的 IOPS、反对超大算力的拜访能力。 参加计算的数据量大幅增长随着超算业务深入,超算数据量同步增长,诸如气象预报、能源勘探、GIS 等利用的精度带来了数据量的快速增长;参加计算的数据类型更加丰盛,结构化数据、非结构化数据指数级增长,如基因测序等场景均需间接应用影像数据进行运算。 数据存储的并发反对少数超算场景为多任务、多并发计算,一些作业对带宽要求很高,另一些对 IOPS 要求高,多任务并发造成存储资源抢占,导致整体计算效率升高。 对可靠性有更高要求超算作为重型计算资源,且单任务消耗工夫较长,若中断,须要从新计算,工夫和资源老本都比拟高,所以在设计超算基础设施时须要思考尽可能晋升整体超算零碎的可靠性。 智算核心次要是面向人工智能利用的数据中心,就目前比拟成熟的自动化驾驶和 AGI 两个利用来剖析,AI 模型须要大量数据来学习,智能水平越高,学习的无效数据量越大也越简单。不论是自动化驾驶或者是 AGI,其根本业务原理类似,其数据处理流程蕴含:数据采集、数据荡涤、数据标注、模型训练、仿真。不同业务 AI 算法模型不同,但业务流程根本一样,所以在智算畛域,整体架构设计围绕着算法和根底计算存储资源开展。 ...

May 5, 2023 · 2 min · jiezi

关于数据挖掘:数据挖掘基于sarimax的时间序列预测问题

一.问题背景。题目链接企业外部环境不稳固,供应链问题面临较多难题。当初给定数据集,包含不同地区,各个工夫,销售价格和需求量的状况。让咱们去预测将来几个月的需求量的状况。第一问:(1) 产品的不同价格对需求量的影响; (2) 产品所在区域对需求量的影响,以及不同区域的产品需求量有何个性; (3) 不同销售形式(线上和线下)的产品需求量的个性; (4) 不同品类之间的产品需求量有何不同点和共同点; (5) 不同时间段(例如月头、月中、月末等)产品需求量有何个性; (6) 节假日对产品需求量的影响; (7) 促销(如618、双十一等)对产品需求量的影响; (8) 节令因素对产品需求量的影响。第二问:对附件预测数据(predict_sku1.csv)中给出的产品,预测将来3月(即2019年1月、2月、3月)的月需求量。并别离按天、周、月的工夫粒度进行预测,试剖析不同的预测粒度对预测精度会产生什么样的影响。 二.解题。间接说一下建模最重要的局部。首先这是一个工夫序列问题,依照题目要求,分为日粒度,周粒度和月粒度别离进行剖析,所以别离先对日周月进行预处理。 预处理和模型介绍包含非凡日期对需求量的影响,所以间接将节假日和促销节给剔除掉。第一问剖析,节令对产品的影响,发现节令它是呈周期性的法则变动的,所以是一个季节性工夫序列问题,那么咱们模型就采纳统计学上的sarimax算法,如果不是周期性的就采纳arima算法。arima就是arma算法中最经典的一种, 开始建模对sarimax算法进行建模的要保障两个条件。1.这个工夫序列是一个安稳序列。均值没有零碎的变动,方差没有零碎变动,那么就阐明是一个安稳的,才有法则可言,预测进去的后果才有意义。2.这个工夫序列是一个非白噪声序列。非白噪声就是纯随机序列,各序列之间没有关系,没有记忆。满足这两个条件剖析才有价值。如果不满足的话,就是进行一阶二阶差分,让它满足这两个条件,也就相当于提取出了序列的安稳且随机的数据。(细节就是,adf测验来测验平稳性)模型训练过程中,就是pdq这三个参数,p是节令自回归的阶数d节令差分的次数q是节令挪动均匀的阶数个别不会超过3.训练出最好的pdq。失去模型。 后处理最初做一个残差测验。因为,咱们对数据是假如他是满足正太散布的,做这个货色就保障咱们拟合是正确的。 最初先把泰迪杯的论文,数据留在桌面吧~到时候复盘。

May 3, 2023 · 1 min · jiezi

关于数据挖掘:Python语法基础快速回顾

文章和代码等曾经归档至【Github仓库:https://github.com/timerring/dive-into-AI 】或者公众号【AIShareLab】回复 python数据分析 也可获取。缩进倡议应用四个空格(tab)作为默认的缩进。 Python的语句不须要用分号结尾。然而,分号却能够用来给同在一行的语句切分: a = 5; b = 6; c = 7Python不倡议将多条语句放到一行,这会升高代码的可读性。 函数和对象办法调用你能够用圆括号调用函数,传递零个或几个参数,或者将返回值给一个变量: result = f(x, y, z)g()简直Python中的每个对象都有附加的函数,称作办法,能够用来拜访对象的内容。能够用上面的语句调用: obj.some_method(x, y, z)变量和参数传递在Python中,a和b实际上是同一个对象,即原有列表[1, 2, 3]。能够在a中增加一个元素,而后查看b: In [8]: a = [1, 2, 3]In [9]: b = aIn [10]: a.append(4)In [11]: bOut[11]: [1, 2, 3, 4] 赋值也被称作绑定,咱们是把一个名字绑定给一个对象。变量名有时可能被称为绑定变量。 当你将对象作为参数传递给函数时,新的局域变量创立了对原始对象的援用,而不是复制。 def append_element(some_list, element): some_list.append(element)In [27]: data = [1, 2, 3]In [28]: append_element(data, 4)In [29]: dataOut[29]: [1, 2, 3, 4]强类型变量是在非凡命名空间中的对象的名字,类型信息保留在对象本身中。一些人可能会说Python不是“类型化语言”。这是不正确的,看上面的例子: In [16]: '5' + 5---------------------------------------------------------------------------TypeError Traceback (most recent call last)<ipython-input-16-f9dbf5f0b234> in <module>()----> 1 '5' + 5TypeError: must be str, not int在某些语言中,例如Visual Basic,字符串‘5’可能被默认转换(或投射)为整数,因而会产生10。但在其它语言中,例如JavaScript,整数5会被投射成字符串,后果是联结字符串‘55’。在这个方面,Python被认为是强类型化语言,意味着每个对象都有明确的类型(或类),默认转换只会产生在特定的状况下,例如: ...

May 2, 2023 · 5 min · jiezi

关于数据挖掘:python用支持向量机回归SVR模型分析用电量预测电力消费附代码数据

全文链接:http://tecdat.cn/?p=23921最近咱们被客户要求撰写对于SVR的钻研报告,包含一些图形和统计输入。 本文形容了训练反对向量回归模型的过程,该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是一般工作日的用电量 对于反对向量机的疾速阐明反对向量机是机器学习的一种模式,可用于分类或回归。尽可能简略地说,反对向量机找到了划分两组数据的最佳直线或立体,或者在回归的状况下,找到了在容差范畴内形容趋势的最佳门路。 对于分类,该算法最大限度地缩小了对数据进行谬误分类的危险。 对于回归,该算法使回归模型在某个可承受的容差范畴内没有取得的数据点的危险最小化。 导入一些包和数据import pandas as pd # 对于数据分析,特地是工夫序列import numpy as np # 矩阵和线性代数的货色,相似MATLABfrom matplotlib import pyplot as plt # 绘图Scikit-learn是Python中的大型机器学习包之一。 from sklearn import svmfrom sklearn import cross_validationfrom sklearn import preprocessing as pre在此随机插入更好的数据可视化。 # 设置色彩graylight = '#d4d4d2'gray = '#737373'red = '#ff3700'我在这个模型中应用的数据是通过公寓中装置的智能电表中取得的。 USAGE "字段给出了该小时内的用电度数。 elec.head(3) Out[5]: 天气数据提取。 weather.head() 预处理合并电力和天气首先,咱们须要将电力数据和天气数据合并到一个数据框中,并去除无关的信息。 # 合并成一个Pandas数据框架 pd.merge(weather, elec,True, True)# 从数据框架中删除不必要的字段del elec['tempm'], elec['cost']# 将风速转换为单位 elec['wspdm'] * 0.62elec.head() fig = plt.figure(figsize=[14,8])elecweather['USAGE'].plot 我想将典型的工作日与周末、假日和在家工作的日子辨别开来。所以当初所有的失常工作日都是0,所有的假期、周末和在家工作的日子都是1。 点击题目查阅往期内容 【视频】R语言狭义相加模型(GAM)在电力负荷预测中的利用 左右滑动查看更多 01 02 03 04 分类变量:素日与周末/假期/在家工作日## 将周末和节假日设置为1,否则为0elecwea['Day'] = np.zeros# 周末elecwea['Atypical_Day'][(elecwea.index.dawe==5)|(elecwea.index.dawe==6)] = 1# 假期,在家工作日假期 = ['2014-01-01','2014-01-20']workhome = ['2014-01-21','2014-02-13','2014-03-03','2014-04-04']for i in range(len(holiday)):    elecwea['Day'][elecwea.index.date==np.datetime64(holidays[i])] = 1for i in range(len(workhome)):    elecwea['Day'][elecwea.index.date==np.datetime64(workhome[i]) ] = 1 elecwea.head(3) 更多的分类变量:一周中的一天,小时在这种状况下,一天中的每个小时是一个分类变量,而不是连续变量。做剖析时,须要对一天中的每一个小时进行 "是 "或 "否 "的对应。 # 为一天中的每个小时创立新的列,如果index.hour是该列对应的小时,则调配1,否则调配0for i in range(0,24):    elecweat[i] = np.zeros(len(elecweat['USAGE'))    elecweat[i][elecweat.index.hour==i] = 1    # 例子 3amelecweat[3][:6] 工夫序列:须要附加上以前的用电需要的历史窗口因为这是一个工夫序列,如果咱们想预测下一小时的能耗,训练数据中任何给定的X向量/Y指标对都应该提供以后小时的用电量(Y值,或指标)与前一小时(或过来多少小时)的天气数据和用量(X向量)。 # 在每个X向量中退出历史用量# 设置预测的提前小时数hours = 1# 设置历史应用小时数hourswin = 12for k in range(hours,hours+hourswin):        elec_weat['USAGE-%i'% k] = np.zero(len(elec_weat['USAGE'])        for i in range(hours+hourswi,len(elecweat['USAGE']))。)        for j in range(hours,hours+hourswin):                elec_weat['USAGE-%i'% j][i] = elec_weat['USAGE]i-j] 。        elec_weat.head(3) 分成训练期和测试期因为这是工夫序列数据,定义训练期和测试期更有意义,而不是随机的零星数据点。如果它不是一个工夫序列,咱们能够抉择一个随机的样本来拆散出一个测试集。 # 定义训练和测试期train_start = '18-jan-2014'(训练开始)。train_end = '24-march-2014'.test_start = '25-march-2014'(测试开始)。test_end = '31-march-2014'。# 分成训练集和测试集(仍在Pandas数据帧中)。xtrain = elec_and_weather[train_start:train_end]。del xtrain['US']del xtrain['time_end']ytrain = elec_and_weather['US'][train_start:train_end] 。将训练集输入成csv,看得更分明。 X_train_df.to_csv('training_set.csv') scikit-learn包接管的是Numpy数组,而不是Pandas DataFrames,所以咱们须要进行转换。 # 用于sklearn的Numpy数组X_train = np.array(X_train_df)标准化变量所有的变量都须要进行标准化。该算法不晓得每个变量的尺度是什么。换句话说,温度一栏中的73的值看起来会比前一小时的千瓦时使用量中的0.3占优势,因为理论值是如此不同。sklearn的预处理模块中的StandardScaler()将每个变量的平均值去除,并将其标准化为单位方差。当模型在按比例的数据上进行训练时,模型就会决定哪些变量更有影响力,而不是由任意的比例/数量级来事后决定这种影响力。 训练SVR模型将模型拟合训练数据! SVR_model = svm.SVR(kernel='rbf',C=100,gamma=.001).fit(X_train_scaled,y_train)print 'Testing R^2 =', round(SVR_model.score(X_test_scaled,y_test),3) 预测和测试计算下一小时的预测(预测!)咱们预留了一个测试数据集,所以咱们将应用所有的输出变量(适当的缩放)来预测 "Y "目标值(下一小时的使用率)。 # 应用SVR模型来计算预测的下一小时使用量 SVRpredict(X_test_scaled)# 把它放在Pandas数据框架中,以便于应用DataFrame(predict_y)绘制测试期间的理论和预测电力需要的工夫序列。 # 绘制预测值和理论值plt.plot(index,y_test_df,color='k')plt.plot(predictindex,predict_y) 从新取样的后果为每日千瓦时### 绘制测试期间的每日总千瓦时图y_test_barplotax.set_ylabel('每日总用电量(千瓦时)')# Pandas/Matplotlib的条形图将x轴转换为浮点,所以须要找回数据工夫ax.set_xticklabels([dt.strftime('%b %d') for dt in 误差测量以下是一些精度测量。 len(y_test_df) 均方根误差这实际上是模型的标准误差,其单位与预测变量(或这里的千瓦时)的单位雷同。 calcRMSE(predict_y, y_test_df) 均匀相对百分比误差用这种办法,计算每个预测值和理论值之间的相对百分比误差,并取其平均值;计量单位是百分比。如果不取绝对值,而模型中又没有什么偏差,你最终会失去靠近零的后果,这个办法就没有价值了。 ...

April 28, 2023 · 1 min · jiezi

关于数据挖掘:R语言MCMCMetropolisHastings采样用于回归的贝叶斯估计附代码数据

全文链接:http://tecdat.cn/?p=19664 最近咱们被客户要求撰写对于MCMC的钻研报告,包含一些图形和统计输入。 MCMC是从简单概率模型中采样的通用技术。 蒙特卡洛马尔可夫链Metropolis-Hastings算法问题如果须要计算有简单后验pdf p(| y)的随机变量的函数f()的平均值或期望值。 您可能须要计算后验概率分布p()的最大值。 解决期望值的一种办法是从p()绘制N个随机样本,当N足够大时,咱们能够通过以下公式迫近期望值或最大值 将雷同的策略利用于通过从p(| y)采样并取样本集中的最大值来找到argmaxp(| y)。 解决办法1.1间接模仿 1.2逆CDF 1.3回绝/承受抽样 如果咱们不晓得准确/标准化的pdf或非常复杂,则MCMC会派上用场。 马尔可夫链 为了模仿马尔可夫链,咱们必须制订一个 过渡核T(xi,xj)。过渡核是从状态xi迁徙到状态xj的概率。  马尔可夫链的收敛性意味着它具备安稳散布。马尔可夫链的统计散布是安稳的,那么它意味着散布不会随着工夫的推移而扭转。 Metropolis算法 对于一个Markov链是安稳的。基本上示意 处于状态x并转换为状态x'的概率必须等于处于状态x'并转换为状态x的概率 或者 办法是将转换分为两个子步骤;候选和承受回绝。 令q(x'| x)示意 候选密度,咱们能够应用概率 (x'| x)来调整q  。 候选散布 Q(X'| X)是给定的候选X的状态X'的条件概率, 和 承受散布 (x'| x)的条件概率承受候选的状态X'-X'。咱们设计了承受概率函数,以满足具体的均衡。 该 转移概率 能够写成: 插入上一个方程式,咱们有 Metropolis-Hastings算法 A的抉择遵循以下逻辑。 在q下从x到x'的转移太频繁了。因而,咱们应该抉择(x | x')=1。然而,为了满足 粗疏安稳,咱们有 下一步是抉择满足上述条件的承受。Metropolis-Hastings是一种常见的 抉择: 即,当接受度大于1时,咱们总是承受,而当接受度小于1时,咱们将相应地回绝。因而,Metropolis-Hastings算法蕴含以下内容: 初始化:随机抉择一个初始状态x;依据q(x'| x)随机抉择一个新状态x';3.承受依据(x'| x)的状态。如果不承受,则不会进行转移,因而无需更新任何内容。否则,转移为x'; 4.转移到2,直到生成T状态; 5.保留状态x,执行2。 原则上,咱们从散布P(x)提取保留的状态,因为步骤4保障它们是不相干的。必须依据候选散布等不同因素来抉择T的值。 重要的是,尚不分明应该应用哪种散布q(x'| x);必须针对以后的特定问题进行调整。 属性Metropolis-Hastings算法的一个乏味个性是它 仅取决于比率 是候选样本x'与先前样本xt之间的概率, 是两个方向(从xt到x',反之亦然)的候选密度之比。如果候选密度对称,则等于1。 马尔可夫链从任意初始值x0开始,并且算法运行屡次迭代,直到“初始状态”被“遗记”为止。这些被抛弃的样本称为预烧(burn-in)。其余的x可承受值集代表散布P(x)中的样本 Metropolis采样一个简略的Metropolis-Hastings采样让咱们看看从 伽玛散布 模仿任意形态和比例参数,应用具备Metropolis-Hastings采样算法。 上面给出了Metropolis-Hastings采样器的函数。该链初始化为零,并在每个阶段都倡议应用N(a / b,a /(b * b))个候选对象。 基于正态分布且均值和方差雷同gamma的Metropolis-Hastings独立采样 ...

April 28, 2023 · 3 min · jiezi

关于数据挖掘:SPSS用K均值聚类KMEANS决策树逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析附代码数据

原文下载链接:http://tecdat.cn/?p=27587最近咱们被客户要求撰写对于通勤出行的钻研报告,包含一些图形和统计输入。 某交通工程业余博士生想要钻研不同因素对通勤交通形式抉择的影响,对成都两个大型小区(高端和一般)居民别离进行了出行考察,各考察了300人 其中 Distance:居住地离下班地的间隔(公里) Pincome:集体年收入(万元) Hincome:家庭年收入(万元) Age:年龄 Gender:性别(0:女;1:男) Car:家庭领有汽车的数量 Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生) Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余) People:家里人口数量 Children:家里未成年人数量 Housing:屋宇领有类型(0:租房;1:买房) Area:屋宇居住面积(平方米) Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余) 然而小区的编号遗记记录下来。 工作: 判断每个变量时数值型变量还是分类型变量,数组型的计算其均值和方差,分类型的列出每类的频率。数值型变量为: Distance:居住地离下班地的间隔(公里) Pincome:集体年收入(万元) Hincome:家庭年收入(万元) Age:年龄 Car:家庭领有汽车的数量 People:家里人口数量 Children:家里未成年人数量 Area:屋宇居住面积(平方米) 点击题目查阅往期内容 R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析 左右滑动查看更多 01 02 03 04 分类型变量为: Gender:性别(0:女;1:男) Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生) Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余) Housing:屋宇领有类型(0:租房;1:买房) Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余) 分类型变量为: Gender:性别(0:女;1:男) Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生) Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余) Housing:屋宇领有类型(0:租房;1:买房) Mode:次要通勤出行形式(1:汽车;2:公共交通;3:电动自行车;4:其余) 判断每个受访者所在的小区。依据居住地间隔 ,咱们应用kmean聚类将样本分成2个类别,并保留后果到小区变量中。 后果如图所示。 聚类核心后果如下 每个样本的聚类信息:  剖析不同小区居民的均匀出行间隔、均匀家庭收入、年龄散布、性别散布、家庭人口数和受教育水平有什么区别吗? 从均值比拟的后果来来看,第1个类别的工作里小区工作间隔较短,第三个类别年龄较小,第一个小区家庭人口较大,教育程度第四个小区较低。 而后对不同聚类类别的数据进行独立样本t测验。 由上表中的后果:distance的sig>0.05,可知:distance无显著区别。 ...

April 28, 2023 · 1 min · jiezi

关于数据挖掘:Python用RNN神经网络LSTMGRU回归和ARIMA对COVID19新冠疫情人数时间序列预测附代码数据

全文下载链接: http://tecdat.cn/?p=27042最近咱们被客户要求撰写对于新冠疫情的钻研报告,包含一些图形和统计输入。 在本文中,该数据依据世界各国提供的新病例数据提供。 获取工夫序列数据df=pd.read_csv("C://global.csv")摸索数据此表中的数据以累积的模式出现,为了找出每天的新病例,咱们须要减去这些值 df.head(10) 这些数据是依据国家和地区报告新病例的数据,但咱们只想预测国家的新病例,因而咱们应用 groupby 依据国家对它们进行分组 总结数据执行 groupby 以依据一个国家的新病例来汇总数据,而不是依据地区 d1=df.groupby(['Country/Region']).sum() 形容随机抉择的国家的累计新病例增长from numpy.random import seed    plt.plot(F[i], label = RD[i])    plt.show() # 咱们不须要前两列d1=d1.iloc[:,2:] # # 查看是否有空值d1.isnull().sum().any() 咱们能够对每个国家进行预测,也能够对所有国家进行预测,这次咱们对所有国家进行预测 dlycnmdcas.head() dalycnfreces.indexdal_cnre_ces.index = pd.to_datetime(dailyonfrmd_as.index) 点击题目查阅往期内容 联合新冠疫情COVID-19股票价格预测:ARIMA,KNN和神经网络工夫序列剖析 左右滑动查看更多 01 02 03 04 plt.plot(dalnimedases) ne_ces = daiy_onme_as.diff().dropna().astype(np.int64)newcaes plt.plot(ne_s[1:]) nw_s.shape(153,)将数据拆分为训练和测试数据ct=0.75trin_aa,tet_aa = train_test_split(ne_ces, pct)(116,)``````plt.plot(tainta)plt.plot(tesata) 数据标准化scaler = MinMaxScaler()testa.shape(38, 1)创立序列lentTe = len(ts_data)for i in range(timmp, lenhTe):    X_st.append(tst_aa[i-tmStap:i])    y_tt.append(tesata[i])X_tet=np.array(X_ts)ytes=np.array(y_tt)X_st.shape Xtrn.shape #  序列的样本 X_trn[0], yran[0] 为股票价格预测设计 RNN 模型模型: LSTMGRUmodel.summary() model.fit(X_trn y_rin, epochs=50, batch_size=200) yprd = (mod.predict(X_test))MSE = mean_squared_error(ytue, y_rd)plt.figure(figsize=(14,6)) meRU= Sqtal([                keras.layers.GRU(model_GRU.fit(Xtrn, ytin,epochs=50,batch_size=150) pe_rut = {}y_ue = (y_et.reshape(-1,1))y_prd = (modlGU.predict(X_test))MSE = mean_squared_error(y_ue, ed) 用于预测新病例的机器学习算法筹备数据 d__in.shape moel=LinearRegression(nos=-2) ARIMACOVID-19 新病例预测的自回归综合挪动平均线 #咱们不须要前两列df1.head()daly_nfrd_cses = df1.sum(axis=0)day_cnir_ase.index = pd.to_datetime(da_onieses.index)new_cs = dacofmecss.diff().dropna().astype(np.int64)tri_ta,tet_ata = trintt_it(nw_es, pct) ero = men_squred_eror(ts_ar, pricos) plt.figure(figsize=(12,7))plt.plot(tanat) 点击文末 “浏览原文” 获取全文残缺材料。 ...

April 28, 2023 · 1 min · jiezi

关于数据挖掘:通过可视化一文看懂-Kaggle-鸟声识别-竞赛

通过可视化一文看懂 Kaggle-鸟声辨认比赛EDA|可视化+ 音频摸索 本文转载自Kaggle论坛BURHANUDDIN LATSAHEB 引言笔记本概述:1.对不同鸟类声音及其不同特色进行宽泛的EDA 2.指标是通过声音应用机器学习来辨认东非鸟类。BirdCLEF 2023 比赛简介: 鸟类不仅是迷人的生物,而且是一个环境衰弱的重要指标。BirdCLEF 2023 比赛,由 Kaggle 主办,旨在通过声音推动鸟类辨认畛域的钻研和翻新。 在这个比赛中,参赛者将面临一个挑战,须要开发能够精确辨认音频录音中的鸟类的算法。数据集包含来自世界各地的超过 100 万个音频录音,总时长超过 1000 小时。每个录音都用相应的鸟类进行了标记,参赛者的工作是开发一个机器学习模型,能够精确地对新的、未知的录音进行物种分类。 BirdCLEF 2023 比赛为钻研人员和数据科学家提供了一个独特的机会,推动生物声学畛域的倒退,为世界各地的鸟类种群爱护做出奉献。无论您是一位经验丰富的机器学习从业者还是刚刚起步的人,这个较量都将为您带来具备挑战性和丰富回报的机会。 EDA 察看训练元数据: 在训练元数据中,总共有 12 列和 16941 行。训练数据蕴含 16941 个值,其中 454(0.2%)为缺失值。总共有 12 列:3 数字,9 分类训练元数据中有 454 个缺失值。 1.1 训练元数据信息 训练数据集的进一步察看 纬度和经度有 227(1.34%)个缺失值经度填充和评级略有偏差次要标签,主要标签,类型,迷信名称,通用名称,作者,文件名具备高偏心性 1.2 交互式地图图1.2.1 散点图 1.2.2 Map Box(凋谢街景图) 1.2.3 Map Box(地形视图) 1.3 EBird 分类法 音频勘探音频文件:音频文件是一种数字文件格式,用于存储录制的声音或音乐。它能够通过扬声器或耳机播放,并罕用于各种利用,如音乐、电影、电视、播送等多种媒体模式。音频文件有很多不同的格局,如 MP3、WAV、OGG、AAC 和 FLAC。 如何可视化音频文件?? 咱们能够用许多不同的形式在二维空间中查看音频,如: 波形:在音频解决中,波形是声音信号的图形示意,显示信号随着工夫的变动。它是一个绘制了声波振幅在 y 轴和工夫在 x 轴的图表。波形可用于可视化和剖析音频信号的属性,如频率、振幅、相位和持续时间。 ...

April 27, 2023 · 1 min · jiezi

关于数据挖掘:R语言LeeCarter模型对年死亡率建模预测预期寿命附代码数据

原文链接:http://tecdat.cn/?p=17347最近咱们被客户要求撰写对于Lee-Carter模型的钻研报告,包含一些图形和统计输入。 昨天上午,咱们取得了分娩产妇的平均年龄两个图表,依据孩子的出世程序排序,区间是1905-1965年 而后是1960-2000年: 点击题目查阅往期内容 R语言散布滞后非线性模型(DLNM)钻研发病率,死亡率和空气污染示例 左右滑动查看更多 01 02 03 04   这些图形令人兴奋,特地是在过来30年中察看到的增长方面,这使我想到了寿命的增长趋势。咱们能够找到其余乏味的数据(在这种状况下为均匀 出世年龄 )。 > age$Age=as.character(age$AGE)> age$AGE=as.numeric(substr(age$Age,1,2))++ as.numeric(substr(age$Age,4,4))/10> plot(age$ANNEE+.5,age$AGE,+ type="l",lwd=2,col="blue")咱们在下面的图中发现深蓝色的曲线,   获取祖母的平均年龄,咱们进一步剖析 > tail(age) AGE Age NAIS.MERE NAIS.GRD.MERE age.GRD.MERE2000 2000 30.3 30,3 1970.2 1942.87 57.632001 2001 30.4 30,4 1971.1 1943.80 57.702002 2002 30.4 30,4 1972.1 1944.92 57.582003 2003 30.5 30,5 1973.0 1945.95 57.552004 2004 30.5 30,5 1974.0 1947.05 57.452005 2005 30.6 30,6 1974.9 1948.04 57.46> plot(age$ANNEE+.5,age$age.GRD.MERE,+ type="l",lwd=2,col="red")再一次,咱们能够形象地看到外婆的出世年龄 ...

April 26, 2023 · 1 min · jiezi

关于数据挖掘:多元时间序列滚动预测ARIMA回归ARIMAX模型分析附代码数据

原文链接:http://tecdat.cn/?p=22849最近咱们被客户要求撰写对于多元工夫序列滚动预测的钻研报告,包含一些图形和统计输入。 当须要为数据抉择最合适的预测模型或办法时,预测者通常将可用的样本分成两局部:内样本(又称 "训练集")和保留样本(或外样本,或 "测试集")。而后,在样本中预计模型,并应用一些误差指标来评估其预测性能。 如果这样的程序只做一次,那么这被称为 "固定原点 "评估。然而,工夫序列可能蕴含离群值,一个差的模型可能比更适合的模型体现得更好。为了增强对模型的评估,咱们应用了一种叫做 "滚动原点 "的办法。 滚动原点是一种预测办法,依据这种办法,预测原点被间断更新,预测是由每个原点产生的(Tashman 2000)。这种办法容许取得几个工夫序列的预测误差,从而更好地理解模型的体现。 相干视频:Python和R语言应用指数加权均匀(EWMA),ARIMA自回归挪动均匀模型预测工夫序列 如何实现呢?下图形容了滚动原点的根本思维。红色单元格对应的是样本内数据,而浅灰色单元格对应的是前三步的预测。该图中工夫序列有25个观测值,预测从8个原点开始产生,从原点15开始。模型在每次迭代中都被从新预计,并产生预测后果。之后,在系列的开端减少一个新的观测值,这个过程持续进行。当没有更多的数据须要增加时,这个过程就会进行。这能够被认为是一个滚动的原点,有一个固定的保留样本量。这个程序的后果是产生了8个一到三步的预测。在此基础上,咱们能够计算出误差测量方法,并抉择体现最好的模型。 从8个原点产生预测的另一个抉择是,从原点17而不是15开始(见下图)。在这种状况下,程序始终继续到原点22,即产生最初一个三步超前预测的时候,而后持续以递加的预测范畴进行。因而,两步预测从原点23产生,只有一步预测从原点24产生。因而,咱们失去8个一步预测,7个两步预测和6个三步预测。这能够被认为是一个滚动的原点,有一个非固定的保留样本量。可用于在小样本的状况下,当咱们没有多余的观测值的时候。 最初,在上述两种状况下,咱们的样本量都在减少。然而对于某些钻研目标,咱们可能须要一个恒定的内样本。下图展现了这样一种状况。在这种状况下,在每次迭代中,咱们在系列的开端减少一个察看值,并从系列的开始删除一个察看值(深灰色单元)。 R实现:一元工夫序列ARIMA案例R实现了对任何函数的滚动原点预计,有一个预约义的调用,并返回预期的值。 咱们从一个简略的例子开始,从正态分布生成序列。 x <- rnorm(100,100,10)咱们在这个例子中应用ARIMA(0,1,1)。 predict(arima(x=data,order=c(0,1,1)),n.ahead=h调用包含两个重要元素:data和h。data指定了样本内值在咱们要应用的函数中的地位。h将通知咱们的函数,在选定的函数中指定了预测的范畴。在这个例子中,咱们应用arima(x=data,order=c(0,1,1)),产生了一个想要的ARIMA(0,1,1)模型,而后咱们应用predict(...,n. ahead=h),从该模型产生一个预测。 还须要指定函数应该返回什么。能够是条件平均数(点预测),预测区间,模型的参数。然而,依据你应用的函数返回的内容,滚动预测返回的内容有一些不同。如果它是一个矢量,那么滚动预测将产生一个矩阵(列中有每个原点的值)。如果它是一个矩阵,那么就会返回一个数组。最初,如果它是一个列表,那么将返回一个列表的列表。 咱们先从predict()函数中收集条件平均值。 咱们能够应用滚动原点从模型中产生预测后果。比方说,咱们想要三步预测和8个原点,所有其余参数的默认值。 predro(x, h , orig )该函数返回一个列表,其中蕴含咱们要求的所有数值,再加上保留样本的理论数值。咱们能够依据这些值计算一些根本的误差指标,例如,按比例的均匀绝对误差。 apply(abs(holdo - pred),1,mean) / mean(actual)在这个例子中,咱们应用apply()函数,辨别不同的预测期,并理解模型在每个预测期的体现。以相似的形式,咱们能够评估其余一些模型的性能,并与第一个模型产生的误差进行比拟。这些数字自身并不能阐明什么,但如果咱们把这个模型的体现与另一个模型进行比拟,那么咱们就能够推断出一个模型是否比另一个模型更适宜数据。 咱们还能够绘制来自滚动原点的预测后果。 plot(Values1) 点击题目查阅往期内容 [](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=22474970...)R语言用ARIMA模型,ARIMAX模型预测冰淇淋生产工夫序列数据 左右滑动查看更多 01 02 03 04 在这个例子中,来自不同起源的预测后果是互相靠近的。这是因为数据是安稳的,模型是相当稳固的。 如果咱们看一下返回的矩阵,咱们会留神到它们蕴含缺失值。 这是因为在默认状况下,保留样本被设置为十分数。内样本也被设置为十分数,这就是为什么模型在每次迭代时都会对减少的样本进行从新预计。咱们可用批改这一点。 predro(x, h , ori )请留神,return2的值与return1的值不能间接比拟,因为它们是由不同的终点生成的。这一点在咱们绘图时能够看进去。 plot(returned2) 如果你应用预测包中的函数,能够用以下形式批改调用和返回值。  "forecast(ets(data) ,level=95" c("mean","lower","upper")多元工夫序列ARIMA案例当你有一个模型和一个工夫序列时,滚动预测的是一个不便的办法。然而如果你须要将不同的模型利用于不同的工夫序列呢?咱们会须要一个循环。在这种状况下,有一个简略的办法来应用滚动预测。当初引入几个工夫序列。 对于这个例子,咱们须要一个返回值的数组。 array(NA,c(3,2,3,8))在这里,咱们将有3个工夫序列,2个模型和来自8个起源的3步超前预测。咱们的模型将被保留在一个独自的列表中。在这个例子中,咱们将有ARIMA(0,1,1)和ARIMA(1,1,0)。  list(c(0,1,1), c(1,1,0))咱们从函数中返回雷同的预测值,但咱们须要扭转调用形式,因为当初咱们必须将这两种不同的模型思考在内。 "predict(arima(data,Models[[i]])ahead=h)"咱们没有间接指定模型,而是应用列表中的第i个元素。 咱们还想从保留样本中保留理论值,以便可能计算误差。 这个数组有3个工夫序列和来自8个原点的3步超前预测的维度。 最初,咱们能够写一个循环并产生预测后果。 for(j in 1:3)  for(i in 1:2)predro(data, h , or=8)比拟两者在不同工夫序列上的体现。 exp(mean(log(apply(Holdout - Fore  / apply(abs(Holdout - Fore ))![图片]()  因而,依据这些后果,能够得出结论,在咱们的三个工夫序列上,ARIMA(0,1,1)均匀来说比ARIMA(1,1,0)更精确。 线性回归和ARIMAX案例咱们的最初一个例子,咱们创立数据框并拟合线性回归。 请留神,在这个例子中,lm()函数中实现的回归依赖于数据框架,不应用预测范畴。 predict(lm(y~x1+x2+x3,xre),newdat此外,函数predict.lm()返回的是一个带有数值的矩阵,而不是一个列表。最初调用滚动预测。 pred(y, h , ori  )在这种状况下, 咱们须要在调用的数据参数中提供因变量, 因为该函数须要提取holdout的值. predict(lm( xreg ,new =xreg "predro( $y, h , or  )plot( Return) ...

April 26, 2023 · 1 min · jiezi

关于数据挖掘:POT超阈值模型和极值理论EVT分析附代码数据

全文链接:http://tecdat.cn/?p=16845最近咱们被客户要求撰写对于极值实践的钻研报告,包含一些图形和统计输入。 本文依附EVT对任何间断散布的尾部建模。尾部建模,尤其是POT建模,对于许多金融和环境利用至关重要 POT模型其次要动机是为高洪水流量的概率模型提供实用工具。然而,EVT的劣势在于后果不取决于要建模的过程。因而,人们能够应用POT来剖析降水,洪水,金融工夫序列,地震等。 特色POT软件包能够执行单变量和双变量极值剖析;一阶马尔可夫链也能够思考。例如,目前应用18个 估算器拟合(单变量)GPD  。这些估算器依附三种不同的技术: 极大似然:MLE,LME,MPLE动量法:MOM,PWM,MED间隔最小化:MDPD和MGF预计器。与单变量状况相同,没有用于对超过阈值的双变量超出进行建模的无限参数化。POT容许对双变量GPD进行6种参数化:对数模型,负对数模型和混合模型-以及它们各自的不对称版本。 最初,能够应用二元GPD拟合一阶马尔可夫链,以实现两个间断观测值的联结散布。 在本节中,咱们明确介绍了软件包中一些最有用的性能。然而,对于残缺的形容,用户可能心愿查看软件包的小插图和软件包的html帮忙。 GPD 计算:模仿来自GPD(0,1,0.2)的样本:x <- rgpd(100, 0, 1, 0.2)##评估x = 3时的密度和不超过的概率:dgpd(3, 0, 1, 0.2); pgpd(3, 0, 1, 0.2)#计算非超出概率为0.95的分位数:qgpd(0.95, 0, 1, 0.2)y <- rbvgpd(100, mo##评估不超过(5,14)的可能性pbvgpd(c(3,15), modeGPD 拟合##最大似然预计(阈值= 0):mle <- fgpd(x, 0)##最大似然预计(阈值= 0):pwu <- fgpd(x, 0, "pwmu")##最大拟合优度估算器:adr <- fgpd(x, 0, "mgf"##指定已知参数:fgpd(x, 0, "mple",##指定数值优化的起始值:fgpd(x, 0, "mdpd", start =##拟合具备逻辑依存关系的双变量GPD:log <- fitbv绘图用于单变量和双变量状况的通用函数: plot(mle); plot(log) 点击题目查阅往期内容 R语言极值推断:狭义帕累托散布GPD应用极大似然预计、轮廓似然预计、Delta法 左右滑动查看更多 01 02 03 04 返回等级图: 概率图和QQ图 qq(mle) 绘制密度 绘制Pickands的依赖函数: 光谱密度图: 对数似然(分位数):confint(mle, prob = 0.95) 对数似然(参数):confint(mle, "shape") 本文摘选 《 R语言POT超阈值模型和极值实践EVT剖析 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 R语言极值推断:狭义帕累托散布GPD应用极大似然预计、轮廓似然预计、Delta法 R语言极值实践EVT:基于GPD模型的火灾损失散布剖析 R语言有极值(EVT)依赖构造的马尔可夫链(MC)对洪水极值剖析 R语言POT超阈值模型和极值实践EVT剖析 R语言混合正态分布极大似然预计和EM算法 R语言多项式线性模型:最大似然预计二次曲线 R语言Wald测验 vs 似然比测验 R语言GARCH-DCC模型和DCC(MVT)建模预计 R语言非参数办法:应用核回归平滑预计和K-NN(K近邻算法)分类预测心脏病数据 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 R语言基于Bootstrap的线性回归预测置信区间预计办法 R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归(BVAR)模型 Matlab马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility) 模型 Matlab马尔可夫区制转换动静回归模型预计GDP增长率R语言极值推断:狭义帕累托散布GPD应用极大似然预计、轮廓似然预计、Delta法

April 26, 2023 · 1 min · jiezi

关于数据挖掘:数据分享逻辑回归随机森林SVM支持向量机预测心脏病风险数据和模型诊断可视化附代码数据

原文链接:http://tecdat.cn/?p=24973最近咱们被客户要求撰写对于心脏病的钻研报告,包含一些图形和统计输入。 世界卫生组织预计全世界每年有 1200 万人死于心脏病。在美国和其余发达国家,一半的死亡是因为心血管疾病 简介心血管疾病的晚期预后能够帮忙决定扭转高危患者的生存形式,从而缩小并发症。本钻研旨在查明心脏病最相干/危险因素,并应用机器学习预测总体危险。 数据筹备 起源该数据集 ( 查看文末理解数据获取形式 ) 来自对居民正在进行的心血管钻研。分类指标是预测患者将来是否有 10 年患冠心病 (CHD) 的危险。数据集提供了患者的信息。它包含超过 4,000 条记录和 15 个属性。 变量每个属性都是一个潜在的危险因素。有人口、行为和医疗危险因素。 人口统计: • 性别:男性或女性(标量) • 年龄:患者年龄;(间断 - 只管记录的年龄已被截断为整数,但年龄的概念是间断的) 行为 • 以后吸烟者:患者是否是以后吸烟者(标量) • 每天吸烟数:此人一天内均匀吸烟的香烟数量。(能够认为是间断的,因为一个人能够领有任意数量的香烟,甚至半支香烟。) • BP Meds:患者是否服用降压药(标量) •中风:患者之前是否有中风(标量) •  Hyp:患者是否患有高血压(标量) • 糖尿病:患者是否患有糖尿病(标量) • Tot Chol:总胆固醇程度(间断) • Sys BP:收缩压(间断) • Dia BP:舒张压(间断) • BMI:体重指数(间断) • 心率:心率(间断 - 在医学钻研中,心率等变量尽管实际上是离散的,但因为存在大量可能值而被认为是间断的。) • 葡萄糖:葡萄糖程度(间断) 预测变量(指标) • 10 年患冠心病 CHD 的危险(二元:“1”示意“是”,“0”示意“否”) 心脏病预测# 获取数据rdaa <- read.csv(门路)# 这边能够思考减少变量收缩压与舒张压之差、形容收缩压、舒张压与高血压等级的变量# 看数据结构str(ata) # 思考减少变量bplevelraw_data <- sqldf# 对变量类别进行辨别ra_da <- mapstr(ra_da ) 数据预处理查看和解决缺失值 # 这里咱们应用mice包进行缺失值解决aggr matplot 点击题目查阅往期内容 ...

April 26, 2023 · 1 min · jiezi

关于数据挖掘:R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

全文链接:http://tecdat.cn/?p=32265原文出处:拓端数据部落公众号指数平滑法对于预测来说是十分有帮忙的,而且它对工夫序列下面间断的值之间相关性没有要求。然而,如果你想应用指数平滑法计算出预测区间,那么预测误差必须是不相干的, 而且必须是遵从零均值、 方差不变的正态分布。即便指数平滑法对工夫序列间断数值之间相关性没有要求,在某种状况下,咱们能够通过思考数据之间的相关性来创立更好的预测模型。 自回归挪动均匀模型( ARIMA) 蕴含一个确定(explicit)的统计模型用于解决工夫序列的不规则局部,它也容许不规则局部能够自相干。 咱们以上海空气质量指数AQI做成的工夫序列数据为例。 随着工夫减少, 数值变化很大。 上面是excel数据: data=read.xlsx("上海空气质量指数 (1).xlsx") head(data)##     城市  日期 AQI指数 ## 1 上海市 41640     193 ## 2 上海市 41641     140 ## 3 上海市 41642     195 ## 4 上海市 41643     137 ## 5 上海市 41644      83 ## 6 上海市 41645      59把数据转换成工夫序列格局 data=ts(data[,3],start = c(2014,1,1) ,frequency = 365)查看数据概览summary(data)##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. ##    28.0    59.0    77.0    86.5   103.0   266.0 平稳性测验(ADF单位根测验)adf.test(data,k = 5)##  Augmented Dickey-Fuller Test ## ## data:  data ## Dickey-Fuller = -9.987, Lag order = 5, p-value = 0.01 ## alternative hypothesis: stationary验出P值小于0.05,不存在单位根,阐明原工夫序列稳固 ...

April 26, 2023 · 1 min · jiezi

关于数据挖掘:专题2022年中国企业数字化学习行业研究报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32263原文出处:拓端数据公众号多变,不确定性,简单,模糊不清的新业务图景,放慢了公司人才倒退模式的数字化转变;疫情冲击离线运输与公司现金流量,消费者收入缩小,机构体现受压,数字化学习冲破;行业数字化程度一直进步,商业体系和学习体系之间的关联性不断加强,企业学情图谱不断完善; 在资金的反对下,在“企业服务”和“职业教育”这两条“黄金倒退轨道”上,产业的投资和融资规模一直回升。 疫情的两难处境:消费者估算缩小,教育机构的体现受到压力,数字化教育的冲破 在过来的三年中,这场突发事件曾经成为对整个公司的培训生态产生最大影响的变数。从需要端的角度来看,大部分企业客户的次要业务都受到了疫情的重大影响,因而,企业的培训估算也会相应地缩小,培训我的项目在继续地“瘦身”,对供应商的抉择也会变得更加严格和审慎,因而,培训流动的需要刚性以及培训计划的性价比都会变成企业在洽购过程中须要思考的一个次要因素,因而,能够帮忙企业的人才倒退,降低成本,提高效率的数字化学习平台,就有了倒退的机会。 在供给端,一方面,因为疫情的重复和暴发,企业对于将来的培训服务需要的冀望降落,使得机构难以签订长期、大范畴的订单,从而导致了业务危险的减少。另一方面,传统机构大多以线下交付为次要形式,但其线上化的产品及服务交付能力较弱,因而必须面对存量订单不能被耗费,增量订单不能被扩充的状况。因而,在业绩低压的压力之下,机构必须放慢课程产品化和在线化的速度,并与数字化学习厂商之间的单干也越来越严密。 本专题内的参考报告(PDF)目录中欧商业在线:2021-2022 TOP20数字化学习最佳企业实际奖年... 报告2022-11-13艾瑞征询:2022年中国企业数字化学习行业钻研报告 报告2022-07-18SAP:将来企业学习模式的六大驱动因素 报告2023-02-12益普索:智能产品需要与市场机会系列报告-智能学习产品(简版) 报告2022-10-16简知:女性新职业技能学习趋势调研报告 报告2022-10-08腾讯课堂:2022大学生在线职业技能学习需要和待业趋势大数据报告 报告2022-08-10极光:2021年汽车人群在线学习需要洞察报告 报告2022-03-24联合国工发组织:2021学习和常识倒退平台(LKDF)论坛成绩文件(E... 报告2022-02-10麦肯锡:中国的技能转型:推动寰球规模最大的劳动者队伍成为一生学习者 报告2021-09-27TalkingData:学习教育洞察报告 报告2020-01-13北师大智慧学习研究院:2017互联网教育服务产业钻研报告 报告2018-02-24教育部:2015年中国互联网学习白皮书暨2015年在线教育报告 报告2017-01-20阿凡题:中国00后互联网学习行为报告 报告2017-01-19世界经济论坛:教育4.0报告 报告2023-04-22联合国教科文组织:共建寰球高等教育数字化转型生态系统-国内网络教育学院... 报告2023-04-10网经社:2022中国电商&数字衰弱&数字教育“死亡”数据报告 报告2023-04-06网经社:2022年度中国数字教育生产投诉数据与典型案例报告 报告2023-04-03布鲁斯金学会:教育体制转型 报告2023-03-31教育部:世界数字教育大会资料汇编 报告2023-03-12AppGrowing:2023教育培训广告投放洞察 报告2023-03-08联想:智慧教育技术白皮书(2023版) 报告2023-02-16新榜有赚:2023在线职业教育社媒营销报告 报告2023-02-14CIO时代:中国智慧教育白皮书-基于信创体系的智慧教育(2022) 报告2023-02-01巨量算数:2022教育行业钻研白皮书 报告2023-01-06Dealroom:2022年教育科技的倒退 报告2022-11-10Sensor Tower:2022年教育类应⽤市场洞察 报告2022-11-03Sensor Tower:2022年寰球教育类利用市场洞察 报告2022-10-28GP Bullhound:2022年寰球教育科技报告 报告2022-10-26智慧教育城市白皮书 报告2022-10-25BCG:高等教育和雇主如何单干为人才管道提供能源(英文版) 报告2022-10-20北京师范大学:2021中国互联网教育产品测评与剖析报告 报告2022-10-17头豹:2022年中国智能教育硬件行业钻研报告 报告2022-10-09艾瑞征询:2022年中国教育智能硬件市场与用户洞察报告 报告2022-09-29北京师范大学:2022寰球智慧教育大会会议手册 报告2022-09-18神策研究院:教育信息化企业数据驱动增长的方法论及实战 报告2022-09-17神策研究院:教育机构数字化经营的方法论及实战 报告2022-09-17Department for Education:教育中的技术-教育提... 报告2022-09-17世界职业技术教育倒退大会:中国职业教育倒退报告(2012-2022年) 报告2022-08-25蝉妈妈:抖音电商线上教育培训报告 报告2022-08-16易点天下:在线教育出海趋势剖析 报告2022-08-05清华大学&腾讯:职业教育信息化倒退报告(2021版) 报告2022-08-01阿里云:人工智能技术在教育场景中的利用 报告2022-07-20网经社:2022年(上)中国数字教育投融资数据报告 报告2022-07-18艾瑞征询:2022年寰球职业教育行业倒退报告 报告2022-07-15神策数据:教育机构数字化经营的方法论及实战 报告2022-07-11网经社:2022年(上)中国数字教育投融资数据报告》 报告2022-07-08李骏翼:元宇宙+教育,从了解到实际 报告2022-07-06黄荣怀:中国教育信息化发展趋势剖析 报告2022-06-19教育部:智慧教育资讯_教育数字化转型专题_2022年5月 报告2022-05-20Facebook:中国教育行业出海白皮书 报告2022-05-13巨量&守业邦:2022中国职业教育行业洞察报告 报告2022-04-21易点天下:谷歌数字化营销,为教育行业赋能。 报告2022-04-19易点天下:教育科技行业出海洞察 报告2022-04-19联合国教科文组织:2022年寰球教育危机报告(EN) 报告2022-04-10零壹智库:元宇宙 教育:典型案例和倒退门路 报告2022-03-30华东师范大学:2022年人工智能教育蓝皮书 报告2022-03-30零壹智库:中国教育信创建设偏好报告(2021) 报告2022-03-15网经社:2021年度中国在线素质教育生产投诉数据与典型案例报告 报告2022-03-14腾讯:腾讯2022新职业教育洞察白皮书 报告2022-02-25声网&蓝象资本:在线教育新生态报告 报告2022-02-25NIFD:国民财商教育白皮书(2021) 报告2022-02-17多鲸资本:2022 中国素质教育行业报告 报告2022-01-27网经社:2021年中国在线教育投融资市场数据监测报告 报告2022-01-19多鲸:2022中国职业教育行业报告 报告2022-01-10艾瑞征询:2022年中国综合性终身教育平台大数据报告—腾讯课堂数据篇 报告2022-01-06守业邦:2021中国成人教育行业趋势洞察报告 报告2021-12-31守业邦:2021中国素质教育行业趋势洞察报告 报告2021-12-31科大讯飞:2021智能教育倒退蓝皮书——智能技术赋能教育评估 报告2021-12-28Mob研究院:2021H2教育行业追踪报告 报告2021-12-23腾讯&智来时代:2021新职业教育机构数字化经营模型 报告2021-12-22亿欧智库:2021新职业教育行业倒退钻研报告 报告2021-12-06浙商证券:2021年职业教育行业深度报告 报告2021-12-03IT桔子:2020-2021年中国职业教育投融资 报告2021-11-24德勤:新政重塑教育格局——中国教育倒退报告2021 报告2021-11-15Mob研究院:2021年“双减”政策下中国教育行业转型倒退钻研 报告2021-11-14亿欧智库:2021中国素质教育策略翻新钻研报告 报告2021-11-09联合国教科文组织:人工智能与教育 政策制定者指南 报告2021-09-22普华永道:2016年-2021年上半年中国教育行业并购流动回顾及趋势展... 报告2021-09-03巨量:2021中国素质教育行业趋势洞察报告 报告2021-08-26亿欧智库:2021寰球人工智能教育落地利用钻研报告 报告2021-08-2058安居客:2021北京教育型置业报告 报告2021-08-17亿欧智库:2021年中国财商教育行业倒退钻研报告 报告2021-08-17亿欧智库:中国AI教育翻新榜单企业案例剖析报告 报告2021-08-17商汤:AI教育白皮书 报告2021-08-06网经社:2021年(上)在线教育生产投诉数据与典型案例报告 报告2021-07-30艺恩:2020年在线教育行业综艺资助报告 报告2021-07-27TalkingData:2020中国教育培训挪动利用倒退钻研报告 报告2021-07-26亿欧智库:中国AI教育翻新榜单企业案例剖析报告 报告2021-07-16艾瑞征询:2021年中国教育OMO发展趋势报告 报告2021-06-25艾瑞征询:2021年中国素质教育行业趋势洞察报告 报告2021-06-25蝉巨匠:Q1教育行业报告 报告2021-05-28艾瑞征询:2021年中国下沉市场-K12教育行业用户钻研报告 报告2021-05-27艾瑞征询:2021年中国教育智能硬件趋势洞察 报告2021-05-08艾瑞征询:翻新复盘与浪潮瞻望-2021年中国教育培训行业发展趋势报告-... 报告2021-04-06Talkingdata:2020中国教育培训挪动利用倒退钻研报告 报告2021-03-24普华永道:2016年至2020年中国教育行业并购流动回顾及趋势瞻望 报告2021-03-16艾瑞征询:2021年中国综合性终身教育平台用户大数据报告 报告2021-01-27

April 26, 2023 · 1 min · jiezi

关于数据挖掘:RNN循环神经网络-LSTM长短期记忆网络实现时间序列长期利率预测附代码数据

全文链接:http://tecdat.cn/?p=25133最近咱们被客户要求撰写对于神经网络的钻研报告,包含一些图形和统计输入。 2017 年年中,R 推出了 Keras 包 _,_这是一个在 Tensorflow 之上运行的综合库,具备 CPU 和 GPU 性能 本文将演示如何在 R 中应用 LSTM 实现工夫序列预测。 简略的介绍工夫序列波及按工夫程序收集的数据。我用 xt∈R 示意单变量数据,其中 t∈T 是察看数据时的工夫索引。工夫 t 在 T=Z 的状况下能够是离散的,或者在 T=R 的状况下是间断的。为简化剖析,咱们将仅思考离散工夫序列。 长短期记忆 (LSTM) 网络是一种非凡的循环神经网络 (RNN),可能学习长期依赖关系。在惯例的 RNN 中,小权重通过几个工夫步一遍又一遍地相乘,并且梯度逐步减小到零——这种状况称为梯度隐没问题。 LSTM 网络通常由通过层连贯的内存块(称为单元)组成。单元中的信息同时蕴含在单元状态 Ct 和暗藏状态 ht 中,并由称为门的机制通过 sigmoid 和 tanh 激活函数进行调节。 sigmoid 函数/层输入 0 到 1 之间的数字,其中 0 示意 没有通过 , 1 示意 _全副通过_。因而,LSTM 可能有条件地从单元状态中增加或删除信息。 一般来说,门将前一时间步 ht-1 和以后输出 xt 的暗藏状态作为输出,并将它们逐点乘以权重矩阵 W,并将偏差 b 增加到乘积中。 三个次要门: 忘记门:这决定了哪些信息将从单元状态中删除。输入是一个介于 0 和 1 之间的数字,0 示意 全副删除 ,1 示意 全副记住更新门:在这一步中,  tahn 激活层创立一个潜在候选向量,如下所示:sigmoid 层创立一个更新过滤器,如下所示:接下来,旧单元状态 Ct-1 更新如下:输入门:在这一步中,sigmoid 层过滤将要输入的单元状态。而后将单元状态 Ct 通过 tanh 函数将值标准化到范畴 [-1, 1]。最初,标准化后的单元格状态乘以过滤后的输入,失去暗藏状态 ht 并传递给下一个单元格:加载必要的库和数据集# 加载必要的包library(keras)或者装置如下: ...

April 25, 2023 · 1 min · jiezi

关于数据挖掘:数量生态学冗余分析RDA分析植物多样性物种数据结果可视化数据分享附代码数据

全文下载链接:http://tecdat.cn/?p=25564最近咱们被客户要求撰写对于冗余剖析(RDA)的钻研报告,包含一些图形和统计输入。 冗余剖析(redundancy analysis,RDA)是一种回归剖析联合主成分剖析的排序办法,也是多因变量(multiresponse)回归剖析的拓展。从概念上讲,RDA是因变量矩阵与解释变量之间多元多重线性回归的拟合值矩阵的PCA剖析 本报告对动物生态多样性数据做了剖析。 冗余剖析首先,加载数据。 要加载数据,所有文件都必须在工作目录中。 ste <- read.csv("sr.csv")ev <- read.csv("ev.csv")as <- read.csv("as.csv")我对数据做了一些批改。首先,我将 ev 数据的所有定量变量(即除地貌单元外的所有变量)与 as 数据组合成一个名为 enqut. 而后,我对数据进行了归一化, 容许十分不同单位的变量之间进行比拟。最初,我在归一化的定量环境变量中增加了地貌单元列,创立数据框 era,用于冗余剖析。 enqut<- cbind(ev[,-5],ap)enz <- scaleut <- env[,5]era<- data.frame构造数据我应用环境数据era 作为解释变量对植被构造进行了冗余剖析。我将后果调配给对象 str。 summary(str) 而后我失去了这个剖析的 R 方和调整后R 方。 RsquareAdj RsqeAdj$adj.r.sqd 制作三序图。 parplotpointsusc <- scorespointstext 成分数据首先我加载了物种数据。同样,该文件 PAl.csv 必须在工作目录中。为了升高大丰度的重要性,我将 Hellinger 转换利用于物种数据。 sp <- Hellinger(sp)而后我应用所有环境变量作为解释变量进行了冗余剖析。 head(suda) #  取得R^2和调整后的R^2(sR2 <- RseAdj (spdj <- RseAdj$adj.r.sed) 以2型标尺 对物种数据制作 RDA三序图。 # 做好绘图空间parplot# 绘制站点的分数spc <- scorespoints# 绘制出物种的分数ssc <- scorespoints# 绘制定量解释变量的箭头和它们的标签spesc <- scoresarrowsenv.names text# 绘制地貌单元中心点和它们的标签的绘图点spsc <- scorespointstext 点击题目查阅往期内容 生态学建模:加强回归树(BRT)预测短鳍鳗生存散布和影响因素 左右滑动查看更多 01 02 03 04 论文图形这是为论文制作图形的代码。 parensc <- scoresarrowspoints# 制作绘图空间parplotablinemtext# 绘制站点的分数spsc <- scorespoints# 绘制出物种的分数sp.sc <- scorespoints# 绘制定量解释变量的箭头和它们的标签spsc <- scoresarrowstext# 绘制地貌单元中心点和它们的标签的绘图点unimes spusc <- scorespointstext 本文摘选 《 R语言数量生态学冗余剖析RDA剖析动物多样性物种数据后果可视化 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 主成分剖析PCA谱合成、奇怪值合成SVD预测剖析运动员体现数据和降维可视化 用回归和主成分剖析PCA 回归穿插验证剖析预测城市犯罪率数据 PCA(主成分剖析),CA(对应剖析)夫妻职业差别和马赛克图可视化用回归和主成分剖析PCA 回归穿插验证剖析预测城市犯罪率数据 R语言k-means聚类、档次聚类、主成分(PCA)降维及可视化剖析鸢尾花iris数据集 R语言无限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发工夫 R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化Python用稠密、高斯随机投影和主成分剖析PCA对MNIST手写数字数据进行降维可视化 R语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图 R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化 R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析案例报告python主题建模可视化LDA和T-SNE交互式可视化 python主题LDA建模和t-SNE可视化 R语言高维数据的主成分pca、t-SNE算法降维与可视化剖析案例报告 维度规约(降维)算法在WEKA中利用 应用Python和Keras进行主成分剖析、神经网络构建图像重建 R语言中的岭回归、套索回归、主成分回归:线性模型抉择和正则化 ...

April 25, 2023 · 1 min · jiezi

关于数据挖掘:ARMAEGARCH模型集成预测算法对SPX实际波动率进行预测附代码数据

全文下载链接:http://tecdat.cn/?p=12174最近咱们被客户要求撰写对于ARMA-EGARCH的钻研报告,包含一些图形和统计输入。 本文比拟了几个工夫序列模型,以预测SP500指数的每日理论稳定率。基准是SPX日收益序列的ARMA-EGARCH模型。将其与GARCH模型进行比拟  。最初,提出了汇合预测算法 假如条件理论稳定率是看不见的,因而咱们只能对其进行估算。这也是稳定率建模的难点。如果实在值未知,则很难判断预测品质。尽管如此,钻研人员为理论稳定率开发了估算模型。Andersen,Bollerslev Diebold(2008)  和  Barndorff-Nielsen and Shephard(2007)  以及  Shephard and Sheppard(2009)  提出了一类基于高频的稳定率(HEAVY)模型,作者认为HEAVY模型给出了  很好的  预计。 假如:HEAVY实现的稳定率估算器无偏且无效。 在下文中,将HEAVY估计量作为  察看到的已实现稳定率(理论稳定率) 来确定预测性能。 数据起源SPX每日数据(平仓收益)SPX盘中高频数据(HEAVY模型预计)VIXVIX衍生品(VIX期货)在本文中,我次要关注前两个。 数据采集理论稳定率预计和每日收益我实现了Shephard和Sheppard的模型,并预计了SPX的理论量。 head(SPXdata) SPX2.rv SPX2.r SPX2.rs SPX2.nobs SPX2.open2000-01-03 0.000157240 -0.010103618 0.000099500 1554 34191.162000-01-04 0.000298147 -0.039292183 0.000254283 1564 34195.042000-01-05 0.000307226 0.001749195 0.000138133 1552 34196.702000-01-06 0.000136238 0.001062120 0.000062000 1561 34191.432000-01-07 0.000092700 0.026022074 0.000024100 1540 34186.142000-01-10 0.000117787 0.010537636 0.000033700 1573 34191.50 SPX2.highlow SPX2.highopen SPX2.openprice SPX2.closeprice2000-01-03 0.02718625 0.005937756 1469.25 1454.482000-01-04 0.04052226 0.000000000 1455.22 1399.152000-01-05 -0.02550524 0.009848303 1399.42 1401.872000-01-06 -0.01418039 0.006958070 1402.11 1403.602000-01-07 -0.02806616 0.026126203 1403.45 1440.452000-01-10 -0.01575486 0.015754861 1441.47 1456.74 DATE SPX2.rvol2000-01-03 2000-01-03 0.0125395372000-01-04 2000-01-04 0.0172669342000-01-05 2000-01-05 0.0175278642000-01-06 2000-01-06 0.0116721032000-01-07 2000-01-07 0.0096280842000-01-10 2000-01-10 0.010852972SPXdata$SPX2.rv 是预计的理论方差。 SPXdata$SPX2.r 是每日收益(平仓)。 SPXdata$SPX2.rvol 是预计的理论稳定率 ...

April 25, 2023 · 2 min · jiezi

关于数据挖掘:用COPULA模型进行蒙特卡洛MONTE-CARLO模拟和拟合股票收益数据分析附代码数据

全文下载链接:http://tecdat.cn/?p=24535最近咱们被客户要求撰写对于COPULA模型蒙特卡洛的钻研报告,包含一些图形和统计输入。 最近,copula 在仿真模型中变得流行起来。Copulas 是形容变量之间依赖关系的函数,并提供了一种创立散布以对相干多元数据建模的办法 应用 copula,数据分析师能够通过指定边缘单变量散布并抉择特定的 copula 来提供变量之间的相干构造来构建多变量散布。双变量散布以及更高维度的散布都是可能的。  此示例阐明如何在变量之间存在简单关系或单个变量来自不同散布时应用 copula 从多元散布生成数据。 算法默认状况下,fit 应用最大似然将 copula 拟合到 u。当 u 蕴含通过边缘累积散布函数的参数估计转换为单位超立方体的数据时,这称为边缘_推断函数 (IFM)_ 办法。 输出参数Copula 值矩阵Copula 值,指定为范畴 (0,1) 内的标量值矩阵。如果 u 是 n × p 矩阵,则其值示意 p_维单位超立方体 中的_n_个点 。如果  是 _n ×2 矩阵,则其值示意  单位正方形中的_n_个点。u 如果指定二元阿基米德 copula 类型('Clayton'、  'Frank'、 或 'Gumbel'),则 u 必须是 n ×2 矩阵。 二元阿基米德 copula 族'Clayton' | 'Frank' | 'Gumbel' 二元 copula 族,指定为以下之一。 `` 'Clayton'Clayton copula'Frank'Frank copula'Gumbel'Gumbel copula置信区间的显着性程度置信区间的显着性程度,指定为逗号分隔的对,由'Alpha' 范畴 (0,1) 中的和 标量值组成 。 fit 返回大概 100 × (1–Alpha)% 的置信区间。 拟合_t_  copula 的办法 拟合_t_  copula 的办法 ,指定为逗号分隔的对组,由'Method' 和 'ML' 或 组成 'ApproximateML'。 如果指定 'ApproximateML',则  通过最大化一个近似于自由度参数的剖面对数似然的指标函数来copulafit 拟合大样本的 t copula . 此办法可能比最大似然 ( 'ML')快得多,但对于小到中等样本量,估计值和置信限可能不精确。 输入参数拟合高斯 copula矩阵的预计相干参数拟合高斯 copula 的预计相干参数,以标量值矩阵模式返回。 拟合_t_  copula预计自由度参数  拟合_t_  copula 的预计自由度参数, 以标量值模式返回。 自由度参数近似置信区间 自由度参数的近似置信区间,以 1×2 标量值矩阵模式返回。第一列蕴含下边界,第二列蕴含上边界。默认状况下, fit 返回大概 95% 的置信区间。您能够应用'Alpha' 名称-值对指定不同的置信区间 。 拟合的阿基米德 copula预计 copula 参数 ...

April 25, 2023 · 3 min · jiezi

关于数据挖掘:R语言宏观经济学ISLM曲线可视化货币市场均衡

全文链接:http://tecdat.cn/?p=32249原文出处:拓端数据部落公众号凯恩斯相干实践次要是美国20世纪30年代的经济危机而提出的,主张政府干涉经济,履行宏观调控。 依照希克斯的观点,灵便偏好(L)和货币数量(M)决定着货币市场的平衡,而人们持有的货币数量既决定于利率(i),又决定于支出(y)的程度。由此,在以纵轴示意利率、横轴示意支出的座标立体上,能够作出-条LM曲线。 (1) I(i)=S(Y) 即IS, Investment - Saving (2) M/P=L1(i)+L2(Y) 即LM,Liquidity preference - Money Supply 其中,I为投资,S为储蓄,M为名义货币量,P为物价水平,M/P为理论货币量,Y为总产出,i为利率。 曲线上的每一点都示意持有现金的欲望和货币数量相等,即货币需要和货币供应相一致,并且同既定的利率和收入水平相一致。 希克斯又认为,社会储蓄(S)和投资(I)的欲望,决定资本市场的平衡,而储蓄和投资又必须同收入水平和利率相一致。由此,在纵轴示意利率、横轴示意支出的坐标立体上,又可作出一条IS曲线,曲线上的每一点都示意储蓄等于投资,并且同既定的利率和收入水平相适应。 通过以上剖析,希克斯对支出的决定作出了新的解释,认为支出(Y)的平衡程度是由IS曲线与LM曲线的交点决定的,即凯恩斯体系的四大根基--生产函数、资本边际效率、灵便偏好和货币数量同时决定支出的平衡程度。在支出均衡点上,同时存在着以LM示意的货币市场的平衡和以IS示意的资本市场的平衡。 (1)IS曲线表明: ① I(i)=S(Y) 即IS, Investment - Saving ② M/P=L1(i)+L2(Y) 即LM,Liquidity preference - Money Supply 其中,I为投资,S为储蓄,M为名义货币量,P为物价水平,M/P为理论货币量,Y为总产出,i为利率。 对于上述公式的残缺和全面的证据能够参考由威廉·布兰森或多恩布什和费舍尔的教科书。 IS曲线:在IS曲线上的点代表的利息(I)和输入(Y),示意该市场处于均衡率的组合的含意,在这些组合,商品的总供给等于在商品经济的总需求。 LM曲线:LM曲线上的点代表的趣味(i)和输入的量,货币市场处于平衡率的组合,在这些组合中,货币总需求等于经济中的货币总供给。 IS曲线方程IS.curve <- function(c, A, b, i) {   y = (1/(1-c))*A - (1/(1-c))*b*i   return(y) }LM曲线方程罕用的定义从下面遵循;货币支出扭转交易需要的K灵敏度 LM.curve <- function(ms, h, k, i) {   y = ms/k + (h/k)*i   return(y) }函数来计算在IS和LM曲线的交点Intersect <- function(c, A, b, ms, h, k ,i) # 用克莱姆法令求解联立方程零碎 { a1 <- (1/(1-c)) * b b1 <- 1 c1 <- (1/(1-c)) * A a2 <- - (h / k)IS曲线绘制autonomous.component <- 100 mpc <- 0.5 b <- 0.75LM曲线绘制y.lm <- LM.curve(ms, h, k, i) 政府财政政策的任何其余模式的收入或减税的影响。autonomous.component.gov <- 102  # 政府开销减少了2个单位央行减少货币供应量#成果(或货币政策)ms.mon <- 145 # 货币供应量减少2个单位找到IS-LM曲线的交点 intersect <- Intersect(mpc, autonomous.c ms, h, k ,i) intersect.gov <- Intersect(mpc, autonomousnt.gov , b, ms, h, k ,IS-LM框架plot(y.is,i, xlim = c(180,205), ylim = c(-1,10), type ="l", ...

April 25, 2023 · 2 min · jiezi

关于数据挖掘:C4D渲染器到底该怎么选

对C4D使用者来说,抉择哪个渲染器始终是经久不衰的话题。各大渲染器各有千秋,如何抉择也是一门学识。以后C4D支流渲染器,较相熟的有Octane 、Arnold、Redshift、V-ray。只管C4D自带有物理渲染器,但从理论体验上看,上手相当简单。只管以后曾经减少了节点,但仍旧不够敌对,要调节成果仍旧要测试很久。因而,应用插件渲染器,就显得相当有必要。现对反对C4D的几大支流渲染器,Octane 、Arnold、Redshift、V-ray进行比拟。01 OctaneRenderOctaneRender算是国内应用较多的外置渲染器了。只管该渲染器付费,但因为oc比规范渲染器更简略更易出成果,且速度更快,理论渲染不须要等太长时间,因而广受欢迎。octane的节点混合没有过多的参数调节,比拟容易上手。混合材质优良,能够做更多的成果叠加,而不仅仅用蒙蔽来混合了。在be上能看到泛滥大佬应用octane渲染器来实现本人的作品。octane劣势:学习成本低,易出成果,相干教程资源也较多。octane毛病:对显卡要求高,老本高。不反对A卡,mac电脑无奈应用。OC渲染玻璃3S 自发光等材质,容易呈现噪点。02 V-ray for c4dvray渲染器在3Dmax畛域、室内设计与汽车渲染等畛域内广受欢迎。但须要阐明的是,vray for C4D并非官网开发,而是C4D爱好者开发。官网给到技术支持。所以vrayforC4D 性能上比官版弱一些,更新较慢。V-ray劣势:渲染品质实在,自带车漆材质,谐和版本多,对于电脑硬件要求低,基本上都能够应用。V-ray毛病:相干c4d for V-ray学习资源少,渲染速度慢。03 Arnold阿诺德作为渲染器行业标杆,Arnold渲染实在细节高,在电影畛域利用较多,可见其位置。善于比方皮肤、体积雾等,这个在别的渲染器都须要调大半天都还难做进去的成果。Arnold阿诺德劣势:渲染品质超级写实,对于人物皮肤的体现与雾气、烟雾渲染,是其它渲染器无奈比及的。谐和版本简直和官网同时公布,更新及时。Arnold阿诺德毛病:学习难度大,参数多。学习资源根本在maya CG用户外面较多,对于C4D应用阿诺德渲染器的用户群体较少。渲染速度较慢,毕竟靠传统cpu渲染。04 RedshiftRS从被C4D收买之后,越来越多的设计在学习RS渲染器了,兼容性很杰出。rs是有偏差的GPU渲染器,所以渲染速度也会比oc渲染速度更快。RS劣势:渲染速度快,简直不太容易产生噪点。对于C4D兼容性好。RS毛病:对显卡性能有要求,也是只反对N卡不反对A卡。学习难度要大于OC,参数较多。总结学习容易水平比拟:oc渲染器 > vray for c4d > RS渲染器 > 阿诺德渲染品质比拟:阿诺德> vray for c4d > OC渲染器> RS渲染器渲染速度比拟:RS渲染器> OC渲染器 > 阿诺德> V-ray for c4d补充:对于渲染器,抉择一个外置渲染器学习是十分有必要的。每个软件都有本人的劣势,C4D的呈现在于它的静止图形模块。渲染器能够大大晋升作品成果品质与工夫老本,对于渲染器的抉择能够依据本人的电脑配件与习惯来抉择。不管学哪个渲染器,一般而言,其成果应该都比C4D自带的渲染器更易出成果更节约工夫。

April 25, 2023 · 1 min · jiezi

关于数据挖掘:R语言生态学进化树推断物种分化历史分类单元数与时间关系支系图可视化附代码数据

全文链接:http://tecdat.cn/?p=31434最近咱们被客户要求撰写对于生态学进化树的钻研报告,包含一些图形和统计输入。 咱们围绕进化树技术进行一些征询,剖析生物类群在工夫上的多样性是如何变动的 咱们将用到分类单元数-工夫图(Lineages-through-time plot),该图能够用来形容物种多样化的总体趋势。 数据3500trees.nexus是nexus格局的文件,外面有3500棵树。 besttree.nexus也是nexus格局的文件,外面有1颗树,是从3500颗树中筛选进去的统一树。 各支系图示 这棵树总共有4大支系(Lineage),当初我须要做的剖析都是须要别离做总的,以及4个支系的,也就是说同样的剖析要做5次,针对5组不同的对象。 分析方法办法次要是物种多样化速率(diversification rate) 相干的内容。 trees=read.nexus("3500trees.nexus") besttree=read.nexus("besttree.nexus") 点击题目查阅往期内容 生态学建模:加强回归树(BRT)预测短鳍鳗生存散布和影响因素 左右滑动查看更多 01 02 03 04 1.mltt plot (multiple lineage through time)分类单元数-工夫图lingeage的数值取log的,95%置信区间的ltt plot,两头彩色线的是besttree的,要显示进去。别离做总的,以及4个支系的,共5个图。 plot(trees) ,log='y') besttree # 95% ltt置信区间ltt.ci<-function(tree.all){   ntip=length(tree.all[[1]]$tip.label)   ntree=length(tree.all) 2.gamma statistic测验分化速率的变化趋势,看的值是正的还是负的。后果须要失去每组的值及P值。 mmaStat(besttree)## [1] -3.6932853. Monte Carlo constant rates test测验样品不全是否对分化速率的后果有显著的影响,应该也是每组都要做的。 mc.out <- mcmc.popline(tree.hiv) plot(sk, l 4.对每个组做几个模型的测验,次要包含Pure-birth, birth-death, Yule 2-rate,density-dependent logistic,density-dependent exponential模型。tdAICr## --------------Model Summary---------------- ## ## MODEL pureBirth ## ## Parameters:  r1 ## ## LH 535.1086 ## ## AIC -1068.217 ## ## r1 0.1817879 ## ## a -1068.217 ## ## ## -------------------------- ## MODEL bd ## ## Parameters:  r1, a ## ## LH 535.1086 ## ## AIC -1066.217 ## ## r1 0.1817879 ## ## a 0 ## ## ## -------------------------- ## MODEL DDL ## ## Parameters:  r1, k ## ## LH 542.2213 ## ## AIC -1080.443 ## ## r1 0.2537928 ## ## a -1080.443 ## ## k 554 ## ## ## -------------------------- ## MODEL DDX ## ## Parameters:  r1, X ## ## LH 536.991 ## ## AIC -1069.982 ## ## r1 0.3098342 ## ## a -1069.982 ## ## x 0.1131752 ## ## ## -------------------------- ## ## Best Constant Rate Model = pureBirth  AIC  -1068.217 ## ## Best Rate Variable Model = DDL  AIC  -1080.443 ## ## delta AICrc =  12.2254##       model params np mtype       LH        r1 r2         a        xp   k ## 1 pureBirth     r1  1    RC 535.1086 0.1817879 NA -1068.217        NA  NA ## 2        bd  r1, a  2    RC 535.1086 0.1817879 NA     0.000        NA  NA ## 3       DDL  r1, k  2    RV 542.2213 0.2537928 NA -1080.443        NA 554 ## 4       DDX  r1, X  2    RV 536.9910 0.3098342 NA -1069.982 0.113175 ...

April 24, 2023 · 2 min · jiezi

关于数据挖掘:Python用机器学习算法进行因果推断与增量增益模型Uplift-Modeling智能营销模型附代码数据

原文链接:http://tecdat.cn/?p=27058最近咱们被客户要求撰写对于因果推断与增量的钻研报告,包含一些图形和统计输入。 应用 ML 进行晋升建模和因果推理 Python 包提供了一套应用基于最近钻研的机器学习算法的晋升建模和因果推理方法。容许用户依据试验或察看数据预计条件均匀解决成果 (CATE) 或个体解决成果 (ITE)。实质上,它预计了干涉 对 具备察看特色的用户的 T 后果 的因果影响,而对模型模式没有强烈的假如。典型用例包含 广告流动定位优化:在广告流动中进步投资回报率的一个重要伎俩是将广告定位到在给定 KPI(如参与度或销售量)中会有良好反馈的客户群。通过依据 A/B 试验或历史察看数据在集体层面预计广告曝光的 KPI 影响来辨认这些客户。个性化参加:公司有多种抉择与客户互动,例如在追加销售或音讯渠道中的不同产品抉择。能够预计每个客户和解决选项组合的异质解决成果,以获得最佳的个性化举荐零碎。目前反对以下办法 基于树的算法欧几里得间隔和卡方上的随机森林晋升树/随机森林元学习算法S学习T学习X学习R学习工具变量算法2 阶段最小二乘法 (2SLS) 开始S、T、X 和 R 学习的均匀解决成果预计 xg = XGBTRrssor()nn = MLPTReesor(hidenlayer_izes=(10, 10))xl = BaeXegrsor(lernr=XGBeresor())rl = BaeRReresor(lerner=XRegrssor())可解释的因果机器学习提供了解释如下训练的解决成果模型的办法: 元学习特色的重要性# 加载合成数据np.array(['treaet_A' if x==1 else 'cotol' for x in trtent]) # 解决/管制名称RnFostRgesor()  # 为model_tau_feature指定模# 在根底学习器中应用feature_importances_办法plot_ipornce()# 绘制shap值pot_shp_ues()# interaction_idx设置为'auto'ploshp_dpedece() *点击题目查阅往期内容 R语言应用马尔可夫链对营销中的渠道归因建模 左右滑动查看更多 01 02 03 04 晋升树可视化uplit_del.fit(df[fars].values,                 trtnt=df['trtme_rop_ey'].values,                  y=df['cvesin'].values) ![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d7df7c648844487895bc15de3ccb62c3~tplv-k3u1fbpfcp-zoom-1.image)* * * * * * ![图片](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/734afe5eec6c4198906215e46566a9a0~tplv-k3u1fbpfcp-zoom-1.image)点击文末 **“浏览原文”**获取全文残缺材料。 本文选自《Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型》。 **点击题目查阅往期内容**[Boosting原理与R语言晋升回归树BRT预测短鳍鳗散布](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247513943&idx=2&sn=bb7b7fce21f368c6fd07fabbb09028a9&chksm=fd92895ccae5004a8e32f85b02210ec00d210be6fb93c148fe390202cb9a1856e0a88a809cf7&scene=21#wechat_redirect)[Python决策树、随机森林、奢侈贝叶斯、KNN(K-最近街坊)分类剖析银行拉新流动开掘潜在贷款客户](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247500812&idx=1&sn=b86cc97f4d72c4a405307538c197ef1e&chksm=fd92fa07cae5731190412d4118623b03efeccb6f64687334773c0161ae643a945f5f7d94c541&scene=21#wechat_redirect) [R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247500408&idx=1&sn=90a05918163d0b313663b1c6e12a8bf5&chksm=fd92fc73cae5756556b06c2930784e58c3b338a9efffa5746062a882585af5ae3b0c000cd3cd&scene=21#wechat_redirect)[R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496872&idx=1&sn=75ff23eea0d78cd9345675a815623dbf&chksm=fd92caa3cae543b5c8bc97353084e24634346343f75a2b0009a48f38020c084aeb4d72ec506a&scene=21#wechat_redirect) [R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496608&idx=1&sn=0aaad3c6d856eb70f259a1b7099f28f1&chksm=fd92cdabcae544bd96afb27b20c9eafd604cc45b6efb1420fdd19f28626de376b8fb858ccc40&scene=21#wechat_redirect) [R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496453&idx=1&sn=3f1b1a598dc451d9dd599ecbc20f7c4d&chksm=fd92cd0ecae54418486b1a5de02d094e26c0ef453829dd3c39220cb0fd2ec910989a3a8595f2&scene=21#wechat_redirect) [matlab应用分位数随机森林(QRF)回归树检测异样值](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496258&idx=1&sn=37e17aad9615732d11a246b4a0e8cac1&chksm=fd92cc49cae5455f254c82ff12876e0ddee92e4dbcd87dd41e60c9914e7cb3b9e81076325e1a&scene=21#wechat_redirect) [R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247491694&idx=1&sn=f795dfe9c9eacfdd05ae887dfa687855&chksm=fd92de65cae55773872c8cc94cdefd0d93e8b726faf7c686866226f9a5013e83114c52629193&scene=21#wechat_redirect) [R语言中应用线性模型、回归决策树主动组合特色因子程度](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247490328&idx=3&sn=f016a6e47e7ddeaafb337860cc7641b7&chksm=fd912513cae6ac05782727c61b1fa9f53de4f32e6776cb59c0ca973dc51909a1c07ee5e6c6f7&scene=21#wechat_redirect) [R语言中自编基尼系数的CART回归决策树的实现](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247490194&idx=1&sn=f96e21f5b3bad1bb37efffdd6f41502f&chksm=fd912499cae6ad8fa9e097ccd11cea14999c8e4f13ffdebceb7fa2ec1d13dd2eaa014164fd08&scene=21#wechat_redirect) [Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247491318&idx=1&sn=72d5100f7c2c40acd77f7746019f7454&chksm=fd9120fdcae6a9ebc45c2d9eaab032b0f0f53d63ba79ecf432a423e1c5ee73e8d2b993290ae2&scene=21#wechat_redirect) [R语言基于树的办法:决策树,随机森林,Bagging,加强树](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247495111&idx=2&sn=3f3786e67254eb11588067696bd41960&chksm=fd92d3cccae55ada6bb2e24544b95d1f724cf2c7cd6cec6ce2f319957af253c51c9b04e4c2dc&scene=21#wechat_redirect) [R语言实现偏最小二乘回归法 partial least squares (PLS)回归](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496903&idx=2&sn=34f27ec6e242d97b5abb9e2f3a7aefa6&chksm=fd92cacccae543da4614c8399715dd4ee4d51fbc046f56469ecde7ec24d6723a38a0d16c9899&scene=21#wechat_redirect) [R语言多项式回归拟合非线性关系](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496815&idx=1&sn=9519d7eb3e57415c12f54232c116b10d&chksm=fd92ca64cae543727f2c46737f0e8e6dc7a3256eb58bf7e183f9ded61e704325954713ff8dc7&scene=21#wechat_redirect) [R语言逻辑回归(Logistic回归)模型分类预测病人冠心病危险](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496763&idx=1&sn=14524fe7bd95b3dd6e130c4f17b02bb8&chksm=fd92ca30cae543261cbb0a28273257ea478f5cd0eb15e32d01b9d9d54acf9e07c4bac9196425&scene=21#wechat_redirect) [R语言用部分加权回归(Lowess)对logistic逻辑回归诊断和残差剖析](http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247496577&idx=1&sn=f9d866fa91dfdfad6c93e31d22bcaa38&chksm=fd92cd8acae5449c5ec6a0ac47fb52e958ca5d6e59151c92d3d14cf3b53a4376ea30912cc6c0&scene=21#wechat_redirect)

April 24, 2023 · 1 min · jiezi

关于数据挖掘:R语言使用马尔可夫链对营销中的渠道归因建模附代码数据

原文链接:http://tecdat.cn/?p=5383最近咱们被客户要求撰写对于马尔可夫链的钻研报告,包含一些图形和统计输入。 在这篇文章中,咱们看看什么是渠道归因,以及它如何与马尔可夫链的概念分割起来 咱们还将通过一个电子商务公司的案例钻研来了解这个概念如何在实践上和实际上运作(应用R)。 什么是渠道归因?Google Analytics为归因建模提供了一套规范规定。依据Google的说法,“归因模型是决定销售和转化如何调配给转化门路中的接触点的规定或一组规定。例如,Google Analytics中的最初一次互动模型会为紧接销售或转化之前的最终接触点(即,点击次数)调配100%的功绩。相比之下,第一个互动模型为启动转化门路的接触点调配100%的功绩。“ 咱们将在本文前面看到最初一个交互模型和第一个交互模型。在此之前,让咱们举一个小例子,进一步理解渠道归因。假如咱们有一个转换图,如下所示: 在上述情况下,客户能够通过渠道'C1'或渠道'C2'开始他们的旅程。以C1或C2开始的概率为50%(或0.5)。咱们首先计算转换的总体概率,而后进一步查看每个渠道的影响。 P(转换)= P(C1→C2→C3→转换)+ P(C2→C3→转换) = 0.5 0.5 1 0.6 + 0.5 1 * 0.6 = 0.15 + 0.3 = 0.45 马尔可夫链马尔可夫链是一个过程,它映射流动并给出概率分布,从一个状态转移到另一个状态。马尔可夫链由三个属性定义: 状态空间 - 解决可能存在的所有状态的汇合 转换操作 - 从一个状态转移到另一个状态的概率 以后状态概率分布 - 在过程开始时处于任何一个状态的概率分布 咱们晓得咱们能够通过的阶段,从每条门路挪动的概率以及咱们晓得以后状态的可能性。这看起来与马尔可夫链类似。 事实上,这是一个马尔可夫链的利用。如果咱们要弄清楚渠道1在咱们的客户从始至终转换的过程中的奉献,咱们将应用去除成果的准则。去除成果准则说,如果咱们想要在客户过程中找到每个渠道的奉献,咱们能够通过删除每个渠道并查看在没有该渠道的状况下产生了多少次转化。 例如,咱们假如咱们必须计算通道C1的奉献。咱们将从模型中删除通道C1,并查看图片中没有C1的状况下产生了多少次转换,即所有渠道完整无缺时的总转换次数。咱们计算渠道C1: 点击题目查阅往期内容 matlab贝叶斯隐马尔可夫hmm模型实现 左右滑动查看更多 01 02 03 04 P(去除C1后的转换)= P(C2→C3→转换) = 0.5 1 0.6 = 0.3 30%的客户互动能够在没有C1渠道的状况下进行转换; 而C1完整无缺,45%的互动能够转换。所以,C1的去除成果是 0.3 / 0.45 = 0.666。 ...

April 24, 2023 · 2 min · jiezi

关于数据挖掘:贝叶斯分位数回归lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白前列腺癌数据附代码数据

原文链接:http://tecdat.cn/?p=22702最近咱们被客户要求撰写对于贝叶斯分位数回归的钻研报告,包含一些图形和统计输入。 贝叶斯回归分位数在最近的文献中受到宽泛关注,本文实现了贝叶斯系数预计和回归分位数(RQ)中的变量抉择,带有lasso和自适应lasso惩办的贝叶斯 摘要还包含总结后果、绘制门路图、后验直方图、自相干图和绘制分位数图的进一步建模性能。 简介回归分位数(RQ)由(Koenker和Gilbert,1978)提出,将感兴趣的后果的条件分位数作为预测因子的函数来建模。自引入以来,分位数回归始终是理论界十分关注的话题,也在许多钻研畛域失去了大量的利用,如计量经济学、市场营销、医学、生态学和生存剖析(Neelon等,2015;Davino等,2013;Hao和Naiman,2007)。假如咱们有一个察看样本{(xi , yi);i = 1, 2, - -, n},其中yi示意因变量,xi示意协变量的k维矢量。 贝叶斯_分位数_回归Tobit RQ为形容非负因变量和协变量向量之间的关系提供了一种办法,能够被表述为因变量的数据未被齐全察看到的分位数回归模型。对于Tobit 分位数回归模型有相当多的文献,咱们能够参考Powell(1986)、Portnoy(2003)、Portnoy和Lin(2010)以及Kozumi和Kobayashi(2011)来理解详情。考虑一下这个模型。 其中,yi是察看到的因变量,y∗i是相应的潜在的未察看到的因变量,y 0是一个已知的点。能够证实,RQ系数向量能够通过以下最小化问题的解来继续预计 Yu和Stander(2007)提出了一种Tobit RQ的贝叶斯办法,应用ALD计算误差,并应用Metropolis-Hastings(MH)办法从其后验散布中抽取。 实在数据实例咱们思考用实在的数据例子。 免疫球蛋白G数据这个数据集包含298名6个月到6岁儿童的免疫球蛋白G的血清浓度(克/升),Isaacs等人(1983)对其进行了具体探讨,Yu等人(2003)也应用了该数据集。为了阐明问题,该数据集的贝叶斯分位数回归模型(能够拟合如下)。 rq(血清浓度~年龄, tau=0.5)摘要函数提供估计值和95%的置信区间 绘制数据,而后将五条拟合的RQ线叠加在散点图上。 R> for (i in 1:5) {+ taus=c(0.05, 0.25, 0.5, 0.75, 0.95)+ rq(tau=taus[i])+ abline(fit, col=i)+ }R> R> for (i in 1:5) {+ fit = rq(年龄+I(年龄^2),tau=taus[i])+ curve(,add=TRUE)+ } 图2:免疫球蛋白G数据的散点图和RQ拟合。 点击题目查阅往期内容 matlab应用分位数随机森林(QRF)回归树检测异样值 左右滑动查看更多 01 02 03 04 该图显示了298名6个月至6岁儿童的免疫球蛋白G的散点图。叠加在该图上的是{.05, .25, .50, .75, .95}的RQ线(左图)和 RQ线(左图)和RQ曲线(右图)。 图能够用来评估吉布斯采样向安稳散布的收敛状况。咱们在图1中只报告了=0.50时每个参数的门路图和后验直方图。咱们应用以下代码 plot(fit,"tracehist",D=c(1,2))能够通过生成门路图、后验直方图、自相干图来对Gibbs采样的绘制后果进行图形总结。门路和直方图,门路和自相干,直方图和自相干,以及门路、直方图和自相干。这个函数还有一个选项。在图3中,免疫球蛋白G数据系数的门路图表明,采样从后验空间的一个偏僻区域跳到另一个区域的步骤绝对较少。此外,直方图显示边际密度实际上是所冀望的安稳的单变量常态。 图3:当=0.50时,免疫球蛋白G数据集的系数的门路和密度图。 前列腺癌数据在本大节中,咱们阐明贝叶斯分位数回归在前列腺癌数据集(Stamey等人,1989)上的体现。该数据集考察了期待根治性前列腺切除术的病人的前列腺特异性抗原(lpsa)程度和八个协变量之间的关系。 这些协变量是:癌症对数体积(lcavol)、前列腺的对数分量(lweight)、年龄(age)、良性前列腺的对数体积(lbph)、精囊进犯(svi)、胶囊穿透的对数(lcp)、格里森评分(gleason)以及格里森评分4或5的百分比(pgg45)。 在本大节中,咱们假如因变量(lpsa)均值为零,而预测因子已被标准化,均值为零。为了阐明问题,咱们思考当=0.50时,贝叶斯lasso套索RQ(办法="BLqr")。在这种状况下,咱们应用以下代码 R> x=as.matrix(x)R> rq(y~x,tau = 0.5, method="BLqr") 模型法可用于确定回归中的沉闷变量。  相应的吉布斯采样的收敛性是通过生成样本的门路图和边际后验直方图评估的。因而,图能够用来提供一个对于吉布斯采样器收敛的图形查看,通过应用以下代码查看门路图和边际后验直方图。 plot(fit, type="trace")上述代码的后果别离显示在图4和图5中。图4中的门路图显示,生成的样本迅速穿梭了后验空间,图5中的边际后验直方图显示,条件后验散布实际上是所需的安稳单变量常态。  小麦数据咱们思考一个小麦数据集。这个数据集来自于国家小麦种植倒退打算(2017)。这个小麦数据由11个变量的584个观测值组成。因变量是每2500平方米小麦产量减少的百分比。协变量是化肥尿素(U)、小麦种子收获日期(Ds)、小麦种子播种量(Qs)、激光平田技术(LT)、复合肥施肥(NPK)、播种机技术(SMT)、绿豆作物种植(SC)、作物除草剂(H)、作物高钾肥(K)、微量元素肥料(ME)。 上面的命令给出了=0.50时Tobit RQ的后验散布。 rq(y~x,tau=0.5, methods="Btqr") 还能够拟合贝叶斯lassoTobit 分位数回归和贝叶斯自适应lassoTobit 分位数回归。当=0.50时,函数能够用来取得Tobit 分位数回归的后验平均值和95%的置信区间。  ...

April 24, 2023 · 1 min · jiezi

关于数据挖掘:SQL-Server仓储物流公司visual-studio发货数据仓库设计

全文链接:http://tecdat.cn/?p=32241原文出处:拓端数据部落公众号分析师:Yanlin Li仓储物流是货物生产销售的重要环节。随着贸易自由化和电子商务的衰亡,物流企业疾速倒退,为进步仓库管理效率,挖掘更多的仓库供应商客户,合理配置资源并升高经营老本,经营者在制订经营决策时须要剖析仓储物流过程的整个环节的数据,然而在业务零碎中的数据是依照业务过程进行组织的,处于孤立扩散的状态并不适用于数据的统计和剖析。在仓储物流零碎上建设数据仓库,依照用于决策分析的主题对不同零碎中数据进行从新组织,为数据分析和数据挖掘提供无效的数据起源。 解决方案工作/指标搭建物流数据仓库的目标是整合仓储物流零碎中的数据,以统计图表的形式提交给决策部门和零售商客户,为实现高效的仓库治理和制订物流策略提供牢靠的根据,帮忙零售商客户改良商品设计和制订无效的营销策略。(1)商品数据分析商品信息管理统计零售商的不同类型的商品的发货数目,以报表的模式发送给零售商客户,作为销售量的参照来制订无效的营销策略。(2)物流数据分析对每个仓库物流的状况进行记录,提供在特定路线和货车型号策略下的货物运输数目,以便仓库管理层调整物流策略,进步发货数目和仓库的利用率,节约物流估算。(3)货运量剖析对每次货运量进行记录,将其与预期运货量进行比拟剖析,并进行月运货量环比剖析,以便仓库管理层的绩效考评以及产业结构的优化 在本次数据仓库设计中次要指标是第三点:对货运量进行剖析,建设了以货运量为测量值的事实表,并设计了相应 KPI 以达到钻研剖析目标。 数据源 解决钻研数据源采纳了在重庆东聚仓储物流有限公司物流数据根底上以钻研为目标设计的工夫周期为一年的运货csv文件数据,每一行数据蕴含工夫、发货仓库、货物类型等维度信息,依据后期概念模型,确定发货事实表的设计,冀望达到笼罩整个发货流程的目标。将维度确定为:工夫、输送打算、货物类型、发货仓库。具体的星型结构图如下: 将原始csv文件导入SQL Server中,进行数据荡涤,使用insert into ...select...from语句提取维度表。 数据仓库构建与部署使用visual studio软件实现数据仓库的构建和部署如下图 实现数据仓库的层次结构设计、工夫智能实现和kpi设计与实现。 OLAP实现选用excel连贯数据库建设数据透视图表实现OLAP。依据治理指标设置: 仓库发货情况表 可在四个发货仓库中抉择一个或多个展现数据,表中测量值为理论运载比率即理论运货量与预计运货量的比值,在数据透视图中能够实现相应的数据钻取、切片。 理论运货量月度环比增长率 以货物类型、发货仓库为筛选器,展现一个结算周期(11 月至次年十月) 中理论运货量的环比增长率。 季运货量汇总 利用 OLAP 解决治理问题绩效达标问题公司对每个期间都有预期货运量,通过将理论货运量与预期货运量做比照,能够失去一个表明是否达到预期货运量的状态值以及状态符号,这也是咱们所设计的KPI。咱们所设计的KPI可通过OLAP直观地展现进去,以红色状态符号代表未达标,绿色状态符号代表达标。管理者能够通过观察KPI来取得绩效是否达标这一信息,据此作出经营管理决策。 工夫规律性问题数据仓库建设过程中使用维度建模时采纳了工夫维度,使得数据仓库建设实现后,能够在OLAP中通过抉择工夫为行标签,查看各个记录时间所产生的货运量,也可细分到各个记录时间各个不同货运计划、货品类型的货运状况,以探索货运量的工夫规律性,依据工夫规律性能够针对不同期间采取不同的经营管理策略,以达到提高效率、节约老本的目标。 对于分析师 在此对Yanlin Li对本文所作的奉献示意诚挚感激,他在重庆大学实现了信息管理与信息系统学位,专一数据挖掘、数据分析 。 最受欢迎的见解 1.PYTHON用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像 2.R语言基于树的办法:决策树,随机森林 3.python中应用scikit-learn和pandas决策树 4.机器学习:在SAS中运行随机森林数据分析报告 5.R语言用随机森林和文本开掘进步航空公司客户满意度 6.机器学习助推快时尚精准销售工夫序列 7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用 8.python机器学习:举荐零碎实现(以矩阵合成来协同过滤) 9.python中用pytorch机器学习分类预测银行客户散失

April 24, 2023 · 1 min · jiezi

关于数据挖掘:专题展望人工智能银行当银行遇到AI报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32210原文出处:拓端数据公众号在2016年, AlphaGo机器人战胜了18届世界棋王李世石,成为了世界棋坛上最平凡的人物。围棋是一种非常复杂的棋类,它要求有很强的直觉,想像力和策略性的思考,而这所有在很长一段时间里都被认为是人类的天才。现在,人工智能技术曾经倒退了很长时间,给很多产业带来了很大的变动。有了 Al技术的设施,这些设施能够为时装零售商提供个性化的数字倡议,甚至能够在癌症查看方面赶上资深医师。据估算,人工智能技术在世界范畴内的银行业务中,每年能够产生一万亿美元的增值。 在过来的数十年中,银行始终在应用最新的科技翻新和对与顾客的交互方式进行从新定义。60年代,银行引入了主动柜员机,70年代引入了以信用卡为根底的付款模式。本世纪初,24/7、24小时不间断的网上银行开始风行,到了本世纪初,以手机为根底的“随时随地做生意”的模式开始流行起来。 毫无疑问,咱们曾经进入了一个以 AI为主导的数字时代,随着数据的存储与解决费用的升高,人们对信息的取得与连贯的普遍提高,人工智能技术失去了疾速的倒退。人工智能技术能够在无效管制危险的同时,进步人工决策的效率和精度。它在所有行业中都具备不可比较的潜在价值,比方AI技术,它能够为银行发明一年1万亿美元的增值价值(图表)。 本专题内的参考报告(PDF)目录煜寒征询:2023上海银行保险业满意度白皮书 报告2023-04-19中小银行联盟:2022中小银行金融科技倒退钻研报告 报告2023-04-13中国人民银行:2023 年第一季度城镇储户问卷调查报告 报告2023-04-13易观剖析:国家核心城市手机银行倒退洞察 报告2023-04-08德勤:2022年银行和资本市场并购瞻望 报告2023-04-06NIFD:数字经济背景下科技服务商对商业银行的异质性影响钻研 报告2023-04-06IBM:2023 年寰球银行和金融市场瞻望:在不确定的时代构建数字化优... 报告2023-04-06腾银财智:中国银行业私域客户经营白皮书2023 报告2023-04-02麦肯锡:寰球银行业年度报告(2022) 报告2023-04-02中信银行:大类资产配置蓝皮书(2023)-新时代、新趋势、新办法 报告2023-04-01世界银行:上行的长期增长前景:趋势、冀望和政策报告 报告2023-03-30简立方:2023年国有五大行手机银行适老化设计现状(金融APP体验剖析... 报告2023-03-21安永:第十二次寰球银行风险管理年度考察 报告2023-03-18中国理财网:中国银行业理财市场年度报告(2022年) 报告2023-03-17兴业银行&Visa:2023年度生产洞察白皮书 报告2023-03-17中国工商银行&北京大学:银行元宇宙翻新利用白皮书 报告2023-03-14百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-03-13硅谷银行:2022衰弱科技的将来报告 美国和欧洲市场2022年度报告 报告2023-03-10德勤:2023年银行和资本市场瞻望 报告2023-03-08德勤:2023年银行监管瞻望报告 报告2023-03-07毕马威:2023年香港银行业瞻望 报告2023-03-06微众银行:区块链从业者图鉴-FISCO BCOS开源社区用户报告(20... 报告2023-03-05埃森哲报告:重塑银行业体验 报告2023-03-05毕马威:2022银行业税务年度报告 报告2023-03-04Brand Finance:2023年银行业500强 报告2023-03-02世界银行:应答外部气象移民 报告2023-02-28百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-02-27中国人民银行:2021年反洗钱报告 报告2023-02-26腾讯研究院:全真互联-银行数字化倒退钻研报告 报告2023-02-26中国人民银行:2022年第四季度中国货币政策执行报告 报告2023-02-25腾银财智:中国银行业私域客户经营白皮书2023 报告2023-02-25普华永道:精益银行财资治理赋能银行数智将来 报告2023-02-23安永:2023银行保险机构碳中和策略白皮书 报告2023-02-23世界银行:贸易和气候变化的关系报告 报告2023-02-22毕马威:鉴过知来 向往而新:2022年度银行业监管处罚剖析洞察 报告2023-02-16易观剖析:100万条数据解读2023银行APP用户体验降级方向 报告2023-02-15中国进出口银行:2022中国进出口银行绿色金融白皮书 报告2023-02-13中小银行联盟:中小银行金融科技倒退钻研报告2022 报告2023-02-12中国银行业协会:中国银行业中间业务倒退报告暨翻新案例选编(2022) 报告2023-02-12毕马威:银行业客户体验白皮书-新意义、新外延、新价值 报告2023-02-11贝恩公司:中国数字化批发银行报告(2023) 报告2023-02-10毕马威:2022年寰球银行业首席执行官瞻望 报告2023-02-05麦肯锡:中国TOP40银行价值发明排行榜(2022)-应答疾速变动的世... 报告2023-02-04IBM:解码无界,发明数字化转型的有限可能:中国银行业企业架构施行现状... 报告2023-02-01中国银行:2023中国银行集体金融寰球资产配置白皮书 报告2023-01-31用友&毕马威:2023年银行业治理会计深入利用白皮书 报告2023-01-25Confirmation:2022年及当前寰球银行面临的挑战和解决方案 报告2023-01-25中国银行业协会:中国银行业理财业务倒退报告暨理财公司年鉴(2022) 报告2023-01-18毕马威:银行策略施行的现状、问题和解决方案 报告2023-01-16德勤:2023年寰球银行业及资本市场瞻望 报告2023-01-15易观剖析:2022年人民满意手机银行服务白皮书 报告2023-01-14联合国开发计划署:中国银行间债券市场社会责任与可继续倒退债券简报 报告2023-01-11中国金融认证核心:2022凋谢银行生态金融白皮书 报告2023-01-07麦肯锡:中国Top40银行价值发明排行榜2022 报告2023-01-04网商银行:数字银行可信纵深进攻白皮书 报告2023-01-01中国银行业协会:中国银行业理财业务倒退报告暨理财公司年鉴(2022) 报告2022-12-29中小银行联盟:中小银行金融科技倒退钻研报告(2022) 报告2022-12-25BCG&微众银行:中国数字财产治理市场2022 报告2022-12-19毕马威:银行经营效益和效率晋升新洞察 报告2022-12-12IBM:卓越银行的基石-减速数字化转型的实际和优先工作 报告2022-12-09联结资信:银行业季度观察报(2022年第4期) 报告2022-12-08中国银行:寰球经济金融瞻望报告(2023年) 报告2022-12-06世界银行:2022年移民与倒退简报 报告2022-12-03中国银行:中国经济金融瞻望报告(2023年年报) 报告2022-12-01中国银行:寰球银行业瞻望报告2023年年报(总第53期) 报告2022-12-01世界银行:2022年寰球金融科技监管机构调查报告 报告2022-12-01世界银行:2022年中国国别气象与倒退报告 报告2022-11-26世界银行:中国国别气象与倒退报告 报告2022-11-25毕马威:将来银行2.0-如何打造数字化时代的智链公司银行 报告2022-11-24BCG:2022年寰球批发银行报告 报告2022-11-17普华永道:批发银行将来五大场景:摸索转型之路,构建外围能力 报告2022-11-15浦发硅谷银行:2022年下半年市场态势报告 报告2022-11-13IBM:卓越银行的基石-减速数字化转型的实际和优先工作 报告2022-11-13世界银行:气象与倒退:口头议程钻研报告 报告2022-11-11普华永道:2022中国区域性银行高质量倒退指数报告 报告2022-11-10挪威银行:2022年金融基础设施报告 报告2022-11-07法兰西银行:应用零售央行数字货币进行跨境结算 报告2022-11-07德勤:中国银行业2022年上半年倒退回顾与瞻望 报告2022-11-04德勤:中国上市银行绿色金融洞察与瞻望(2022) 报告2022-11-04毕马威:2022第三季度银行业监管处罚剖析洞察 报告2022-11-02世界银行:乌克兰和平对寰球贸易和投资的影响 报告2022-11-02中国银行业协会:2021-2022年人民币国际化报告 报告2022-10-31北森:批发银行要害岗位白皮书 报告2022-10-31易观剖析:数字经济全景白皮书-银行业智能风控科技利用专题剖析 报告2022-10-23中国人民银行:中国普惠金融指标剖析报告(2021年) 报告2022-10-10联结资信:银行业季度观察报(2022年第3期) 报告2022-10-10北京银行:中国金融:规范引领晋升智慧金融服务效力 报告2022-10-10金融壹账通:银行如何真正的用好标签与指标 报告2022-10-06德勤:中国银行业2022年上半年倒退回顾与瞻望 报告2022-09-29中国银行:2022年第3季度寰球银行业瞻望报告 报告2022-09-27中国银行:2022年第3季度寰球经济金融瞻望报告 报告2022-09-27中国人民银行:2022年人民币国际化报告 报告2022-09-2721 世纪经济报道&广发银行:Z世代信用卡金融科技翻新倒退与趋势报告 报告2022-09-27易观剖析:数字经济全景白皮书-银行业数字普惠金融倒退与优化策略剖析 报告2022-09-27普华永道:2022年半年度中国银行业回顾与瞻望 报告2022-09-25亿欧智库:2022中国商业银行危险管理系统钻研报告 报告2022-09-24浦发银行&清华大学:金融科技新动力:数字化劳动力的利用与前瞻(精华版) 报告2022-09-20神策研究院:银行渠道用户体验管理体系建设与实际 报告2022-09-17亿欧智库:2021-2022中国商业银行危险管理系统钻研报告 报告2022-09-14易观剖析:数字经济全景白皮书:银行业智能营销利用专题剖析 报告2022-09-13毕马威:2022上半年银行业监管处罚剖析洞察-鉴过知来 向往而新 报告2022-08-25中国理财网:中国银行业理财市场半年报告(2022年上) 报告2022-08-22毕马威:2022危险雷达——银行业 报告2022-08-17浙商证券:银行与地产专题报告:保交房的资金缺口与危险化解门路 报告2022-08-16毕马威:银行业-2022危险雷达 报告2022-08-15中国人民银行:2022年第二季度中国货币政策执行报告 报告2022-08-12麦肯锡:瞻望人工智能银行:当银行遇到AI 报告2022-08-11普华永道:商业银行数据资产化前瞻性钻研白皮书 报告2022-08-09亿欧智库:银行外围零碎下篇(供应侧) 报告2022-08-07凯度:2022凯度银行保险行业品牌建设报告:以差异化博弈变局,洞察银行... 报告2022-08-04爱剖析:2022爱剖析· 银行数字化厂商全景报告 报告2022-08-03中国邮政储蓄银行:碳中和指标下商业银行低碳转型门路钻研 报告2022-08-02北京金融科技产业联盟:银行业云原生技术倒退实际及瞻望 报告2022-07-25IDC&安全银行:中国凋谢银行白皮书2022 报告2022-07-25爱剖析:2022爱剖析・银行数字化实际报告 报告2022-07-25住建部&财政部&中国人民银行:全国住房公积金 2021 年年度报告 报告2022-07-21中国人民银行:中国区域金融运行报告(2022).pdf 报告2022-07-21中国人民银行:上海市金融运行报告(2022) 报告2022-07-21微众银行:个人信息爱护专题研究报告 报告2022-07-20中国人民银行:中国区域金融运行报告(2022) 报告2022-07-15中国人民银行:河南省金融运行报告(2022) 报告2022-07-15中国人民银行:北京市金融运行报告(2022) 报告2022-07-11埃森哲:寰球及中国银行业趋势洞察2022 报告2022-07-10易观剖析:上市商业银行手机银行场景建设专题剖析 报告2022-07-04头豹:2022金融科技钻研系列__ 应用领域之银行(摘要版) 报告2022-07-02浦发银行:金融助力碳中和倒退与实现蓝皮书 报告2022-07-02毕马威:2022年中国银行业调查报告 报告2022-06-29NIFD:2022年第一季度中国银行业运行报告 报告2022-06-28法兰西银行:零售型中央银行数字货币实验报告(EN) 报告2022-06-24普华永道:思源致远,奋楫笃行——2022年第一季度中国上市银行业绩剖析 报告2022-06-19BCG:交易银行,产业数字生态下的客户经营之战 报告2022-06-09渣打银行:绿色商业银行联盟:绿色及可继续资本市场之变质 报告2022-06-08IBM:商业银行数据资产管理体系建设实际报告 报告2022-06-05浙商银行&浙江大学:区块链技术与金融利用平安白皮书 报告2022-05-30微众银行&金链盟:DUE Matrix银行业数字化效力评估矩阵v1.0 报告2022-05-27零壹智库:2021年国内上市银行科技投入大比拼 报告2022-05-24毕马威:2021年度上市银行预期信用风险损失披露状况剖析 报告2022-05-19微众银行:2021年微众银行可继续倒退报告 报告2022-05-19国际清算银行(BIS):减速倒退:2021寰球央行数字货币调查结果(E... 报告2022-05-17农业银行:中国农业银行金融科技翻新年度报告(2021) 报告2022-05-11零壹智库:银行理财子公司倒退现状报告 报告2022-05-09阿里云&埃森哲&中原银行:区域性银行数字新生态建设钻研 报告2022-05-08奥纬征询:数字信赖:银行如何保障数字身份平安 报告2022-05-07德勤:中国银行业2021年倒退回顾及2022年瞻望 报告2022-04-28德勤:数字化时代下的外围银行转型 报告2022-04-24普华永道:区域性银行批发转型系列洞察(一):体系为王,迈入正向循环 报告2022-04-22普华永道:2021年中国银行业回顾与瞻望——攻坚克难,迈出“十四五”坚... 报告2022-04-21安永&百信银行:产业数字金融钻研报告(2021) 报告2022-04-20毕马威:2021年寰球银行业首席执行官瞻望 报告2022-04-18安永:银行业:监管提振市场信念,稳增长是否将继续发力? 报告2022-04-14普华永道:《银行保险机构关联交易治理方法》1号令的解读 报告2022-04-10倍比拓&网易云商:2022中国银行业NPS白皮书 报告2022-04-01BCG:2020,银行领导如何落实银保监会《对于银保业数字化转型的领导... 报告2022-04-01中国银行:寰球经济金融瞻望报告2022年第2季度(总第50期)_202... 报告2022-03-31

April 23, 2023 · 1 min · jiezi

关于数据挖掘:R语言股票市场指数ARMAGARCH模型和对数收益率数据探索性分析附代码数据

全文下载链接:http://tecdat.cn/?p=19469最近咱们被客户要求撰写对于ARMA-GARCH模型的钻研报告,包含一些图形和统计输入。 本文将剖析工业指数(DJIA)。工业指数(DIJA)是一个股市指数,表明30家大型上市公司的价值。工业指数(DIJA)的价值基于每个组成公司的每股股票价格之和 工夫序列分析模型 ARIMA-ARCH GARCH模型剖析股票价格数据 本文将剖析工业指数(DJIA)。工业指数(DIJA)是一个股市指数,表明30家大型上市公司的价值。工业指数(DIJA)的价值基于每个组成公司的每股股票价格之和。 本文将尝试答复的次要问题是: 这些年来收益率和交易量如何变动?这些年来,收益率和交易量的稳定如何变动?咱们如何建模收益率稳定?咱们如何模仿交易量的稳定?为此,本文按以下内容划分:第1局部: 获取每日和每周对数收益的 数据,摘要和图 第2局部: 获取每日交易量及其对数比率的数据,摘要和图 第3局部: 每日对数收益率剖析和GARCH模型定义 第4局部: 每日交易量剖析和GARCH模型定义 获取数据利用quantmod软件包中提供的getSymbols()函数,咱们能够取得2007年至2018年底的工业均匀指数。 getSymbols("^DJI", from = "2007-01-01", to = "2019-01-01")dim(DJI)## [1] 3020 6class(DJI)## [1] "xts" "zoo"让咱们看一下DJI xts对象,它提供了六个工夫序列,咱们能够看到。 head(DJI)## DJI.Open DJI.High DJI.Low DJI.Close DJI.Volume DJI.Adjusted## 2007-01-03 12459.54 12580.35 12404.82 12474.52 327200000 12474.52## 2007-01-04 12473.16 12510.41 12403.86 12480.69 259060000 12480.69## 2007-01-05 12480.05 12480.13 12365.41 12398.01 235220000 12398.01## 2007-01-08 12392.01 12445.92 12337.37 12423.49 223500000 12423.49## 2007-01-09 12424.77 12466.43 12369.17 12416.60 225190000 12416.60## 2007-01-10 12417.00 12451.61 12355.63 12442.16 226570000 12442.16tail(DJI)## DJI.Open DJI.High DJI.Low DJI.Close DJI.Volume DJI.Adjusted## 2018-12-21 22871.74 23254.59 22396.34 22445.37 900510000 22445.37## 2018-12-24 22317.28 22339.87 21792.20 21792.20 308420000 21792.20## 2018-12-26 21857.73 22878.92 21712.53 22878.45 433080000 22878.45## 2018-12-27 22629.06 23138.89 22267.42 23138.82 407940000 23138.82## 2018-12-28 23213.61 23381.88 22981.33 23062.40 336510000 23062.40## 2018-12-31 23153.94 23333.18 23118.30 23327.46 288830000 23327.46更精确地说,咱们有可用的OHLC(收盘,高,低,开盘)指数值,调整后的收盘价和交易量。在这里,咱们能够看到生成的相应图表。 ...

April 22, 2023 · 3 min · jiezi

关于数据挖掘:R语言随机森林RandomForest逻辑回归Logisitc预测心脏病数据和可视化分析附代码数据

全文链接:http://tecdat.cn/?p=22596最近咱们被客户要求撰写对于预测心脏病的钻研报告,包含一些图形和统计输入。 本报告是对心脏钻研的机器学习/数据迷信考察剖析。更具体地说,咱们的指标是在心脏钻研的数据集上建设一些预测模型,并建设探索性和建模办法。但什么是心脏钻研? 钻研纲要介绍数据集和钻研的指标摸索数据集可视化应用Chi-Square独立测验、Cramer's V测验和GoodmanKruskal tau值对数据集进行摸索预测模型,Logisitic回归和RandomForeststep()bestglm()两个逻辑回归的实例应用5折穿插验证对模型实例进行评估变量抉择改良随机森林模型用RandomForest和Logisitc回归进行预测应用可视化进行最终的模型摸索论断和下一步改良1.简介咱们浏览了对于FHS的材料: 心脏钻研是对社区自在生存的人群中心血管疾病病因的长期前瞻性钻研。心脏钻研是流行病学的一个里程碑式的钻研,因为它是第一个对于心血管疾病的前瞻性钻研,并确定了危险因素的概念。该数据集是FHS数据集的一个相当小的子集,有4240个观测值和16个变量。这些变量如下: 观测值的性别。该变量在数据集中是一个名为 "男性 "的二值。年龄:体检时的年龄,单位为岁。教育 : 参与者教育水平的分类变量,有不同的级别。一些高中(1),高中/GED(2),一些大学/职业学校(3),大学(4)目前吸烟者。每天抽的烟的数量查看时应用抗高血压药物的状况流行性中风。流行性中风(0 = 无病)。流行性高血压(prevalentHyp)。流行性高血压。如果承受医治,受试者被定义为高血压糖尿病。依据第一次查看的规范医治的糖尿病患者总胆固醇(mg/dL)收缩压(mmHg)舒张压(mmHg)BMI: 身材品质指数,体重(公斤)/身高(米)^2心率(次/分钟)葡萄糖。血糖程度(mg/dL)最初是因变量:冠心病(CHD)的10年危险。 这4240条记录中有3658条是残缺的病例,其余的有一些缺失值。 2.理解数据的意义在每一步之前,要加载所需的库。 require(knitr)require(dplyr)require(ggplot2)require(readr)require(gridExtra) #出现多幅图而后,加载心脏钻研的数据集。 2.1 变量和数据集构造的查看咱们对数据集进行一次查看。 dim(dataset) kable(head(dataset)) str(dataset) ##查看变量的摘要summary(dataset) 2.2 数据集的单变量图生成一个数据集的所有单变量图。 # 须要删除字符、工夫和日期等变量                                                     geom_bar(data = dataset,                                                     theme_linedraw()+#colnames(dataset)        marrangeGrob(grobs=all_plots, nrow=2, ncol=2) 这是为了取得对变量,对整个问题和数据集的了解,将通过多变量或至多双变量的可视化来实现。 点击题目查阅往期内容 数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 左右滑动查看更多 01 02 03 04 2.3 数据集的双变量图:因变量和预测因素之间的关系当初咱们能够进行一些双变量的可视化,特地是为了看到因变量(TenYearCHD)和预测因素之间的关系。因为图的数量太多,不是所有的一对变量都能被考察到!咱们能够在前面的步骤中持续考察。咱们能够稍后再回到这一步,深刻理解。 上面的代码能够生成因变量的所有双变量图。因为因变量是一个二元变量,所以当预测变量是定量的时候,咱们会有boxplots,或者当预测变量是定性的时候,咱们会有分段的bar图。 for (var in colnames(dataset) ){        if (class(dataset[,var]) %in% c("factor","logical") ) {ggplot(data = dataset)  +                         geom_bar( aes_string(x = var,                                                                                   } else if (class(dataset[,var]) %in% c("numeric","double","integer") ) { ggplot(data = dataset) +                         geom_boxplot() 依据咱们把握的状况,男性与TenYearCHD间接相干,因而男性这个变量仿佛是一个绝对较好的预测因素。同样,年龄仿佛也是一个很好的预测因素,因为TenYearCHD == TRUE的病人有较高的年龄中位数,其散布简直类似。相同,不同类别的教育和因变量之间仿佛没有关系。目前的吸烟者变量与因变量有轻微的关系,因为目前的吸烟者患TenYearCHD的危险略高。 2.4 应用Goodman&Kruskal tau测验定性变量之间的关系然而,除了这些实质上是定性办法的图表外,人们可能心愿对这种关联有一个数字值。为了有这样的数字测量,我想应用Goodman&Kruskal的tau测量,这是两个无序因子,即两个分类/名义变量之间的关联测量。在咱们这个数据集中的因子变量中,只有教育是_序数变量_,即它的类别有意义。这种测量方法比Cramer's V或chi-square测量方法更具信息量。 GKtauData(cat_variables)plot(dataset) 能够看出,对于因变量的变异性,预测因素的解释力十分小。换句话说,依据Goodman和Kruskal's tau度量,咱们的预测因素和因变量之间简直没有关联。这能够从TenYearCHD一栏的数值中看出。 假如我的G&Ktau测验正确的话,这对模型来说并不是一个好消息。 为了测验这些发现,咱们能够用Chi-square测验来测验分类变量与因变量的关联的显著性,而后用Phi相关系数来评估可能的关联的强度。Phi用于2x2等值表。对于更大的表格,即有更多层次的变量,能够利用Cramer's V。 chisq.test(table(dataset_cat$p.value ))         phi(matrix(table(dataset_cat_variables[,7], 奇怪的是,当Chi-square的P值如此之低时,可能的关联的显著性为零。这两个测试(Chi-square和Phi相干)在大量的察看中基本上得出雷同的后果,因为一个是基于正态分布的,另一个是基于t散布的。 2.5 多重共线性的双变量剖析该模型的真正问题在于共线性现象。共线性关系产生在两个预测因子高度相干的状况下。咱们须要查看这种个性,而后持续建设对数回归模型。 依据Goodman和Kruskal's tau图,咱们不应该放心共线性。然而,有序变量的教育变量呢?Cramer's V测验显示,其强度不大。 #  教育与其余分类变量的Chi square独立性测试  chisq.test(table(education,variables[,x]))$p.value ) #将教育变量从新定位到数据集的第一个变量上         assocstats(x = table(dataset_cat_variables[,1], dataset_$cramer ) ) ...

April 22, 2023 · 1 min · jiezi

关于数据挖掘:Python使用GARCHEGARCHGJRGARCH模型和蒙特卡洛模拟进行股价预测附代码数据

全文下载链接:http://tecdat.cn/?p=20678最近咱们被客户要求撰写对于GARCH的钻研报告,包含一些图形和统计输入。 在本文中,预测股价曾经受到了投资者,政府,企业和学者宽泛的关注。然而,数据的非线性和非平稳性使得开发预测模型成为一项简单而具备挑战性的工作 在本文中,我将解释如何将 GARCH,EGARCH和 GJR-GARCH 模型与Monte-Carlo 模仿联合应用, 以建设无效的预测模型。金融工夫序列的峰度,稳定率和杠杆效应特色证实了GARCH的合理性。工夫序列的非线性特色用于查看布朗运动并钻研工夫演变模式。非线性预测和信号分析方法因其在特征提取和分类中的鲁棒性而在股票市场上越来越受欢迎。 动力学零碎能够用一组时变(间断或离散)变量来形容,这些变量形成信号剖析非线性办法的根底。如果工夫的以后值和状态变量能够精确地形容下一时刻的零碎状态,则能够说这样的零碎是确定性的。另一方面,如果工夫和状态变量的以后值仅形容状态变量的值随工夫变动的概率,则将动力学零碎视为随机零碎。因而,在应用GARCH 建模办法之前 ,我将采纳 分形维数(FD) ,重定 范畴 和 递归量化剖析(RQA)的 数据建模 技术 来总结数据的非线性动力学行为并实现钻研指标。 办法Hurst系数  (H)  是长期依赖的特征参数,与 FD (_FD + H = 2_)无关。 R / S剖析是数据建模的外围工具。教训钻研表明, 与同类中的其余办法相比,  R / S_带来了更好的后果,例如自相干,光谱合成的剖析。它是度量工夫序列差别的度量,该工夫序列的定义是给定持续时间_(T)_的均值范畴  ,除以该持续时间的标准偏差 [ R / S = k T(H) ]; _ķ* 是一个取决于工夫序列的常数。H度量工夫序列的长期记忆,将其表征为均值回复,趋势或随机游走。 H <0.5示意均值回复 H> 0.5示意趋势序列,并且 H = 0.5示意随机游走。 我将展现如何应用 GARCH 模型进行危险评估。 GARCH 模型的一个要害限度 是对其参数施加非负束缚,以确保条件方差的正性。这样的束缚会给预计GARCH 模型带来艰难 。 因而,提出了 非对称GARCH 模型,即俗称的 GJR-GARCH 模型,以解决对称GARCH 模型的局限性 。更重要的是,指数 GARCH 或 EGARCH 模型绝对于传统的GARCH 模型具备潜在的改良 。 数据挖掘查看数据。 在过来的几十年中,原油价格呈现出较大的稳定,尤其是在2008年左右。能够看出,随着屡次回升和降落,价格放弃在绝对较低的程度。从自相干图能够看出原始数据中显著的自相干。QQ和PP图的形态表明该过程靠近正态,然而_重尾散布_。 简略收益率的罕用模式为:r(t)= {p(t)— p(t-1)} / p(t-1),对数收益率= ln(pt / p(t-1),pt每日原油价格,r(t)是每日收益。对数收益率在这里被视为本文的每日收益率。原始价格和对数收益率的直观显示分明地证实了以简直恒定的均值,应用对数收益率是正当的。 收益率序列图显示了高和低变动周期。在图中能够看到一个随机且集中在零左近的过程。大幅度稳定的正收益和负收益都减少了风险投资和治理的难度。每日收益率的平均值基本上在零程度程度左近,并且具备显著的波动性聚类,表明存在异方差性。ACF很小,然而高度相干。QQ和PP图的形态没有显著变动。 sns.distplot(df.returns, color=’blue’) #密度图# 汇总统计数据print(df.returns.describe())收益率的偏度(-0.119)和向右偏离表明,收益率反比负收益率高,峰度(7.042)反映了油价稳定大。 点击题目查阅往期内容 R语言ARMA-GARCH-COPULA模型和金融工夫序列案例 左右滑动查看更多 01 02 03 04 规范正态分布的偏度和峰度别离为0和3。Jarque-Bera测验的值表明,传统的正态分布假如不适用于原油收益的实在散布。 ADF = ADF(df.returns)print(ADF.summary().as_text())kpss = KPSS(df.returns)print(kpss.summary().as_text()) 进行了VR测验,以测试对数收益率序列是否是纯正的随机游走,以及是否具备肯定的可预测性。我在这里比拟了1个月和12个月的对数收益率,并且回绝了该系列为纯随机游走的空值。用负测验统计量VA(-11.07)回绝零示意在工夫序列中存在序列相关性。用ADF,KPSS,DFGLS,PP和ZA统计量对单位根和平稳性进行的测验均显示出显着性,表明应用 GARCH型模型来拟合收益序列是适合的。 非线性动力学应用_Hurst_对平稳性的钻研 。 ...

April 22, 2023 · 1 min · jiezi

关于数据挖掘:Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES附代码数据

全文链接:http://tecdat.cn/?p=24753最近咱们被客户要求撰写对于Copula的钻研报告,包含一些图形和统计输入。 在这项工作中,我通过创立一个蕴含四只基金的模型来摸索 copula,这些基金跟踪股票、债券、美元和商品的市场指数 摘要而后,我应用该模型生成模仿值,并应用理论收益和模仿收益来测试模型投资组合的性能,以计算危险价值(VaR)与冀望损失(ES)。 一、介绍与概述Copulas 对多元散布中变量之间的相关性进行建模。它们容许将多变量依赖关系与单变量边缘散布相结合,容许咱们对形成多变量数据的每个变量应用许多单变量模型。Copulas 在 2000 年代开始风行。依据 Salmon (2009) 的说法,Li (2000) 最近提出的Copulas利用之一是 2008 年开始的金融危机。咱们将应用 copulas 来模仿四个 ETF 基金的行为:IVV,跟踪规范普尔 500 指数;TLT,跟踪长期国债;UUP,追踪外汇指数;以及商品的 DBC 二、实践背景copula 是一个多变量 CDF,其边缘散布都是 Uniform (0,1)。假如 Y 有 d 维,并且有一个多元  和边缘 。很容易证实,每个 都是 Uniform(0,1)。因而, 的 CDF 依据定义是一个 copula。应用 Sklar (1973) 的定理,而后咱们能够将咱们的随机变量 Y 合成为一个 copula CY ,它蕴含对于咱们的变量 Y 之间相互依赖的信息,以及单变量边缘 CDFs FY ,它蕴含对于每个变量的所有信息单变量边缘散布。对于 d 维,咱们有: 并使每个,咱们有: 如果咱们对等式(2)进行微分,咱们会发现 Y 的密度为: 方程 (3) 中的后果容许咱们创立多变量模型,这些模型思考了变量的互相依赖性(方程的第一局部)和每个变量的散布(方程的第二局部)。咱们能够应用 copula 和边缘局部的参数版本来创立可用于运行测试和执行预测的模型。在接下来的几节中,咱们将应用用于统计计算的 R 语言将高斯和 t-copula 拟合到介绍中形容的 ETF 的对数收益率。有了 copula 和边缘,咱们将应用模型来确定投资的危险价值 (VaR) 和预期损失 (ES)。 ...

April 22, 2023 · 2 min · jiezi

关于数据挖掘:MATLAB图像倾斜校正算法实现图像倾斜角检测及校正附代码数据

全文下载链接:http://tecdat.cn/?p=13981最近咱们被客户要求撰写对于图像歪斜校对算法的钻研报告,包含一些图形和统计输入。 在本文中,随着多媒体技术的一直倒退,数码相机,高清拍照手机等多媒体设施曾经在人们的生存中占据了越来越重要的位置 通过采纳图像处理技术,能够将数码设备采 集到的文字、图片等信息转化成其余信息局势输入,例如转化成音频输入己解决视 障患者的视力需要。然而,因为输出设施或某些其余因素不可避免地使得采集到的 文本图像或多或少会呈现某种程度的歪斜。因而,歪斜图像校对是以后文本图像研 宄畛域中非常重要的课题,尤其在数字化、自动化畛域。比方,进步OCR(Optical Character Recognition)识别率从而进步文档自动化解决效率,车牌号码主动 辨认与交通监督,手写体自动识别,名片主动归类等。 基于Hough变换的图像歪斜校对算法利用Hough变换检测的边框,确定边框直线的歪斜角度,依据歪斜角度旋转,取得校对后的图像。具体步骤如下: 图像预处理。读取图像,转换为灰度图像,去除离散噪声点。 利用边缘检测,对图像中的水平线进行强化解决。 基于Hough变换检测车牌图像的边框,获取歪斜角度。 依据歪斜角度,对车牌图像进行歪斜校对。 咱们通过matlab解答以下问题: 当相机歪斜拍照时建设数学模型,并将A校对。 首先咱们读取图像数据,显示原始彩色图像 clc;    % 革除命令窗口。clearvars;close all;  % 敞开所有数字(不包含imtool的数字。)imtool close all;  % Close all imtool figures.workspace;  % 敞开所有固定工具的数字fontSize = 20;format compact; baseFileName = '附件B.jpg';% 获取残缺的文件名,并增加门路fullFileName = fullfile( baseFileName); rgbImage = imread(fullFileName);% 获取图像的尺寸。numberOfColorBands应该为3。[rows columns numberOfColorBands] = size(rgbImage);% 显示原始彩色图像subplot(2, 2, 1);imshow(rgbImage, []);title('Original Color Image', 'FontSize', fontSize); 确保它是8位灰度,而不是24位真彩色。通过阈值二值化图像。 % 确保它是8位灰度,而不是24位真彩色。grayImage = rgb2gray(rgbImage);% 通过阈值二值化图像。binaryImage = grayImage > 128;用连接性标记每个点,因而咱们能够对其进行测量提取一个方向 % 用连接性标记每个斑点,因而咱们能够对其进行测量%获取所有blob属性。%仅提取一个方向%旋转图像。% 显示旋转的图像。subplot(2, 2, 3);imshow(rotatedImage, []);title('Rotated Image', 'FontSize', fontSize); 同时咱们能够失去歪斜校对的角度。  当相机垂直拍照时依据B,建设数学模型,将B校对, 求出相机歪斜的角度。 点击题目查阅往期内容 R语言基于Keras的小数据集深度学习图像分类 左右滑动查看更多 01 02 03 04 同样的,咱们能够对垂直拍照的图片进行改正。 将C校对,并阐明相机绝对于物体的夹角。 点击文末 “浏览原文” 获取全文残缺材料。 本文选自《MATLAB图像歪斜校对算法实现:图像倾斜角检测及校对》。 点击题目查阅往期内容 分类回归决策树交互式修剪和更好看地可视化剖析细胞图像宰割数据集 PYTHON TENSORFLOW 2二维卷积神经网络CNN对图像物体辨认混同矩阵评估|数据分享 MATLAB图像歪斜校对算法实现:图像倾斜角检测及校对 R语言KERAS深度学习CNN卷积神经网络分类辨认手写数字图像数据(MNIST) 用Python进行图像含糊解决和特征提取 R语言基于Keras的小数据集深度学习图像分类 图像歪斜校对算法的MATLAB实现:图像倾斜角检测及校对 应用Python和Keras进行主成分剖析、神经网络构建图像重建 应用OpenCV在Python中进行图像处理 python卷积神经网络人体图像识别 matlab如何滤除低频尖峰脉冲 Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类 matlab应用Copula仿真优化市场危险数据VaR剖析 MATLAB中用BP神经网络预测人体脂肪百分比数据 matlab实现扩大卡尔曼滤波(EKF)进行故障检测 Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量抉择 matlab应用分位数随机森林(QRF)回归树检测异样值 matlab用高斯曲线拟合模型剖析疫情数据 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 Matlab马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility) 模型 MATLAB中的马尔可夫区制转移(Markov regime switching)模型 Matlab马尔可夫区制转换动静回归模型预计GDP增长率 ...

April 22, 2023 · 1 min · jiezi

关于数据挖掘:视频R语言生存分析原理与晚期肺癌患者分析案例数据分享附代码数据

原文链接:http://tecdat.cn/?p=10278最近咱们被客户要求撰写对于生存剖析的钻研报告,包含一些图形和统计输入。 生存剖析(也称为工程中的可靠性剖析)的指标是在协变量和事件工夫之间建立联系 生存剖析的名称源于临床钻研,其中预测死亡工夫,即生存,通常是次要指标。 生存剖析是一种回归问题(人们想要预测一个间断值),但有一个转折点。它与传统回归的不同之处在于,在生存剖析中,后果变量既有一个事件,也有一个与之相干的工夫值,局部训练数据只能被局部察看——它们是被删失的。本文用R语言生存剖析早期肺癌患者数据 ( 查看文末理解数据获取形式 )。 一般最小二乘回归办法有余,因为事件产生的工夫通常不是正态分布的,并且模型无奈解决删失,但这在生存数据中很常见。 为什么要做生存剖析:右删失在某些状况下,可能无奈察看到事件工夫:这通常称为 右删失。在以死亡为事件的临床试验中,当产生以下状况之一时,就会产生这种状况。1。当肯定数量的参与者死亡时,钻研完结。2。参与者退出钻研。3。 钻研达到预约的完结工夫,并且一些参与者存活到完结。在每种状况下,幸存的参与者来到钻研后,咱们都不晓得他们会产生什么。而后咱们有一个问题: 当对于某些个体,咱们只察看到他们的事件工夫的上限时,咱们如何对教训散布进行建模或进行非负回归? 上图阐明了右删失。对于参与者 1,咱们看到他们何时死亡。参与者 2 退出了,咱们晓得他们始终活到那时,但不晓得起初产生了什么。对于参与者 3,咱们晓得他们活到了预约的钻研完结,但又不晓得之后产生了什么。 生存函数和危险函数生存剖析中的两个要害工具是生存函数和危险函数。 生存函数:它是一个函数,用于给出咱们有趣味晓得的任何对象是否会在任何指定工夫之后存活的概率。在数学上它能够由以下公式示意  其中 S(t) 是一个生存函数,其中 T 是一个间断随机变量,是一个事件的工夫。F(t) 是区间[0,∞) 上的累积散布函数。 咱们也能够用危险函数来写生存函数。假如事件尚未产生 ,危险率(t) 是事件在工夫t产生的刹时概率的次要值。 那么关键问题是如何预计危险和/或生存函数。 Kaplan Meier的非参数估计 在非参数生存剖析中,咱们要预计生存函数没有协变量,并且有删失。如果咱们没有删失,咱们能够从教训 CDF 开始. 这个等式简洁地示意: 有多少人随着工夫的推移而死亡? 那么生存函数就是:还有多少人还活着? 然而,咱们无法回答一些人被工夫t删失时提出的这个问题. 尽管咱们不肯定晓得有多少人在任意工夫t幸存下来,咱们晓得钻研中有多少人依然处于危险之中。咱们能够应用它来代替。将学习工夫划分区间, 其中每个ti是参与者的事件工夫或删失工夫。假如参与者只能在察看到的事件工夫生效。假如没有人在同一时间死去(没有关系),咱们能够查看每次有人死去的工夫。咱们说在那个特定工夫死亡的概率是,并说在任何其余工夫死亡的概率是0. 在温和的假如下,包含参与者具备独立且雷同散布的事件工夫,并且删失和事件工夫是独立的,这给出了一个统一的估计量。上图给出了一个简略案例的 Kaplan Meier 预计示例。 生存剖析用于各种畛域 例如: 用于患者生存工夫剖析的癌症钻研,“事件历史剖析”的社会学,在工程中用于“故障工夫剖析”。在癌症钻研中,典型的钻研问题如下: 某些临床特色对患者生存有何影响一个人能活3年的概率是多少?患者组之间的生存率是否存在差别?     第1局部:生存剖析简介 本演示文稿将介绍生存剖析 ,参考: Clark, T., Bradburn, M., Love, S., & Altman, D. (2003). Survival analysis part I: Basic concepts and first analyses. 232-238. ISSN 0007-0920.咱们明天将应用的一些软件包包含: ...

April 20, 2023 · 2 min · jiezi

关于数据挖掘:Stata中的治疗效果RA回归调整-IPW逆概率加权-IPWRA-AIPW附代码数据

全文链接:http://tecdat.cn/?p=10148最近咱们被客户要求撰写对于Stata中的医治成果的钻研报告,包含一些图形和统计输入。 医治成果估算器依据察看数据估算医治对后果的因果关系。 咱们将探讨四种医治成果估计量: RA:回归调整IPW:逆概率加权IPWRA:具备回归调整的逆概率加权AIPW:加强的逆概率加权 与对观测数据进行的任何回归剖析一样,因果关系的解释必须基于正当的基础科学原理。 介绍咱们将探讨医治办法和后果。 一种医治可能是新药,其后果是血压或胆固醇程度升高。医治能够是外科手术,也能够是患者流动的终局。医治能够是职业培训打算以及后果待业或工资。医治甚至能够是旨在进步产品销量的广告。 考虑一下母亲吸烟是否会影响婴儿出世时的体重。只能应用观测数据来答复这样的问题。 察看数据的问题是受试者抉择是否承受医治。例如,母亲决定吸烟还是不吸烟。据说这些受试者已自我抉择进入医治组和未医治组。 在现实的世界中,咱们将设计一个试验来测试因果关系和医治终局之间的关系。咱们将受试者随机调配到医治组或未医治组。随机调配医治办法可确保医治办法与后果无关,从而大大简化了剖析。 因果推论要求对每个医治程度的后果的无条件预计。无论数据是察看性的还是实验性的,咱们仅察看以承受医治为条件的每个受试者的终局。对于试验数据,医治的随机调配保障了医治与后果无关。对于察看数据,咱们对医治调配过程进行建模。如果咱们的模型是正确的,则依据咱们模型中的协变量,医治调配过程被认为与随机条件一样好。 让咱们思考一个例子。图1是相似于Cattaneo(2010)应用的观测数据的散点图。医治变量是母亲在怀孕期间的吸烟情况,后果是婴儿的出世体重。 红点示意怀孕期间吸烟的母亲,而绿点示意未怀孕的母亲。母亲本人抉择是否吸烟,这使剖析变得复杂。 咱们不能通过比拟吸烟和不吸烟的母亲的均匀出世体重来预计吸烟对出世体重的影响。为什么不?再看一下咱们的图表。年龄较大的母亲往往体重较重,无论怀孕时是否吸烟。在这些数据中,年龄较大的母亲也更有可能吸烟。因而,母亲的年龄与医治情况和终局无关。那么咱们应该如何进行呢? 点击题目查阅往期内容 R语言如何在生存剖析与Cox回归中计算IDI,NRI指标 左右滑动查看更多 01 02 03 04 RA:回归调整估计量RA估计量对后果进行建模,以阐明非随机医治调配。 咱们可能会问:“如果吸烟的母亲抉择不吸烟,后果将如何扭转?”或“如果不吸烟的母亲抉择吸烟,后果将会如何扭转?”。如果咱们晓得这些反事实问题的答案,那么剖析将很容易:咱们只需从反事实后果中减去察看到的后果即可。 咱们能够构建对这些未察看到的潜在后果的度量,咱们的数据可能看起来像这样: 在图2中,应用实心点显示察看到的数据,而应用空心点显示未察看到的潜在后果。空心的红点代表吸烟者不吸烟的潜在结果。空心的绿色点代表不吸烟者吸烟的潜在结果。 咱们能够通过将独自的线性回归模型与察看到的数据(实点)拟合到两个医治组,从而预计未察看到的潜在后果。 在图3中,咱们为不吸烟者提供了一条回归线(绿线),为吸烟者提供了一条独自的回归线(红线)。 让咱们理解这两行的含意: 图4左侧标记为“已察看 ”的绿点是对不吸烟的母亲的察看。绿色回归线上标有E(y0)的点是思考到母亲的年龄并且不吸烟的婴儿的预期出世体重。红色回归线上标有E(y1)的点是同一名母亲吸烟后婴儿的预期出世体重。 这些冀望之间的差别预计了未承受医治者的协变量特异性医治成果。 当初,让咱们看看另一个反事实问题。 图4右侧的红色标记为“ 察看到的红色”是对怀孕期间吸烟的母亲的察看。绿色和红色回归线上的点再次示意在两种医治条件下母亲婴儿的预期出世体重(潜在的终局)。 这些冀望之间的差别预计了承受医治者的协变量特异性医治成果。 请留神,咱们依据每个变量的协变量值来预计均匀医治成果(ATE)。此外,无论理论承受哪种医治,咱们都对每位受试者预计这种成果。数据中所有受试者的这些效应的平均值预计了ATE。 咱们还能够应用图4来激发对每个受试者在每种医治程度下可取得的后果的预测,而与所承受的医治无关。数据中所有受试者的这些预测值的平均值预计每个医治程度的潜在后果均值(POM)。 预计的POM的差别与上述ATE的预计雷同。 被医治者(ATET)上的ATE与ATE类似,但仅应用在医治组中察看到的受试者。这种计算医治成果的办法称为回归调整(RA)。 . webuse cattaneo2.dta, clear为了估算两个医治组中的POM,咱们输出. teffects ra (bweight mage) (mbsmoke), pomeans咱们在第一组括号中指定后果模型,并带有后果变量及其后的协变量。在此示例中,后果变量为bweight,惟一的协变量为mage。 咱们在第二组括号中指定解决模型(仅是解决变量)。在此示例中,咱们仅指定解决变量mbsmoke。咱们将在下一节中探讨协变量。 键入命令的后果是 Iteration 0: EE criterion = 7.878e-24Iteration 1: EE criterion = 8.468e-26Treatment-effects estimation Number of obs = 4642Estimator : regression adjustmentOutcome model : linearTreatment model: none------------------------------------------------------------------------------ | Robust bweight | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+----------------------------------------------------------------POmeans | mbsmoke | nonsmoker | 3409.435 9.294101 366.84 0.000 3391.219 3427.651 smoker | 3132.374 20.61936 151.91 0.000 3091.961 3172.787------------------------------------------------------------------------------输入报告说,如果所有母亲吸烟,均匀出世体重将为3132克,如果没有母亲吸烟,则均匀出世体重将为3409克。 ...

April 20, 2023 · 4 min · jiezi

关于数据挖掘:分布滞后线性和非线性模型DLNM分析空气污染臭氧温度对死亡率时间序列数据的影响附代码数据

全文下载链接 http://tecdat.cn/?p=23947 最近咱们被客户要求撰写对于散布滞后线性和非线性模型的钻研报告,包含一些图形和统计输入。 散布滞后非线性模型(DLNM)示意一个建模框架,能够灵便地形容在工夫序列数据中显示潜在非线性和滞后影响的关联。该方法论基于穿插基的定义,穿插基是由两组根底函数的组合示意的二维函数空间,它们别离指定了预测变量和滞后变量的关系。 关键字:散布滞后模型,工夫序列,平滑,滞后效应,R。 本文在R软件实现DLNM,而后帮忙解释后果,并着重于图形示意。本文提供指定和解释DLNM的概念和实际步骤,并举例说明了对理论数据的利用。 1.简介统计回归模型的次要目标是定义一组预测变量与后果之间的关系,而后预计相干影响。当依赖项显示某些滞后影响时,会进一步减少复杂性:在这种状况下,预测变量的产生(咱们称其为裸露事件)会在远远超出事件周期的工夫范畴内影响后果。此步骤须要定义更简单的模型以表征关联,并指定依赖项的工夫构造。 1.1 概念框架对滞后效应的适当统计模型的阐明及其后果的解释,有助于建设适当的概念框架。这个框架的次要特点是定义了一个额定的维度来形容关联,它指定了裸露和后果之间在滞后维度上的工夫依赖性。这个术语,借用了工夫序列剖析的文献,代表了评估影响滞后时裸露事件和后果之间的工夫距离。在长时间裸露的状况下,数据能够通过等距时间段的划分来结构,定义一系列裸露事件和后果实现。这种划分也定义了滞后单位。在这个工夫构造中,裸露-反馈关系能够用两种相同的观点中的任何一种来形容:咱们能够说一个特定的裸露事件对将来的多个后果产生影响,或者说一个特定的后果能够用过来多个裸露事件的奉献来解释。而后,能够应用滞后的概念来形容向前(从固定后果到将来后果)或向后(从固定后果到过来的后果)的关系。 最终,滞后效应统计模型的次要特色是它们的二维构造:该关系同时在预测变量的通常空间和滞后的维度上进行形容。 1.2 散布滞后模型最近,在评估环境压力因素的短期影响的钻研中曾经解决了滞后影响的问题:一些工夫序列钻研报告说,裸露于高水平的净化或极其温度会在其产生后的几天内继续影响衰弱( Braga等,2001;Goodman等,2004;Samoli等,2009;Zanobetti和Schwartz,2008)。 给定定义的数据工夫构造和简略的滞后维度定义,工夫序列钻研设计可提供多种劣势来解决滞后影响,其中工夫划分是由等距离和有序的工夫点间接指定的。在这种状况下,滞后效应能够用散布滞后模型(DLM)来优雅地形容,该模型最后是在计量经济学中开发的(Almon 1965),最近在环境因素钻研中用于量化衰弱效应(Schwartz 2000; Zanobetti et al。2000; 2007)。Muggeo和Hajat,2009年)。通过这种办法,能够应用多个参数来解释在不同时滞下的影响,从而将单个裸露事件的影响散布在特定的时间段内, 1.3 本文目标统计环境R提供了一组用于指定和解释DLNM后果的工具。本文的目标是提供该程序包函数的全面概述,包含函数的具体摘要以及以理论数据为例的示例。该示例波及1987-2000年期间两个环境因素(空气污染(臭氧)和温度)对死亡率的影响。在本文中,我重新考虑了定义DLNM,预测成果并借助图形函数解释后果的次要概念和实际步骤。 2.非线性和滞后效应在本节中,我介绍了工夫序列模型的根本公式,而后介绍了形容非线性效应和滞后效应的办法,后者通过简略DLM的模型来形容。 2.1 根本模型工夫序列数据的模型通常能够示意为: 其中µt≡E(Yt),Yt是t = 1时的一系列后果...,n,假如来自指数族的散布。函数sj指定变量xj和线性预测变量之间的关系,该变量由参数向量j定义。变量uk蕴含具备由相关系数k指定的线性效应的其余预测变量 之前形容的数据说明性示例中,后果Yt是每日死亡计数,假设是泊松散布,其中E(Y)= µ,V(Y)= µ。 臭氧和温度的非线性和滞后影响通过函数sj建模,该函数定义了预测变量和滞后变量两个维度之间的关系 2.2 非线性裸露-反馈关系DLNM开发的第一步是定义预测变量空间中的关系。通常,非线性裸露-反馈依赖性通过适当的函数s在回归模型中示意。在齐全参数化的办法中,提出了几种不同的函数,每个函数都具备不同的假如和灵活性。次要抉择通常依赖于形容润滑曲线的函数,例如多项式或样条函数(Braga等,2001;Dominici等,2004)。对于线性阈值参数化的应用(Muggeo 2010; Daniels et al。2000); 或通过虚构参数化进行简略分层。 所有这些函数都对原始预测变量进行了转换,以生成蕴含在模型中作为线性项的一组转换变量。相干的根底函数包含原始变量x的一组齐全已知的转换,这些转换生成一组称为根底变量的新变量。代数示意能够通过以下形式给出: 定义DLNM的第一步是在函数mkbasis()中执行的,该函数用于创立根底矩阵Z。此函数的目标是提供一种通用的形式来蕴含x的非线性效应。举例来说,我建设了一个将所选基函数利用于向量的基矩阵: R> mkais(1:5, tpe = "s", df = 4, egree = 2, cenvlue = 3) 后果是一个列表对象,存储根底矩阵和定义该矩阵的自变量。在这种状况下,所选基准是具备4个自由度的二次样条,由参数类型df和度定义。 能够通过第二个参数类型抉择不同类型的根底。可用的选项是天然三次方或简略的B样条(类型=“ ns”或“ bs”);虚构变量层;多项式(“ poly”);阈值类型的函数和简略的线性(“ lin”)。参数df定义了根底的维数(根底的列数,基本上是转换后的变量的数目)。该值可能取决于参数“结点”。如果未定义,则默认状况下将结搁置在等距的分位数上。自变量度数抉择“ bs”和“ poly”的多项式度数。 参数cen和cenvalue用于使连续函数(类型“ ns”,“ bs”,“ poly”和“ lin”)的基准居中,如果未提供cenvalue,则默认为原始变量的均值。 2.3滞后效应定义DLNM的第二步是指定函数,以对附加滞后维度中的关系进行建模,以实现滞后成果。在这种状况下,给定工夫t的后果Yt能够用过来的裸露量xt-L来解释。给定最大滞后L时,附加滞后维度能够由n×(L +1)矩阵Q示意,例如: 简略的DLM应用形容后果与滞后危险之间的依赖关系的函数来容许线性关系的滞后效应。 第二步通过函数mklagbasis()进行,该函数调用mkbasis()来构建根底矩阵C。例如: R> mkgbais(mxlag =5,type ="strta", kots = c(2, 4)) 在此示例中,在通过第一个参数maxlag将最大滞后固定为5之后,滞后向量0:maxlag对应于,将主动创立并利用所选函数。 3.定义DLNMDLNM标准的最初一步波及同时定义预测器和滞后两个维度中的关系。只管非线性和滞后效应的术语不同,但这两个过程在概念上是类似的:定义示意相干空间中关系的根底。 而后,通过穿插基的定义来指定DLNM,穿插基是二维函数空间,同时形容了沿预测变量范畴及其滞后维度的依存关系。首先,抉择x的基函数得出Z,而后为x的每个基变量创立附加的滞后维度,从而生成一个数组R。通过定义的C,DLNM能够示意为: 抉择穿插基等于如上所述抉择两组基函数,将其组合以生成穿插基函数。这是通过函数crossbasis()执行的,该函数调用函数mkbasis()和mklagbasis()别离生成两个根本矩阵Z和C,而不是通过张量积将它们组合起来以产生W。能够应用此函数指定臭氧和温度的两个穿插基。相干代码为: basi.o3 <- crossbasis(o3 varype= "hthr"+ vnots = 40, laty = "sata", lanot = c(2,6), mag= 10)bai.te <- crossbasis(tmp varype = "bs",+ vrgre  3, vad = 6 cevalu = 25 ladf = 5, malag = 30)在此示例中,臭氧的穿插基包含一个预测空间的阈值函数,线性关系超过40.3 µgr / m3,并且虚构参数化假如沿滞后0-1、2-5和6-10的层具备恒定的散布滞后效应。相比之下,温度的选项是:以25摄氏度为核心的6 自由度的立方样条(默认为等距的结点),以及以5自由度的立方样条(默认为lagtype =“ ns”)(结为25℃)。默认状况下,最多30个滞后。 ...

April 20, 2023 · 1 min · jiezi

关于数据挖掘:R语言nlmenlmerlme4用非线性混合模型nonlinear-mixed-model分析藻类数据实例附代码数据

原文链接:http://tecdat.cn/?p=23426最近咱们被客户要求撰写对于线性混合模型的钻研报告,包含一些图形和统计输入。 混合线性模型,又名多层线性模型(Hierarchical linear model)。它比拟适宜解决嵌套设计(nested)的试验和考察钻研数据 序言此外,它还特地适宜解决带有被试内变量的试验和考察数据,因为该模型不须要假如样本之间测量独立,且通过设置斜率和截距为随机变量,能够拆散自变量在不同情境中(被试内设计中常为不同被试)对因变量的作用。 简略的说,混合模型中把研究者感兴趣的自变量对因变量的影响称为固定效应,把其余管制的情景变量称为随机效应。因为模型中包含固定和随机效应,故称为混合线性模型。无论是用方差分析进行差别比拟,还是回归剖析钻研自变量对因变量的影响趋势,混合线性模型比起传统的线性模型都有更灵便的体现。 非线性混合模型就是通过一个连贯函数将线性模型进行拓展,并且同时再思考随机效应的模型。 非线性混合模型经常在生物制药畛域的剖析中会用到,因为很多剂量反馈并不是线性的,如果这个时候数据再有嵌套构造,那么就须要思考非线性混合模型了。 本文中咱们用(非)线性混合模型剖析藻类数据。这个问题的参数是:已知截距(0日值)在各组和样本之间是雷同的。 数据 用lattice和ggplot2绘制数据。 xyplot(jitter(X)~Day, groups=Group) ggplot版本有两个小劣势。1. 按个体和群体平均数增加线条[用stat_summary应该和用xyplot的type="a "一样容易]);2.调整点的大小,使重叠的点可视化。(这两点当然能够用自定义的 panel.xyplot 来实现 ...) ## 必须用手进行汇总ggplot(d,aes(x=Day,y=X,colour=Group)) 从这些图片中得出的次要论断是:(1)咱们可能应该应用非线性模型,而不是线性模型;(2)可能存在一些异方差(在较低的平均值上有较大的方差,如同在 X=0.7的数据有一个 "天花板");看起来可能存在个体间的变动(特地是基于t2的数据,其中个体曲线近乎平行)。然而,咱们也将尝试线性拟合来阐明问题。 应用nlme用lme的线性拟合失败。 LME <- lme(X ~ 1, random = ~Day|Individual, data=d) 如果咱们用control=lmeControl(msVerbose=TRUE))运行这个程序,就会失去输入,最初是。  能够看到思考到组*日效应的模型也失败了。 LME1 <- lme(X ~ Group*Day, random = ~Day|Individual, data=d) 我试着用SSfpl拟合一个非线性模型,一个自启动的四参数Logistic模型(参数为左渐近线、右渐近线、中点、尺度参数)。这对于nls拟合来说成果不错,给出了正当的后果。 nlsfit1 <- nls(X ~ SSfp)coef(nlsfit1) 能够用gnls来拟合组间差别(我须要指定起始值 我的第一次尝试不太胜利。 gnls(    X ~ SSfpl) 但如果我只容许asymp.R在各组之间变动,就能运行胜利。 params=symp.R~Group绘制预测值。 g1 + geom_line() 这些看起来很不错(如果能失去置信区间就更好了--须要应用delta法或bootstrapping)。 dp <- data.frame(d,res=resid(gnlsfit2),fitted=fitted(gnlsfit2))(diagplot1 <- ggplot(dp,aes(x=factor(Individual),              y=res,colour=Group))+      geom_boxplot(outlier.colour=NULL)+  scale_colour_brewer(palette="Dark2")) 除了7号样本外,没有很多证据表明个体间的变异......如果咱们想疏忽个体间的变异,能够用 anova(lm(res~Individual)) 大的(p\)值能够承受个体间不存在变异的无效假设... 更个别的诊断图--残差与拟合,同一个体的点用线连贯。能够发现,随着平均数的减少,方差会逐步减小。 plot(dp,(x=fitted,y=res,colour=Group)) 点击题目查阅往期内容 非线性混合效应 NLME模型反抗哮喘药物茶碱动力学钻研 左右滑动查看更多 01 02 03 04 我不能用nlme来解决三个参数因组而异模型,但如果我只容许asymp变动,就能够运行。 nlme(model=list(fixed=with(c(asymp.R,xmid,scale,asymp.L),...)右侧渐近线中的方差估计值是非零的。 退出随机效应后,参数基本就没有什么变动。  最大的比例差别是3.1%(在比例参数中)。 nlmefit2 <- update(list(asyR+xmd+scal+asp ~1),  start )咱们能够通过AIC或似然比测验来比拟模型 AICtab(nlmefit1,nlmefit2,weights=TRUE) anova(nlmefit1,nlmefit2) 能够做一个F测试而不是 LRT(即思考到无限大小的修改)。 ...

April 20, 2023 · 1 min · jiezi

关于数据挖掘:R语言神经网络模型预测多元时间序列数据可视化

全文链接:http://tecdat.cn/?p=32198原文出处:拓端数据部落公众号多元工夫序列建模始终是吸引了来自经济,金融和交通等各个领域的钻研人员的主题。多元工夫序列预测的一个根本假如是,其变量相互依赖。 在本文中,咱们应用了专门针对客户的多元工夫序列数据设计的神经网络框架,拟合单隐层神经网络,可能存在跳跃层连贯。 查看数据 其中Y为因变量,工夫、Y1、Y2为自变量。 读取数据data=read.xlsx("my data.xlsx") head(data) 建设神经网络模型建设单暗藏层神经网络,size参数能够确定暗藏层的节点数量,maxit管制迭代次数。 require(nnet)## Loading required package: nnet #设置因变量   y=data$Y #  y<-data.frame((y-min(y))/(max(y)-min(y)))  names(y)<-'y' 绘制拟合数据 预测将来的20年数据foreY1=0      foreY1=predict(mod2,data.frame(T=foreyear)  )预测新变量datanew= data.frame(T=foreyear,Y1=foreY1,Y2=foreY2) 绘制将来20年的工夫序列pre=ts(pre,start = c(2015),f=1) ###############################绘制将来20年的工夫序列plot(pre, axes = F,col=2,type="l")axis(side = 1 ,col=10) 最受欢迎的见解 1.在python中应用lstm和pytorch进行工夫序列预测 2.python中利用长短期记忆模型lstm进行工夫序列预测剖析 3.Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数工夫序列 4.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格工夫序列和MSE评估准确性 5.r语言copulas和金融工夫序列案例 6.R 语言用RNN循环神经网络 、LSTM长短期记忆网络实现工夫序列长期利率预测 7.Matlab创立向量自回归(VAR)模型剖析消费者价格指数 (CPI) 和失业率工夫序列 8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类 9.R语言联合新冠疫情COVID-19股票价格预测:ARIMA,KNN和神经网络工夫序列剖析

April 20, 2023 · 1 min · jiezi

关于数据挖掘:从Pandas快速切换到Polars-数据的ETL和查询

对于咱们日常的数据清理、预处理和剖析方面的大多数工作,Pandas曾经入不敷出。然而当数据量变得十分大时,它的性能开始降落。 咱们以前的两篇文章来测试Pandas 1.5.3、polar和Pandas 2.0.0之间的性能了,Polars 正好能够解决大数据量是解决的问题,所以本文将介绍如何将日常的数据ETL和查问过滤的Pandas转换成polars。 Polars的劣势Polars是一个用于Rust和Python的DataFrame库。 Polars利用机器上所有可用的内核,而pandas应用单个CPU内核来执行操作。Polars比pandas绝对轻量级,没有依赖关系,这使得导入Polars的速度更快。导入Polars只须要70毫秒,而导入pandas须要520毫秒。Polars进行查问优化缩小了不必要的内存调配。它还可能以流形式局部或全副地解决查问。Polars能够解决比机器可用RAM更大的数据集。ETLExtract, Transform, and Load (ETL)的过程是怎么的: “提取、转换和加载(ETL)是将来自多个数据源的数据组合到称为数据仓库的过程。ETL应用一组业务规定来清理和组织原始数据,并为存储、数据分析和机器学习(ML)做好筹备。能够通过数据分析解决特定的业务智能需要(例如预测业务决策的后果、生成报告、缩小操作效率低下,等等)。(起源:AWS) Polars和Pandas都反对从各种起源读取数据,包含CSV、Parquet和JSON。 df=pl.read_csv('data.csv') df=pl.read_parquet('data.parquet') df=pl.read_json('data.json')对于数据的读取方面和Pandas基本一致。 转换是ETL中最重要、最艰难和最耗时的步骤。 polar反对Pandas函数的一个子集,所以咱们能够应用相熟的Pandas函数来执行数据转换。 df=df.select(['A', 'C']) df=df.rename({‘A’: ‘ID’, ‘C’: ‘Total’}) df=df.filter(pl.col('A') >2) df=df.groupby('A').agg({'C': 'sum'})这些Pandas函数都能够间接应用。 创立新列: df = df.with_column(pl.col(‘Total’) / 2, ‘Half Total’)解决空值: df=df.fill_null(0) df_filled=df.fill_null('backward') df=df.fillna(method='ffill')Dataframe 的合并 #pandas df_join=pd.merge(df1, df2, on='A') #polars df_join=df1.join(df2, on='A')连贯两个DF #pandas df_union=pd.concat([df1, df2], ignore_index=True) #polars df_union=pl.vstack([df1, df2])polar应用与Pandas雷同的函数来将数据保留到CSV、JSON和Parquet文件中。 # CSV df.to_csv(file) # JSON df.to_json(file) # Parquet df.to_parquet(file)最初,如果你还须要应用Pandas做一些非凡的操作,能够应用: df.to_pandas()这能够将polar的DF转换成pandas的DF。 ...

April 20, 2023 · 1 min · jiezi

关于数据挖掘:R语言单位根协整关系Granger因果检验RESET分析汇率在岸和离岸数据时间序列

全文链接:http://tecdat.cn/?p=32188原文出处:拓端数据部落公众号单位根的随机性趋势与协整关系对实证剖析中工夫序列的影响是不容小觑的。测验的目标在于更好的分辨数据个性、甄选模型,以达到或能预测或能证实因果关系或否定以上两者的后果。 单位根测验基本思路在进行工夫序列剖析时,传统上要求所用的工夫序列必须是安稳的,否则将会产生伪回归。然而,在事实经济中的工夫序列通常是非安稳的,因为各类经济变量个别都随经济增长而产生周期性变动。如果间接采纳最小二乘法进行回归剖析,即便两个变量之间不存在相关性,也有可能失去一个很高的拟和优度,这就是所谓的舛误回归景象。 为了帮忙客户使回归失去的方程更有意义,能够通过差分失去安稳化的序列,而后再进行回归。为了判断工夫序列是否安稳,能够应用单位根测验。对于工夫序列yt可用如下自回归模型测验单位根。 协整测验基本思路:20世纪80年代,Engle和Granger等人提出了协整(Co-integration)的概念,指出两个或多个非安稳(non-stationary)的工夫序列的线性组合可能是安稳的或是较低阶单整的。有些工夫序列,尽管它们本身非安稳,但其线性组合却是安稳的。非安稳工夫序列的线性组合如果安稳,则这种组合反映了变量之间长期稳固的比例关系,称为协整关系。协整关系表白的是两个线性增长量的稳固的动静平衡关系,更是多个线性增长的经济量相互影响及本身演变的动静平衡关系。协整剖析是在工夫序列的向量自回归剖析的根底上倒退起来的空间结构与工夫动静相结合的建模办法与实践分析方法。 实证模型本文选取了BLOOMBERG零碎报价的一个月期和一年期的人民币离岸NDF汇率收盘价、以及国家外汇管理局颁布的人民币对美元即期汇率中间价,别离作为人民币离岸NDF汇率与境内人民币汇率的代理变量。思考到NDF监管政策与我国新的《外汇管理条例》可能对人民币离岸NDF与境内人民币即期汇率的影响,本文样本人民币离岸NDF汇率数据来源于BLOOMBERG零碎,即期汇率数据来源于国家外汇管理局网站。因为境内外节假日的不同,当境内外人民币汇率日期不匹配时,将对应日期的数据删除。因为境内外节假日的不同,当境内外人民币汇率日期不匹配时,将对应日期的数据删除。 数据:USDCNH在岸与USDCNH离岸月度同比数据读取数据 library(openxlsx)setwd("E:/USDCNH离岸")#在岸data1=read.csv("历史在岸人民币美元.csv")#离岸data2=read.csv("USDCNH离岸.csv")1、单位根测验须要进行节令调整,给出输入后果 (1)若存在单位根,用差分后序列进行2、3、4 步; (2)若不存在单位根,就用原序列。 USDCNH在岸数据首先,对USDCNH在岸数据和离岸数据工夫序列进行线性拟合,看数据随工夫变动的趋势。对在岸数据的线性拟合模型后果如下。从上面的后果能够看到工夫对在岸数据有较大影响,因而该数据不是安稳的序列。 ## Residuals: ##      Min       1Q   Median       3Q      Max ## -0.15097 -0.06398  0.01261  0.06016  0.12913 ## ## Coefficients: ##              Estimate Std. Error t value Pr(>|t|)    ## (Intercept) 6.040e+00  9.331e-03  647.33   <2e-16 *** ## t           1.565e-03  6.685e-05   23.41   <2e-16 *** ## --- ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 0.0722 on 239 degrees of freedom ## Multiple R-squared:  0.6963, Adjusted R-squared:  0.695 ## F-statistic: 547.9 on 1 and 239 DF,  p-value: < 2.2e-16 ...

April 20, 2023 · 5 min · jiezi

关于数据挖掘:R语言多元多变量GARCH-GOGARCHBEKKDCCGARCH和CCCGARCH模型和可视化附代码数据

全文链接:http://tecdat.cn/?p=30647最近咱们被客户要求撰写对于GARCH 的钻研报告,包含一些图形和统计输入。从Engle在1982发表自回归条件异方差(ARCH)模型的论文以来,金融工夫序列数据的波动性就倍受关注。同时,近几年又呈现了钻研股票市场的稳定传递性多市场的多维狭义自回归条件异方差模型及其在不同条件下的扩大与变形,它们不仅蕴含了单变量的稳定个性,而且很好的形容了不同变量间的互相关系。所以,多维GARCH模型为剖析金融市场的相互影响提供了无力的工具。咱们围绕多变量GARCH技术进行一些征询,帮忙客户解决独特的业务问题。本文波及多变量GARCH模型的构建。为此,请思考以下模型BEKKCCC-GARCH 和 DCC-GARCHGO-GARCHBEKKBEKK(1,1)具备以下模式:下图显示了具备上述参数的模仿序列:BEKK 模型的调整通常计算成本很高,因为它们须要预计大量参数。在本节中,咱们将应用该包来预计上一节中模仿多变量序列的参数。对于 BEKK 模型(1,1) 的调整,咱们应用以下语法fit.bek.m<-BE(matsim)估计数由以下公式给出:CCC-GARCH和DCC-GARCHc.H1<-eccc.sim(nobs=1000, c.a1, c.A1, c.B1, c.R1, d.f=5, model="diagonal") 'h'模仿条件方差的矩阵(T × N )'eps'是模仿的工夫序列与(E)CCC-GARCH过程的矩阵(T × N )plot.ts(c.H1$eps, main = "Processos simulados") 对于模仿过程,咱们将应用雷同的包预计参数,函数 .咱们有两个模仿序列,而后咱们假如它们遵循 CCC-GARCH(1,1) 以下过程估算后果为: DCC-GARCHDCC-GARCH 模型是 CCC-GARCH 状况的推广,也就是说,咱们有 R matris 不肯定是固定的,也就是说它随工夫变动:模仿示例为了模仿 DCC-GARCH 过程,咱们思考比拟性能。obs=1000, d.a1, d.A1, d.B1, d.R1, dcc.para=c(d.alpha1,d.beta1), d.f=5, model="diagonal") 点击题目查阅往期内容MATLAB用GARCH-EVT-Copula极值实践模型VaR预测剖析股票投资组合左右滑动查看更多01020304ccgarch与CCC-GARCH的状况一样,咱们将应用以下初始量进行迭代过程estimation(inia=d.w0,iniA=d.A0,iniB=d.B0,ini.dcc=d.w0,model="diagonal",dvar=d.H1$eps) 后果如下:rmgarch拟合模型的后果如下:DCC-GARCH模型最后,仅实现 DCC 模型(1,1)。 模仿模型平差的后果如下所示: CCC-GARCH和DCC-GARCH模型的论断咱们在 CCC-GARCH 和 DCC-GARCH 示例中都看到,该软件包没有对模仿模型的参数提供令人满意的估计值。GO-GARCH在GO-GARCH模型中,咱们对构建协方差矩阵的正交合成感兴趣模仿给出的矩阵M由下式给出:咱们将失去:gog.rt<-t(M%*%t(bt))gogarchrmgarch让咱们首先指定流程参数:rmgarchmean.model=list(model="constant"),distribution.model="mvnorm 依据预计因子构建数据矩阵的不同序列之间的预计关系外表 点击文末 “浏览原文”获取全文残缺代码数据资料。本文选自《R语言多元(多变量)GARCH :GO-GARCH、BEKK、DCC-GARCH和CCC-GARCH模型和可视化》。点击题目查阅往期内容【视频】什么是梯度降落?用线性回归解释和R语言预计GARCH实例MATLAB用GARCH-EVT-Copula极值实践模型VaR预测剖析股票投资组合R语言应用多元AR-GARCH模型掂量市场危险R语言GARCH模型对股市sp500收益率bootstrap、滚动预计预测VaR、拟合诊断和蒙特卡罗模仿可视化R语言单变量和多变量(多元)动静条件相关系数DCC-GARCH模型剖析股票收益率金融工夫序列数据稳定率R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格GARCH-DCC模型和DCC(MVT)建模预计R语言预测期货稳定率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比拟ARIMA、GARCH 和 VAR模型预计、预测ts 和 xts格局工夫序列PYTHON用GARCH、离散随机稳定率模型DSV模仿预计股票收益工夫序列与蒙特卡洛可视化极值实践 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测危险测度剖析Garch稳定率预测的区制转移交易策略金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格R语言危险价值:ARIMA,GARCH,Delta-normal法滚动预计VaR(Value at Risk)和回测剖析股票数据R语言GARCH建模罕用软件包比拟、拟合规范普尔SP 500指数稳定率工夫序列和预测可视化Python金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用MATLAB用GARCH模型对股票市场收益率工夫序列稳定的拟合与预测R语言极值实践 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测危险测度剖析Python 用ARIMA、GARCH模型预测剖析股票市场收益率工夫序列R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格R语言ARIMA-GARCH稳定率模型预测股票市场苹果公司日收益率工夫序列Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测R语言工夫序列GARCH模型剖析股市稳定率R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测应用R语言对S&P500股票指数进行ARIMA + GARCH交易策略R语言用多元ARMA,GARCH ,EWMA, ETS,随机稳定率SV模型对金融工夫序列数据建模R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性剖析R语言多元Copula GARCH 模型工夫序列预测R语言应用多元AR-GARCH模型掂量市场危险R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格R语言用Garch模型和回归模型对股票价格剖析GARCH(1,1),MA以及历史模拟法的VaR比拟matlab预计arma garch 条件均值和方差模型 ...

April 19, 2023 · 1 min · jiezi

关于数据挖掘:MATLAB用GARCHEVTCopula极值理论模型VaR预测分析股票投资组合附代码数据

全文链接:http://tecdat.cn/?p=30426最近咱们被客户要求撰写对于GARCH-EVT-Copula的钻研报告,包含一些图形和统计输入。对VaR计算方法的改良,以更好的度量开放式基金的危险。本我的项目把基金所持股票看成是一个投资组合,引入Copula来形容多只股票间的非线性相关性,构建多元GARCH-EVT-Copula模型来度量开放式基金的危险,并与其余VaR预计办法的预测后果进行比拟其次是将VaR引入到基金业绩评估中,结构RAROC指标来评估基金业绩,测验该评估指标的可行性。GARCH-EVT-Copula 模型首先用GARCH族模型拟合单项资产收益率,并提取标准化残差以满足极值实践的假如前提,接着对标准化残差的高低尾局部采纳EVT实践中的狭义帕累托散布GPD拟合,两头局部采纳高斯核函数来预计其教训累积散布函数,从而失去标准化残差的边缘散布函数 。而后选取适当的Copula 函数,结构多元标准化残差间的相干构造和联结散布函数。Copula 函数参数预计本我的项目中,采纳 伪极大似然预计(CML) 办法来预计 Copula 函数的参数 第一步,将金融资产对数收益率数据x通过教训散布函数转化为平均变量(uniform variates) 第二步,利用密度似然函数预计Copula函数的参数:GARCH-EVT-Copula 模型计算 VaR本我的项目将开放式基金看做是一个资产组合,以每只基金所持有的股票收益率为钻研对象,从投资组合的角度利用多元GARCH-EVT-Copula模型来计算基金的VaR值。 读取数据[NUM,TXT,RAW]=xlsread('data') Data=NUM function [ output_args ] = GEC( input_args )建设 GARCH 模型nIndices = size(Data,2); % # 基金数量 spec(1:nIndices) = garchset('Distribution' , 'T' , 'Display', 'off', ... 'VarianceModel', 'GJR', 'P', 1, 'Q', 1, 'R', 1);%对每只基金设置garch模型的残差自相关性测验%残差自相关性测验 figure, subplot(2,1,1) plot(residuals(:,1)) xlabel('工夫'), ylabel('残差'), title ('N225收益率残差') 依据 FHS 提取标准化残差title('N225标准化残差自相干图') subplot(2,1,2) autocorr(residuals(:,1).^2) 点击题目查阅往期内容R语言用GARCH模型稳定率建模和预测、回测危险价值 (VaR)剖析股市收益率工夫序列左右滑动查看更多01020304GDAXI%残差自相关性测验 figure, subplot(2,1,1) plot(residuals(:,2)) GSPCFCHI%残差自相关性测验 figure, subplot(2,1,1) plot(residuals(:,4)) ...

April 19, 2023 · 1 min · jiezi

关于数据挖掘:2022年母婴行业内容营销研究报告PDF分享附原数据表

报告链接:http://tecdat.cn/?p=31424人口出世红利隐没,以及后疫情时代的冲击,但生产降级将负面因素拉平,母婴消费市场总量继续稳步回升。"粗劣妈妈"的营销价值日益凸显(查看文末理解报告PDF版本收费获取形式)。 当母婴人群成为泛滥母婴及家庭消费品的重要入口群体时,受到了宽泛的关注。如何将母婴行业的内容营销与传播媒介相结合,实现高性价比和长期投资回报的流传,成为业界关注的热点(附原数据表)。 参考报告PDF列表:微播易&CAAC:2022年母婴行业内容营销钻研报告 报告2022-06-30艾瑞征询:2022年中国母婴及纸尿裤产业倒退洞察 报告2023-01-09百度营销:母婴行业人类幼崽治愈指南 报告2022-12-20易观剖析:2022年中国母婴新消费市场专题剖析 报告2022-12-08魔镜市场情报:2022母婴行业发展趋势钻研报告-婴童食品赛道洞察 报告2022-12-07果集千瓜:2022年11.11小红书平台母婴行业数据研报 报告2022-12-04魔镜市场情报:22-2022母婴行业发展趋势洞察:婴童食品赛道洞察 报告2022-11-22巨量算数&母婴研究院:2022巨量引擎母婴行业白皮书 报告2022-11-15小红书:2022年·母婴行业用户洞察报告 报告2022-11-12巨量:2022巨量引擎母婴行业白皮书 报告2022-11-08远瞩征询:2022年中国母婴用品行业剖析 报告2022-11-04小红书:2022年双11母婴行业营销趋势洞察 报告2022-10-20易观剖析:2022互联网母婴行业用户洞察 报告2022-10-19淘宝直播:4万估算高清母婴生存直播解决方案搭建操作手册 报告2022-10-16汇员帮:2022上半年中国母婴实体店生产数据分析报告 报告2022-09-11淘宝直播:2022年淘宝直播母婴产业带报告 报告2022-09-02巨量:趋势雷达-2022抖音母婴行业年中盘点 报告2022-08-27宝宝树:2022母婴行业洞察报告 报告2022-08-27比达征询:2022上半年度中国互联网母婴市场钻研报告 报告2022-08-25中国婴童网:2021中国母婴实体店生产数据分析报告 报告2022-08-24蝉妈妈:2021抖音电商母婴用品行业察看 报告2022-08-21艾媒征询:2022年中国母婴群体生产决策趋势钻研报告 报告2022-08-01极光:2022挪动互联网母婴亲子行业钻研报告 报告2022-05-30解数:效用护肤的三大机会点(细分人群机会点-母婴) 报告2022-05-25宝宝树:领跑母婴市场迎接翻新时机 报告2022-05-20磁力:2022快手磁力金牛母婴玩具行业营销洞察报告 报告2022-05-19罗兰贝格:中国母婴市场趋势预感2022 报告2022-05-12头豹:2021年中国母婴用品行业概览 报告2022-05-03磁力:快手磁力金牛母婴行业营销洞察报告 报告2022-04-11艾瑞征询:2022年中国母婴行业钻研报告 报告2022-03-29艾瑞征询:2022年中国母婴新生产白皮书 报告2022-03-10网经社:2021年度中国母婴电商市场数据报告 报告2022-03-07TalkingData:2021母婴行业洞察报告 报告2022-03-04美柚&母婴行业察看:二胎妈妈纸尿裤生产洞察 报告2022-02-25艾媒征询:2021-2022年中国母婴行业新媒体营销价值钻研报告 报告2022-02-24巨量:2021抖音母婴行业年度盘点 报告2022-01-27易观剖析:2021中国母婴后浪品牌市场洞察 报告2022-01-18艾瑞征询:2021年中国移动互联网母婴行业流量报告 报告2022-01-10易观:2021中国母婴用品市场洞察 报告2021-11-21卓尔数科:2021年母婴行业洞察报告 报告2021-11-19普华永道:母婴产业倒退蓝皮书 报告2021-10-27数据威:2021年母婴食品行业 新察看 报告2021-10-15易观:中国母婴早阶人群行为及生产偏好洞察2021 报告2021-08-27飞瓜数据:2021母婴短视频及直播营销报告 报告2021-08-26宝宝树:2021母婴行业洞察报告 报告2021-08-20QuestMobile:2021母婴行业品牌营销洞察报告 报告2021-08-05QuestMobile:2021母婴行业品牌营销洞察报告 报告2021-08-04巨量:2020母婴行业年度报告 报告2021-08-04磁力数观:2021快手母婴行业数据价值报告 报告2021-08-04千瓜数据:2020年小红书母婴行业品牌投放数据报告 报告2021-08-02极光:2021年挪动互联网母婴亲子行业钻研报告 报告2021-07-27艾媒征询:2021年中国母婴人群营销趋势报告 报告2021-07-26艾瑞征询:2021年中国下沉市场母婴消费行为报告 报告2021-05-24今日头条:巨量引擎2020Q1母婴群体网络行为新洞察 报告2020-07-30今日头条:巨量引擎2019Q4母婴群体剖析报告 报告2020-03-06TalkingData:母婴人群人群洞察报告 报告2020-01-13*报告获取 在公众号后盾回复 “母婴报告” 或点击文末 *“浏览原文” ,可收费获取残缺报告PDF版本*。 点击题目查阅往期内容 大学生外卖市场需求情况考察数据可视化报告互联网热门职位薪资比照报告 爬取微博用户行为数据语义剖析数据挖掘报告 618电商大数据分析可视化报告 数据岗位现状调查报告 共享单车大数据报告 虎扑社区论坛数据爬虫剖析报告 婚庆市场用户行为数据采集爬虫剖析报告(以小红书为例) 互联网热门职位薪资数据采集爬虫比照报告 亚马逊商品销售数据爬虫剖析报告 虎扑论坛&用户数据分析报告 ...

April 19, 2023 · 1 min · jiezi

关于数据挖掘:用COPULA模型进行蒙特卡洛MONTE-CARLO模拟和拟合股票收益数据分析附代码数据

全文下载链接:http://tecdat.cn/?p=24535最近咱们被客户要求撰写对于COPULA的钻研报告,包含一些图形和统计输入。 最近,copula 在仿真模型中变得流行起来。Copulas 是形容变量之间依赖关系的函数,并提供了一种创立散布以对相干多元数据建模的办法 应用 copula,数据分析师能够通过指定边缘单变量散布并抉择特定的 copula 来提供变量之间的相干构造来构建多变量散布。双变量散布以及更高维度的散布都是可能的。  此示例阐明如何在变量之间存在简单关系或单个变量来自不同散布时应用 copula 从多元散布生成数据。 算法默认状况下,fit 应用最大似然将 copula 拟合到 u。当 u 蕴含通过边缘累积散布函数的参数估计转换为单位超立方体的数据时,这称为边缘_推断函数 (IFM)_ 办法。 输出参数Copula 值矩阵Copula 值,指定为范畴 (0,1) 内的标量值矩阵。如果 u 是 n × p 矩阵,则其值示意 p_维单位超立方体 中的_n_个点 。如果  是 _n ×2 矩阵,则其值示意  单位正方形中的_n_个点。u 如果指定二元阿基米德 copula 类型('Clayton'、  'Frank'、 或 'Gumbel'),则 u 必须是 n ×2 矩阵。 二元阿基米德 copula 族'Clayton' | 'Frank' | 'Gumbel' 二元 copula 族,指定为以下之一。 `` 'Clayton'Clayton copula'Frank'Frank copula'Gumbel'Gumbel copula置信区间的显着性程度置信区间的显着性程度,指定为逗号分隔的对,由'Alpha' 范畴 (0,1) 中的和 标量值组成 。 fit 返回大概 100 × (1–Alpha)% 的置信区间。 拟合_t_  copula 的办法 拟合_t_  copula 的办法 ,指定为逗号分隔的对组,由'Method' 和 'ML' 或 组成 'ApproximateML'。 如果指定 'ApproximateML',则  通过最大化一个近似于自由度参数的剖面对数似然的指标函数来copulafit 拟合大样本的 t copula . 此办法可能比最大似然 ( 'ML')快得多,但对于小到中等样本量,估计值和置信限可能不精确。 输入参数拟合高斯 copula矩阵的预计相干参数拟合高斯 copula 的预计相干参数,以标量值矩阵模式返回。 拟合_t_  copula预计自由度参数  拟合_t_  copula 的预计自由度参数, 以标量值模式返回。 自由度参数近似置信区间 自由度参数的近似置信区间,以 1×2 标量值矩阵模式返回。第一列蕴含下边界,第二列蕴含上边界。默认状况下, fit 返回大概 95% 的置信区间。您能够应用'Alpha' 名称-值对指定不同的置信区间 。 拟合的阿基米德 copula预计 copula 参数 ...

April 19, 2023 · 3 min · jiezi

关于数据挖掘:Matlab基于SEIRD模型NSIR预测模型AHP层次分析法新冠肺炎预测与评估分析

全文链接:http://tecdat.cn/?p=32175原文出处:拓端数据部落公众号分析师:Jiahui Zhao新型冠状病毒肺炎COVID-19 给中国乃至全世界都带来了深重的劫难,对世界经济也造成了不可逆的影响。该病毒传染性强、危害较大,须要咱们高度警觉。国内目前疫情根本失去管制,然而为防止疫情反扑,咱们有必要利用相干数学算法,联合大数据背景,发展相干剖析,并提出有针对性地应答措施。 本文建设了SEIRD 模型, NSIR 预测模型,应用 AHP 档次分析法等进行了模仿仿真,评估疫情呈现第二次顶峰的危险大小,并给出停工复产的政策性倡议,以防止第二次顶峰的呈现同时保障大型赛事的顺利举办。 模型假如假如查找到的数据实在牢靠。假如无症状感化患者具备肯定的传染能力。假如指标的断定正当无效。假如国家国情与政策的判断落实无误。假如痊愈后的患者不再被感化。假如偏远地区等无检测条件地区,视为无感化地区模型求解首先在 WHO 的官方网站上,咱们整顿收集了俄罗斯联邦从 5 月 7 日到 5 月 13 日新冠病毒肺炎无关人数,如表所示: 由以上数据可得,均匀死亡率 和均匀治愈率 别离为: 0.00913 和 0.992,均匀潜伏期在 7 天左右。故: = 1/7 将微分方程转换成差分方程的模式: 选取每天的数据,利用最小二乘法能够求出模型中所需参数,再将取得的参数代入SEIRD 模型,失去预测后果如图所示。依据模型的预测,能够看出在 5 月 13 日后,新增感化人数起起伏伏,状况顽劣,二次暴发几率极大。 而后,咱们整顿收集了中国从 5 月 7 日到 5 月 1America 新冠病毒肺炎无关人数3 日新冠病毒肺炎无关人数,如表 3 所 示:同理,选取每天的数据,利用最小二乘法能够求出模型中所需参数,再将取得的参数代入 SEIRD 模型,失去预测后果如图所示。依据模型的预测,能够看出在 5 月 13 日后,新增感化人数极少,曲线呈现正数是模型的不欠缺处,二次暴发几率极低,可能会稍微呈现新病例。 最初,咱们整顿收集了美国从 5 月 7 日到 5 月 13 日新冠病毒肺炎无关人数,如表所示: 同理,选取每天的数据,利用最小二乘法能够求出模型中所需参数,再将取得的参数代入SEIRD 模型,失去预测后果如图 4 所示。依据模型的预测,能够看出在 5 月 13 日后,美国疫情第一次顶峰尚未达到,按先规模增长,无望达成群体免疫,无二次暴发 ...

April 19, 2023 · 1 min · jiezi

关于数据挖掘:Fabarta-获过亿元人民币-PreA-轮融资打造面向-AI-的图智能-Infra

4 月 18 日,图智能公司 Fabarta 发表曾经胜利取得亿元人民币的 Pre-A 轮融资。本轮融资由朗玛峰创投领投,蓝驰创投、将门创投跟投。 据悉,在过来一年内 Fabarta 间断实现两轮数亿元融资,蓝驰创投为 2022 年初 Fabarta 天使轮领投方,将门创投和加盛巢生资本跟投。蓝驰创投和将门创投作为老股东在本轮均超额追投。资金将用于减速 Fabarta 的核心技术研发,扩充市场份额,并推动以图智能为外围的 AI 基础设施畛域的布局。 Fabarta 成立于 2021 年,专一于解决大量异构数据环境下通过图智能技术开掘简单业务价值的问题,打造面向 AI 的 Infra(技术基础设施)。开创团队具备将前沿技术与商业胜利联合的卓越背景,开创核心成员均具备多年图和 AI 工程研发和市场化教训,曾效力于阿里、IBM、百度、Microsoft 以及 SAP 等公司,有着丰盛的 To B 畛域产品化能力,以及丰盛的云原生,分布式数据库畛域教训。Fabarta 的图智能产品矩阵基于云原生分布式图数据库和图计算引擎,能够帮忙企业客户和业务合作伙伴更不便地实现数据资产的积淀、治理和治理,并疾速高效地构建丰盛的图智能畛域利用,用可解释 AI 助力企业的智能化转型。Fabarta 还与大模型技术严密交融在一起,构建 AGI 的核心技术基础设施,同时基于图智能技术构建数据资产的全局地图,打造基于 Data Fabric(数据编织)的下一代企业数据平台。 本轮领投朗玛峰合伙人惠超示意,近十年来,数据产业迅速倒退,各行业均积攒了丰盛的数据资产,在常识图谱利用方面也获得了肯定的停顿。古代 IT 技术架构须要可解释 AI,须要数据驱动的精确、通明和偏心的规定,为大规模业务利用提供全流程智能撑持。Fabarta 的技术在 AI 基础设施畛域具备极高的创新性和前瞻性,无望为寰球数据行业带来粗浅的改革。团队兼备底层技术的深厚积攒和业务利用的丰盛教训,有能力推动图智能行业的疾速倒退。预计在将来几年,Fabarta 将成为图智能基础设施市场的领导者,引领产业的新一轮倒退。 以图的范式承载数据,将造成下一代 AI 基础设施随着大数据、云计算、物联网等技术的倒退,人工智能的利用场景越来越多样化和复杂化。下一代 AI 基础设施须要更加高效地解决和剖析简单的数据,以提供更准确、更智能的决策和预测。 Fabarta 认为大模型与大图是撑持下一代人工智能倒退的两个外围基础设施。 大模型通常指的是具备大量参数和弱小表征能力的模型。相应地,咱们能够将“大图”了解为一个具备海量点和边的简单图构造,用于示意海量数据和关系。图论是一种用于钻研图(由顶点和边组成的数据结构)及其性质的数学实践,在 AGI 畛域,图论能够作为一种工具或框架,帮忙人工智能更深刻了解数据之间的逻辑关系,使其具备更强的逻辑与推理的能力。 传统的数据处理办法,如关系数据库,次要关注数据表之间的构造关系。而图范式则更强调数据元素之间的关联性,可能更好地捕获和表白事实世界中的简单关系。图技术的利用场景十分宽泛,包含社交网络分析、举荐零碎、金融风险管制等。相比传统的关系型数据库,图数据库可能更好地解决简单的数据结构,并可能实现更高效的查问和剖析。 目前大模型曾经取得了突破性停顿,尤其是以 GPT-4 为代表的多模解决畛域。这些停顿使得机器学习零碎更加高效和智能,为各行各业的进一步倒退提供了无力的撑持。同时,作为图智能畛域的探索者,咱们置信图技术的继续倒退和利用会是下一个 AI 冲破的要害里程碑。目前支流的 LLM 当中,都曾经开始应用图的技术来治理 Context 和 Prompt,并将图的概念深度交融到预训练的过程当中,使传统的大模型具备更加优良的推理,逻辑以及可解释的能力。 ...

April 18, 2023 · 1 min · jiezi

关于数据挖掘:r语言绘制动态统计图绘制世界各国的人均GDP出生时的预期寿命和人口气泡图动画动态gif图附代码数据

全文链接:http://tecdat.cn/?p=7994最近咱们被客户要求撰写对于绘制动静统计图的钻研报告,包含一些图形和统计输入。 nations.csv 来自世界银行指标的数据 应用的数据warming.csv 无关1880年至2017年寰球年平均温度 。yearvalue 寰球平均温度,与1900-2000年的平均温度相比。simulations.csv美国国家航空航天局(NASA)对历史温度的模仿数据,预计了天然和人为因素对气象的影响, 蕴含以下变量:yeartype 天然还是人为影响因素value 来自模仿的寰球平均温度,绝对于1990-2000年的均匀模仿值。charts 空文件夹,咱们将在其中保留要制作动画的各个帧。配置启动RStudio,创立一个新的RScript,而后通过抉择将工作目录设置为蕴含下载数据的文件夹Session>Set Working Directory>To Source File Location。 装置加载咱们明天将应用的软件包 # 加载须要的软件包library(readr)library(ggplot2)library(dplyr)气泡图咱们制作了以下图表,显示了2016年世界各国的人均GDP,出世时的冀望寿命和人口: 点击题目查阅往期内容 动态图可视化:如何、创立具备精美动画图 左右滑动查看更多 01 02 03 04 这是生成该图表的代码: # 读取数据nations <- read_csv("nations.csv")# 过滤 2016 年的数据 nations2016 <- nations %>%  filter(year == 2016)# 绘制泡泡图ggplot(nations2016, aes(x = gdp_percap, y = life_expect)) +  xlab("GDP per capita") +  ylab("Life expectancy at birth") +  theme_minimal(base_size = 12, base_family = "Georgia") +  geom_point(aes(size = population, color = region), alpha = 0.7) +  scale_size_area(guide = FALSE, max_size = 15) +  scale_x_continuous(labels = dollar) +  stat_smooth(formula = y ~ log10(x), se = FALSE, size = 0.5, color = "black", linetype="dotted") +  scale_color_brewer(name = "", palette = "Set2") +  theme(legend.position=c(0.8,0.4))scale_size_area确保圆的大小依据人口数据按其面积缩放, 。labels  将X轴标签的格局。stat_smooth的工作形式相似,geom_smooth 容许 应用formula来指定用于拟合数据趋势线的曲线类型,此处为对数曲线。当初,咱们将生成1990年至2016年图表的动画。这是代码: 当初,Viewer通过运行以下命令将其显示在面板中: animate(nations_plot)代码的工作形式transition_time此性能通过来对数据进行动画解决year,仅显示与任何一个工夫点相干的数据。除了每年生成一个帧外,它还生成两头帧以提供平滑的动画。"{frame_time}"在ggtitle函数内应用会在每个帧上搁置一个题目,并带有transition_time函数中变量此处的相应值year。ease_aes管制动画的进行形式。enter_fade ,exit_fade这些性能管制动画中数据点呈现或隐没的行为。您也能够应用enter_shrink和exit_shrink。另存为GIF和视频当初,咱们能够将动画另存为GIF或视频 您能够应用选项width和height设置动画的尺寸(以像素为单位)。fps设置GIF的帧速率,以每秒帧数为单位。 要制作视频,您须要代码renderer = ffmpeg_renderer(),这须要在零碎上装置FFmpeg。下面的视频代码还将宽高比设置为16:9 。 这是GIF: 点击文末 “浏览原文” 获取全文残缺材料。 本文选自《r语言绘制动静统计图:绘制世界各国的人均GDP,出世时的预期寿命和人口气泡图动画动静gif图》。 点击题目查阅往期内容 R语言对布丰投针(蒲丰投针)试验进行模仿和动静可视化生成GIF动画\R语言在BRFSS数据中可视化剖析摸索糖尿病的影响因素\数据可视化剖析案例:摸索BRFSS电话考察数据\R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析\R语言计算资本资产定价模型(CAPM)中的Beta值和可视化\R语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图\R语言时变向量自回归(TV-VAR)模型剖析工夫序列和可视化\R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化\R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化\R语言对布丰投针(蒲丰投针)试验进行模仿和动静可视化生成GIF动画\R语言信用风险回归模型中交互作用的剖析及可视化\R语言生存剖析可视化剖析\R语言线性回归和工夫序列剖析北京房价影响因素可视化案例\R语言用温度对城市档次聚类、kmean聚类、主成分剖析和Voronoi图可视化\R语言动静可视化:绘制历史寰球平均温度的累积动静折线图动画gif视频图\R语言动态图可视化:如何、创立具备精美动画的图\R语言中生存分析模型的工夫依赖性ROC曲线可视化

April 17, 2023 · 1 min · jiezi

关于数据挖掘:R语言非参数PDF和CDF估计非参数分位数回归分析间歇泉GDP增长数据附代码数据

全文链接:http://tecdat.cn/?p=29841最近咱们被客户要求撰写对于非参数估计的钻研报告。在利用的设置中,咱们常常遇到分类数据类型和间断数据类型的组合 相熟传统非参数核平滑办法的人会明确,这些办法假设根底数据实质上是间断的,但事实往往并非如此。一种同时解决间断数据和分类数据存在的办法称为“频率”办法,其中数据被合成为对应于分类变量假如值的子集(“单元格”),而后才将密度或地位利用于每个单元格中残余的间断数据。 非参数频率办法被宽泛认为是不令人满意的,因为它们通常会导致应用样品决裂引起的大量效率损失。 在本文中,咱们通过许多教训利用来阐明R的应用。抉择每个应用程序是为了在利用的环境中突出显示特定的计量经济学办法。 非参数无条件PDF和 CDF预计间歇泉是位于黄石国家公园的旅游景点。这个蕴含 n = 272 次观测的驰名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和期待下一次喷发的工夫(以分钟为单位)。公园服务应用此数据集来模仿预期持续时间,具体取决于自上次喷发以来通过的工夫量。然而,对联结散布进行建模自身就很有意义,并且核预计器很容易揭示联结 PDF 和 CDF 的根本双峰性质。在本例中,咱们加载旧的间歇泉数据并计算密度和散布函数。后果如图所示。请留神,在此示例中,咱们一步进行带宽抉择和预计 R> Ful <- npst(~ eruptions + waiting, data = fal)R> summary(f.fful) R> summary(Fhful) 以下代码将生成图。 R> plot(f.fthful如果用参数模型(例如二元正态(对称、单峰和枯燥递加)来模仿这种密度,当然无奈揭示核预计容易揭示的底层构造。 图 :Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。 点击题目查阅往期内容 R语言非参数办法:应用核回归平滑预计和K-NN(K近邻算法)分类预测心脏病数据 左右滑动查看更多 01 02 03 04 非参数条件PDF和CDF预计咱们思考GDP增长,涵盖1951-1998年期间的21个地区。总共有n = 1008个观测值,以及两个变量,GDP和年份。首先,咱们计算带宽。请留神,这可能须要一两分钟,具体取决于计算机的速度。咱们笼罩搜寻办法的默认容差,因为指标函数体现良好(当然通常不要这样做),而后咱们计算。请留神,在本例中,咱们一步进行带宽抉择和预计。 R> fat <- npns(gdp ~ year,+ tol = 0.1,+ ftol = 0.1, R> Fat <- npst(gdp ~ year,+ tol = 0.1,+ ftol = 0.1, ...

April 17, 2023 · 1 min · jiezi

关于数据挖掘:非线性混合效应-NLME模型对抗哮喘药物茶碱动力学研究附代码数据

全文下载链接:http://tecdat.cn/?p=24074最近咱们被客户要求撰写对于非线性混合效应 NLME模型的钻研报告,包含一些图形和统计输入。 茶碱数据文件报告来自抗哮喘药物茶碱动力学钻研的数据。给 12 名受试者口服茶碱,而后在接下来的 25 小时外在 11 个工夫点测量血清浓度 head(thdat) 此处,工夫是从抽取样品时开始给药的工夫(h),浓度是测得的茶碱浓度(mg/L),体重是受试者的体重(kg)。 12 名受试者在工夫 0 时承受了 320 mg 茶碱。 让咱们绘制数据,即浓度与工夫的关系: plot(data=theo.data2) +eo_ine(oaes(group=id)) 相干视频 ** 拓端 ,赞14 ** 拓端 ,赞21 ** 拓端 ,赞7 ** 拓端 ,赞17 数据的个体差异咱们还能够在 12 个独自的图上绘制 12 个独自的浓度分布图, pl + geom_line() + facet_wrap(~id) 这12集体的模式是类似的:浓度首先在排汇阶段减少,而后在打消阶段缩小。然而,咱们分明地看到这些曲线之间的一些差别,这不仅仅是因为残差造成的。咱们看到病人排汇和打消药物的速度或多或少。 一方面,每个独自的特色将通过\_非线性\_ 药代动力学 (PK) 模型正确形容 。 另一方面,人口办法和混合效应模型的应用将使咱们可能思考这种 个体间的变异性。 将非线性模型拟合到数据将非线性模型拟合到单个患者让咱们思考本钻研的第一个主题(id=1)  the.dat.dta$id==1 ,c("tme)]plot(data=teo1 咱们可能想为这个数据拟合一个 PK 模型 其中 (yj,1≤j≤n) 是该受试者的 nn PK 测量值,f 是 PK 模型,是该受试者的 PK 参数向量, (ej,1≤ j≤n)是残差。 对该数据写入具备一阶排汇和线性打消的单室模型 其中 =(ka,V,ke) 是模型的 PK 参数,D 是给予患者的药物量(此处,D=320mg)。 ...

April 17, 2023 · 2 min · jiezi

关于数据挖掘:专题2022中国AI人工智能技术应用场景市场研究及选型评估报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32171原文出处:拓端数据公众号目前,咱们正处在一个“弱人工智能”的阶段,在这个畛域里,有六个次要的技术。业界将人工智能划分为弱人工智能、强人工智能、超人工智能三个倒退阶段,目前正处于弱人工智能阶段,而且这一阶段将会继续很久。 人工智能钻研中,六大根本技术是人工智能的核心内容,其演化过程对人工智能的落地起着关键作用。在这六大根底技术之上,也一直衍生出新的利用技术,如生物特色辨认、 VR/AR等,推动 AI的利用不断扩大。 中国的数字经济正在迅速倒退,曾经成为了推动我国经济高质量倒退的重要力量,而人工智能则是数字经济时代的一个重要基础设施 中国的数字经济快速增长,从2005年的2.6万亿增长到了2020年的39.2万亿,占国内生产总值的比重从13.9%增长到了38.7%。随着新一轮的科技反动和工业革命,以及疫情的影响,数字经济曾经成为了目前最具生机的、最具创新能力的、具备最宽泛辐射范畴的经济状态,它曾经成为了国民经济的外围增长极之一。 5G,云,人工智能,物联网等新一代信息技术将成为新期间数字经济倒退的次要能源。人工智能的价值次要体现在两个方面,一是可能降低成本,提高效率,二是可能为社会提供数字化的劳动力;从产业角度来看,这并不只是单点的数字化,它还能够带动一个产业上下游进行数字化转型,进而实现技术对产业的重构。 本专题内的参考报告(PDF)目录中国信通院:人工智能研发经营体系(MLOps)实际指南(2023年) 报告2023-04-16德勤:人工智能的新篇章生成式人工智能对企业的影响和意义 报告2023-04-12CSET:中国先进的人工智能钻研 报告2023-04-09斯坦福大学:2023年人工智能(AI)指数报告 报告2023-04-07埃森哲:生成式人工智能:人人可享的新时代报告 报告2023-04-07Mattturck:2023年MAD(机器学习,人工智能和数据)产业图... 报告2023-04-03中国信通院:人工智能医疗器械产业倒退白皮书(2023年) 报告2023-04-02中国信通院:人工智能研发经营体系(MLOps)实际指南(2023年) 报告2023-03-24科技中的设计报告2023:设计与人工智能 报告2023-03-23德勤:2023人工智能根底数据服务白皮书 报告2023-03-22艾瑞征询:2022年中国人工智能产业钻研报告(Ⅴ) 报告2023-03-14华东政法大学:人工智能通用大模型(ChatGPT)的停顿、危险与应答 报告2023-03-09易观剖析:2023年中国人工智能产业趋势报告 报告2023-03-08上奇研究院:人工智能产业剖析报告(2023) 报告2023-03-06Omdia:中国人工智能框架市场调研报告 报告2023-03-04IQVIA:智“健”将来:人工智能与机器学习赋能中国医疗衰弱行业 报告2023-02-26世界经济论坛:开释制造业中人工智能的价值 报告2023-02-22中国新一代人工智能倒退策略研究院:中国新一代人工智能科技产业区域竞争力... 报告2023-02-19dealroom:2022年新前沿——生成式人工智能 报告2023-02-17麦肯锡:人工智能在2022-和的状态 半十年牧师的观点 报告2023-02-15Omdia:中国人工智能框架市场调研报告 报告2023-02-14McKinsey:2022年人工智能现状:五年回顾 报告2023-02-11麦肯锡:寰球人工智能最新调研:AI在中国企业的落地停顿如何?(英文版) 报告2023-02-10德勤:2022生物医疗人工智能考察白皮书 报告2023-02-06IT桔子:2022年中国人工智能投融资剖析报告 报告2023-02-04中信建投:从CHAT_GPT到生成式AI(Generative AI)... 报告2023-02-01德勤:企业人工智能利用现状剖析(第五版): 放慢人工智能转型-助推人工... 报告2023-01-25德勤:人工智能在金融服务业的牢靠利用:亚太地区监管概述 报告2023-01-16IDC&浪潮:2022-2023中国人工智能计算力倒退评估报告 报告2023-01-13中国人工智能协会:2022中国人工智能系列白皮书-智能产品与产业 报告2023-01-03维智科技:时空人工智能赋能数字孪生城市白皮书 报告2023-01-01中国人工智能协会:2022中国人工智能系列白皮书-人工智能与药物发现 报告2022-12-26智能财务研究院:人工智能技术财务利用蓝皮书 报告2022-12-10腾讯研究院:人工智能时代的算法治理报告2022-构建法律、伦理、技术协... 报告2022-12-04埃森哲:人工智能成熟之道:从实际到实效 报告2022-11-27stateofai:2022人工智能全景报告(英文版) 报告2022-11-07青源会:2022年人工智能重要方向停顿与将来瞻望报告 报告2022-11-04商汤:人工智能-助力产业数字化转型实际白皮书 报告2022-11-03StartofAI:2022年人工智能AI报告 报告2022-10-20IMT-2030(6G)推动组:无线人工智能(AI)技术钻研报告 报告2022-10-19蛋壳研究院:2022医疗人工智能行业钻研报告 报告2022-10-18北京智源大会:2022北京智源大会观点报告-人工智能畛域最新钻研趋势 报告2022-10-17火石发明:2022年中国人工智能产业报告 报告2022-10-07远瞩征询:2022年寰球人工智能机器学习细分市场剖析 报告2022-10-06IBM:人工智能和自动化助力网络安全 报告2022-09-27机器之心&网易智企:2022人工智能技术利用实际白皮书:数字经济时代,... 报告2022-09-23阿里巴巴&中国信通院:人工智能治理与可继续倒退实际白皮书 报告2022-09-19远瞩征询:2022年中国人工智能行业剖析 报告2022-09-17中国信通院:可信人工智能产业生态倒退报告(2022年) 报告2022-09-13亿欧智库:2022年中国人工智能医学影像产业钻研报告 报告2022-09-13中国信通院&京东:人工智能生成内容(AIGC)白皮书(2022年) 报告2022-09-07上海数字大脑研究院:2022上半年度人工智能行业报告 报告2022-09-07白玉兰开源:中国人工智能软件基础设施高质量倒退报告 报告2022-09-07中国信通院:2022年人工智能生成内容(AIGC)白皮书 报告2022-09-03UNESCO:中小学阶段的人工智能课程报告 报告2022-08-31脉脉:人工智能顶尖人才数据图鉴2022 报告2022-08-29头豹:2022年中国人工智能在金融行业的利用洞察-智能风控(摘要版) 报告2022-08-25深圳市人工智能行业协会:2022年人工智能倒退白皮书(图片版) 报告2022-08-23中国人工智能学会:人工智能知识点全景图:迈向“智能+”时代蓝皮书 报告2022-08-23CSET:AI钻研统计:探索英、中文献资料中的人工智能研究成果 报告2022-08-15亿欧智库:中国人工智能芯片行业钻研报告 报告2022-08-13麦肯锡:瞻望人工智能银行:当银行遇到AI 报告2022-08-11易观剖析:中国人工智能产业生态图谱2022 报告2022-08-01麦肯锡:摸索人工智能新前沿:中国经济再迎 6000亿美元时机 报告2022-08-01阿里云:人工智能技术在教育场景中的利用 报告2022-07-20益普索:人工智能生成消费者洞察报告(EN) 报告2022-07-18头豹:人工智能系列2022年中国声纹识别零碎产业链剖析(摘要版) 报告2022-07-15头豹:2022年人工智能系列短报告-中国AI开发平台利用探析(摘要版) 报告2022-07-07北京师范大学:寰球中小学人工智能教育撑持环境白皮书 报告2022-07-05超益集伦:人工智能一体机减速深度学习训练 报告2022-06-28尚普研究院:2022年寰球人工智能产业钻研报告 报告2022-06-16清华大学:人工智能深度学习课程高校调研报告 报告2022-06-09IIC:工业物联网人工智能框架白皮书(EN) 报告2022-05-22头豹:2022年人工智能系列短报告:中国对话式AI市场利用探析 报告2022-05-20群邑:下一个十年:人工智能(EN) 报告2022-05-20世界经济论坛:人工智能儿童篇(EN) 报告2022-04-26中国人工智能产业联盟:2021人工智能比赛白皮书:1000场比赛的深度... 报告2022-04-15中国信通院:人工智能白皮书(2022年) 报告2022-04-13IT桔子:2021-2022年中国人工智能创投数据报告 报告2022-04-06艾瑞征询:2022年中国面向人工智能的数据治理行业钻研报告 报告2022-03-30华东师范大学:2022年人工智能教育蓝皮书 报告2022-03-30北京金融科技产业联盟:人工智能技术金融利用状况调研报告(2021年) 报告2022-03-30北京金融科技产业联盟:人工智能金融利用倒退报告(2020-2021) 报告2022-03-30世界经济论坛:赋予人工智能领导力(EN) 报告2022-03-28爱剖析:2022爱剖析·人工智能厂商全景报告 报告2022-03-21斯坦福大学:2022年人工智能指数报告(EN) 报告2022-03-17赛迪:中美人工智能钻研比对 报告2022-03-10爱剖析:金融人工智能钻研报告(2022年) 报告2022-03-01爱剖析:2022爱剖析・人工智能利用实际报告 报告2022-03-01中国信通院:人工智能基础设施倒退态势报告(2021年) 报告2022-02-08百度&浙江大学:中国人工智能人才培养白皮书 报告2022-02-08艾瑞征询:2021年中国人工智能产业钻研报告(Ⅳ) 报告2022-01-25中国信通院:金融人工智能钻研报告(2022年) 报告2022-01-18工信平安&百度:人工智能助力城市“双碳“指标达成白皮书 报告2022-01-06

April 17, 2023 · 1 min · jiezi

关于数据挖掘:R语言指数平滑预测法分析南京出租车打车软件空载率时间序列补贴政策可行性

报告链接:http://tecdat.cn/?p=32161原文出处:拓端数据部落公众号本文通过建设空载率的数学模型,帮忙客户来剖析出租车的空载率,从而对出租车补贴政策是否进步高峰期的实载率,缓解打车难问题进行了阐明。 剖析思路1.利用这么多天的数据,依照算法先算出每天的日平往年空载率,绘制成曲线 2 利用一次平滑预测模型算出这么多天的预测日均匀空载率,其中的平滑常数别离带入我假如的那三种数值,求出预测和理论均方差,最初取均方差最小的那个对应的平滑常数为咱们所要的。 3.利用二次平滑指数预测模型,预测4月25日至5月31日的日均匀空载率,绘制成曲线(初始值取4月23日的理论日均匀空载率,平滑常数为2中所要的那个) 抉择南京市的三个地点:鼓楼公园,四牌楼,玄武湖公园,因为间隔远近,交通状况都差不多,以4月1日到4月30日每天测量这三个地点的打车需求量,出租车总数。 数据数据以滴滴平台取得: 分析方法以鼓楼公园为例: 则4月1日的空载率为: 注:不思考拼车情况,假如一辆出租车只能接一单。 以此类推,4月2日,4月3日,4月4日…4月30日空载率别离为: 利用一次平滑指数公式: 如:4月1日的预测空载率为k,则4月2日的预测空载率为 咱们采纳二次平滑指数预测的算法来预测短期之内,不受节令因素影响的空载率。 二次平滑指数预测模型:公式: 求空载率kongzailv=function(datat){    sum(as.numeric(datat[,2]))/sum(as.numeric(datat[,1])) }地区:鼓楼公园for(i  in 1:27){   datat=data[((i-1)*4+1):(i*4),3:4]   kongzailvdata[i]=kongzailv(datat)设置alpha参数为0.3alpha <- 0.3 参看模型参数 计算均方差值RMSE1=mean((model$fitted-model$x)^2) 设置alpha参数为0.5alpha <- 0.5 设置alpha参数为0.7 找出最小的RMSE值min(RMSE1,RMSE2,RMSE3)[1] 0.2712489因而 采纳alpha为0.5 , 而后应用二次平滑指数预测的算法来预测短期之内,不受节令因素影响的空载率。 参看模型参数 预测数值 预测图像 地区:四牌楼which.min(c(RMSE1,RMSE2,RMSE3))## [1] 3 ###从后果看出当alpaha为0.7的时候 渠道最小的RMSE值因而 采纳alpha为0.7 ,而后应用二次平滑指数预测的算法来预测短期之内,不受节令因素影响的空载率。 参看模型参数 地区:玄武湖公园#############################找出最小的RMSE值  min(RMSE1,RMSE2,RMSE3)## [1] 0.01964692 which.min(c(RMSE1,RMSE2,RMSE3))## [1] 1 ###从后果看出当alpaha为0.3的时候 渠道最小的RMSE值参看模型参数 最受欢迎的见解 1.在python中应用lstm和pytorch进行工夫序列预测 2.python中利用长短期记忆模型lstm进行工夫序列预测剖析 3.Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数工夫序列 ...

April 17, 2023 · 1 min · jiezi

关于数据挖掘:用R语言用Nelson-Siegel和线性插值模型对债券价格和收益率建模附代码数据

原文链接:http://tecdat.cn/?p=11758最近咱们被客户要求撰写对于Nelson Siegel和线性插值模型的钻研报告,包含一些图形和统计输入。 保证金购买是指投资者先从银行或经纪人处借得资金购买证券,而所购买的证券作为借入资金的抵押 债券根底 零息债券是指以贴现形式发行,不附息票,而于到期日时按面值一次性领取本利的债券。债券的票面价值 债券的票面价值又称面值,是债券票面表明的货币价值,是债券发行人承诺在债券到期日偿还给债券持有人的金额。债券能够参考价格或收益率。例如,将领取100元的零息债券的价格能够是90元。但收益率将为(100−90)/90=11%,而不是10%。债券收益率是投资于债券上每年产生出的收益总额与投资本金总量之间的比率。债券能够在二级市场上交易(一级市场是债券发行过程)。如果利率减少,债券的价值就会减少,如果利率升高,债券的价值就会缩小,这仅仅是因为该债券是在利率扭转之前以便宜/低廉的价格发行的。也能够做空债券。尽管冀望债券不会呈现负利率,但也不是齐全看不到。在危机期间,政府债券甚至公司债券都能够以负收益率交易(例如雀巢)。债券定价债券价格是通过应用票面利率和现金流来确定。 式中,CFt是t时的现金流,B(0,t)是贴现系数或0时价格   其中R(0,t)是在工夫为t时在工夫0的年度即期汇率。   B(0,t)也能够称为零息债券的价格。 咱们能够暗示零息票利率与市场上不同期限的债券。而后咱们能够用这些利率建设一个期限构造模型来为任何债券定价。严格违反期限构造可能是买入/卖出机会,也可能是套利机会。 calculate_bond_price<-function(face_value=1000,coupon_rate=0.05,maturity=1,yearly_coupons=0){ #该函数依据给定的债券B(0,t)的面值,到期日,年息率和等距付款来计算其价格 #如果 yearly_coupons == 0, 它只在到期时领取 #如果 yearly_coupons == 1, 每年领取一次 #如果 yearly_coupons == 2, 每半年领取一次 if(yearly_coupons==0){ face_value/((1+coupon_rate)^maturity) }else{ face_value/((1+coupon_rate/yearly_coupons)^(yearly_coupons*maturity)) }}calculate_bond_price()<!----> ## [1] 952.381如果咱们有适合的证券,咱们也能够从息票领取债券中构建零息票债券。 1年期纯贴现债券在95发售。两年期8%的债券售价99元。    2年期纯折价债券的价格为99-0.08(95)= 91.4。 复利类型简略复利假如利率为0.05,期限为2年。100美元的价格在到期时将是多少。   定期复利如果将利息永恒增加到本金投资中,那么咱们的复利就是利率。假如雷同的示例,但每半年复算一次。   年名义利率为   间断复利当初,假如复利的频率很高,以至于在两次加息之间的工夫距离是无限小(靠近零)。而后在极限状况下     因而,以咱们的示例为例,间断复利的年利率是  给定一组零息票债券价格,咱们能够计算间断收益率  #例如,债券价格为0.987,期限为半年。calculate_yield(0.987,0.5)## [1] 0.02617048远期汇率假如有两个到期日不同的债券  能够重新排列成   imply_forward_rate<-function(R0t1=0.04,R0t2=0.045,t1=1,t2=2){ ((1+R0t2)^t2/(1+R0t1)^t1)^(1/(t2-t1)) -1}imply_forward_rate()<!----> ## [1] 0.05002404 ...

April 14, 2023 · 2 min · jiezi

关于数据挖掘:使用自组织映射神经网络SOM进行客户细分附代码数据

全文下载链接:http://tecdat.cn/?p=18726最近咱们被客户要求撰写对于自组织映射神经网络(SOM)的钻研报告,包含一些图形和统计输入。 自组织\_映射神经网络(SOM)是一种无监督的数据可视化技术,可用于可视化低维(通常为2维)示意模式的高维数据集。在本文中,咱们钻研了如何应用R创立用于客户细分的SOMSOM由1982年在芬兰的Teuvo Kohonen首次形容,而Kohonen在该畛域的工作使他成为世界上被援用最多的芬兰科学家。通常,SOM的可视化是六边形节点的黑白2D图。 SOMSOM可视化由多个“节点”组成。每个节点向量具备: 在SOM网格上的地位与输出空间维度雷同的权重向量。(例如,如果您的输出数据代表人,则可能具备变量“年龄”,“性别”,“身高”和“体重”,网格上的每个节点也将具备这些变量的值)输出数据中的关联样本。输出空间中的每个样本都“映射”或“链接”到网格上的节点。一个节点能够代表多个输出样本。SOM的要害特色是原始输出数据的拓扑特色保留在图上。这意味着将类似的输出样本(其中相似性是依据输出变量(年龄,性别,身高,体重)定义的)一起搁置在SOM网格上。例如,所有高度大概为1.6m的55岁女性将被映射到网格同一区域中的节点。思考到所有变量,身材矮小的人将被映射到其余中央。在身材上,高个的男性比小个的胖男性更靠近高个头的女性,因为他们“类似”得多。 SOM热图典型的SOM可视化是“热图”。热图显示了变量在SOM中的散布。现实状况下,类似年龄的人应该汇集在同一地区。 下图应用两个热图阐明均匀教育程度和失业率之间的关系。 SOM算法从样本数据集生成SOM的算法可总结如下: 抉择地图的大小和类型。形态能够是六边形或正方形,具体取决于所需节点的形态。通常,最好应用六边形网格,因为每个节点都具备6个近邻 。随机初始化所有节点权重向量。从训练数据中抉择一个随机数据点,并将其出现给SOM。在地图上找到“最佳匹配单位”(BMU)–最类似的节点。应用欧几里德间隔公式计算类似度。确定BMU“街坊”内的节点。\–邻域的大小随每次迭代而减小。所选数据点调整BMU邻域中节点的权重。\–学习率随着每次迭代而升高。\–调整幅度与节点与BMU的靠近水平成正比。反复步骤2-5,进行N次迭代/收敛。R中的SOM训练R能够创立SOM和可视化。 # 在R中创立自组织映射# 创立训练数据集(行是样本,列是变量# 在这里,我抉择“数据”中可用的变量子集data_train <- data[, c(3,4,5,8)]#将带有训练数据的数据框更改为矩阵#同时对所有变量进行标准化 #SOM训练过程。data_train_matrix <- as.matrix(scale(data_train))#创立SOM网格 #在训练SOM之前先训练网格  grid(xdim = 20, ydim=20, topo="hexagonal")#最初,训练SOM,迭代次数选项,#学习率model <- som(data_train_matrix)可视化可视化能够检察生成SOM的品质,并摸索数据集中变量之间的关系。 训练过程:\随着SOM训练迭代的进行,从每个节点的权重到该节点示意的样本的间隔将减小。现实状况下,该间隔应达到最小。此图选项显示了随着工夫的进度。如果曲线一直减小,则须要更多的迭代。 #SOM的训练进度plot(model, type="changes") 节点计数\咱们能够可视化映射到地图上每个节点的样本数。此度量能够用作图品质的度量-现实状况下,样本分布绝对平均。抉择图大小时,每个节点至多要有5-10个样本。 #节点数plot(model, type="count") 点击题目查阅往期内容 R语言鸢尾花iris数据集的档次聚类分析 左右滑动查看更多 01 02 03 04 街坊间隔\通常称为“ U矩阵”,此可视化示意每个节点与其街坊之间的间隔。通常应用灰度查看,街坊间隔低的区域示意类似的节点组。间隔较大的区域示意节点相异得多。U矩阵可用于辨认SOM映射内的类别。 # U-matrix 可视化 代码/权重向量\节点权重向量由用于生成SOM的原始变量值。每个节点的权重向量代表/类似于映射到该节点的样本。通过可视化整个地图上的权重向量,咱们能够看到样本和变量散布中的模型。权重向量的默认可视化是一个“扇形图”,其中为每个节点显示了权重向量中每个变量的大小的各个扇形示意。 # 权重矢量视图 热图 **热**图是兴许是自组织图中最重要的可能的可视化。通常,SOM过程创立多个热图,而后比拟这些热图以辨认图上乏味的区域。在这种状况下,咱们将SOM的均匀教育程度可视化。```# 热图创立``` 应该留神的是,该默认可视化绘制了感兴趣变量的标准化版本。```# 未标准化的热图#定义要绘制的变量 aggregate(as.numeric(data_train, by=list(som_model$unit.classi FUN=mean)```值得注意的是,下面的热图显示了失业率与教育程度之间的正比关系。并排显示的其余热图可用于构建不同区域及其特色的图片。 **SOM网格中具备空节点的热图** 在某些状况下,您的SOM训练可能会导致SOM图中的节点为空。通过几行,咱们能够找到som_model $ unit.classif中短少的节点,并将其替换为NA值–此步骤将避免空节点扭曲您的热图。```# 当SOM中有空节点时绘制未标准化的变量var_unscaled <- aggregate(as.numeric(data_train_raw), by=list(som_model$unit.classif), FUN=mean)# 为未调配的节点增加NA值missingNodes <- which(!(seq(1,nrow(som_model$codes) %in% varunscaled$Node))# 将它们增加到未标准化的数据框var_unscaled <- rbind(var_unscaled, data.frame(Node=missingNodes, Value=NA))# 后果数据框var_unscaled # 当初仅应用正确的“值”创立热图。plot(som_model, type =d)``` 自组织图的聚类和宰割能够在SOM节点上执行聚类,以发现具备类似度量的样本组。能够应用kmeans算法并查看“类内平方和之内”图中的“肘点”来确定适合的聚类数预计。 # 查看WCSS的kmeansfor (i in 2:15) {wss[i] <- sum(kmeans(mydata, centers=i)$withinss)}# 可视化聚类后果##应用分层聚类对向量进行聚类cutree(hclust(dist(som_model$codes)), 6)# 绘制这些后果:plot(som_model, t"mappinol =ty_pal 现实状况下,发现的类别在图外表上是间断的。为了取得间断的聚类,能够应用仅在SOM网格上仅将类似AND的节点组合在一起的档次聚类算法。 将聚类映射回原始样本当依照下面的代码示例利用聚类算法时,会将聚类调配给 SOM映射上的每个 节点,而不是 数据集中的原始 样本。 # 为每个原始数据样本获取具备聚类值的向量som_clust[som_modl$unit.clasf]# 为每个原始数据样本获取具备聚类值的向量data$cluster <- cluster_assignment应用每个聚类中训练变量的统计信息和散布来构建聚类特色的有意义的图片-这既是艺术又是迷信,聚类和可视化过程通常是一个迭代过程。 论断自组织映射(SOM)是数据迷信中的一个弱小工具。劣势包含: 发现客户细分材料的直观办法。绝对简略的算法,易于向非数据科学家解释后果能够将新的数据点映射到经过训练的模型以进行预测。毛病包含: 因为训练数据集是迭代的,因而对于十分大的数据集不足并行化性能很难在二维立体上示意很多变量SOM训练须要清理后的,数值的数据,这些数据很难取得。 本文摘选 《 R语言应用自组织映射神经网络(SOM)进行客户细分 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析\RNN循环神经网络 、LSTM长短期记忆网络实现工夫序列长期利率预测\联合新冠疫情COVID-19股票价格预测:ARIMA,KNN和神经网络工夫序列剖析\深度学习:Keras应用神经网络进行简略文本分类剖析新闻组数据\用PyTorch机器学习神经网络分类预测银行客户散失模型\PYTHON用LSTM长短期记忆神经网络的参数优化办法预测工夫序列洗发水销售数据\Python用Keras神经网络序列模型回归拟合预测、准确度检查和后果可视化\Python用LSTM长短期记忆神经网络对不稳固降雨量工夫序列进行预测剖析\R语言中的神经网络预测工夫序列:多层感知器(MLP)和极限学习机(ELM)数据分析报告\R语言深度学习:用keras神经网络回归模型预测工夫序列数据\Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类\R语言KERAS深度学习CNN卷积神经网络分类辨认手写数字图像数据(MNIST)\MATLAB中用BP神经网络预测人体脂肪百分比数据\Python中用PyTorch机器学习神经网络分类预测银行客户散失模型\R语言实现CNN(卷积神经网络)模型进行回归数据分析\SAS应用鸢尾花(iris)数据集训练人工神经网络(ANN)模型\【视频】R语言实现CNN(卷积神经网络)模型进行回归数据分析\Python应用神经网络进行简略文本分类\R语言用神经网络改良Nelson-Siegel模型拟合收益率曲线剖析\R语言基于递归神经网络RNN的温度工夫序列预测\R语言神经网络模型预测车辆数量工夫序列\R语言中的BP神经网络模型剖析学生问题\matlab应用长短期记忆(LSTM)神经网络对序列数据进行分类\R语言实现拟合神经网络预测和后果可视化\用R语言实现神经网络预测股票实例\应用PYTHON中KERAS的LSTM递归神经网络进行工夫序列预测\python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译\用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类Python、R对小说进行文本开掘和档次聚类可视化剖析案例\R语言简单网络分析:聚类(社区检测)和可视化\R语言中的划分聚类模型\基于模型的聚类和R语言中的高斯混合模型\r语言聚类分析:k-means和档次聚类\R语言k-Shape工夫序列聚类办法对股票价格工夫序列聚类\用R语言进行网站评论文本开掘聚类\基于LDA主题模型聚类的商品评论文本开掘\R语言中实现档次聚类模型\R语言鸢尾花iris数据集的档次聚类分析\R语言对用电负荷工夫序列数据进行K-medoids聚类建模和GAM回归\基于模型的聚类和R语言中的高斯混合模型

April 14, 2023 · 1 min · jiezi

关于数据挖掘:数据分享R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优ROC曲线可视化附代码数据

原文链接:http://tecdat.cn/?p=26868最近咱们被客户要求撰写对于电信公司用户散失的钻研报告,包含一些图形和统计输入。 在本教程中,咱们将学习笼罩决策树和随机森林。这些是可用于分类或回归的监督学习算法 上面的代码将加载本教程所需的包和数据集。 library(tidyverse)# 电信客户流失率数据churn <- read_rds(chuata.rds))数据花点工夫摸索上面的这个数据集 ( 查看文末理解数据获取形式 ) 。 此数据框中的一行代表一家电信公司的客户。每个客户都从该公司购买了电话和互联网服务。 此数据中的因变量变量 canceled 批示客户是否终止了他们的服务。 决策树为了演示拟合决策树,咱们将应用 churn数据集并应用所有可用的预测变量进行预测。 数据拆分咱们将数据分成训练集和测试集。训练数据将进一步分为 5 折进行超参数调优。  # 记住肯定要设置你的随机数种子。chuit <- iniplit(cdf)chining <- chulit %>% trang()chuest <- chuplit %>% tesg()#在训练数据集上创立穿插验证的##这些将被用于调整模型的超参数chds <- vfcv(chung, v = 5)特色工程咱们将在训练数据上进行以下转换。 打消数值预测变量的偏度标准化所有数字预测变量为所有名义预测变量创立虚构变量<!----> chu_rep <- recipe(cace_srce ~ ., data = chutann) %>%                        stepYeonon(al_nmeric(), -al_utcoms()) %>%                        ste_nomaze(all_umic(), -al_oucoes()) %>%                        ste_dumy(all_inal(), -al_otcomes())让咱们检查一下特色工程步骤是否正确执行。 模型规格接下来,咱们指定具备以下超参数的决策树分类器: 老本复杂度参数(又名 Cp 或 )树的最大深度节点中进一步拆分所需的最小数据点数。工作流程接下来,咱们将模型组合到一个工作流中,以轻松治理模型构建过程。 treow <- workflow()超参数调优咱们将对决策树超参数进行网格搜寻,并在穿插验证期间依据 ROC 曲线下的面积抉择性能最佳的模型。 请参见上面的示例,咱们在其中创立 tree_grid 对象。 ## 创立一个超参数值的网格来测试tr_gid <- girular(cotolty(),                          teedeth(),                          mnn(),                           lvs = 2)调整超参数 tune_grid()为了从咱们的调整网格中找到超参数的最佳组合,咱们将应用该 tune_grid() 函数。 在咱们的 KNN 示例中,此函数将模型对象或工作流作为第一个参数,将穿插验证折叠作为第二个参数,将调整网格数据框作为第三个参数。 ## 调整决策树工作流程set.seed(314)tre_tig <- trewolow %>%               tue_rid(rsampes = chrnols,                         grid = reegid)查看咱们的超参数调整的后果。 从上面的后果中,咱们看到对于咱们网格中的每个超参数组合。 上面 mean 后果中的列示意取得的性能指标的平均值。 咱们能够应用该 select_best() 模型从咱们的调优后果中抉择具备最佳整体性能的模型。在上面的代码中,咱们指定依据 roc_auc 指标抉择性能最佳的模型。 咱们看到老本复杂度为 1-10、树深度为 15、最小 n 为 40 的模型产生了最佳模型。 ## 依据roc_auc抉择最佳模型besree <- te_uin %>%实现工作流程超参数调整的最初一步是 将咱们的最佳模型增加到咱们的工作流对象中。 可视化后果为了可视化咱们的决策树模型,咱们须要应用该 fit() 函数手动训练咱们的工作流对象。 此步骤是可选的,因为并非所有应用程序都须要可视化模型。然而,如果指标是理解 模型预测某些值的起因 ,那么倡议这样做。 下一节将展现如何拟合模型以 主动取得测试集的性能。 拟合模型接下来,咱们将工作流程与训练数据相匹配。这是通过将咱们的工作流对象传递给 fit() 函数来实现的。                fit(data = chning)摸索咱们的训练模型变量的重要性一旦咱们在训练数据上训练了咱们的模型,咱们就能够应用该 vip 函数钻研变量的重要性。 teeit <- tree__it %>%             pull_orfowit()变量重要性接下来咱们传递 tree_fit 给 vip() 函数。 咱们从上面的后果中看到最重要的预测因子。 vip(teeit) 点击题目查阅往期内容 PYTHON用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和KMEANS聚类用户画像 左右滑动查看更多 01 02 03 04 决策树图咱们能够可视化训练好的决策树。 这种可视化是一种工具,用于传播经过训练的决策树的预测规定。 很多时候,决策树图会很大并且难以浏览。有专门的软件包 R 用于放大决策树图的区域。 训练和评估 接下来,咱们将最终模型工作流程拟合到训练数据并评估测试数据的性能。 ...

April 14, 2023 · 1 min · jiezi

关于数据挖掘:Weka数据挖掘Apriori关联规则算法分析用户网购数据

全文链接:http://tecdat.cn/?p=32150原文出处:拓端数据部落公众号随着大数据时代的降临,如何从海量的存储数据中发现有价值的信息或常识帮忙用户更好决策是一项十分艰巨的工作。数据挖掘正是为了满足此种需要而迅速倒退起来的,它是从大量的、不齐全的、有噪声的、含糊的、随机的数据中,提取隐含在其中的、人们当时不晓得的、但又是潜在的有用信息和常识的过程。因为大数据技术的倒退,批发企业能够利用互联网收集大量的销售数据,这些数据是一条条的购买事务信息,每条信息存储了销售事务的解决工夫,顾客所购买的商品、各种商品的数量以及价格等。如果对这些历史数据进行剖析,则能够对了解剖析顾客的购买行为提供有价值的信息。 数据建模数据起源本次剖析的数据来自电商网站交易数据文件。 指标选取本次剖析一共选取了17个指标600个样本,别离是:ID号、均匀购物额度、购物总次数、交易胜利次数、信用等级、购物积分。 指标介绍(1)ID号:购网网站上的网购客户ID ; (2)均匀购物额度:网购客户均匀的网购服务的金额; (3)购物总次数:网购客户的每个月购物次数; (4)交易胜利次数:网购客户的交易胜利次数; (5)信用等级:网购客户的购物信用等级; (6)购物积分:网购客户购物的积分; (7)Pincome:集体年收入(万元) (8)Hincome:家庭年收入(万元) (9)Age:年龄 (10)Gender:性别(0:女;1:男) (11)Car:家庭领有汽车的数量 (12)Education:教育程度(1:初中及以下;2:高中;3:专科;4:本科;5:研究生) (13)Job:工作类型(1:公司职员;2:工厂工人;3:公务员;4:个体;5:事业单位;6:其余) (14)People:家里人口数量 (15)Children:家里未成年人数量 (16)Housing:屋宇领有类型(0:租房;1:买房) (17)Area:屋宇居住面积(平方米)  数据审核 由上表,可得:本次剖析的数据都是无效的,不存在缺失值。 描述性统计量 由上表,可得:月服务、年龄、寓居工夫、支出、工作工夫、家庭人数、短途间隔、收费通信这8个变量的均值别离为:35.526、41.684、11.551、77.535、10.987、2.331、11.723、13.274,能够看出这8个连续性变量不存在量纲上的差别,因而在前面的剖析中,不须要进行标准化解决。同时,这8个变量之间存在较强的线性相关性,阐明变量之间存在重大的多重共线性,能够思考对变量进行降维后在进行剖析。   数据归一化 在进行分类之前,为打消量纲的差异,首先对属性进行归一化解决。   Weka数据挖掘流程数据挖掘个别是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平庸过程,是一种决策反对过程。它实现的过程大抵可分为:问题定义、数据收集和预处理、数据挖掘、算法执行,以及后果的剖析和评估。 (1)问题定义 数据挖掘的目标是从海里数据中开掘无效信息,帮忙用户更好决策。因而,在数据挖掘之前需定义明确的开掘指标,明确数据挖掘目标。 (2)数据收集和数据预处理 数据筹备又可分为三个子步骤:数据收集、数据预处理和数据变换。数据收集是指收集所有与开掘业务对象相干的内部和外部数据,从获取的原始数据中,抉择出须要开掘的信息数据,建设开掘原始数据库。在建设的开掘原始数据库中,其数据可能是不齐全的、有噪声的、随机的、简单的,数据预处理数据就要对数据进行过滤,荡涤掉不齐全的、有噪声的数据,为下一步的剖析工作做筹备。数据转换是指格式化数据,并将其加载到适宜剖析的存储环境中,造成最终的开掘数据库。 (3)数据挖掘 算法执行阶段次要依据对问题的定义明确开掘的工作或目标,数据挖掘是指抉择适合的开掘算法,对转换过的数据库进行无效开掘,此阶段选好开掘算法是要害。 (4)后果剖析和评估 数据挖掘阶段发现的模式,通过评估,可能存在冗余或无关的模式,这时须要剔除;模式也有可能不满足用户要求,这时则须要整个发现过程回退到前一个阶段,如从新选取数据、采纳新的数据变换办法、设定新的参数值,甚至换一种算法等。   模型的理论利用钻研数据阐明本文数据来源于平台后盾数据库中历史交易信息,包含网购相干信息以及网购用户信息等。 通过数据筛选梳理,最终钻研的样本包含999条网购列表。其中,248审核未通过的有条;209条是网购放弃;542条成功网购,169条已还完网购。胜利交易总额达3090.93万元。 网购用户关联规定算法剖析设计本文别离用Apriori算法对数据进行解决开掘,具体后果如下所示。 (1)Apriori算法  尽管 Apriori 算法能够间接开掘生成表中的交易数据集,然而为了关联开掘其余算法的须要先把交易数据集转换成剖析数据集,构建的数据流程图如图 1 所示。 图 1 商品关联规定 Apriori 算法开掘流图 关联规定模型Apriori模型参数设置通过格局转换, 设最低条件反对度为15%,最小规定置信度为30%,最大前项数为5,抉择专家模式,挖掘出最有价值的10条关联规定,如图所示。生成的10条规定如下所示:  1. 交易胜利次数=1 469 ==> 购物总次数=1 465    <conf:(0.99)> lift:(1.06) lev:(0.05) [27] conv:(6.25) 2. 交易胜利次数=1 屋宇情况=1 423 ==> 购物总次数=1 419    <conf:(0.99)> lift:(1.06) lev:(0.04) [24] conv:(5.64) 3. 是否有小孩=1 屋宇情况=1 365 ==> 购物总次数=1 345    <conf:(0.95)> lift:(1.01) lev:(0.01) [4] conv:(1.16) 4. 是否有小孩=1 397 ==> 购物总次数=1 375    <conf:(0.94)> lift:(1.01) lev:(0.01) [4] conv:(1.15) 5. 屋宇情况=1 545 ==> 购物总次数=1 508    <conf:(0.93)> lift:(1) lev:(0) [0] conv:(0.96) 6. 购物总次数=1 是否有小孩=1 375 ==> 屋宇情况=1 345    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.11) 7. 是否有小孩=1 397 ==> 屋宇情况=1 365    <conf:(0.92)> lift:(1.01) lev:(0.01) [4] conv:(1.1) 8. 购物总次数=1 560 ==> 屋宇情况=1 508    <conf:(0.91)> lift:(1) lev:(0) [0] conv:(0.97) 9. 交易胜利次数=1 469 ==> 屋宇情况=1 423    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)10. 购物总次数=1 交易胜利次数=1 465 ==> 屋宇情况=1 419    <conf:(0.9)> lift:(0.99) lev:(-0.01) [-3] conv:(0.91)剖析及倡议: 通过后果能够清晰的看到交易次数较多的顾客购物胜利次数比拟多,另外是否有小孩、是否有屋宇对顾客是否购物胜利次数也有关联,倡议网站能够加大对这些用户的举荐购买力度,由上述后果可知,同时购物且胜利的用户占总用户的的90%,有屋宇的用户胜利购物别离占总订单数的91%,有小孩的人有91%会网购, 屋宇面积越大,网购次数越高,由此可见,屋宇、网购、是否有小孩、网购胜利次数这几个变量关联度较高,能够对这些用户进行广告策略投放,从而减少用户网购的成功率。 ...

April 14, 2023 · 2 min · jiezi

关于数据挖掘:专题2022年中国制造业数字化转型研究报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32145原文出处:拓端数据公众号本文中所说的制造业数字化转型,指的是在制作企业的设计、生产、治理、销售及服务的每一个环节中,将新一代信息技术利用到制作企业的设计、生产、治理、销售及服务的每一个环节中,并能够以每一个环节中产生的数据为根底,开展管制、监测、检测、预测等生产经营流动,从而在缩短研发周期、减少洽购实时性、进步生产效率与产品质量、升高能耗、及时响应客户需要等方面进行赋能。 这个概念着重强调了两个方面:第一,在制造业的整个生命流动周期中,都能够被新一代信息技术所笼罩,这不仅能够用先进技术来对每一个业务环节进行革新,还能够让全流程朝着数字化的方向倒退。其次,利用数据的剖析,能够对整个产业链中的各种流动,包含经营治理流动进行赋能,对生产进行预测,对服务进行翻新。综合使用信息化技术,既能进步企业的效益,又能进步企业的价值。 制造业期望值-继续寻求增长政策正向疏导、减少研发投入、减少资本投入等多种形式同时进行,能力促成我国制造业的降级和翻新,最终达到优存量扩增量的目标。 全国规模以上制造业企业 R& D经费支出、人员投入每年都有增长,随着企业对研发的投入器重度的进步,制造业业余申请数也在一直减少。 本专题内的参考报告(PDF)目录腾讯研究院 :2023腾讯制造业数字化转型洞察报告 报告2023-01-29工息部信息技术倒退司:深入工业互联网平台利用放慢制造业数字化转型 报告2022-09-13艾瑞征询:2022年中国制造业数字化转型钻研报告 报告2022-08-25元年:制造业数字化转型解决方案 报告2022-07-26中国信通院:次要国家和地区推动制造业数字化转型的政策钻研报告(2022... 报告2022-05-27中国电子技术标准化研究院:制造业数字化转型路线图(2021) 报告2021-10-09中德智能制作联盟:中德制造业数字化转型白皮书 报告2021-09-22帆软:数据智造将来-制造业数据建设白皮书 报告2023-03-18帆软:数据智造将来:制造业数据建设白皮书 报告2023-03-02德勤:2023年制造业瞻望 报告2023-02-28世界经济论坛:开释制造业中人工智能的价值 报告2023-02-22易观剖析:2022中国特色智能工厂领航制造业降级剖析报告 报告2023-02-03腾讯研究院 :2023腾讯制造业数字化转型洞察报告 报告2023-01-29中国上市公司协会:中国高端制造业上市公司白皮书2022 报告2023-01-25中国信通院:城市制造业高质量倒退评估钻研报告(2022年) 报告2023-01-09甲子光年:2022制造业企业物流“智”动化-驱动古代制作新模式的落地体... 报告2022-12-25中国信通院:城市制造业高质量倒退评估钻研报告 (2022 年) 报告2022-12-25电子规范院&爱波瑞:中国制造业精益数字化白皮书2022 报告2022-12-16帆软:制造业:一流企业的数据化治理方法论与思维 报告2022-12-12Epicor:2022年制造业洞见报告 报告2022-11-27德勤:制造业可继续后市场服务商业模式思考 报告2022-11-04制造业碳中和解决方案 报告2022-10-31远瞩征询:2022年中国汽车制造业剖析 报告2022-10-13美国国家迷信与技术委员会:国家先进制造业策略(英文版) 报告2022-10-12赛迪:世界先进制造业十大趋势 报告2022-09-13工息部信息技术倒退司:深入工业互联网平台利用放慢制造业数字化转型 报告2022-09-13中德制造业研修院:2022新制作白皮书 报告2022-08-31艾瑞征询:2022年中国制造业数字化转型钻研报告 报告2022-08-25中国信通院:2022年上半年电子行业运行数据报告-电子制造业保持稳定增... 报告2022-08-01元年:制造业数字化转型解决方案 报告2022-07-26甲子光年:碳中和数智化实际案例报告-制造业能效治理 报告2022-07-18灼鼎征询:中国制造业行业钻研报告 报告2022-06-16智联招聘:高技术制造业人才需求与倒退环境报告 报告2022-05-31中国信通院:次要国家和地区推动制造业数字化转型的政策钻研报告(2022... 报告2022-05-27甲子光年:低代码零代码平台利用实际与趋势钻研:制造业篇 报告2022-05-25美世:2022中国制造业与服务业待业生态调研报告 报告2022-04-19农小蜂:2022年云南省绿色食品制造业全产业链政策汇编 报告2022-04-17亿欧智库:2022 中国制造业ERP钻研报告 报告2022-04-02卡思优派:2021年长三角制造业灵便用工白皮书 报告2022-01-17人力家:2021制造业人力资源数字化白皮书 报告2021-12-30德勤:下一步翻新——2021中国制造业翻新调查报告 报告2021-12-09德勤:制造业+人工智能翻新利用倒退报告(2021) 报告2021-10-19中智征询:2021年制造业人力资本治理和薪酬趋势报告 报告2021-10-12中国电子技术标准化研究院:制造业数字化转型路线图(2021) 报告2021-10-09中德智能制作联盟:中德制造业数字化转型白皮书 报告2021-09-22毕马威:关注中国大陆制造业停工复产 报告2021-06-16德勤:造有道 智万物——德勤人工智能制造业利用考察 报告2021-06-04普华永道:工业制造业热门话题 - 如何爱护经营技术免受网络攻击 报告2021-04-23德勤:造有道 智万物——德勤人工智能制造业利用考察 报告2021-04-02

April 14, 2023 · 1 min · jiezi

关于数据挖掘:高维数据惩罚回归方法主成分回归PCR岭回归lasso弹性网络elastic-net分析基因数据附代码数据

全文链接:http://tecdat.cn/?p=23378最近咱们被客户要求撰写对于高维数据惩办回归办法的钻研报告,包含一些图形和统计输入。 在本文中,咱们将应用基因表白数据。这个数据集蕴含120个样本的200个基因的基因表白数据。这些数据来源于哺乳动物眼组织样本的微阵列试验 1 介绍在本文中,咱们将钻研以下主题 证实为什么低维预测模型在高维中会失败。进行主成分回归(PCR)。应用glmnet()进行岭回归、lasso 和弹性网elastic net对这些预测模型进行评估1.1 数据集在本文中,咱们将应用基因表白数据。这个数据集蕴含120个样本的200个基因的基因表白数据。这些数据来源于哺乳动物眼组织样本的微阵列试验。 该数据集由两个对象组成: genes: 一个120×200的矩阵,蕴含120个样本(行)的200个基因的表白程度(列)。trim32: 一个含有120个TRIM32基因表白程度的向量。##查看刚刚加载的对象str(genes) 这个练习的目标是依据微阵列试验中测量的200个基因的表白程度预测TRIM32的表白程度。为此,须要从构建中心化数据开始。咱们将其存储在两个矩阵X和Y中。 X <- scale(gen, center = TRUE, scale = TRUE) Y <- scale(tri, center = TRUE)请记住,标准化能够防止量纲上的差别,使一个变量(基因)在后果中具备更大的影响力。对于Y向量,这不是一个问题,因为咱们探讨的是一个繁多的变量。不进行标准化会使预测后果可解释为 "偏离平均值"。 1.2 奇怪性咒骂咱们首先假如预测因子和后果曾经中心化,因而截距为0。咱们会看到通常的回归模型。 咱们的指标是失去的最小二乘估计值,由以下公式给出 其中p×p矩阵(XTX)-1是要害! 为了可能计算出XTX的逆,它必须是满秩p。咱们检查一下。 dim(X) # 120 x 200,  p > n!#> [1] 120 200qr(X)$rank#> [1] 119XtX <- crossprod(X) # 更无效地计算t(X) %*% Xqr(XtX)$rank#> [1] 119#  尝试用solve进行求解。 solve(XtX)   咱们意识到无奈计算(XTX)-1,因为(XTX)的秩小于p,因而咱们无奈通过最小二乘法失去^! 这通常被称为奇怪性问题。 2 主成分回归解决这种奇怪性的第一个办法是应用主成分绕过它。因为min(n,p)=n=120,PCA将失去120个成分,每个成分是p=200个变量的线性组合。这120个PC蕴含了原始数据中的所有信息。咱们也能够应用X的近似值,即只应用几个(k<120)PC。因而,咱们应用PCA作为缩小维度的办法,同时尽可能多地保留观测值之间的变动。一旦咱们有了这些PC,咱们就能够把它们作为线性回归模型的变量。 2.1对主成分PC的经典线性回归咱们首先用prcomp计算数据的PCA。咱们将应用一个任意的k=4个PC的截止点来阐明对PC进行回归的过程。 k <- 4 #任意抉择k=4Vk <- pca$rotation[, 1:k] # 载荷矩阵Zk <- pca$x[, 1:k] # 分数矩阵# 在经典的线性回归中应用这些分数 因为X和Y是中心化的,截距近似为0。 输入结果显示,PC1和PC4的估计值与0相差很大(在p<0.05),然而后果不能轻易解释,因为咱们没有对PC的间接解释。 2.2 应用软件包PCR也能够间接在数据上进行(所以不用先手动进行PCA)。在应用这个函数时,你必须牢记几件事。 要应用的成分(PC)的数量是通过参数ncomp来确定该函数容许你首先对预测因子进行标准化(set scale = TRUE)和中心化(set center = TRUE)(在这里的例子中,XX曾经被中心化和标准化了)。你能够用与应用lm()雷同的形式应用pcr()函数。应用函数summary()能够很容易地查看得出的拟合后果,但输入后果看起来与你从lm失去的后果齐全不同。 #X曾经被标准化和中心化了   首先,输入显示了数据维度和应用的拟合办法。在本例中,是基于SVD的主成分PC计算。summary()函数还提供了应用不同数量的成分在预测因子和响应中解释方差的百分比。例如,第一个PC只解释了所有方差的61.22%,或预测因子中的信息,它解释了后果中方差的62.9%。请留神,对于这两种办法,主成分数量的抉择都是任意抉择的,即4个。 在前面的阶段,咱们将钻研如何抉择预测误差最小的成分数。 3 岭回归、Lasso 和弹性网Elastic Nets岭回归、Lasso 回归和弹性网Elastic Nets都是密切相关的技术,基于同样的想法:在预计函数中退出一个惩办项,使(XTX)再次成为满秩,并且是可逆的。能够应用两种不同的惩办项或正则化办法。 L1正则化:这种正则化在预计方程中退出一个1‖‖1。该项将减少一个基于系数大小绝对值的惩办。这被Lasso回归所应用。 L2正则化:这种正则化在预计方程中减少了一个项2‖‖22。这个惩办项是基于系数大小的平方。这被岭回归所应用。 弹性网联合了两种类型的正则化。它是通过引入一个混合参数来实现的,该参数实质上是将L1和L2标准联合在一个加权均匀中。  4 练习:岭回归的验证在最小平方回归中,预计函数的最小化 能够失去解。 对于岭回归所应用的惩罚性最小二乘法准则,你要最小化,能够失去解。  其中II是p×p的辨认矩阵。 脊参数将系数缩减为0,=0相当于OLS(无缩减),=+∞相当于将所有^设置为0。最佳参数位于两者之间,须要由用户进行调整。 习题应用R解决以下练习。 验证 秩为200,对于任何一个  .gamma <- 2 # # 计算惩办矩阵XtX_gammaI <- XtX + (gamma * diag(p))dim(XtX_gammaI)#> [1] 200 200qr(XtX_gammaI)$rank == 200 # #> [1] TRUE向下滑动查看后果▼ 查看的逆值是否能够计算出来。# 是的,能够被计算。XtX_gammaI_inv <- solve(XtX_gammaI) 向下滑动查看后果▼ 最初,计算。## 计算岭估计值## 应用`drop`来删除维度并创立向量length(ridge_betas) # 每个基因都有一个#> [1] 200 咱们当初曾经手动计算了岭回归的估计值。 向下滑动查看后果▼ 5 用glmnet进行岭回归和套索lasso回归glmnet容许你拟合所有三种类型的回归。应用哪种类型,能够通过指定alpha参数来决定。对于岭回归,你将alpha设置为0,而对于套索lasso回归,你将alpha设置为1。其余介于0和1之间的值将适宜一种弹性网的模式。这个函数的语法与其余的模型拟合函数略有不同。你必须传递一个x矩阵以及一个y向量。 管制惩办 "强度 "的gamma值能够通过参数lambda传递。函数glmnet()还能够进行搜寻,来找到最佳的拟合伽马值。这能够通过向参数lambda传递多个值来实现。如果不提供,glmnet将依据数据本人生成一个数值范畴,而数值的数量能够用nlambda参数管制。这通常是应用glmnet的举荐形式,详见glmnet。 示范:岭回归 让咱们进行岭回归,以便用200个基因探针数据预测TRIM32基因的表白程度。咱们能够从应用值为2开始。 glmnet(X, Y, alpha = 0, lambda = gamma)#看一下前10个系数 第一个系数是截距,基本上也是0。但的值为2可能不是最好的抉择,所以让咱们看看系数在的不同值下如何变动。 ...

April 12, 2023 · 1 min · jiezi

关于数据挖掘:数据分享R语言用RFM决策树模型顾客购书行为的数据预测附代码数据

全文链接:http://tecdat.cn/?p=30330最近咱们被客户要求撰写对于RFM、决策树模型的钻研报告,包含一些图形和统计输入。 团队须要剖析一个来自在线零售商的数据 该数据蕴含了78周的购买历史。该数据文件中的每条记录包含四个字段。客户的ID(从1到2357不等),交易日期,购买的书籍数量,以及价值。咱们被要求建设一个模型来预测消费者每周的购买频率、书籍的购买单位和购买价值。 RFM模型RFM是一个用于营销剖析的模型,它通过购买模式或习惯来细分公司的消费者群体。特地是,它评估了客户的回顾性(他们多久前进行过一次购买)、频率(他们购买的频率)和价值(他们花多少钱)。 而后,通过测量和剖析生产习惯,RFM被用来辨认一个公司或组织的最佳客户,以改善低分客户并放弃高分客户。 要害要点经常性、频率、价值(RFM)是一种营销剖析工具,用于依据客户生产习惯的性质来确定公司的最佳客户。一个RFM剖析通过对客户和顾客的三个类别进行打分来评估他们:他们最近有多大的购买行为,他们购买的频率,以及他们购买的规模。RFM模型为这三个类别中的每一个客户打出1-5分(从最差到最好)的分数。RFM剖析帮忙企业正当地预测哪些客户有可能再次购买他们的产品,有多少支出来自于新客户(绝对于老客户),以及如何将偶然购买的买家变成习惯购买的买家。 ####计算用户最近一次的购买R_table$R <- as.numeric(NOW - ParsedDate)###计算用户的购买频率aggregate(FUN=length) # Calculate F###计算用户的购买金额aggregate(FUN=sum) # Calculate M 失去每个用户的RFM值,利用RFM三个值的四分位数来对用户进行分类 多元线性回归模型查看回归模型后果 失去对r值的线性拟合模型的后果,能够看到RFM三个分类值都与r值有显著的关系,Rsquare值达到了0.8以上,阐明拟合成果较好。 失去对r值的线性拟合模型的后果,能够看到RFM三个分类值都与f值有显著的关系,Rsquare值达到早0.4左右,阐明拟合成果个别。 失去对r值的线性拟合模型的后果,能够看到出了M分类值以外,FM的分类值都与f值有显著的关系,Rsquare值达到了0.4左右,阐明拟合成果个别。 点击题目查阅往期内容 数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化 左右滑动查看更多 01 02 03 04 对测试集做预测线性回归模型预测值和拟合值比拟 预测拟合值的图中,红点示意理论样本点,能够看到F和M值的预测绝对靠近理论样本点,预测成果较好。然而,误差依然比拟大,因而尝试采纳决策树模型进行预测。 决策树模型预测ct <- rpart.control(xval=10, minsplit=20, cp=0.1)绘制决策树rpart.plot(fitR, branch=1, branch.type=2, type=1,            border.col="blue", split.col="red",   从后果图来看,决策树对f值和m值的拟合水平更好。 从三个模型的后果里来看,rel error和xerror都较小,因而模型预测拟合成果较好。 因而,模型的整体成果绝对线性模型失去了晋升。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《R语言用RFM、决策树模型顾客购书行为的数据预测》。 点击题目查阅往期内容 数据分享|Python决策树、随机森林、奢侈贝叶斯、KNN(K-最近街坊)分类剖析银行拉新流动开掘潜在贷款客户 PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯奢侈贝叶斯、反对向量机SVM剖析营销流动数据|数据分享 用PyTorch机器学习神经网络分类预测银行客户散失模型 R语言用FNN-LSTM假近邻长短期记忆人工神经网络模型进行工夫序列深度学习预测4个案例 Python中TensorFlow的长短期记忆神经网络(LSTM)、指数挪动平均法预测股票市场和可视化 R语言KERAS用RNN、双向RNNS递归神经网络、LSTM剖析预测温度工夫序列、 IMDB电影评分情感 Python用Keras神经网络序列模型回归拟合预测、准确度检查和后果可视化 Python用LSTM长短期记忆神经网络对不稳固降雨量工夫序列进行预测剖析 R语言中的神经网络预测工夫序列:多层感知器(MLP)和极限学习机(ELM)数据分析报告 R语言深度学习:用keras神经网络回归模型预测工夫序列数据 Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类 R语言KERAS深度学习CNN卷积神经网络分类辨认手写数字图像数据(MNIST) MATLAB中用BP神经网络预测人体脂肪百分比数据 Python中用PyTorch机器学习神经网络分类预测银行客户散失模型 R语言实现CNN(卷积神经网络)模型进行回归数据分析Python应用神经网络进行简略文本分类 R语言用神经网络改良Nelson-Siegel模型拟合收益率曲线剖析 R语言基于递归神经网络RNN的温度工夫序列预测 R语言神经网络模型预测车辆数量工夫序列 R语言中的BP神经网络模型剖析学生问题 matlab应用长短期记忆(LSTM)神经网络对序列数据进行分类 R语言实现拟合神经网络预测和后果可视化 用R语言实现神经网络预测股票实例 应用PYTHON中KERAS的LSTM递归神经网络进行工夫序列预测 python用于NLP的seq2seq模型实例:用Keras实现神经网络机器翻译 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 ...

April 12, 2023 · 1 min · jiezi

关于数据挖掘:视频随机波动率SV模型原理和Python对标普SP500股票指数预测数据分享附代码数据

全文链接:http://tecdat.cn/?p=22546最近咱们被客户要求撰写对于随机稳定率SV模型的钻研报告,包含一些图形和统计输入。 什么是随机稳定率?随机稳定率 (SV) 是指资产价格的稳定率是变动的而不是恒定的 。 “随机”一词意味着某些变量是随机确定的,无奈准确预测。 在金融建模的背景下,随机建模迭代随机变量的间断值,这些值彼此不独立。非独立的意思是尽管变量的值会随机变动,但其终点将取决于其先前的值,因而取决于其先前的值,依此类推;这形容了所谓的随机游走。 点击题目查阅往期内容 Matlab马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility) 模型 左右滑动查看更多 01 02 03 04 随机稳定率的教训证据 在定义了稳定率的含意之后,咱们当初通过探讨稳定率随机变动的证据来疏导其余部分。咱们(大体上)遵循,对现金和期权市场中察看到的价格行为进行一些实证察看。咱们思考了一些经济解释,并将它们与手头的主题分割起来: 厚尾 当初广泛承受的是,资产收益的教训散布是尖峰的意思(大抵),即对于均值的四阶矩大于具备雷同方差的正态分布的雷同统计量。这意味着察看到更多的极其回报和更少的中等回报,“尖峰”意味着理论散布中凑近均值的天数更多,“厚尾”示意极其收益率呈现的频率高于正态分布的预测,比方出乎意料的“黑天鹅事件”。  波动性聚类和持久性看一眼金融工夫序列通常会立刻发现高稳定期和低稳定期。  事实上,肥尾和波动性聚类是同一枚硬币的两个方面。家喻户晓,散布的混合,例如依据正态分布散布的价格变动,但具备随机方差,能够复制肥尾。然而,通过间接将根底价格散布建模为具备肥尾,能够同样很好地解释肥尾和波动性聚类。另一个教训事实是稳定机制的继续存在,存在高稳定期和低稳定期,而不仅仅是随机事件。这一察看表明了任何提议的稳定率模型的某些内容。 什么是随机建模?随机建模是一种用于帮忙做出投资决策的财务模型。这种类型的建模应用随机变量预测不同条件下各种后果的概率。 随机建模出现数据并预测后果,这些后果阐明了肯定水平的不可预测性或随机性。许多行业的公司都能够应用随机模型来改良他们的业务实际并进步盈利能力。在金融服务畛域,规划师、分析师和投资组合经理应用随机模型来治理他们的资产和负债并优化他们的投资组合。 要害要点随机模型应用随机变量预测不同条件下各种后果的概率。随机建模出现数据并预测后果,这些后果阐明了肯定水平的不可预测性或随机性。在金融服务畛域,规划师、分析师和投资组合经理应用随机模型来治理他们的资产和负债并优化他们的投资组合。与随机建模相同的是确定性建模,它每次都为一组特定的输出提供雷同的准确后果。蒙特卡洛模仿是随机模型的一个例子。它能够依据单个股票收益的概率分布来模仿投资组合的体现。理解随机建模:恒定与可变要了解随机建模的概念,将其与相同的确定性建模进行比拟会有所帮忙。 确定性建模产生恒定的后果无论您从新计算模型多少次,确定性建模都能够为特定的一组输出提供雷同的准确后果。在这里,数学性质是已知的。它们都不是随机的,只有一组特定值和一个问题的答案或解决方案。对于确定性模型,不确定因素是模型内部的。 随机建模产生多变的后果另一方面,随机建模实质上是随机的,模型中内置了不确定因素。该模型产生了许多答案、预计和后果——例如将变量增加到简单的数学问题中——以查看它们对解决方案的不同影响。而后在各种状况下反复屡次雷同的过程。 波动性资产的波动性是期权定价的要害组成部分。随机稳定率模型是出于对期权定价的 Black Scholes 模型进行批改的须要而开发的,该模型未能无效地思考到标的证券价格波动性可能发生变化的事实。Black Scholes 模型反而做了简化假如,即根底证券的波动性是恒定的。随机稳定率模型通过容许根底证券的价格稳定率作为随机变量稳定来纠正这一点。通过容许价格变动,随机稳定率模型进步了计算和预测的准确性。 随机稳定的个别模式 间断工夫金融模型被写成应用随机微分方程的扩散过程。咱们正在钻研的模型的个别模式是  和  和  这些方程意味着 S 的刹时回报由一些确定性项加上一些随机噪声给出。自身遵循相似(但更个别)的随机动静。 Heston 随机稳定率模型Heston 模型是由金融学者 Steven Heston 在 1993 年创立的随机稳定率模型。该模型应用稳定率或多或少是随机的假如,并具备以下区别于其余随机稳定率模型的特色: 它思考了资产价格与其波动性之间的相关性。它将稳定了解为回归均值。它不要求股票价格遵循对数正态概率分布。如下图所示,察看到的股票稳定率可能会飙升至高于或低于平均水平,但仿佛总是在平均水平左近。高稳定期之后通常是低稳定期,反之亦然。应用均值回归确定稳定范畴并联合 预测 技术,投资者能够抉择最佳交易。 Python随机稳定率(SV)模型对标普500指数工夫序列波动性预测资产价格具备随工夫变动的波动性(逐日收益率的方差)。在某些期间,收益率是高度变动的,而在其余期间则十分安稳。随机稳定率模型用一个潜在的稳定率变量来模仿这种状况,该变量被建模为随机过程。上面的模型与 No-U-Turn Sampler 论文中形容的模型类似,Hoffman (2011) p21。 ...

April 12, 2023 · 1 min · jiezi

关于数据挖掘:SQL-SERVER-ANALYSIS-SERVICES决策树聚类关联规则挖掘分析电商购物网站的用户行为数据

全文链接:http://tecdat.cn/?p=32118原文出处:拓端数据部落公众号如果你有一个购物类的网站,那么你如何给你的客户来举荐产品呢?这个性能在很多电商类网站都有,那么,通过SQL Server Analysis Services的数据挖掘性能,你也能够轻松的来构建相似的性能。 将分为三个局部来演示如何实现这个性能。 此篇文章演示了如何帮忙客户应用SQL Server Analysis Services基于此问题来构建简略的开掘模型。 步骤  筹备工作:数据.xls 数据导入数据库中。 筹备工作:数据.xls 数据导入数据库中。 在相应数据库中找到对应的数据 (1) 关上visual studio,新建我的项目,抉择商业智能我的项目,analysis services我的项目 将data-mining数据库中的数据导入数据源 在可用对象中,将要剖析数据所在表增加到蕴含的对象中,持续下一步 在解决方案资源管理器中,右键单击开掘构造,抉择新建开掘构造 抉择microsoft 决策树,持续下一步 设置测试集和训练集 勾选容许钻取,实现 而后对模型进行部署,继而进行开掘(点击运行) 决策树模型以下咱们对电商购物网站的用户的信用等级进行预测,应用其余用户的特色属性对其进行预测分类。建设如下的决策树模型。 从决策树模型的后果来看, 树一共有5个分支。其中重要节点别离为购物积分、家里人口数、居住面积、居住面积等。 从图中能够看到购物积分越高的用户,决策树失去的用户信用等级越高。同时家里人口数越多,则信用等级也越高。阐明购物积分间接影响着信用等级。个别购物次数越多则买家的信用越高。同时家里人口数越多,则该用户在网上购物的开销越多。因而会导致网上购物越多,最初导致信用减少。 而后能够看到依赖网络。依赖网络图是指预测变量和其余变量间接的依赖性。从图中能够看到在用户属性中,几个属性会影响信用等级,包含购物积分、次数、居住面积以及人口数量。 聚类从聚类后果能够看到,聚类将所有用户分成了10个信用级别。 从不同类别的依赖图能够看到,类别10、4、8、5之间具备较强的相干关系。阐明这几个类别中的信用级别是相似的。上面能够具体看下每个类别中的各个属性的散布的比例。 从上图能够看到不同类别的购物积分是不同的。 总的来看,相对来说,第4和7类别的购物积分最小的,其余几个类别中积分较高,因而能够认为这些类别中的用户的信用级别较高。同时能够看到这些类别的其余信息,这类用户的月支出较低,购物次数也较小。同时能够看到,这类用户大多的交易胜利也较少。另一方面,能够看到低购物积分用户中 ,家庭人口数也较小。 从每个类别的偏向水平来看,购物总次数多的用户交易胜利次数也高。从另一方面来看,月支出较高的用户,偏向于是非分类1的用户,也就是它们的信用等级较好。同时能够看到,户交易胜利次数多喝购物积分高的用户偏向于非分类1的用户。阐明用户的信用等级绝对较高。另一方面,能够看到领有屋宇的用户的交易胜利次数 电商网站购物次数反而低于没有屋宇的用户,可能是因为没有屋宇的用户年龄段较低,因而更偏向于网络购物。 而后建设关联规定开掘模型运行关联规定 失去以下重要的关联规定 关联规定就是发现数据集中互相有关联的我的项目。它曾经成为数据挖掘畛域中具备重要影响的一种算法。也是数据挖掘畛域的一个重要分支。最近几年曾经被宽泛的利用。在电子商务畛域,关联规定技术次要用于物品链接页面等的举荐,它只须要购物记录的数据即可,而不须要过多的商品信息,通过关联规定能够发现用户的一些常见的购物模式和购物法则。找出用户通常会一起购买的商品。从而对用户进行举荐和开掘 最受欢迎的见解 1.PYTHON用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像 2.R语言基于树的办法:决策树,随机森林 3.python中应用scikit-learn和pandas决策树 4.机器学习:在SAS中运行随机森林数据分析报告 5.R语言用随机森林和文本开掘进步航空公司客户满意度 6.机器学习助推快时尚精准销售工夫序列 7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用 8.python机器学习:举荐零碎实现(以矩阵合成来协同过滤) 9.python中用pytorch机器学习分类预测银行客户散失

April 12, 2023 · 1 min · jiezi

关于数据挖掘:专题新零售下品牌消费者为中心的数字化转型报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32130原文出处:拓端数据公众号白皮书显示,阿里巴巴目前领有超过五亿用户,成为中国当先的网上商城和各大品牌争相发力平台。作为B2C模式为代表的天猫,也逐步成为了品牌经营的外围阵地。在数据银行、会员通等一系列数字化消费者经营工具被引入天猫平台后,其所产生的消费者洞察在一直迭代中在更新着品牌的认知,带动消费者市场一直降级。 然而,在热火朝天的市场浪潮下和海量的数据背后,品牌商也经验着改革中的诸多挑战。一方面,消费品企业尽管在消费者钻研上投入了大量的工夫和资源,但受传统技术和办法的限度,在消费者钻研的效率和准确性上有待进步。 数字化为消费者治理带来了新的契机这两年热火朝天的数字化转型浪潮为品牌商深刻开掘消费者资产提供了新的契机。 中国的电商生态通过约十五年的培养,渗透率一直晋升,一线城市已超过70%,而二三线城市也在迎头赶上并放弃高增长率。其和一线城市的差距也仅有2~3年工夫。 本专题内的参考报告(PDF)目录天猫&贝恩:新批发下品牌消费者为核心的数字化转型-——消费者经营衰弱度... 报告2022-09-15中国家电网:2022年中国家电翻新批发白皮书 报告2022-07-18银泰百货:新批发时代下,商场导购生存与倒退报告 报告2022-06-22GfK:2021中国家电翻新批发白皮书 报告2021-12-23麦肯锡:新批发,新趋势,新起点:中国医药行业前行中的思考 报告2021-09-27TalkingData:新批发人群洞察报告 报告2021-03-29TalkingData新批发人群洞察报告 报告2020-01-13易观:中国新批发生产金融行业专题剖析 报告2019-09-02普华永道:中国新批发的发展趋势为企业及私募股权基金带来投资时机 报告2019-08-15中商文库:2019年中国新批发行业市场前景钻研报告 报告2019-07-01普华永道:新批发倒退和中产阶级崛起推动并购流动 报告2019-06-26爱库存联结创始人沉着:新批发降级,社交电商趋势利好 报告2019-03-27极客帮:2023数字化转型案例集锦 报告2023-04-12致趣百川:2023医疗数字化转型白皮书-客户洞察与钻研 报告2023-04-10微吼:2023数字化流动系列-线上业绩发布会经营指南 报告2023-04-10联合国教科文组织:共建寰球高等教育数字化转型生态系统-国内网络教育学院... 报告2023-04-10百胜软件&爱剖析:2023生产电子行业数字化转型白皮书 报告2023-04-10艾瑞征询:ToB数字化产业投融资月报-2023年3月及一季度汇总 报告2023-04-09IBM:2023 年寰球银行和金融市场瞻望:在不确定的时代构建数字化优... 报告2023-04-06Gartner:后数字化时代:从金融潮到产能潮白皮书(2023) 报告2023-04-032022数字经济倒退论坛:中小企业数字化转型从哪里开始,到哪里完结? 报告2023-04-03德勤&浪潮:云数领航智慧监管-基于国资云的国资国企监管数字化转型白皮书... 报告2023-04-02物联云仓:2023年冷链物流数字化利用专题研究报告 报告2023-04-01艾瑞征询:中国汽车行业数字化转型解决方案白皮书 报告2023-03-31艾瑞征询:2023年中国汽车行业数字化转型解决方案白皮书 报告2023-03-30沃丰科技:AI助力能源央国企数字化转型白皮书 报告2023-03-28潘海洪:物流元宇宙-物流数字化的终极状态 报告2023-03-27链上数字产业研究院:2022中国产业数字化政策剖析报告 报告2023-03-27Meltwater融文:2023年中国数字化营销洞察报告 报告2023-03-27甲子光年:2023建筑业工程项目管理数字化钻研报告 报告2023-03-24FSG上海外服:2022企业薪酬治理和数字化趋势报告 报告2023-03-24佩信:2023企业数字化转型组织人才倒退建设报告 报告2023-03-20FSG上海外服:后疫情时代薪酬治理和数字化趋势报告下篇之数字化转型 报告2023-03-20汤森路透:数字化技术赋能跨境电商贸易合规(2023) 报告2023-03-18博锐尚格:中国购物中心能源与碳数字化转型钻研报告 报告2023-03-17第一新声:2022年中国新生产产业数字化钻研报告 报告2023-03-16爱点击:2023全域数字化经营实战手册 报告2023-03-15百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-03-13ACCA&钛媒体 :数字化转型新思(2022) 报告2023-03-13石基信息:2023年中国酒店业数字化转型趋势报告 报告2023-03-11头豹:数字能源系列(二)-2022年中国能源云行业钻研报告-能源数字化... 报告2023-03-10融文&维奥思社:2023寰球数字化营销洞察报告 报告2023-03-10爱剖析:2022地产科技利用实际报告-行业承压,数字化助力地产企业破局... 报告2023-03-1036Kr:中国中小企业数字化转型钻研报告(2022) 报告2023-03-10灼识征询:2023寰球数字化女性衰弱行业蓝皮书 报告2023-03-05CTR:2022年广电媒体数字化倒退钻研报告 报告2023-03-02央国企信创白皮书:基于信创体系的数字化转型(2022年) 报告2023-03-02Meltwater融文:2023年寰球数字化营销洞察报告 报告2023-03-02元年:数字化时代的全面估算治理洞察钻研报告 报告2023-02-27神策数据:2022汽车行业数字化经营白皮书 报告2023-02-27百信银行:商业银行“Bank Digital Mesh”数字化成熟度评... 报告2023-02-27微吼:营销的进化:数字化流动营销策略白皮书 报告2023-02-26腾讯研究院:全真互联-银行数字化倒退钻研报告 报告2023-02-26艾媒征询:2022年中国声音经济数字化利用发展趋势报告 报告2023-02-26阿里云:2023云原生实战指南-以利用为核心构建数字化转型最短门路 报告2023-02-26腾讯研究院:探元打算2022-中国文化遗产数字化钻研报告 报告2023-02-24安永:2020年及当前的数字化转型-寰球电信业考察 报告2023-02-24爱剖析:2022-2023营销数字化实际报告 报告2023-02-19SAP:减速高科技企业数字化转型 报告2023-02-19易观剖析:中国产业数字化趋势报告2023 报告2023-02-16SAP:赋能企业数字化制作能力,晋升竞争劣势与效益 报告2023-02-16Morketing研究院:营销数字化转型实际白皮书 报告2023-02-16SAP:通过SAP数字化供应链打造韧性供应链 报告2023-02-15石基信息:寰球旅游业数字化倒退钻研报告 报告2023-02-14普华永道:2022年数字化工厂转型调研报告 报告2023-02-14SAP:智慧新国潮-数字化转型须要数字化外围 报告2023-02-14甲子光年:2023年Web3.0体验营销方法论白皮书-营销数字化:从新... 报告2023-02-12爱剖析:2022出海数字化系列报告之“出海实时互动与通信”厂商全景报告 报告2023-02-11爱剖析:2022出海数字化系列报告之“出海实时互动与通信”厂商全景报告 报告2023-02-11贝恩公司:中国数字化批发银行报告(2023) 报告2023-02-10中金资本:私募股权投资行业数字化白皮书 报告2023-02-08前瞻研究院:新经济下中国企业数字化转型之路-灯塔工厂专题报告2023 报告2023-02-08神策数据:2022跨境出海数字化营销白皮书 报告2023-02-06微吼&直播研究院出品:2023数字化流动营销布局指南 报告2023-02-05神策研究院:B2B电商数字化经营白皮书 报告2023-02-05百分点:地产行业数字化转型范式与利用 报告2023-02-05中国汽研&腾讯广告:新型生产趋势下车企的营销数字化转型 报告2023-02-04BCG:行领导如何落实银保监会对于银保业数字化转型的领导意见 报告2023-02-03径硕科技:2023工业制作企业市场部数字化转型数据洞察报告 报告2023-02-01IBM:解码无界,发明数字化转型的有限可能:中国银行业企业架构施行现状... 报告2023-02-01

April 12, 2023 · 1 min · jiezi

关于数据挖掘:CIO成就计划预告微软韦青数智时代下的企业数智化战略决策

4月22日,CIO成就打算第二季第二期行将举办,本期重磅邀请到微软(中国)首席技术官、2023年亚布力论坛演讲嘉宾 韦青、金蝶中国天穹平台解决方案事业部总经理 徐昊负责导师。 CIO成就打算第二季,旨在通过分享数字化改革最佳实际及前沿方法论,帮忙企业内数字化转型的“要害学生们”应答更加简单、多变的内外局势,解决改革深水区难题。 CIO成就打算第二季亮点·重实战:实战派专家导师,数字化改革回绝夸夸其谈,军功等身的赢家方能把握输赢之道。·重案例:CIO自带演绎能力,只需呈上原汁原味的实战案例及其背地的左思右想、巧思妙想。·重发问:正确发问是面对简单时代、多变场景的外围能力,导师重点关注学员提出的问题。·重增长:增长,增长,还是增长!·是同学更是同志:畅言优先级排序、重分蛋糕、政治关系、向上沟通等“CIO自家人的话题”。 工夫:4月22日 10:00-17:00(含午餐、茶歇)地点:北京市顺义区金蝶软件园·培训中心

April 11, 2023 · 1 min · jiezi

关于数据挖掘:R语言中实现sem进行结构方程建模和路径图可视化附代码数据

原文链接:http://tecdat.cn/?p=23312最近咱们被客户要求撰写对于构造方程建模的钻研报告,包含一些图形和统计输入。 构造方程模型是一个线性模型框架,它对潜变量同时进行回归方程建模 引言 诸如线性回归、多元回归、路径分析、确认性因子分析和构造回归等模型都能够被认为是SEM的特例。在SEM中可能存在以下关系。 察看到的变量与察看到的变量之间的关系(,如回归)。潜变量与察看变量(,如确认性因子分析)。潜变量与潜变量(,,如构造回归)。SEM独特地蕴含了测量和构造模型。测量模型将观测变量与潜变量分割起来,构造模型将潜变量与潜变量分割起来。目前有多种软件解决SEM模型,包含Mplus、EQS、SAS PROC CALIS、Stata的sem和最近的R的lavaan。R的益处是它是开源的,能够收费应用,而且绝对容易应用。 本文将介绍属于SEM框架的最常见的模型,包含 简略回归多元回归多变量回归路径分析确认性因素剖析构造回归目标是在每个模型中介绍其 矩阵表述门路图lavaan语法参数和输入在这次训练完结时,你应该可能了解这些概念,足以正确辨认模型,意识矩阵表述中的每个参数,并解释每个模型的输入。 语法简介语法一:f3~f1+f2(门路模型)构造方程模型的门路局部能够看作是一个回归方程。而在R中,回归方程能够示意为y~ax1+bx2+c,“~”的右边的因变量,左边是自变量,“+”把多个自变量组合在一起。那么把y看作是内生潜变量,把x看作是外生潜变量,略去截距,就形成了语法一。 语法二:f1 =~ item1 + item2 + item3(测量模型)"=~"的右边是潜变量,左边是观测变量,整句了解为潜变量f1由观测变量item1、item2和item3体现。 语法三:item1 item1 , item1 item2"~~"的两边雷同,示意该变量的方差,不同的话示意两者的协方差 语法四:f1 ~ 1示意截距 基础知识加载数据在这种状况下,咱们将模仿数据。 y ~ .5*f  #有内部规范的回归强度f =~ .8*x1 + .8*x2 + .8*x3 + .8*x4 + .8*x5  #定义因子f,在5个我的项目上的载荷。x1 ~~ (1-.8^2)*x1 #残差。请留神,通过应用1平方的载荷,咱们在每个指标中实现了1.0的总变异性(标准化的)。......#产生数据;留神,标准化的lv是默认的simData #看一下数据describe(simData)[,1:4] 指定模型y ~ f # "~回归"f =~ x1+ x2 + x3 + x4 + x5 # "=~被测量的是"x1 ~~ x1 # 方差x2 ~~ x2 #方差x3~~x3 #变量x4~~x4 #变量x5~~x5 #变量#x4~~x5将是协方差的一个例子拟合模型summary(model_m) inspect(model_m) Paths 路径分析与上述步骤雷同,但次要侧重于回归门路。值得注意的是这种办法对调节剖析的效用。 点击题目查阅往期内容 R语言:构造方程模型、潜变量剖析 左右滑动查看更多 01 02 03 04 ##加载数据set.seed(1234)Data <- data.frame(X = X, Y = Y, M = M)指定模型 # 间接效应             Y ~ c*X #应用字符来命名回归门路           # 调节变量             M ~ a*X             Y ~ b*M           # 间接效应(a*b)             ab := a*b #定义新参数           # 总效应             total := c + (a*b) #应用":="定义新参数拟合模型summary(model_m) Paths(model) 间接效应的Bootstrapping置信区间除了指定对5000个样本的标准误差进行bootstrapping外,上面的语法还指出标准误差应进行偏差校对(但不是accelearted)。这种办法将产生与SPSS中的PROCESS宏程序相似的后果,即对标准误差进行偏差修改。 sem(medmodel,se = "bootstrap") 确认性因素剖析加载数据咱们将应用例子中的雷同数据 指定模型'f =~ x1 + x2 + x3 +x4 + x5x1~~x1x2~~x2x3~~x3x4~~x4x5~~x5'拟合模型sem(fit, simData) Paths(fit) anova 正如各模型的LRT所示,sem()和cfa()是具备雷同默认值的软件包。CFA能够很容易地应用cfa()或sem()实现 构造方程模型 加载数据在这种状况下,我将模仿数据。 #构造成分y ~ .5*f1 + .7*f2 #用内部规范回归的强度#测量局部f1 =~ .8*x1 + .6*x2 + .7*x3 + .8*x4 + .75*x5 #定义因子f,在5个我的项目上的载荷。x1 ~~ (1-.8^2)*x1 #残差。留神,通过应用1平方的载荷,咱们实现了每个指标的总变异性为1.0(标准化)。...#生成数据;留神,标准化的lv是默认的sim <- sim(tosim)#看一下数据describe(sim )  指定模型测试正确的模型 #结构性y ~ f1+ f2#测量f1 =~ x1 + x2 + x3 + x4 + x5 f2 =~ x6 + x7测试不正确的模型。假如咱们谬误地认为X4和X5负载于因子2。 incorrect#结构性y ~ f1+ f2#测量f1 =~ x1 + x2 + x3 f2 =~ x6 + x7 + x4 + x5拟合模型正确的模型 summary(model_m) 不正确的模型 summary(incorrectmodel_m, fit.measures = TRUE) ...

April 11, 2023 · 1 min · jiezi

关于数据挖掘:复杂网络社区发现算法聚类分析全国电梯故障数据和可视化诊断电梯安全之殇附代码数据

参考原文:http://tecdat.cn/?p=2186最近咱们被客户要求撰写对于简单网络社区发现算法的钻研报告,包含一些图形和统计输入。 物业工程肩负着维持我的项目各类设施设施的失常运作,保障整体业主的失常生存,令物业保值贬值,是我的项目的心脏部门。拓端数据(tecdat)钻研人员依据全国电梯故障上报汇总数据,从多个角度进行数据分析 物业工程肩负着维持我的项目各类设施设施的失常运作,保障整体业主的失常生存,令物业保值贬值,是我的项目的心脏部门。工程设施故障剖析,从各类业余零碎的问题统计中,发现该零碎全国故障发生率较高的设施问题,从工程治理措施上管制设施故障率,缩小同类故障的频发水平,对设施设施故障的预判、解决方案的制订有十分重要的意义。 基于以上背景,拓端数据(tecdat)钻研人员依据全国电梯故障上报汇总数据,从多个角度进行数据分析。 1电梯故障影响因素网络 图表1 电梯故障影响因素剖析结果显示电梯故障处理结果、损坏配件名称和故障起因之间存在强关联关系,故障解决时长和故障起因、更换配件费用、流程状态之间存在较强的关联关系,故障类型和故障起因、单元号之间存在关联关系。 社区发现算法结果显示,电梯故障因素能够从配件信息、故障信息和房屋信息三个维度来进行剖析。因而,精确确定故障起因和预计故障解决工夫能够进步故障解决效率。从聚类后果中能够判断电梯所处的房屋信息对故障解决时长也有肯定影响。 2停梯起因影响因素剖析 接下来,咱们对截止钻研时段仍为停梯状态对象的起因和影响因素进行钻研。 图表2 停梯的因素能够分成三个方面:故障责任未明确、维保单位流程中与无备用配件。相比于失常状态电梯,拨打400客服电话能够很大水平上缩小因为起因和责任不明确所导致的停梯比例,肯定水平上放慢维保单位培修的过程,从而缩小停梯比例。同时,有被困人员的电梯因为起因和责任未明确而停梯的状况较少呈现,同时也缩小了维保单位协调和无配件而停机的比例。 点击题目查阅往期内容 【视频】简单网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享 左右滑动查看更多 01 02 03 04 3地区比拟故障类型和解决时长 图表3 依据故障类型的复杂程度和电梯故障解决效率两个维度,电梯故障解决状况能够大略分成4个区域。在A区域中,咱们发现全国大部分省市的简单故障解决时长都较短,新疆和深圳在解决简单故障类型的能力上仍需进步。在B区域中,咱们发现新疆、海南和甘肃在解决个别故障类型的能力上仍需进步。在C区域中,咱们发现福建、广西和新疆在解决个别故障类型的能力上仍需进步。总的来说,大部分地区在较短时间内能够解决较简单的故障类型,同时对于个别故障类型的解决时长长短不一、相差很大,新疆在不同故障类型的解决效率上仍需进步。   点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《数据挖掘算法在物业设施设施治理的危险辨认与防控利用》。 点击题目查阅往期内容 R语言简单网络分析各大电视台合播电视剧数量可视化 R语言公交地铁路线进出站数据挖掘网络图可视化 混合图形模型MGM的网络可预测性剖析 网络社区检测(社群发现)剖析女性加入社交活动和社区节点着色可视化 用航空公司简单网络对疫情进行建模 R语言社区发现算法检测心理学简单网络:spinglass、探索性图剖析walktrap算法与可视化 R语言简单网络分析:聚类(社区检测)和可视化 应用Python和SAS Viya剖析社交网络 R语言用igraph绘制网络图可视化 在R语言中应用航空公司简单网络对疫情进行建模 R语言用相干网络图可视化剖析汽车配置和饮酒习惯 R语言公交地铁路线进出站数据挖掘网络图可视化 python对网络图networkx进行社区检测和黑白绘图R语言推特twitter网络转发可视化剖析 R语言简单网络分析:聚类(社区检测)和可视化 R语言混合图形模型MGM的网络可预测性剖析 R语言应用自组织映射神经网络(SOM)进行客户细分 R语言网络分析友情悖论案例 R语言网络和网络流的可视化实际:通勤者流动网络 R语言最大流最小割定理和最短门路算法剖析交通网络流量拥挤问题 R语言公交地铁路线网络图实现数据挖掘实战 R软件SIR模型网络结构扩散过程模仿 通过SAS网络分析对人口迁移进行可视化剖析 python附属关系图模型:基于模型的网络中密集重叠社区检测办法 应用Python和SAS Viya剖析社交网络 用R语言和python进行社交网络中的社区检测 python图工具中基于随机块模型动静网络社团检测 在R语言中应用航空公司简单网络对疫情进行建模 采纳SPSS Modeler的Web简单网络对所有腧穴进行剖析 ...

April 11, 2023 · 1 min · jiezi

关于数据挖掘:视频随机波动率SV模型原理和Python对标普SP500股票指数预测数据分享附代码数据

全文链接:http://tecdat.cn/?p=22546最近咱们被客户要求撰写对于随机稳定率SV模型的钻研报告,包含一些图形和统计输入。 什么是随机稳定率?随机稳定率 (SV) 是指资产价格的稳定率是变动的而不是恒定的 “随机”一词意味着某些变量是随机确定的,无奈准确预测。 在金融建模的背景下,随机建模迭代随机变量的间断值,这些值彼此不独立。非独立的意思是尽管变量的值会随机变动,但其终点将取决于其先前的值,因而取决于其先前的值,依此类推;这形容了所谓的随机游走。 点击题目查阅往期内容 Matlab马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility) 模型 左右滑动查看更多 01 02 03 04 随机稳定率的教训证据 在定义了稳定率的含意之后,咱们当初通过探讨稳定率随机变动的证据来疏导其余部分。咱们(大体上)遵循,对现金和期权市场中察看到的价格行为进行一些实证察看。咱们思考了一些经济解释,并将它们与手头的主题分割起来: 厚尾 当初广泛承受的是,资产收益的教训散布是尖峰的意思(大抵),即对于均值的四阶矩大于具备雷同方差的正态分布的雷同统计量。这意味着察看到更多的极其回报和更少的中等回报,“尖峰”意味着理论散布中凑近均值的天数更多,“厚尾”示意极其收益率呈现的频率高于正态分布的预测,比方出乎意料的“黑天鹅事件”。  波动性聚类和持久性看一眼金融工夫序列通常会立刻发现高稳定期和低稳定期。  事实上,肥尾和波动性聚类是同一枚硬币的两个方面。家喻户晓,散布的混合,例如依据正态分布散布的价格变动,但具备随机方差,能够复制肥尾。然而,通过间接将根底价格散布建模为具备肥尾,能够同样很好地解释肥尾和波动性聚类。另一个教训事实是稳定机制的继续存在,存在高稳定期和低稳定期,而不仅仅是随机事件。这一察看表明了任何提议的稳定率模型的某些内容。 什么是随机建模?随机建模是一种用于帮忙做出投资决策的财务模型。这种类型的建模应用随机变量预测不同条件下各种后果的概率。 随机建模出现数据并预测后果,这些后果阐明了肯定水平的不可预测性或随机性。许多行业的公司都能够应用随机模型来改良他们的业务实际并进步盈利能力。在金融服务畛域,规划师、分析师和投资组合经理应用随机模型来治理他们的资产和负债并优化他们的投资组合。 要害要点随机模型应用随机变量预测不同条件下各种后果的概率。随机建模出现数据并预测后果,这些后果阐明了肯定水平的不可预测性或随机性。在金融服务畛域,规划师、分析师和投资组合经理应用随机模型来治理他们的资产和负债并优化他们的投资组合。与随机建模相同的是确定性建模,它每次都为一组特定的输出提供雷同的准确后果。蒙特卡洛模仿是随机模型的一个例子。它能够依据单个股票收益的概率分布来模仿投资组合的体现。相干视频 ** 拓端 ,赞29 理解随机建模:恒定与可变要了解随机建模的概念,将其与相同的确定性建模进行比拟会有所帮忙。 确定性建模产生恒定的后果无论您从新计算模型多少次,确定性建模都能够为特定的一组输出提供雷同的准确后果。在这里,数学性质是已知的。它们都不是随机的,只有一组特定值和一个问题的答案或解决方案。对于确定性模型,不确定因素是模型内部的。 随机建模产生多变的后果另一方面,随机建模实质上是随机的,模型中内置了不确定因素。该模型产生了许多答案、预计和后果——例如将变量增加到简单的数学问题中——以查看它们对解决方案的不同影响。而后在各种状况下反复屡次雷同的过程。 波动性资产的波动性是期权定价的要害组成部分。随机稳定率模型是出于对期权定价的 Black Scholes 模型进行批改的须要而开发的,该模型未能无效地思考到标的证券价格波动性可能发生变化的事实。Black Scholes 模型反而做了简化假如,即根底证券的波动性是恒定的。随机稳定率模型通过容许根底证券的价格稳定率作为随机变量稳定来纠正这一点。通过容许价格变动,随机稳定率模型进步了计算和预测的准确性。 随机稳定的个别模式 间断工夫金融模型被写成应用随机微分方程的扩散过程。咱们正在钻研的模型的个别模式是  和  和  这些方程意味着 S 的刹时回报由一些确定性项加上一些随机噪声给出。自身遵循相似(但更个别)的随机动静。 Heston 随机稳定率模型Heston 模型是由金融学者 Steven Heston 在 1993 年创立的随机稳定率模型。该模型应用稳定率或多或少是随机的假如,并具备以下区别于其余随机稳定率模型的特色: 它思考了资产价格与其波动性之间的相关性。它将稳定了解为回归均值。它不要求股票价格遵循对数正态概率分布。如下图所示,察看到的股票稳定率可能会飙升至高于或低于平均水平,但仿佛总是在平均水平左近。高稳定期之后通常是低稳定期,反之亦然。应用均值回归确定稳定范畴并联合 预测 技术,投资者能够抉择最佳交易。 Python随机稳定率(SV)模型对标普500指数工夫序列波动性预测资产价格具备随工夫变动的波动性(逐日收益率的方差)。在某些期间,收益率是高度变动的,而在其余期间则十分安稳。随机稳定率模型用一个潜在的稳定率变量来模仿这种状况,该变量被建模为随机过程。上面的模型与 No-U-Turn Sampler 论文中形容的模型类似,Hoffman (2011) p21。 ...

April 11, 2023 · 1 min · jiezi

关于数据挖掘:极值理论-EVTPOT超阈值GARCH-模型分析股票指数VaR条件CVaR多元化投资组合预测风险测度分析附代码数据

全文链接:http://tecdat.cn/?p=24182最近咱们被客户要求撰写对于极值实践的钻研报告,包含一些图形和统计输入。 本文用 R 编程语言极值实践 (EVT) 以确定 10 只股票指数的危险价值(和条件 VaR) 应用 Anderson-Darling 测验对 10 只股票的组合数据进行正态性测验,并应用 Block Maxima 和 Peak-Over-Threshold 的 EVT 办法预计 VaR/CvaR。最初,应用条件异向性 (GARCH) 解决的狭义自回归来预测将来 20 天后指数的将来值。本文将确定计算危险因素的不同办法对模型后果的影响。 极值实践(最后由Fisher、Tippett和Gnedenko提出)表明,独立同散布(iid)变量样本的分块最大值的散布会收敛到三个极值散布之一。 最近,统计学家对极其值建模的趣味又有了新的变动。极限值剖析已被证实在各种危险因素的案例中很有用。在1999年至2008年的金融市场动荡之后,极值剖析取得了有效性,与之前的危险价值剖析不同。极限值代表一个零碎的极其稳定。极限值剖析提供了对极其事件的概率、规模和爱护老本的关系进行建模的能力。 参考https://arxiv.org/pdf/1310.3222.pdf https://www.ma.utexas.edu/mp_arc/c/11/11-33.pdf http://evt2013.weebly.com/uploads/1/2/6/9/12699923/penalva.pdf Risk Measurement in Commodities Markets Using Conditional Extreme Value Theory 第 1a 节 - 工作目录、所需的包和会话信息为了开始剖析,工作目录被设置为蕴含股票行情的文件夹。而后,装置所需的 R 编程语言包并蕴含在包库中。R 包包含极值实践函数、VaR 函数、工夫序列剖析、定量交易剖析、回归剖析、绘图和 html 格局的包。 library(ggplot2)library(tseries)library(vars)library(evd)library(POT)library(rugarch)第 1b 节 - 格式化专有数据用于此剖析的第一个文件是“Data_CSV.csv”。该文件蕴含在 DAX 证券交易所上市的 15 家公司的股票代码数据,以及 DAX 交易所的市场投资组合数据。从这个数据文件中选出了 10 家公司,这些公司最近十年的股价信息是从谷歌财经下载的。 第 1c 节 - 下载股票代码数据股票价格数据下载并读入 R 编程环境。收益率是用“开盘价/收盘价 ”计算的,十家公司的数据合并在一个数据框中,(每家公司一列)。 ...

April 11, 2023 · 3 min · jiezi

关于数据挖掘:Eviews基于多元回归模型OLS的CPI影响因素分析

全文链接:http://tecdat.cn/?p=32104原文出处:拓端数据部落公众号2015年以来,通货膨胀越来越成为我国的重要经济景象。作为掂量通货膨胀的次要指标,CPI(消费者物价指数)与人们的生存具备最亲密的关系。 本文帮忙客户剖析CPI变动的次要因素,并着重剖析通货膨胀的成因,为政府实现宏观调控指标、促成国民经济衰弱继续倒退和改善人民生存提出倡议。 数据 问题的提出近年来,国内农产品、国内市场石油、铁矿石等价格激烈稳定,特地是去年国内商品价格变动存在较大的不确定性。2009 年宽松的货币政策促成了经济复苏,但偏高的货币供应与减少的工资率对2015年的通货膨胀造成了很大压力。由此咱们有理由猜想,原材料和燃料价格上涨、货币供应减少、工资率进步等因素造成的价格影响机制对我国宏观经济的调控提出了新挑战。 那么,CPI的大幅增长是否与上述因素密切相关呢? 经济实践剖析通货膨胀和就业率是经济宏观调控的两个重要指标。其中CPI是掂量通货膨胀最及时的指标,也与人们的生存关系最亲密。依据宏观经济学实践,通货膨胀按成因可分为三类:需要拉动型、老本推动型及结构型通货膨胀。对CPI影响因素的剖析能够以此为根据。 模型建设实践模型的建设 本文通过建设多元回归模型对CPI的影响因素进行剖析。联合前述经济实践,咱们选取狭义货币供给量M2(x1)、工资率(x2)、原材料燃料价格(x3)及不变价格计量的理论GDP(X4)作为影响消费者物价指数CPI(y)的因素,建设y与X1、X2、X3、X4的多元回归模型,试图找到对CPI有较强影响的经济变量,对引起CPI上涨的因素进行剖析。 样本及变量阐明为使统计单位具备一致性,狭义货币供应量M2、工资率及原材料能源价格因素以增长率作为计算数据。 模型参数的预计在Eviews中,利用OLS法进行参数估计,其中4没有通过显著性测验(T=1.683234<2),即不能认为理论GDP与CPI存在显著的线性关系。X1、X2、X3再次回归,失去回归方程为: y = -9.630412 + 0.274652x1 + 0.41676x2 + 0.474415x3 模型的测验经济测验由样本方程知,预计参数1=0.274652,即狭义货币供应量M2与CPI成正相干关系,合乎货币供应量减少推动总需求回升进而使CPI上涨的根本经济原理。参数B2=0.41676,B3=0.4744,即工资率、原材料燃料价格均与CPI成正相干关系,合乎老本因素回升推动价格上涨的原理。 统计意义测验拟合优度测验 模型拟合优度R2=0.903625,回归模型对于文章选取的2014~2015年的观测值拟合水平较好。 回归方程显著性 F 测验及系数显著性 T 测验 回归模型的F值为43.75543,P值为0.000000,回归模型通过了方程显著性F测验。X1(M2增长率)、X2(工资率增长率)、X3(原材料燃料价格增长率)整体能与Y(CPI)之间建设较为理想的回归模型。同时,方程通过系数显著性T测验。数据如下表: 实证剖析通过以上模型,能够分明地看到货币供应量、工资率及原材料燃料价格三个因素对我国CPI的量化影响。其中,M2增速每变动一个单位,CPI均匀同向变动0.274652个单位。工资率每变动一个单位,CPI均匀同向变动0.416762个单位。原材料燃料价格每变动一个单位,CPI均匀同向变动0.474415个单位。以此为根据,下文对中国90年代以来的通货膨胀起因进行剖析。 CPI增幅超过3%即认为产生了通货膨胀。由数据能够看出,90年代以来中国共产生过两次重大的通货膨胀,一次为1993~1996年,另一次为2007年至今。 2007年以来,我国CPI再次继续居于高位。究其原因,也与货币超发及成本上升密切相关。2007年中国外汇储备增长率高达43.32%,极大地减少了国内的通胀压力,同时存贷款利率处于较低水平,引发了以房地产行业为代表的价格上涨。 通过以上剖析,咱们能够看到90年代以来中国的几次通胀产生的起因都能够在建设的回归模型中找到相应的数字根据和经济门路,因此认为该模型对于解释CPI变动的起因,特地是通货膨胀的起因有肯定作用。 最受欢迎的见解 1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)R语言多元Logistic逻辑回归 利用案例 2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)面板平滑转移回归(PSTR)剖析案例实现 3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR) 4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)R语言泊松Poisson回归模型剖析案例 5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)R语言混合效应逻辑回归Logistic模型剖析肺癌 6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae...)r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现 7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a...)R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 8.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89%...)python用线性回归预测股票价格 9.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94%...)R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

April 11, 2023 · 1 min · jiezi

关于数据挖掘:R语言MCMC的lme4二元对数Logistic逻辑回归混合效应模型分析吸烟喝酒和赌博影响数据附代码数据

原文下载链接:http://tecdat.cn/?p=29196最近咱们被客户要求撰写对于逻辑回归混合效应模型的钻研报告,包含一些图形和统计输入。 吸烟、喝酒和赌博被认为是由许多因素造成的。Logistic回归剖析是一个十分无效的模型,能够测验各种解释变量和二元反应变量之间的关系。同时,双变量模型剖析也被用于检验单变量模型之间的相关性。本我的项目的目标是利用统计办法来测验某个因素是否对吸烟、喝酒或赌博偏好有显著影响。而后用这个后果来预测这些习惯之间的组合 绪论本节介绍了 "解释吸烟喝酒和赌博的参加 "的钻研背景。实际上,因为吸烟、喝酒和赌博的双重性和复杂性,它们的争执从未进行。大量的人把吸烟、喝酒和赌博当作坏习惯,有许多起因使他们拥护这些习惯,许多钻研也反对他们的观点。 文献回顾波及吸烟、饮酒和赌博习惯的关联的文献越来越多。在晚期的钻研中,许多研究者认为,吸烟、喝酒和赌博有显著的联合。每天吸烟的人比非每天吸烟的人更有可能参加赌博流动。每日吸烟者比非每日吸烟者在赌博上破费更多的工夫和金钱(Nancy M. Petry和Cheryl Oncken,2002)。 方法论模型假如从数据集来看,吸烟、喝酒和赌博的反馈显然只有是或不是,这是二进制的。而且,所有的解释因素都能够被归类或被视为间断的。因而,应用Logistic回归作为根本模型是牢靠的。 基础知识。Logistic回归能够是二元的,也能够是多元的。在二进制中,后果只能是0或1,而在多进制中,后果能够是三个或更多,例如,A、B和C三个级别。 Logistic函数是 而后 如果有多个解释变量,上述表达式0+1x能够批改为0+1x1+2x2+...。+ mxm。在这种状况下,咱们假如:Y1=吸烟,Y2=喝酒,Y3=赌博。咱们有8个解释变量,每个解释变量能够分为几个类别。因而 和 其中i = 1, 2, 3 那么,如果吸烟,y1=1,否则y1=0。 y2 = 1,如果喝酒,y2 = 0,否则。 y3=1,如果赌博,y3=0,否则。  此外,随机效应也应该被增加到模型中。 带随机效应的Logistic回归 剖析数据以下显示了咱们如何进行这项钻研。首先,咱们参考文献和以前所做的钻研,以确定那些被认为对吸烟、喝酒和赌博有重大影响的潜在变量。 后果在这一部分中,咱们将对繁多分类的解释因素进行剖析。首先,将应用箱形图来显示连续变量与吸烟、饮酒和赌博等的关联。箱形图将显示连续变量与Yi的关系。同时,条形图将被用来显示分类变量的影响。 吸烟后果 ggplot(smoke_age,aes(as.factor(smoking),age))+geom_boxplot()+labs(title="Smoking-age",x="smoking",y="age") 从图1能够看出,吸烟者的年龄中位数比非吸烟者小。吸烟者的年龄段在18至87岁之间,而非吸烟者则散布在各个年龄段。该图表明,年轻人更有可能吸烟。年龄对吸烟有显著的影响,年龄的估计值为-0.1017,这意味着吸烟和年龄有负相关。 ggplot(smoke_gender, aes(gender,fill=as.factor(smoking)))+geom_bar(position = "fill")+labs(title ="Smoking-gender", x = "gender", y = "smoking") 参照图2,1代表吸烟者,0代表不吸烟者。图中显示,男性吸烟者比女性吸烟者多一点,这意味着性别对吸烟偏好有影响。R输入也给出了同样的论断,P值是显著的,男性的估计值为0.20793,这意味着男性更可能吸烟。 图3表明,教育程度对吸烟习惯有显著影响。吸烟的概率依照教育程度的顺序排列。领有较高教育程度的人吸烟的可能性较小。只管数据不详,但很显著,领有学位的人最不可能吸烟,而没有学历的人最可能吸烟。HNC组的吸烟者比EDU-18以下组少。图4右侧的估计值与图中的数据相符。随着教育程度的进步,吸烟者的概率显著降落。吸烟的概率与教育程度呈负相关。 点击题目查阅往期内容 R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例 左右滑动查看更多 01 02 03 04 带有随机效应的单变量模型查看随机效应的显著性 fit.no < −glm(gambler 1, f amily = binomial(logit0))And check significance using anova(f it.ID, f it.no)在'fit.no'中退出随机效应后,AIC从1269.5升高到895.3,P值显示了家庭ID的显著影响。因而,在单变量模型中退出随机效应是正当的。 应用'lme4'拟合单变量模型在这一节中,吸烟、喝酒和赌博的数据将在单变量模型中被拟合。以下是来自R的后果。 re.smoker=glmer(smoker~male+age+income+whiteO+mixed+asian+chinese+african+other+degresummary(re.smoker) 表2蕴含对吸烟偏好有显著影响的变量。能够得出结论:男性、年老、支出低、无学历、独身、分居或就业的人更有可能成为吸烟者。而女性、年龄较大、支出较高、有学位、学生或退休的人则不太可能成为烟民。饮酒模型也有和吸烟模型一样的问题,所以咱们也须要放弃一些列以确保模型可能收敛。 ...

April 10, 2023 · 1 min · jiezi

关于数据挖掘:Stata中的治疗效果RA回归调整-IPW逆概率加权-IPWRA-AIPW附代码数据

全文链接:http://tecdat.cn/?p=10148最近咱们被客户要求撰写对于Stata中的医治成果的钻研报告,包含一些图形和统计输入。 明天的主题是Stata中的医治成果 。 医治成果估算器依据察看数据估算医治对后果的因果关系。 咱们将探讨四种医治成果估计量: RA:回归调整IPW:逆概率加权IPWRA:具备回归调整的逆概率加权AIPW:加强的逆概率加权 与对观测数据进行的任何回归剖析一样,因果关系的解释必须基于正当的基础科学原理。 介绍咱们将探讨医治办法和后果。 一种医治可能是新药,其后果是血压或胆固醇程度升高。医治能够是外科手术,也能够是患者流动的终局。医治能够是职业培训打算以及后果待业或工资。医治甚至能够是旨在进步产品销量的广告。 考虑一下母亲吸烟是否会影响婴儿出世时的体重。只能应用观测数据来答复这样的问题。 察看数据的问题是受试者抉择是否承受医治。例如,母亲决定吸烟还是不吸烟。据说这些受试者已自我抉择进入医治组和未医治组。 在现实的世界中,咱们将设计一个试验来测试因果关系和医治终局之间的关系。咱们将受试者随机调配到医治组或未医治组。随机调配医治办法可确保医治办法与后果无关,从而大大简化了剖析。 因果推论要求对每个医治程度的后果的无条件预计。无论数据是察看性的还是实验性的,咱们仅察看以承受医治为条件的每个受试者的终局。对于试验数据,医治的随机调配保障了医治与后果无关。对于察看数据,咱们对医治调配过程进行建模。如果咱们的模型是正确的,则依据咱们模型中的协变量,医治调配过程被认为与随机条件一样好。 让咱们思考一个例子。图1是相似于Cattaneo(2010)应用的观测数据的散点图。医治变量是母亲在怀孕期间的吸烟情况,后果是婴儿的出世体重。 红点示意怀孕期间吸烟的母亲,而绿点示意未怀孕的母亲。母亲本人抉择是否吸烟,这使剖析变得复杂。 咱们不能通过比拟吸烟和不吸烟的母亲的均匀出世体重来预计吸烟对出世体重的影响。为什么不?再看一下咱们的图表。年龄较大的母亲往往体重较重,无论怀孕时是否吸烟。在这些数据中,年龄较大的母亲也更有可能吸烟。因而,母亲的年龄与医治情况和终局无关。那么咱们应该如何进行呢? 点击题目查阅往期内容 R语言如何在生存剖析与Cox回归中计算IDI,NRI指标 左右滑动查看更多 01 02 03 04 RA:回归调整估计量RA估计量对后果进行建模,以阐明非随机医治调配。 咱们可能会问:“如果吸烟的母亲抉择不吸烟,后果将如何扭转?”或“如果不吸烟的母亲抉择吸烟,后果将会如何扭转?”。如果咱们晓得这些反事实问题的答案,那么剖析将很容易:咱们只需从反事实后果中减去察看到的后果即可。 咱们能够构建对这些未察看到的潜在后果的度量,咱们的数据可能看起来像这样: 在图2中,应用实心点显示察看到的数据,而应用空心点显示未察看到的潜在后果。空心的红点代表吸烟者不吸烟的潜在结果。空心的绿色点代表不吸烟者吸烟的潜在结果。 咱们能够通过将独自的线性回归模型与察看到的数据(实点)拟合到两个医治组,从而预计未察看到的潜在后果。 在图3中,咱们为不吸烟者提供了一条回归线(绿线),为吸烟者提供了一条独自的回归线(红线)。 让咱们理解这两行的含意: 图4左侧标记为“已察看 ”的绿点是对不吸烟的母亲的察看。绿色回归线上标有E(y0)的点是思考到母亲的年龄并且不吸烟的婴儿的预期出世体重。红色回归线上标有E(y1)的点是同一名母亲吸烟后婴儿的预期出世体重。 这些冀望之间的差别预计了未承受医治者的协变量特异性医治成果。 当初,让咱们看看另一个反事实问题。 图4右侧的红色标记为“ 察看到的红色”是对怀孕期间吸烟的母亲的察看。绿色和红色回归线上的点再次示意在两种医治条件下母亲婴儿的预期出世体重(潜在的终局)。 这些冀望之间的差别预计了承受医治者的协变量特异性医治成果。 请留神,咱们依据每个变量的协变量值来预计均匀医治成果(ATE)。此外,无论理论承受哪种医治,咱们都对每位受试者预计这种成果。数据中所有受试者的这些效应的平均值预计了ATE。 咱们还能够应用图4来激发对每个受试者在每种医治程度下可取得的后果的预测,而与所承受的医治无关。数据中所有受试者的这些预测值的平均值预计每个医治程度的潜在后果均值(POM)。 预计的POM的差别与上述ATE的预计雷同。 被医治者(ATET)上的ATE与ATE类似,但仅应用在医治组中察看到的受试者。这种计算医治成果的办法称为回归调整(RA)。 . webuse cattaneo2.dta, clear为了估算两个医治组中的POM,咱们输出. teffects ra (bweight mage) (mbsmoke), pomeans咱们在第一组括号中指定后果模型,并带有后果变量及其后的协变量。在此示例中,后果变量为bweight,惟一的协变量为mage。 咱们在第二组括号中指定解决模型(仅是解决变量)。在此示例中,咱们仅指定解决变量mbsmoke。咱们将在下一节中探讨协变量。 键入命令的后果是 Iteration 0: EE criterion = 7.878e-24Iteration 1: EE criterion = 8.468e-26Treatment-effects estimation Number of obs = 4642Estimator : regression adjustmentOutcome model : linearTreatment model: none------------------------------------------------------------------------------ | Robust bweight | Coef. Std. Err. z P>|z| [95% Conf. Interval]-------------+----------------------------------------------------------------POmeans | mbsmoke | nonsmoker | 3409.435 9.294101 366.84 0.000 3391.219 3427.651 smoker | 3132.374 20.61936 151.91 0.000 3091.961 3172.787------------------------------------------------------------------------------输入报告说,如果所有母亲吸烟,均匀出世体重将为3132克,如果没有母亲吸烟,则均匀出世体重将为3409克。 ...

April 10, 2023 · 4 min · jiezi

关于数据挖掘:2022年中国服务机器人行业研究报告PDF分享附原数据表

报告链接:http://tecdat.cn/?p=31419随着大量企业的涌入,服务机器人产业化行将到来 通过多年的倒退,我国曾经实现了残缺的服务机器人产业生态系统。在常态化疫情防控、人口老龄化、技术提高和政策反对等多种因素的推动下,行业疾速度过市场教育阶段。据统计,近三年我国服务机器人相干企业数量增长了296 %,已冲破10万家。 本专题内的参考报告(PDF)目录36Kr:2022年中国服务机器人行业钻研报告 报告2022-12-06头豹:2022年医疗机器人行业概览-医疗机器人厂商泛滥-是否决出龙头存... 报告2022-12-22甲子光年:2022中国商用服务机器人行业简析 报告2022-12-12果集数据:2022年Q1-Q3扫地机器人热门品牌社媒电商剖析报告 报告2022-12-11国海证券:寰球机器人产业钻研之利用框架:孕育人类“奇点”时刻 报告2022-12-09甲子光年:2022中国商用服务机器人行业简析 报告2022-11-24亿欧智库:英特尔赋能产业智能化降级-机器人特刊2022 报告2022-11-15头豹研究院:2022年中国商用清洁机器人行业概览 ――从立体到平面,开... 报告2022-11-15Geek:仓库机器人的将来 报告2022-11-08蛋壳研究院:血管染指手术机器人钻研报告 报告2022-10-24IT桔子:2022年中国机器人投融资数据分析报告 报告2022-10-23DeepTech:2022寰球医疗微纳机器人技术现状及产业发展前景钻研... 报告2022-10-09亿欧智库:2022中国公共服务机器人市场钻研报告 报告2022-09-29头豹:2022年中国人形机器人行业概览-TESLABOT开启机器人新纪... 报告2022-09-20灼识征询:2022中国机器人行业蓝皮书 报告2022-09-142021世界机器人大会:2021-2022年机器人十大前沿热点畛域洞察 报告2022-09-11头豹:2022年中国仓储机器人行业概览 报告2022-09-02GfK:2022年中国扫地机器人市场走势 报告2022-09-01中国电子学会:中国机器人产业倒退报告(2022年) 报告2022-08-25灼鼎征询:中国物流移动机器人钻研报告 报告2022-08-22德勤:物流机器人产业渐入佳境 物流产业数字化提速 报告2022-08-17中信建投:机器人-特斯拉人形机器人产业链投资机会剖析 报告2022-08-11维科网:2022中国智能巡检机器人行业倒退钻研白皮书 报告2022-06-29阿里云:2022年中国机器人产业图谱及云上倒退钻研报告 报告2022-06-28亿欧智库:2022中国工业机器人市场钻研报告 报告2022-06-01灼鼎征询:中国语音机器人钻研报告 报告2022-05-26觅途征询&立方知造局 :2022年中国工业机器人市场白皮书 报告2022-05-24MAIA钻研:2022-2029年寰球合作机器人市场钻研报告(2022... 报告2022-05-24灼鼎征询:2021年外骨骼机器人市场剖析报告 报告2022-03-16动脉橙:2015-2021年医疗机器人价值报告 报告2022-03-11LeWIS:中国聊天机器人 -对话式商务的衰亡 报告2022-01-04工信部:“十四五”机器人产业倒退布局 报告2021-12-2936氪:2021年中国机器人行业钻研报告 报告2021-12-28浦发硅谷银行:机器人行业的将来 报告2021-12-21中国电子学会:2021中国机器人产业倒退报告 报告2021-11-09亿欧智库:2021年中国医疗机器人商业化洞察报告 报告2021-10-12动脉橙:寰球医疗机器人价值趋势报告2015-2021年H1 报告2021-10-03亿欧智库:2021中国商用服务机器人市场钻研 报告2021-09-14甲子光年:2021仓储物流机器人行业钻研报告 报告2021-08-24艾瑞征询:2021年中国对话机器人chatbot行业倒退钻研报告 报告2021-07-08*

April 10, 2023 · 1 min · jiezi

关于数据挖掘:R语言关联规则挖掘apriori算法挖掘评估汽车性能数据

全文链接:http://tecdat.cn/?p=32092原文出处:拓端数据部落公众号咱们个别把一件事件产生,对另一件事件也会产生影响的关系叫做关联。而关联剖析就是在大量数据中发现项集之间乏味的关联和相干分割(形如“因为某些事件的产生而引起另外一些事件的产生”)。 咱们的生存中有许多关联,一个典型例子是购物篮剖析。该过程通过发现顾客放入其购物篮中的不同商品之间的分割,剖析顾客的购买习惯。通过理解哪些商品频繁地被顾客同时购买,这种关联的发现能够帮忙零售商制订营销策略。其余的利用还包含价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。 本文使用Apriori算法帮忙客户对汽车性能相干数据进行数据挖掘,摸索变量间的关联性。为汽车厂商分类汽车性能提供参考。 汽车性能数据这个数据模型用于评估车的性能方面的好坏。该数据次要蕴含一些车的技术性和价格等变量。 数据变量介绍数据形容2种类型的列车。变量包含: 汽车可承受的价格买入价格保护价格技术特点舒适度车门数携带能力行李箱汽车的安全性所有的变量为分类变量,值为好,个别,较差。 最初的分类属性为车的总体分类:分为4个类型:好,较好,个别和较差。 数据分析框架本文应用关联规定开掘apriori算法来发现车的性能价格等属性的常见模式和规定: 1 数据预处理:包含读取数据,清理缺失数据,将数据转化成关联开掘数据类型。 2 查看频繁项集,发现适合的反对度和置信度阈值用于后续的关联规定开掘。 3 查看关联规定开掘后果,发现有价值的规定。 具体数据分析过程读取数据表原始数据 查看数据,V1-V7为相应的属性。上面的值别离代表车中设施的数量和性能的好坏。  首先以最小反对度为0.05来挖掘出叫频繁呈现的规定: 表 频繁规定 能够发现,V4,V7,V5这些属性在数据集中是经常出现的变量。同时能够看到他们的属性值。 于是咱们找到最频繁呈现的前十个汇合(频繁项集): 表 前十个频繁项集 能够看到V7也就是价格是不可承受的车达到了70%左右。其次是V7为unacc和V6为low的车辆汇合,也就是价格难以承受和平安性能低的车辆。 进行 Apriori 关联规定 模型的拟合通过下面的判断,咱们将反对度设置为0.1也就是10-%左右,用于筛选出较频繁的规定。 于是进行关联规定开掘: 表 规定概要 通过查看模型概要,咱们能够发现失去了20条规定,其中规定长度1的有1条,2的有8条,3的有11条。 查看规定:表 规定数据 以及规定的反对度置信度和进步度。 表 规定品质 能够看到每条规定的品质。比方前6条规定,咱们能够看到当车的购入价格很高时,大部分消费者认为不能承受这部车。或者当车的维护费用很高时,购买者也不能承受。 或者当车是两个门的时候,个别该车是跑车或者设计非凡,这是人们也会不能承受购买这部车,兴许因为它的价格因素。 图 关联规定模型后果   从圆圈的大小,咱们能够判断规定的反对度大小,从圆圈的色彩深浅咱们能够判断该规定的置信度大小。 图 关联规定后果 从下面后果,咱们能够看到20条规定的可视化后果,圆圈越大代表该规定的反对度越高,通过箭头咱们能够判断其规定的前后推断关系。 于是咱们找到置信度和反对度最高的规定,作为最有价值的规定。 表 关联规定有价值的后果 V6为车的安全性,V4为车的装载人数,如果安全性差并且只能装载2集体,消费者不会购买这辆车。因而车的安全性是一个是否购买车的重要的影响因素。   数据分析论断从剖析的后果能够看到,关联规定的模型成果在该数据集上成果较好,同时失去了一些有价值的规定,比方人们在购买车辆时次要会思考车的价格因素,以及他的维护费用,这些因素会影响人们是否购买车辆,其中,人们也十分关心车辆的平安性能和装载性能,当车性能不平安的话,人们很难承受,甚至该因素的影响会超过价格的因素。通过这些规定咱们能够对车辆提出一些营销策略。 最受欢迎的见解 1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%...)Python中的Apriori关联算法-市场购物篮剖析 2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%...)[](http://tecdat.cn/%e9%80%9a%e8%bf%87%e5%85%b3%e8%81%94%e8%a7%8...)R语言绘制生存曲线预计|生存剖析|如何R作生存曲线图 3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%...)[](http://tecdat.cn/%e5%9f%ba%e4%ba%8er%e7%9a%84fp%e6%a0%91fp-gr...)用关联规定数据挖掘摸索药物配伍中的法则 4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%...)通过Python中的Apriori算法进行关联规定开掘 ...

April 10, 2023 · 1 min · jiezi

关于数据挖掘:专题探索人工智能新前沿-中国经济再迎-6000亿美元机遇报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32101原文出处:拓端数据公众号到2030年,中国的人工智能(Al)将会扭转交通等重要行业的倒退格局,产生不可估量的经济效应,而要抓住这个机会,就必须发展多个层面的策略单干与能力建设。 在过来的十年里,中国为促成人工智能行业的倒退奠定了松软的根底,并为全世界的人工智能事业作出了微小的奉献。斯坦福人工智能指数综合了研发、经济等多个维度,综合评估了世界人工智能的倒退程度,中国在人工智能生机方面位居前三。例如,在科研程度上,中国在2021年发表的人工智能学术论文及被引数占世界的1/3。从经济投资的角度来看,中国在2021年的私人投资中所占的份额曾经达到了全世界的五分之一,并且曾经在人工智能畛域投入了170亿美元的资金。 寻找最具“价值的行业“咱们对中国的人工智能市场进行了考察,以找出在哪个畛域人工智能可能产生最大的价值。为了更好地了解人工智能在哪个行业产生了最大的价值,咱们从国家,区域,行业三个档次,对市场进行了详尽的剖析和预测。 咱们的钻研表明,在每一个产业中,发明价值的机会都是在两到三个方面。 在过来五年里,上述行业从私人股本和危险资本公司那里失去了大量的赞助,而且它们的业务理念常常被证实是胜利的。 本专题内的参考报告(PDF)目录CSET:中国先进的人工智能钻研 报告2023-04-09斯坦福大学:2023年人工智能(AI)指数报告 报告2023-04-07埃森哲:生成式人工智能:人人可享的新时代报告 报告2023-04-07Mattturck:2023年MAD(机器学习,人工智能和数据)产业图... 报告2023-04-03中国信通院:人工智能医疗器械产业倒退白皮书(2023年) 报告2023-04-02中国信通院:人工智能研发经营体系(MLOps)实际指南(2023年) 报告2023-03-24科技中的设计报告2023:设计与人工智能 报告2023-03-23德勤:2023人工智能根底数据服务白皮书 报告2023-03-22艾瑞征询:2022年中国人工智能产业钻研报告(Ⅴ) 报告2023-03-14华东政法大学:人工智能通用大模型(ChatGPT)的停顿、危险与应答 报告2023-03-09易观剖析:2023年中国人工智能产业趋势报告 报告2023-03-08上奇研究院:人工智能产业剖析报告(2023) 报告2023-03-06Omdia:中国人工智能框架市场调研报告 报告2023-03-04IQVIA:智“健”将来:人工智能与机器学习赋能中国医疗衰弱行业 报告2023-02-26世界经济论坛:开释制造业中人工智能的价值 报告2023-02-22中国新一代人工智能倒退策略研究院:中国新一代人工智能科技产业区域竞争力... 报告2023-02-19dealroom:2022年新前沿——生成式人工智能 报告2023-02-17麦肯锡:人工智能在2022-和的状态 半十年牧师的观点 报告2023-02-15Omdia:中国人工智能框架市场调研报告 报告2023-02-14McKinsey:2022年人工智能现状:五年回顾 报告2023-02-11麦肯锡:寰球人工智能最新调研:AI在中国企业的落地停顿如何?(英文版) 报告2023-02-10德勤:2022生物医疗人工智能考察白皮书 报告2023-02-06IT桔子:2022年中国人工智能投融资剖析报告 报告2023-02-04中信建投:从CHAT_GPT到生成式AI(Generative AI)... 报告2023-02-01德勤:企业人工智能利用现状剖析(第五版): 放慢人工智能转型-助推人工... 报告2023-01-25德勤:人工智能在金融服务业的牢靠利用:亚太地区监管概述 报告2023-01-16IDC&浪潮:2022-2023中国人工智能计算力倒退评估报告 报告2023-01-13中国人工智能协会:2022中国人工智能系列白皮书-智能产品与产业 报告2023-01-03维智科技:时空人工智能赋能数字孪生城市白皮书 报告2023-01-01中国人工智能协会:2022中国人工智能系列白皮书-人工智能与药物发现 报告2022-12-26智能财务研究院:人工智能技术财务利用蓝皮书 报告2022-12-10腾讯研究院:人工智能时代的算法治理报告2022-构建法律、伦理、技术协... 报告2022-12-04埃森哲:人工智能成熟之道:从实际到实效 报告2022-11-27stateofai:2022人工智能全景报告(英文版) 报告2022-11-07青源会:2022年人工智能重要方向停顿与将来瞻望报告 报告2022-11-04商汤:人工智能-助力产业数字化转型实际白皮书 报告2022-11-03StartofAI:2022年人工智能AI报告 报告2022-10-20IMT-2030(6G)推动组:无线人工智能(AI)技术钻研报告 报告2022-10-19蛋壳研究院:2022医疗人工智能行业钻研报告 报告2022-10-18北京智源大会:2022北京智源大会观点报告-人工智能畛域最新钻研趋势 报告2022-10-17火石发明:2022年中国人工智能产业报告 报告2022-10-07远瞩征询:2022年寰球人工智能机器学习细分市场剖析 报告2022-10-06IBM:人工智能和自动化助力网络安全 报告2022-09-27机器之心&网易智企:2022人工智能技术利用实际白皮书:数字经济时代,... 报告2022-09-23阿里巴巴&中国信通院:人工智能治理与可继续倒退实际白皮书 报告2022-09-19远瞩征询:2022年中国人工智能行业剖析 报告2022-09-17中国信通院:可信人工智能产业生态倒退报告(2022年) 报告2022-09-13亿欧智库:2022年中国人工智能医学影像产业钻研报告 报告2022-09-13中国信通院&京东:人工智能生成内容(AIGC)白皮书(2022年) 报告2022-09-07上海数字大脑研究院:2022上半年度人工智能行业报告 报告2022-09-07白玉兰开源:中国人工智能软件基础设施高质量倒退报告 报告2022-09-07中国信通院:2022年人工智能生成内容(AIGC)白皮书 报告2022-09-03UNESCO:中小学阶段的人工智能课程报告 报告2022-08-31脉脉:人工智能顶尖人才数据图鉴2022 报告2022-08-29头豹:2022年中国人工智能在金融行业的利用洞察-智能风控(摘要版) 报告2022-08-25深圳市人工智能行业协会:2022年人工智能倒退白皮书(图片版) 报告2022-08-23中国人工智能学会:人工智能知识点全景图:迈向“智能+”时代蓝皮书 报告2022-08-23CSET:AI钻研统计:探索英、中文献资料中的人工智能研究成果 报告2022-08-15亿欧智库:中国人工智能芯片行业钻研报告 报告2022-08-13麦肯锡:瞻望人工智能银行:当银行遇到AI 报告2022-08-11易观剖析:中国人工智能产业生态图谱2022 报告2022-08-01麦肯锡:摸索人工智能新前沿:中国经济再迎 6000亿美元时机 报告2022-08-01阿里云:人工智能技术在教育场景中的利用 报告2022-07-20益普索:人工智能生成消费者洞察报告(EN) 报告2022-07-18头豹:人工智能系列2022年中国声纹识别零碎产业链剖析(摘要版) 报告2022-07-15头豹:2022年人工智能系列短报告-中国AI开发平台利用探析(摘要版) 报告2022-07-07北京师范大学:寰球中小学人工智能教育撑持环境白皮书 报告2022-07-05超益集伦:人工智能一体机减速深度学习训练 报告2022-06-28尚普研究院:2022年寰球人工智能产业钻研报告 报告2022-06-16清华大学:人工智能深度学习课程高校调研报告 报告2022-06-09IIC:工业物联网人工智能框架白皮书(EN) 报告2022-05-22头豹:2022年人工智能系列短报告:中国对话式AI市场利用探析 报告2022-05-20群邑:下一个十年:人工智能(EN) 报告2022-05-20世界经济论坛:人工智能儿童篇(EN) 报告2022-04-26中国人工智能产业联盟:2021人工智能比赛白皮书:1000场比赛的深度... 报告2022-04-15中国信通院:人工智能白皮书(2022年) 报告2022-04-13IT桔子:2021-2022年中国人工智能创投数据报告 报告2022-04-06艾瑞征询:2022年中国面向人工智能的数据治理行业钻研报告 报告2022-03-30华东师范大学:2022年人工智能教育蓝皮书 报告2022-03-30北京金融科技产业联盟:人工智能技术金融利用状况调研报告(2021年) 报告2022-03-30北京金融科技产业联盟:人工智能金融利用倒退报告(2020-2021) 报告2022-03-30世界经济论坛:赋予人工智能领导力(EN) 报告2022-03-28爱剖析:2022爱剖析·人工智能厂商全景报告 报告2022-03-21斯坦福大学:2022年人工智能指数报告(EN) 报告2022-03-17赛迪:中美人工智能钻研比对 报告2022-03-10爱剖析:金融人工智能钻研报告(2022年) 报告2022-03-01爱剖析:2022爱剖析・人工智能利用实际报告 报告2022-03-01中国信通院:人工智能基础设施倒退态势报告(2021年) 报告2022-02-08百度&浙江大学:中国人工智能人才培养白皮书 报告2022-02-08艾瑞征询:2021年中国人工智能产业钻研报告(Ⅳ) 报告2022-01-25中国信通院:金融人工智能钻研报告(2022年) 报告2022-01-18工信平安&百度:人工智能助力城市“双碳“指标达成白皮书 报告2022-01-06

April 10, 2023 · 1 min · jiezi

关于数据挖掘:经济学动态模型平均DMA动态模型选择DMSARIMATVP预测原油时间序列价格附代码数据

全文链接:http://tecdat.cn/?p=22458最近咱们被客户要求撰写对于动静模型均匀的钻研报告,包含一些图形和统计输入。 本文提供了一个经济案例。着重于原油市场的例子。简要地提供了在经济学中应用模型均匀和贝叶斯办法的论据,应用了动静模型平均法(DMA),并与ARIMA、TVP等办法进行比拟 简介心愿对经济和金融畛域的从业人员和钻研人员有用。 动机事实上,DMA将计量经济学建模的几个特点联合在一起。首先,最终预测是通过模型平均化从几个回归模型中产生的。其次,该办法是贝叶斯办法,也就是说,概率是以置信水平的形式解释的。例如,对工夫t的DMA预测只基于截至工夫t-1的数据。此外,新数据的取得间接导致参数的更新。因而,在DMA中,回归系数和赋予模型的权重都随工夫变动。 贝叶斯办法不是古代计量经济学的支流。然而,这些办法最近正取得越来越多的关注。这其中有各种起因。首先,咱们能够将其与钻研中日益增多的数据量分割起来。因为技术提高,人们通常面临着许多潜在的解释变量的状况。只管大多数变量可能并不重要,但研究者通常不晓得哪些变量应该被剔除。 当然,到某种程度上依然能够应用惯例办法。但因为不足足够的信息,通常无奈对参数进行准确预计。最简略的例子是当解释变量的数量大于工夫序列中的察看值的数量时。例如,即便在线性回归的状况下,规范的一般最小二乘法预计也会呈现一个奇怪矩阵,导致不可能取其倒数。在贝叶斯框架下,依然能够得出一个有意义的公式。贝叶斯办法仿佛也能更好地解决适度参数化和适度拟合问题。 在最近的预测趋势中能够发现各种办法。以原油价格为例,预测办法通常能够分为工夫序列模型、构造模型和其余一些办法,如机器学习、神经网络等。一般来说,工夫序列模型的重点是对稳定的建模,而不是对现货价格的建模。构造模型顾名思义包含因果关系,但它们通常在某些期间有很好的预测能力,而在其余期间则很差。另外,基于小波合成、神经网络等的其余办法通常疏忽了其余因素的影响,只关注繁多工夫序列。这些使得DMA成为从业者的一个乏味的办法。 DMA的下一个方面是,它容许回归系数是随工夫变动的。事实上,在经济呈现迟缓和疾速(结构性中断)变动的状况下,计量经济学模型的这种属性是十分可取的。当然,这样的办法也存在于传统的方法论中,例如,递归或滚动窗口回归。 实践框架咱们将简短地形容fDMA的实践框架。特地是,动静模型平均化(DMA)、动静模型抉择(DMS)、中位概率模型。 动静模型均匀(DMA)DMA在[1]的原始论文中失去了十分具体的介绍。然而,上面是一个简短的阐述,对于了解fDMA中每个函数的作用是必要的。 假如yt是预测的工夫序列(因变量),让x(k)t是第k个回归模型中独立变量的列向量。例如,有10个潜在的原油价格驱动因素。如果它们中的每一个都由一个适合的工夫序列来示意,那么就能够构建2^10个可能的线性回归模型。每个变量都能够包含或不包含在一个模型中。因而,每个变量有两种抉择,形成了2^10种可能性。这包含一个只有常数的模型。因而,一般来说,有潜在的有用的m个独立变量,最多能够构建K=2^m个模型。换句话说,状态空间模型是由以下几个局部组成的 其中k = 1, ... . ,K,t是回归系数的列向量。假如误差遵循正态分布,即e(k)t∼N(0,V(k)t)和(k)t∼N(0,W(k)t)。 在此请留神,有m个潜在的解释变量,2m是构建模型的下限。然而,本文形容的所有办法(如果没有特地阐明的话)都实用于这些2m模型的任何子集,即K≤2m。 动静模型抉择(DMS)动静模型抉择(DMS)是基于雷同的理念,与DMA的理念雷同。惟一的区别是,在DMA中进行的是模型平均化,而在DMS中是模型抉择。换句话说,对于每个期间t,抉择具备最高后验概率的模型。这意味着,只需将公式批改为 其中HT示意k模型。 一个例子:原油市场咱们举一个原油市场的例子。据此能够说,在哪些工夫序列能够作为预测现货原油价格的有用解释变量方面,存在着不确定性。 xts对象crudeoil蕴含来自原油市场的选定数据,即。 -WTI代表WTI(西德克萨斯中质油)现货价格,以每桶计。 MSCI代表MSCI世界指数。TB3MS代表3个月国库券二级市场利率(%)。CSP代表粗钢产量,单位是千吨(能够作为掂量寰球经济流动的一种形式)。TWEXM代表贸易加权的指数(1973年3月=100)。PROD代表原油产品供应量,单位为千桶。CONS代表经合组织的原油产品总消费量。VXO代表规范普尔100指数的隐含稳定率(即股票市场稳定率)。这些数据的频率为每月一次。它们涵盖了1990年1月至2016年12月的期间。 xts对象的趋势蕴含来自谷歌的对于选定搜索词的互联网数量的数据。 stock_markets代表Google Trends的 "股票市场"。interest_rate代表Google Trends的 "利率"。economic_activity示意 "经济流动 "的Google趋势。exchange_rate代表 "汇率 "的谷歌趋势。oil_production示意 "石油生产 "的Google趋势。oil_consumption代表 "石油生产 "的谷歌趋势。market_stress代表Google Trends的 "市场压力"。这些数据也是以月度为频率的。它们涵盖了2004年1月至2016年12月这段时间,因为谷歌趋势没有涵盖更早的期间。从经济角度来看,思考这些工夫序列的对数差分是正当的 R> drivers <- (lag(crudeoil[ , -1], k = 1))[-1, ]R> l.wti <- (diff(log(wti)))[-1, ]R> l.drivers <- (diff(log(driv )))[-1, ] R> archtest(ld.wti) R> descstat((ld)) 除了PROD的一些问题,所有的工夫序列都能够在5%的显著性程度上被认为是安稳的。对于WTI差分也存在ARCH效应。因而,在DMA中思考指数加权挪动均匀(EWMA)预计方差仿佛是正当的。此外,还能够测试一些忘记因子。依据倡议,对月度工夫序列采取=0.97。所有的方差都小于1。因而,仿佛没有必要对工夫序列进行从新标准化。在DMA的预计中,采取initvar=1仿佛也足够了。  DMA(y = lwti, x = ldrivers,+  alpha = ra, lambda = rl,    meth = "ewma" ) 依据最小化RMSE,最佳DMA模型是=0.99和=0.97的模型。因而,对这个模型稍作钻研。  plot(x$y, type="l", ylim=c(min(x$y,x$y.hat),max(x$y,x$y.hat)),   xlab="", ylab="", main="理论值和预测值", axes = F)比拟图1和图2能够看出,在市场的动荡期间,DMA迅速适应,对有更多变量的模型赋予更高的权重。事实上,这与图3统一。在这一时期,所有解释变量的绝对变量重要性都在回升。咱们还能够看到,自2007年以来,发达的股票市场的作用有所增加。然而,在2013年之后,这种作用变得越来越小;而其余变量的作用开始减少。这一点非常明显,特地是对于汇率。 图3应与图4能够看出。尽管,绝对变量的重要性可能很高,但这个变量的回归系数的预期值可能在0左右。事实上,高的绝对变量重要性同时察看到MSCI、CSP和TWEXM的预期回归系数不为零。所以,这个剖析当初证实了这三个因素在2007年和2013年之间对原油价格起到了重要的预测作用。自2013年以来,股票市场的作用缩小了,被汇率所取代。在2013年前后,最重要的作用是由发达股票市场施展的。  图1  for (i in 1:7)    {      inc[i+1] <- floor(i * nrow( post.incl)/7)    }    plot( exp.var, type="l" ylim=c(0,ncol(x$models))   main="变量数量期望值 ", axes = F) 图2 for (i in 1:(ncol( post.incl)-1))plot( post.incl[,i+1], type="l", col=col[i+1], ylim=c(0,1), xlab="", ylab="", main="后蕴含概率", axes = F) 图3 点击题目查阅往期内容 [](http://mp.weixin.qq.com/s?__biz=MzA4MDUzOTIxNA==&mid=26538304...)R语言:EM算法和高斯混合模型的实现 左右滑动查看更多 01 02 03 ...

April 7, 2023 · 1 min · jiezi

关于数据挖掘:R语言预测人口死亡率用李卡特LeeCarter模型非线性模型进行平滑估计附代码数据

全文链接:http://tecdat.cn/?p=26147最近咱们被客户要求撰写对于预测人口死亡率的钻研报告,包含一些图形和统计输入。 明天早上,我和共事一起剖析死亡率。咱们在钻研人口数据集,能够察看到很多波动性 咱们失去这样的后果:     因为咱们短少一些数据,因而咱们想应用一些狭义非线性模型。因而,让咱们看看如何取得死亡率曲面图的平滑预计。咱们编写一些代码。 D=DEATH$MaleE=EXPO$MaleA=as.numeric(as.character(DEATH$Age))Y=DEATH$YearI=(A<100)base=data.frame(D=D,E=E,Y=Y,A=A)subbase=base[I,]subbase=subbase[!is.na(subbase$A),]第一个想法能够是应用Poisson模型,其中死亡率是年龄和年份的安稳函数,相似于 能够应用 persp(vZ,theta=-30,col="green",shade=TRUE,xlab="Ages (0-100)",ylab="Years (1900-2005)",zlab="Mortality rate (log)")死亡率曲面图   点击题目查阅往期内容 R语言Lee-Carter模型对年死亡率建模预测预期寿命 左右滑动查看更多 01 02 03 04 还能够提取年份的平均值,这是 Lee-Carter模型中系数的解释   predAx=function(a) mean(predict(regbsp,newdata=data.frame(A=a,Y=seq(min(subbase$Y),max(subbase$Y)),E=1)))plot(seq(0,99),Vectorize(predAx)(seq(0,99)),col="red",lwd=3,type="l")咱们有以下平滑的死亡率   回顾下李·卡特模型是 能够应用以下办法取得参数估计值 persp(vZ,theta=-30,col="green",shade=TRUE,xlab="Ages (0-100)",ylab="Years (1900-2005)",zlab="Mortality rate (log)")粗略的死亡率曲面图是   有以下   系数。 plot(seq(1,99),coefficients(regnp)[2:100],col="red",lwd=3,type="l")   这里咱们有很多系数,然而,在较小的数据集上,咱们具备更多的可变性。咱们能够平滑李·卡特模型:   代码片段 persp(vZ,theta=-30,col="green",shade=TRUE,xlab="Ages (0-100)", ylab="Years (1900-2005)",zlab="Mortality rate (log)")当初的死亡人数是   得出多年来随年龄变动的均匀死亡率, BpA=bs(seq(0,99),knots=knotsA,Boundary.knots=range(subbase$A),degre=3)Ax=BpA%*%coefficients(regsp)[2:8]plot(seq(0,99),Ax,col="red",lwd=3,type="l")   而后,咱们能够应用样条函数的平滑参数,并查看对死亡率曲面的影响 persp(vZ,theta=-30,col="green",shade=TRUE,xlab="Ages (0-100)",ylab="Years (1900-2005)",zlab="Mortality rate (log)") 点击文末 “浏览原文” ...

April 7, 2023 · 1 min · jiezi

关于数据挖掘:R语言EGEngleGranger两步法协整检验RESET格兰杰因果检验VAR模型分析CPI和PPI附代码数据

全文链接:http://tecdat.cn/?p=31108最近咱们被客户要求撰写对于VAR模型的钻研报告,包含一些图形和统计输入。 作为掂量通货膨胀的根本指标,消费者价格指数CPI和生产者价格指数PPI的作用关系与传导机制始终是宏观经济钻研的外围问题。 对此问题的钻研显然具备重要的学术价值与现实意义:当PPI后行地疏导着CPI的变动,则意味着上游价格对上游价格具备正向传导效应,物价可能因供应因素的冲击而回升,并由此引发“老本推动型通胀”的危险,此时,通胀治理应以“供应调控”为主;反之,当CPI疏导着PPI的变动,则意味着存在上游价格对上游价格的反向倒逼机制,物价可能因需要因素的冲击而回升,并由此引发“需要拉动型通胀”的危险,此时的通胀治理则应以“需要调控”为主。 咱们围绕因果关系测验技术进行一些征询,帮忙客户解决独特的业务问题。 数据:CPI与PPI 月度同比数据 读取数据head(data)##   当月同比  CPI  PPI ## 1    36556 -0.2 0.03 ## 2    36585  0.7 1.20 ## 3    36616 -0.2 1.87 ## 4    36646 -0.3 2.59 ## 5    36677  0.1 0.67 ## 6    36707  0.5 2.95CPI数据 ## ## Residuals: ##     Min      1Q  Median      3Q     Max ## -4.3232 -1.2663 -0.5472  0.9925  6.3941 ## ## Coefficients: ##             Estimate Std. Error t value Pr(>|t|)    ## (Intercept)  1.05348    0.30673   3.435 0.000731 *** ## t            0.01278    0.00280   4.564 9.05e-06 *** ## --- ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 2.1 on 187 degrees of freedom ## Multiple R-squared:  0.1002, Adjusted R-squared:  0.09543 ## F-statistic: 20.83 on 1 and 187 DF,  p-value: 9.055e-061、  单位根测验查看数据后发现须要进行节令调整 ...

April 7, 2023 · 3 min · jiezi

关于数据挖掘:极值分析分块极大值BLOCKMAXIMA阈值超额法广义帕累托分布GPD拟合降雨数据时间序列附代码数据

全文链接:http://tecdat.cn/?p=25348最近咱们被客户要求撰写对于极值剖析的钻研报告,包含一些图形和统计输入。 你们可能晓得,理论极值剖析有两种罕用办法:分块极大值Block-maxima、阈值超额法threshold excess 明天,咱们将别离介绍这两种办法。 分块极大值Block-maxima分块样本极大值的极值实践(_Block_-_maxima_)。这种对(工夫)观测序列的极值建模的办法是基于在肯定的恒定长度序列内利用这些观测值的最大值或最小值。对于足够多  的_n个已建设块,这__n_个等长块  的所得峰值    可用于将适合的散布拟合到这些数据。尽管块大小基本上能够自由选择,但必须在偏差(小块)和方差(大块)之间进行衡量。通常,序列的长度通常抉择对应于某个相熟的时间段,在大多数状况下为一年。年度最大值(或最小值)的后果向量称为“年度最大值(最小值)系列”或简称为 AMS。 依据 Fisher-Tippett-Gnedenko 定理,块最大值的散布能够通过狭义极值散布来近似。 以下代码显示了一个简短的理论示例,该示例应用 R 将狭义极值散布拟合到降水数据的工夫序列。样本数据集蕴含 1971 年至 2014 年 降水数据 ( 查看文末理解数据获取形式 ) 。 # 加载所需的包# 获取数据prexts <- rehyd# 导出 AMS 以取得最大降水量ams <- apprly# GEV 散布的最大似然拟合evd# 诊断图plotrl_mle <- reevel# 基于 L- 拟合 GEV 散布矩预计# 诊断图plot(fiom) # 重现程度:rm <- retvel# 重现程度图plotloc <- as.numeric(retvel)# 带 LMOM 图的重现程度loc <- as.numeric(return.level) 在这种状况下,两个后果十分类似。在大多数状况下,L 矩预计比最大似然预计更持重。除了这些经典预计办法之外,还提供狭义最大似然预计(GMLE,  Martins 和 Stedinger,2000 年)和贝叶斯预计办法(Gilleland 和 Katz,2016 年)。 点击题目查阅往期内容 R语言POT超阈值模型和极值实践EVT剖析 左右滑动查看更多 01 02 03 04 阈值超额法threshold excess 咱们当初来看看阈值超额法。 依据 Coles (2001) 的说法,如果能够应用没有间隙的残缺(工夫)序列,则阈值办法比块最大值办法更无效,因为所有超过某个阈值的值都能够作为模型拟合的根底。在某些状况下,将散布拟合到块最大值数据是一种节约的办法,因为每个块只有一个值用于建模,而阈值过剩办法可能会提供更多对于极其值的信息。 然而,相似于块最大值办法中块大小的抉择,局部持续时间模型的阈值抉择也受到偏差(低阈值)和方差(高阈值)之间的衡量。 Coles (2001) 形容了两种不同的阈值抉择办法。首先,有一种基于均匀_残差_寿命图的探索性办法。该技术在理论模型拟合之前利用。其次,另一种办法是评估参数估计的稳定性。因而,模型拟合的这种敏感性剖析是在一系列不同的阈值范畴内进行的。 然而,抉择适合的阈值可能是应用局部持续时间序列执行极值剖析的最要害局部。Scarrott 和 MacDonald 在其 2012 年的文章。文献综述:极值阈值预计和不确定性量化(REVSTAT 10(1): 33-59)中对阈值预计办法进行了很好的概述 。 找到适合的阈值后,超过该阈值的极值子集将用于拟合狭义帕累托散布。 依据 Pickands-Balkema-de Haan 定理,超过阈值的值的散布能够近似为狭义帕累托散布。 ...

April 7, 2023 · 1 min · jiezi

关于数据挖掘:R语言GARCH族模型正态分布tGED分布EGARCHTGARCH的VaR分析股票指数附代码数据

全文链接:http://tecdat.cn/?p=31023最近咱们被客户要求撰写对于GARCH的钻研报告,包含一些图形和统计输入。 如何构建适合的模型以失当的办法对危险进行测量是以后金融钻研畛域的一个热门话题 VaR办法作为以后业内比拟风行的测量金融风险的办法,具备简洁,明了的特点,而且绝对于方差来讲,更多的将投资人的损失作为危险具备更好的合理性。 咱们和一位客户探讨如何在R软件中解决GARCH族模型。 数据的选取本文选取Wind资讯公布的股票型券商理财指数作为数据处理对象。选取的工夫期间为2011年1月4日至2015年11月24日,共1187个交易日。该指数基日为2007年12月31日,基点为1000点。 收益率的计算采纳对数收益率对指数开盘点位进行计算,表达式为 记为序列 。由图察看可知,该收益率序列存在稳定汇集景象。 clpr<-stock$Clsprcyield<-diff(log(clpr))ts.plot(yield) 根本特征分析对序列 进行根本统计分析,后果如表所示:   summary(yield)sd(yield)var(yield)表 指数日收益率根本统计表** Min.1st Qu.MedianMean3rd Qu.Max.Sdskewness'kurtosis-0.03517-0.003890.00037490.00019630.004730.033480.008163353-0.40184622.169439  由表可知,收益率序列 的最小值为-0.03517,最大值为0.03348,平均值为0.0001963,标准差为0.008163353。偏度为-0.4018462,体现为右偏。峰度为2.169439,该散布比正态分布更平缓。 1、正态性测验对指数的日收益率序列进行正态性测验。测验办法采纳Jarque-Bera统计量。测验结果显示Jarque-Bera统计量为261.3839,P值靠近0,回绝对数收益率遵从正态分布的原假如,表明序列为非正态分布。   表 Jarque-Bera测验后果 测验办法统计量P值Jarque-Bera261.3839< 2.2e-16  为了进一步探索序列 的散布状态,对样本数据作直方图、QQ图。由图可见,该收益率序列的尾部更长更厚,且其散布存在显著的不对称的景象,为非正态分布。 2、自相关性测验对指数的日收益率序列的自相关性进行测验。测验办法采纳Ljung-Box测验。表中LB2(12)指滞后期为12的收益率平方的Ljung-Box统计量,该统计量在无序列相干的零假如下,遵从自由度为12的 散布。具体测验后果如下:收益率平方的Ljung-Box统计量为34.1853,P值为0.0006306,回绝无自相干的零假如,表明收益率的平方存在自相干景象。   表 Ljung-Box测验后果 测验办法统计量P值LB2(12)34.18530.0006306  为了进一步探索序列的自相关性,对序列作ACF、PACF图。由图可见,该收益率序列存在自相干景象。 3、异方差性测验对指数的日收益率序列进行异方差性测验。测验办法采纳ARCH-LM测验。表中LM(12)指ARCH效应的拉格朗日乘数测验,在没有ARCH效应的零假如下,统计量遵从自由度为12的 散布。具体测验后果如下:LM统计量为170.9818,P值靠近0,故回绝无ARCH效应的零假如,表明收益率序列存在ARCH效应。   表 ARCH-LM测验后果 测验办法统计量P值LM(12)170.9818< 2.2e-16  4、平稳性测验在工夫序列模型中,序列的平稳性会间接影响到模型的拟合成果,非安稳的序列容易产生舛误回归(Spurious Regression)。本节将采纳 ADF 测验来对收益率序列进行单位根测验。测验结果显示Dickey –Fuller值为-9.7732(滞后10阶),P值小于0.01,故回绝存在单位根的原假如,认为该收益率序列是安稳的。 表 ADF测验后果 测验办法统计量P值ADF-9.7732<0.01综上,收益率序列存在显著的尖峰厚尾效应,JB测验同样否定了收益率遵从正态分布的假如。LM测验表明收益率存在ARCH效应,而LB测验表明收益率的平方存在自相干景象,因而能够采纳条件异方差模型来剖析收益率序列的稳定个性 GARCH族模型的建设本文将别离采纳基于正态分布、t散布、狭义误差散布(GED)、偏态t散布(ST)、偏态狭义误差散布(SGED) 的GARCH(1,1)、EGARCH、TGARCH来建模。 表中,c为收益率的均值, 为方差方程的常数项, 为方差方程的ARCH项系数, 为GARCH项系数, 反映杠杆效应的大小。参数 为概率分布中的参数,其中 管制尖峰高度和尾部厚度, 管制偏斜度。 GARCH(1,1)模型GARCH(1,1)模型表示如下: spec<-ugarchspec(variance.model=list(garchOrder=c(1,1)), mean.model=list(armaOrder=c(0,0)))fit <- ugarchfit(spec = spec, data = yield)ariance.model=list(garchOrder=c(1,1)), mean.model=list(armaOrder=c(0,0)),distribution.model = "std") ...

April 7, 2023 · 2 min · jiezi

关于数据挖掘:PYTHON-用几何布朗运动模型和蒙特卡罗MONTE-CARLO随机过程模拟股票价格可视化分析附代码数据

原文链接:http://tecdat.cn/?p=27099最近咱们被客户要求撰写对于蒙特卡罗的钻研报告,包含一些图形和统计输入。 金融资产/证券已应用多种技术进行建模。该项目标次要指标是应用几何布朗运动模型和蒙特卡罗模仿来模仿股票价格。该模型基于受乘性噪声影响的随机(与确定性相同)变量 该我的项目分两局部实现: 第一局部波及为几何布朗运动编写代码,并检查和验证它是否工作。这是应用 Python 中的几个函数实现的,并应用迭代设置将后续股票价格建模为马尔可夫链,给定初始起始价格 S0。验证过程包含运行多个模仿或随机游走样本,而后查看后果散布,以查看股票价格、收益和波动性是否满足某些属性和假如。第二阶段波及摸索,将模型理论利用于理论股票价格,并应用耐克股票的实在股票数据进行回测。模仿是通过获取收益率 和稳定率 的样本值并察看股票价格演变的模仿数据和实在数据之间的相干水平来实现的。模仿须要大概 10-15 分钟能力齐全运行。请留神,对模仿后果的所有解释都是通过解释价格水平和收益率的后果散布的均值和方差等参数来实现的。 假如此我的项目中应用了以下变量和符号列表: S0 - 初始股票价格St - 工夫的股票价格,t - 在特定时间段内均匀的股票收益(漂移)率 - 在特定时间段内均匀的股票稳定率(标准差)dt - 模仿的工夫步长,对应于一天内股票价格采样的频率N - 模仿的总天数。r - 无风险利率,任何人都能够借/贷还对股票市场/价格做出了以下假如。尽管这些假如的确有助于大大简化模型,但它们十分事实,有助于在现实状况下制订模型。 股票价格遵循马尔科夫过程,即是无记忆的,随后的股票价格仅取决于以后价值,而不取决于任何先前的价值。与 N 相比,思考的工夫步长 dt 较短,即 Ndt>>1市场残缺高效,不存在套利机会。没有股息、交易成本或税收思考。** 拓端 ,赞9 ** 拓端 ,赞16 维纳过程和几何布朗运动维纳过程(也称为布朗运动)是一个具备连续变量和间断工夫的马尔可夫过程。对于随机变量 z,它有两个重要的性质: 所有的 z 都是统计独立的。dz = dt其中 来自正态分布 通过将漂移项 a(x,t)dt 增加到随机过程 dz 上,能够将维纳过程进一步推广到 Ito 过程。  对于股票价格,上述方程是 Ito 过程,也称为几何布朗运动,形容了随工夫的随机变动。请留神, 和 别离是刹时漂移和标准偏差率。S 遵循一个受乘性噪声影响的随机过程。这里还须要留神的是,几何布朗运动模型防止了负股票价格的问题。 为股票价格的解决方案建模上述随机微分方程 (SDE) 具备以下模式的解析解: 请留神,在上述等式中,常数 和 别离对应于股票价格的百分比漂移(收益)和百分比稳定(标准差)率。Wt 指的是由 dz=dt 给出的维纳过程,如上所述。该解方程用于以下列形式迭代计算每个工夫步的 St: ...

April 7, 2023 · 2 min · jiezi

关于数据挖掘:R语言基于ARMAGARCH过程的VaR拟合和预测附代码数据

原文链接:http://tecdat.cn/?p=2657最近咱们被客户要求撰写对于ARMA-GARCH的钻研报告,包含一些图形和统计输入。 本文展现了如何基于根底ARMA-GARCH过程(当然这也波及狭义上的QRM)来拟合和预测危险价值(Value-at-Risk,VaR) library(qrmtools)# 绘制qq图library(rugarch)模仿数据咱们思考具备t散布的ARMA(1,1)-GARCH(1,1)过程 将ARMA-GARCH模型拟合到(模仿的)数据拟合一个ARMA-GARCH过程。 点击题目查阅往期内容 ARMA-GARCH-COPULA模型和金融工夫序列案例 左右滑动查看更多 01 02 03 04 计算VaR工夫序列计算危险价值估计值。请留神,咱们也能够在这里应用基于GPD的预计模型。 通过随机性查看进行回测 咱们来回测一下VaR估计值。 ## 回测 VaR_0.99btest <- VaRTest(alpha,actual =X,VaR =VaR,conf.level =0.95)btest$expected.exceed# 0.99 * n## [1] 990btest$actual.exceed## [1] 988btest$uc.Decision# unconditional test decision (note: cc.Decision is NA here)## [1] "Fail to Reject H0"  基于拟合模型预测VaR当初预测危险价值。 模仿(X)的将来序列并计算相应的VaR 模仿门路,估算每个模仿门路的VaR(留神,quantile()这里不能应用,所以咱们必须手动构建VaR)。   点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《R语言基于ARMA-GARCH过程的VaR拟合和预测》。 点击题目查阅往期内容 工夫序列剖析:ARIMA GARCH模型剖析股票价格数据 GJR-GARCH和GARCH稳定率预测普尔指数工夫序列和Mincer Zarnowitz回归、DM测验、JB测验 【视频】工夫序列剖析:ARIMA-ARCH / GARCH模型剖析股票价格 工夫序列GARCH模型剖析股市稳定率 PYTHON用GARCH、离散随机稳定率模型DSV模仿预计股票收益工夫序列与蒙特卡洛可视化 极值实践 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测危险测度剖析 Garch稳定率预测的区制转移交易策略 金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言危险价值:ARIMA,GARCH,Delta-normal法滚动预计VaR(Value at Risk)和回测剖析股票数据 R语言GARCH建模罕用软件包比拟、拟合规范普尔SP 500指数稳定率工夫序列和预测可视化 Python金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 MATLAB用GARCH模型对股票市场收益率工夫序列稳定的拟合与预测R语言GARCH-DCC模型和DCC(MVT)建模预计 Python 用ARIMA、GARCH模型预测剖析股票市场收益率工夫序列 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言ARIMA-GARCH稳定率模型预测股票市场苹果公司日收益率工夫序列 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 R语言工夫序列GARCH模型剖析股市稳定率 R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 应用R语言对S&P500股票指数进行ARIMA + GARCH交易策略 R语言用多元ARMA,GARCH ,EWMA, ETS,随机稳定率SV模型对金融工夫序列数据建模 R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性剖析 R语言多元Copula GARCH 模型工夫序列预测 R语言应用多元AR-GARCH模型掂量市场危险 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言用Garch模型和回归模型对股票价格剖析 GARCH(1,1),MA以及历史模拟法的VaR比拟 matlab预计arma garch 条件均值和方差模型R语言POT超阈值模型和极值实践EVT剖析 ...

April 7, 2023 · 1 min · jiezi

关于数据挖掘:R语言时变向量自回归TVVAR模型分析时间序列和可视化附代码数据

全文链接:http://tecdat.cn/?p=22350 最近咱们被客户要求撰写对于时变向量自回归(TV-VAR)模型的钻研报告,包含一些图形和统计输入。 在心理学钻研中,集体主体的模型正变得越来越风行。起因之一是很难从人之间的数据推断出集体过程 另一个起因是,因为挪动设施无处不在,从集体取得的工夫序列变得越来越多。所谓的集体模型建模的次要指标是开掘潜在的外部心理现象变动。思考到这一指标,许多钻研人员曾经着手剖析集体工夫序列中的多变量依赖关系。对于这种依赖关系,最简略和最风行的模型是一阶向量自回归(VAR)模型,其中以后工夫点的每个变量都是由前一个工夫点的所有变量(包含其自身)预测的(线性函数)。 规范VAR模型的一个要害假如是其参数不随工夫变动。然而,人们往往对这种随工夫的变动感兴趣。例如,人们可能对参数的变动与其余变量的关系感兴趣,例如一个人的环境变动。可能是一份新的工作,节令,或寰球大流行病的影响。在探索性设计中,人们能够钻研某些干涉措施(如药物医治或医治)对症状之间的相互作用有哪些影响。 在这篇博文中,我十分简要地介绍了如何用核平滑法预计时变VAR模型。这种办法是基于参数能够随工夫平滑变动的假如,这意味着参数不能从一个值 "跳 "到另一个值。而后,我重点介绍如何预计和剖析这种类型的时变VAR模型。 通过核平滑预计时变模型核平滑法的核心思想如下。咱们在整个工夫序列的持续时间内抉择距离相等的工夫点,而后在每个工夫点估计 "部分 "模型。所有的部分模型加在一起就形成了时变模型。对于 "部分 "模型,咱们的意思是,这些模型次要是基于靠近钻研工夫点的工夫点。这是通过在参数估计过程中对观测值进行相应的加权来实现的。这个想法在下图中对一个数据集进行了阐明。 这里咱们只阐明在t=3时对部分模型的预计。咱们在右边的面板上看到这个工夫序列的10个工夫点。红色的一列w\_t\_e=3示意咱们在t=3时预计部分模型可能应用的一组权重:靠近t=3的工夫点的数据失去最高的权重,而更远的工夫点失去越来越小的权重。定义这些权重的函数显示在右图中。左图中的蓝色柱子和左边相应的蓝色函数示意另一种可能的加权。应用这种加权,咱们联合了更少的工夫上靠近的观测值。这使咱们可能在参数中检测到更多的 "工夫可变性",因为咱们对更少的工夫点进行了平滑解决。然而,另一方面,咱们应用的数据较少,这使得咱们的估计值不太牢靠。因而,抉择一个加权函数,在对 "时变性 "的敏感性和稳固的预计之间获得良好的均衡是很重要的。在这里介绍的办法中,咱们应用了一个高斯加权函数(也称为核),它是由其标准差(或带宽)定义的。咱们将在上面探讨如何抉择一个好的带宽参数。 点击题目查阅往期内容 R语言预计时变VAR模型工夫序列的实证钻研剖析案例 左右滑动查看更多 01 02 03 04 加载和检查数据为了阐明预计时变VAR模型,我应用了12个情绪相干变量的ESM工夫序列,这些变量每天最多测量10次,间断测量238天。这些问题是 "我感到放松"、"我感到丧气"、"我感到焦躁"、"我感到称心"、"我感到孤单"、"我感到焦虑"、"我感到激情"、"我感到狐疑"、"我感到高兴"、"我感到内疚"、"我感到当机立断"、"我感到刚强"。每个问题都用7分的李克特量表答复,范畴从 "不 "到 "十分"。 咱们看到数据集有1476个察看样本: ## [1] 1476   12head(data) time_data蕴含每个测量的工夫信息。咱们将利用测量产生的日期、测量提醒和工夫戳(time)。 抉择最佳带宽抉择好的带宽参数的办法之一是在训练数据集上用不同的候选带宽参数拟合时变模型,并在测试数据集上评估它们的预测误差。此外,数据驱动的带宽抉择可能须要相当长的工夫来运行。因而,在本文中,咱们只是将带宽固定为曾经抉择的最佳值。 bandwidth <- .26预计时变var模型咱们当初能够指定工夫变动的VAR模型的预计。咱们提供数据作为输出,并通过type和level参数指定变量的类型以及它们有多少个类别。在咱们的例子中,所有的变量都是间断的,因而咱们设置type = rep("g")示意间断高斯。咱们抉择用lambdaSel = "CV "的穿插验证法来抉择正则化参数,并且咱们指定VAR模型应该包含一个滞后期=1的单滞后期。参数bee和day提供了每个测量的日期和某一天的告诉数量。此外,咱们还提供了所有测量的工夫戳,工夫点=time,来阐明缺失的测量。然而,请留神,咱们依然假如滞后期大小为1。工夫戳只是用来确保加权的确给那些最靠近以后预计点的工夫点最高的权重。 对于时变模型,咱们须要指定两个额定的参数。首先,用 seq(0, 1, length = 20)咱们指定咱们想在整个工夫序列的持续时间内预计20个部分模型(被归一化为[0,1])。预计点的数量能够任意抉择,但在某些时候,减少更多的预计点意味着减少了不必要的计算成本,因为后续的部分模型基本上是雷同的。最初,咱们用带宽参数指定带宽。 # 残缺数据集的估算模型tvvar(data,                    type = rep("g"),                    lambdaSel = "CV",                    lags = 1,                    estpoints = seq(0, 1, length = 20),                     bandwidth = bandwidth,咱们能够输入对象 # 查看应用了多少数据obj 其中提供了模型的摘要,也显示了VAR设计矩阵中的行数(876)与数据集中的工夫点数量(1476)。前者的数量较少,因为只有在给定的工夫点也有滞后1年的工夫点时,能力预计VAR(1)模型。 计算时变预测误差与规范VAR模型相似,咱们能够计算预测误差。从模型对象中提供新数据和变量能够计算新样本的预测误差。 参数errorCon = c("R2", "RMSE")指定解释方差的比例(R^2)和均方根误差(RMSE)作为预测误差。最初一个参数Method指定了如何计算工夫变动的预测误差。选项Method = "closestModel "应用最靠近的部分模型对一个工夫点进行预测。这里抉择的选项tvMethod = "weighted",提供了所有部分模型预测的加权平均值,应用以以后工夫点的地位为核心的加权函数进行加权。通常状况下,这两种办法失去的后果十分类似。 pred_obj <- predict(object = obj,                     data = data,                     errorCon = c("R2", "RMSE"),                    Method = "weighted")次要的输入是以下两个对象。 tverrors是一个列表,包含每个预计点部分模型的预计误差;errors蕴含整个预计点的平均误差。 ...

April 7, 2023 · 1 min · jiezi

关于数据挖掘:专题国企数字化转型全面提质增效报告PDF合集分享附原数据表

报告链接:http://tecdat.cn/?p=32086原文出处:拓端数据公众号数字化转型并不只限于新技术的施行与经营,它更多的是面向未来,往往会对企业的策略、人才、商业模式乃至组织形式造成深刻影响的全方位变动。中国企业实现数字经济转型的外在能源是由内部压力和外部因素独特作用的后果。 世界范畴内,以数字技术为主导的产业降级,正粗浅地扭转着世界的竞争规定与格局,与此同时,中国经济也步入了一个新的高质量倒退阶段,其中,翻新曾经成为了一个新的增长能源;中国公司在这两者之间,应该尽快开始本人的转变,以适应未来的发展趋势。 特地是国有企业,在进行改革翻新、对标世界一流的过程中,国务院国资委已明确提出了“国有企业要做推动数字化智能化降级的排头兵”的要求和期待。在2020年年初暴发的新型冠状病毒疫情中,数字技术起到了十分要害的作用,同时也是推动中国疾速倒退的一个关键因素。 中国企业的数字转型目前的状况是,尽管大多数企业都曾经开始了数字转型,然而不同的所有制企业和不同的行业,其施行的工夫并不统一。从行业的角度来看,科技、传媒和电信行业、工业产品及建筑业、生产行业的企业在数字化转型过程中起到了带头作用(图表)。 本专题内的参考报告(PDF)目录沃丰科技:AI助力能源央国企数字化转型白皮书 报告2023-03-28德勤:国企数字化转型全面提质增效 报告2022-08-03派拉软件:国企数字化转型解决方案白皮书 报告2022-05-112022数字经济倒退论坛:中小企业数字化转型从哪里开始,到哪里完结? 报告2023-04-03德勤&浪潮:云数领航智慧监管-基于国资云的国资国企监管数字化转型白皮书... 报告2023-04-02艾瑞征询:中国汽车行业数字化转型解决方案白皮书 报告2023-03-31艾瑞征询:2023年中国汽车行业数字化转型解决方案白皮书 报告2023-03-30沃丰科技:AI助力能源央国企数字化转型白皮书 报告2023-03-28佩信:2023企业数字化转型组织人才倒退建设报告 报告2023-03-20FSG上海外服:后疫情时代薪酬治理和数字化趋势报告下篇之数字化转型 报告2023-03-20博锐尚格:中国购物中心能源与碳数字化转型钻研报告 报告2023-03-17ACCA&钛媒体 :数字化转型新思(2022) 报告2023-03-13石基信息:2023年中国酒店业数字化转型趋势报告 报告2023-03-1136Kr:中国中小企业数字化转型钻研报告(2022) 报告2023-03-10央国企信创白皮书:基于信创体系的数字化转型(2022年) 报告2023-03-02阿里云:2023云原生实战指南-以利用为核心构建数字化转型最短门路 报告2023-02-26安永:2020年及当前的数字化转型-寰球电信业考察 报告2023-02-24SAP:减速高科技企业数字化转型 报告2023-02-19Morketing研究院:营销数字化转型实际白皮书 报告2023-02-16SAP:智慧新国潮-数字化转型须要数字化外围 报告2023-02-14前瞻研究院:新经济下中国企业数字化转型之路-灯塔工厂专题报告2023 报告2023-02-08百分点:地产行业数字化转型范式与利用 报告2023-02-05中国汽研&腾讯广告:新型生产趋势下车企的营销数字化转型 报告2023-02-04BCG:行领导如何落实银保监会对于银保业数字化转型的领导意见 报告2023-02-03径硕科技:2023工业制作企业市场部数字化转型数据洞察报告 报告2023-02-01IBM:解码无界,发明数字化转型的有限可能:中国银行业企业架构施行现状... 报告2023-02-01英特尔&联想:中国生产电子制作数字化转型白皮书2023 报告2023-01-30腾讯研究院 :2023腾讯制造业数字化转型洞察报告 报告2023-01-29钉钉&中国信通院:“小快轻准”继续升高数字化转型门槛 报告2023-01-27亿欧智库:国有企业数字化转型策略与门路 报告2023-01-25毕马威:城市数字化转型准则:将来城市畅想 报告2023-01-12中国信通院:电信业数字化转型倒退白皮书(2022年) 报告2023-01-09拉勾招聘:2022国央企数字化转型人才白皮书 报告2023-01-06金融数字化倒退联盟:2022生产金融数字化转型主题调研报告- 报告2022-12-26普华永道:新基建减速数字化转型,实现“智能+”产业降级 报告2022-12-25炎黄盈动:2022低代码PaaS减速能源行业数字化转型白皮书 报告2022-12-21毕马威:将来城市畅想:城市数字化转型准则 报告2022-12-15IBM:卓越银行的基石-减速数字化转型的实际和优先工作 报告2022-12-09腾讯研究院:2022数字化转型指数年度报告 报告2022-12-06佩信:2023企业数字化转型组织人才倒退建设 报告2022-12-05头豹:2022年中国BI数据分析平台行业钻研报告-BI数据分析平台助力... 报告2022-11-26中国工业互联网研究院:中小企业“链式”数字化转型典型案例集(2022年... 报告2022-11-25中国证券业协会:证券公司数字化转型实际报告及案例汇编(2022) 报告2022-11-24腾讯研究院:国有企业数字化转型调研报告(2022年) 报告2022-11-24复旦智库:进一步促成数字经济和实体经济深度交融:减速工业互联网建设与产... 报告2022-11-15埃森哲:2022中国企业数字化转型指数 报告2022-11-13IBM:卓越银行的基石-减速数字化转型的实际和优先工作 报告2022-11-13头豹:2022年中国文字辨认OCR行业概览-产业数字化转型浪潮驱动OC... 报告2022-11-12赛迪:引领产业数字化转型,数字化场景反动十大洞察 报告2022-11-12秒针:营销数字化转型登山图(2022版)全解读 报告2022-11-09商汤:人工智能-助力产业数字化转型实际白皮书 报告2022-11-03麦肯锡:如何帮忙客户通过数字化转型实现营收、利润双冲破 报告2022-11-03时趣洞察引擎:内容营销时代的品牌数字化转型白皮书 报告2022-10-31霍尼韦尔:智能制作白皮书-卓越经营赋能制作企业数字化转型 报告2022-10-24哈佛商业评论:中国数字化转型新范式案例锦集 报告2022-10-23轻流:数字化转型白皮书:无代码驱动精益制作 报告2022-10-23艾瑞征询:2022年中国中小微企业数字化转型门路钻研报告 报告2022-10-20Lifecycle Insights:2022年数字孪生报告:产品设计... 报告2022-10-18IDC:2022寰球数字化转型预测与数字化韧性策略 报告2022-10-16施耐德电气:驾驭数字化转型-数字化赋能绿色智能制作高管洞察2022 报告2022-10-15IDC&北森:2022人力资源数字化转型白皮书 报告2022-10-12腾讯:2022中小企业数字化转型高质量倒退报告 报告2022-09-30天猫&贝恩:新批发下品牌消费者为核心的数字化转型-——消费者经营衰弱度... 报告2022-09-15中国环境与倒退国内单干委员会:助力可继续倒退的数字化转型 报告2022-09-13工息部信息技术倒退司:深入工业互联网平台利用放慢制造业数字化转型 报告2022-09-13安永:大湾区房地产科技白皮书:存量时代,大湾区房地产科技翻新与数字化转... 报告2022-09-13和君&中国农科院:2022年中国农业数字化转型白皮书 报告2022-09-01上海市城市数字化转型利用促成核心:数都上海2035 报告2022-08-31百度智能云:2022百度城市数字化转型白皮书 报告2022-08-31阿里巴巴:上海老字号餐饮品牌数字化转型指数钻研报告 报告2022-08-31IDC&石化盈科:数字化转型智造将来-石油石化行业数字化转型白皮书 报告2022-08-30致趣百川:2022医疗营销数字化转型白皮书·从「繁多CRM」到「SCR... 报告2022-08-29艾瑞征询:2022年中国制造业数字化转型钻研报告 报告2022-08-25易观剖析&微软&英特尔:企业级云原生平台驱动数字化转型白皮书 报告2022-08-24石化盈科&IDC:数字化转型智造将来——石油化工行业数字化转型白皮书主... 报告2022-08-21中关村大数据产业联盟:上市公司数字化转型白皮书 报告2022-08-21中数联盟:2022中国企业数字化转型白皮书 报告2022-08-20CCFA:便利店数字化转型指南(2022版) 报告2022-08-17Lenovo:联想数字化转型及新IT白皮书 报告2022-08-14中数联盟&元年:成就数据驱动型企业-中国企业数字化转型白皮书 报告2022-08-05元年:成就数据驱动型企业 中国企业数字化转型白皮书 报告2022-08-05德勤:国企数字化转型全面提质增效 报告2022-08-03阿里云:新一代数字化转型白皮书 报告2022-08-01元年:制造业数字化转型解决方案 报告2022-07-26云徙&爱剖析:2022汽车行业数字化转型白皮书 报告2022-07-21麦肯锡:亚洲当先批发团体的数字化转型教训 报告2022-07-19腾讯研究院:2022中国民营企业数字化转型调研报告 报告2022-07-18中国工商联:2022中国民营企业数字化转型调研报告 报告2022-07-15甲子光年:2022快消品行业线下分销链路数字化转型 报告2022-07-15五矿:冶金矿山数字化转型白皮书 报告2022-07-06艾瑞征询:2022年中国房地产数字化转型钻研报告 报告2022-06-29德勤:打算治理数字化转型施行指南——晋升转型成功率的经验教训和致胜五招 报告2022-06-28中国信通院:次要国家和地区推动制造业数字化转型的政策钻研报告(2022... 报告2022-05-27艾瑞征询:2022年中国政企洽购数字化转型白皮书 报告2022-05-26腾讯:中小企业数字化转型门路报告 报告2022-05-25教育部:智慧教育资讯_教育数字化转型专题_2022年5月 报告2022-05-20中国电子技术标准化研究院:2021年中小企业数字化转型剖析报告 报告2022-05-18腾讯研究院:重塑中小城市的将来:数字化转型的框架与门路 报告2022-05-13派拉软件:国企数字化转型解决方案白皮书 报告2022-05-11罗戈网:企业供应链低碳与数字化转型 报告2022-05-10微软&普华永道:迈向将来财务 - 中国企业财务数字化转型白皮书 报告2022-04-18艾瑞征询:2022年中国政企洽购数字化转型白皮书 报告2022-04-18华夏时报:数据智能下的金融数字化转型报告2022 报告2022-04-11亿欧智库:2022中国建筑行业数字化转型钻研报告 报告2022-04-02BCG:2020,银行领导如何落实银保监会《对于银保业数字化转型的领导... 报告2022-04-01新浪财经&苏宁金融研究院:2021中国银行业数字化转型钻研报告 报告2022-03-28金融数字化联盟&银联:2021生产金融数字化转型主题调研报告 报告2022-03-22艾瑞征询:2022年车企数字化转型趋势系列钻研之研发数字化篇 报告2022-03-15Webpower:2022数字化转型白皮书 报告2022-03-15亿欧智库:2022中国建筑行业数字化转型钻研报告 报告2022-03-11金融信息化研究所:金融业数字化转型倒退报告(白皮书) 报告2022-03-04亿欧智库:2022 银行批发客户经营数字化转型最佳实际白皮书-2022... 报告2022-03-02金融信息化研究所:2022金融业数字化转型倒退报告(白皮书) 报告2022-02-28

April 7, 2023 · 1 min · jiezi

关于数据挖掘:R语言逻辑回归Logistic选股因素模型交易策略及沪深300指数实证

全文链接:http://tecdat.cn/?p=32071原文出处:拓端数据部落公众号随着中国的证券市场规模的一直壮大、市场翻新一直深入、信息披露不断完善、市场监管一直强化,随着古代投资组合实践的倒退和计算机技术的提高,投资者为了在股票交易中获得更多的收益,就须要有正当无效的投资策略,因素模型的根底上倒退出泛滥量化钻研模型。对于这些模型的钻研可能帮忙投资者无效的跟踪市场的变动,为得出更好的投资策略而提供帮忙。Logistic选股模型正是这些泛滥模型中的一个。 因素模型因素模型是建设在证券收益率对各种因素或指数变动具备肯定敏感性的假如根底之上的一种模型。证券的收益率具备相关性,这种相关性是通过对模型中的一个或多个因素的独特反馈而体现进去。证券收益率中不能被因素模型所解释的局部被认为是各种证券的共性,因此与其余证券无关。因素模型也被称为指数模型(Index model)或夏普模型(Sharp model)。 钻研思路本文以多因素模型在股票交易中的利用为背景,帮忙客户针对Logistic选股模型的实践根底以及模型原理方面剖析Logistic选股模型的可行性与稳定性。为保障模型的牢靠和稳固,应用过来五年的历史数据来检测模型。 Logistic模型在股票交易中的选股策略联合以上多因素模型与Logistic回归剖析的常识能够失去基于Logistic选股模型。这里采纳沪深300指数作为基准,将沪深300中的个股作为钻研对象,钻研其收益率超过沪深300股指收益率的概率。 这里Logistic选股模型钻研的窗口期抉择为一个月,在当月的最初一个交易日以股票或指数投资组合的收盘价买入股票或指数资产组合,在次月的最初一个交易日以股票或指数投资组合的收盘价卖出股票或指数资产组合。 这样将即能够应用Logistic回归剖析联合历史数据对组合中每支股票进行回归剖析。利用回归剖析后果预测每只股票下个月收益率大于指数投资组合收益率的概率,这时咱们选取预测中收益率大于基准收益率概率排名前40支股票,等权重组合,在当月的最初一个交易日以收盘价买入,在次月的最初一个交易日以收盘价卖出。如此即为Logistic选股模型的交易策略。 实证后果剖析#读取数据file=list.files(".",pattern=".Rdata") for(i in file)load(i)#计算对数收益率data$return2=c(0,( log((data$CLOSE.y[-1])/data$CLOSE.y[-nrow(data)])))合并因子数据和收益率数据 通过对模型的测验失去以下后果: 逻辑回归收益散布逻辑回归收益的直方图 能够看到大部分收益散布在大于0的区域 图中显示了依据模型所选股票在当期的收益率散布。从图中能够看出大部分股票收益率散布在0%至-10%之间,将近半数的股票在其交易当期内具备小额负收益。 这个图横轴代表工夫。纵轴代表应用逻辑回归模型后果在不同工夫点的收益 累计收益  组合累积和基准累积 这个图横轴代表工夫。纵轴代表应用逻辑回归模型后果在不同工夫点的收益率: 通过图中对利用Logistic选股模型选出的组合的收益率和基准收益率的比照能够看出看出通过Logistic选股模型选出的组合具备一个较安稳的收益率,而且在绝大数的工夫内收益率超过了基准收益。由此能够看出Logistic选股模型具备肯定的稳定性和有效性,在绝大多数的状况下能够选出收益率高于基准收益的组合。 组合和基准每月的收益率的比照图 逻辑回归模型后果Deviance Residuals: Min 1Q Median 3Q Max -0.86049 -0.32622 -0.05835 -0.00147 2.24675 Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) 7.199e+00 9.101e+00 0.791 0.429SHARE_TOTALTRADABLE -9.482e-10 1.934e-09 -0.490 0.624MKT_CAP -4.653e-11 5.952e-11 -0.782 0.434MV -1.687e+00 2.033e+00 -0.830 0.407pe -9.811e-02 1.128e-01 -0.870 0.384(Dispersion parameter for binomial family taken to be 1) Null deviance: 16.081 on 41 degrees of freedomResidual deviance: 11.560 on 37 degrees of freedom (1 observation deleted due to missingness)AIC: 21.56总结构建了Logistic选股模型,并利用历史数据经行回测,验证模型的有效性,并依据试验数据失去后果证实Logistic选股模型能够在大部分状况下为投资者选出一个收益率可能超过基准收益的投资组合。然而本文的钻研也可能存在以下问题和破绽: ...

April 7, 2023 · 1 min · jiezi

关于数据挖掘:现在学C4D还是Blender好这俩有啥区别

老手初学3D制作,是选C4D还是Blender? 之前在咱们的设计交换群里,就有同学在问:“当初学C4D还是Blender好?这俩有啥区别?” 明天咱们就来聊聊C4D和Blender各自的优缺点,看看你更适宜哪款吧? 01软件特色C4D学习难度较低,对于设计老手来说比拟敌对,能够短期内从入门到实现商业级作品,很快地使用到理论工作中,无论面对公司企业还是个人用户,根本都能满足其需要。 Blender收费开源,版权问题能够说不必放心,更加适宜集体应用,能够省掉版权费;而且因为开源所以性能十分多,根本笼罩全流程制作!  02易上手水平 C4D界面简洁,友好度佳、容易上手,基本上把握初级阶段就能够出成果,对于老手设计师来说会比拟有成就感!而Blender比拟依赖快捷键,对于老手来说上手可能须要破费一些工夫! 03渲染体现 在渲染体现上C4D和Blender能够说是不分上下,两者都十分杰出! C4D的支流渲染器是OC和Redshift。OC渲染器好上手,简略出成果,跟C4D十分匹配,根本能够实时显示,目前国内电商渲染大部分以OC为主;Redshift渲染器,反对渲染宏大场景的几何和纹理,可能在影视特效、广告动效上轻松应用!C4D的静止图像模块也十分弱小,因而更加适宜电商和产品特效等的制作! Blender自带两个渲染器:Eevee和Cycles。Eevee是Blender的实时栅格化渲染引擎,渲染速度快,实时渲染功能强大;Cycles是Blender用于产品级渲染,基于物理的门路跟踪器,能够简略的了解为是一款“写实渲染器”! 基于此,Blender非常适合做角色及角色动画,在三渲二技术方面也有很大的劣势! 04待业环境 目前,C4D在国内有十分大的待业缺口,待业抉择是十分多的,不论是品牌文创、角色IP、电商产品还是说当初火爆的动效合成以及广告视频等等,C4D都有用武之地,也更加适宜公司或团队单干应用:05电脑配置因为C4D当初支流的渲染器是OC,但目前OC次要反对N卡(英伟达)的Windows零碎电脑和局部Mac零碎的电脑,所以对于想学C4D的设计老手来说,倡议筹备应用N卡的Windows零碎电脑。而Blender在这方面有它独特的劣势:可在Mac、Windows、Linux等支流操作系统上运行,临时不必再额定购买设施! 总的来说,C4D有C4D的好,Blender有Blender的香!软件只是工具,更重要的是咱们的创意,所以大家各取所需,抉择适宜本人的就好!

April 7, 2023 · 1 min · jiezi

关于数据挖掘:如何创造数据资产价值如何对内赋能业务运营对外创造市场价值

在数据资产化初见成效后,接下来企业就须要落实数据共享和配套的数据分析工具,让更多业务部门或组织能够应用这些数据资源或数据资产。那么如何利用这些数据资产对内赋能业务经营、对外发明市场价值?本篇将介绍数据共享与剖析、数据产品对内的业务经营和对外的价值发明。 — 数据共享与剖析 —在数据资产化初见成效后,接下来企业就须要落实数据共享和配套的数据分析工具,让更多业务部门或组织能够应用这些数据资源或数据资产,开始一些数据分析类工作,以及后续的数据产品开发工作。这个阶段的平台建设工作十分重要,它是买通数据服务能力的第一阶段,在不同的行业有不同的建设侧重点,个别包含面向特定业务部门以裸数据间接提供的数据集市、依照企业内多个业务属性布局的曾经加工好大量数据服务的数据中台、面向数据分析人员提供的按需做数据摸索并且有更严格的数据安全治理的数据共享平台或共享实验室,以及配套的剖析工具平台建设如数据迷信平台、BI剖析工具等。 银行类企业的数字化建设从本世纪初左右开始,最早采纳了基于MPP数据库的数据仓库的建设,配套重要的业务建设独立的数据集市,或者间接在MPP数据库中建设数据集市。随着数据分析业务的减少和数据迷信类业务的衰亡,银行业开始基于大数据平台来建设数据仓库或数据湖,再配套独立的数据实验室给数据迷信团队做业务摸索,为一些重要的业务部门(如监管、审计、危险等)建设数据集市,并且科技部门都在尝试建设数据中台,为批发、同业、对公等业务赋能。大型商业银行科技部门的零碎建设都绝对欠缺,也具备有较好的可参考性。最近几年,随着各个业务零碎的复杂度和工作负载的继续减少,大型银行开始采纳云原生的形式以多租户技术来做整体零碎的资源管理,逐步形成了下图的整体数据共享剖析的架构。 值得一提的是,因为局部数据分析业务可能会有临时性的对某些未加载到数据湖或仓库中的数据做整合剖析或机器学习建模,近年来数据联邦剖析技术又逐步衰亡,个别是通过一个反对数据联邦的SQL计算引擎为数据分析人员提供开发入口,而这个计算引擎能够同时对接包含数据湖和一些数据库在内不同的数据源,甚至能够反对两个不同数据库系统间的数据关联等计算工作。这种形式能够让数据分析人员无需关注底层数据架构的异构个性,而数据管理人员也无需针对各种长期的数据分析工作而将所有数据都当时整合到数据湖中,因而总体上进步了工作的灵活性。 从企业数据平台的建设视角来看,这个阶段的平台须要提供数据迷信建模工具或平台,凋谢给业务部门按需的部署和应用;须要提供报表工具给数据分析人员,同时提供剖析型数据库,从而提供数据集市的撑持能力。从数据管理的视角,数据平台建设方还须要建设零碎来提供便当的数据出湖和数据导入集市的能力,并且在这个流程中落实数据的平安管控。如果业务部门的业务倒退比拟快,有大量Ad-hoc的数据分析工作,提供数据联邦剖析的能力也是一个须要十分广泛的需要。 除根底平台的建设外,企业的业务部门须要建设数据分析的能力,以满足数据业务化的要求,这包含BI剖析能力、数据建模能力、数据指标与标签开发能力。如果业务部门没有足够的剖析人员能够建设这方面的要求,能够采纳委托科技部门或外包等形式来建设这部分能力。 — 数据产品开发和对内经营构建数据中台 —数据产品指的是曾经实现各种数据加工、剖析、建模之后造成的能够被业务利用间接应用的产品或利用,其物理上能够是包含数据API、数据指标标签、AI推理模型、数据集以及根底数据库在内组合而成的独立服务,有本人的开发和公布管控流程,有独立的技术架构要求和运维要求。在数字化水平比拟高的行业,一些典型的数据产品落地案例如行业常识图谱、舆情剖析产品、政府的一网通办类产品、金融行业的万德数据等。而在另外一些行业,即便其数字化起步较晚,然而因为数据赋能业务的链路比拟短(如工业制作的智能运维和机器人质检等),或者受限于企业内的数据科技人员数量限度,更好的数据赋能业务的形式是间接提供一些数据产品给业务方能够间接应用,因而能够在布局的时候就及早开始做相干的投入。在咱们的定义里,数据中台是承载数据产品的开发与经营的零碎。数据产品的开发过程实质上就是一个软件开发配套数据开发与剖析的过程,因而其过程管 理上能够采纳软件过程治理的方法论,须要配合建设利用开发平台、CICD技术体系,以及用于最终数据产品公布与散发的平台(个别叫做利用市场)。一些企业会自建一个数据产品的开发平台,能够将各种数据报表、数据指标等外部数据,配合外采的一些剖析报告或数据API,采纳低代码或者无代码的形式将其组合为一个数据产品,并容许多租户的形式为不同部门提供SaaS服务。 Salesforce Einstein是一个十分胜利的数据产品开发平台,它容许用户通过各种数据集或报表来定义本人的User Story,并且数据能够通过实时计算和AI驱动,每个用户都能够有本人的产品界面,无需关注底层的数据简单架构。低代码平台是另外一个能够被用于数据产品开发的技术,它可能让用户疾速实现数据驱动的流程设计、流程治理、审批过程管制、组织构造关联以及产品公布等过程,可能缩短从“一个想法”到“一个demo”的交付工夫,能够用于一些工夫要求比拟紧迫的中小型数据产品的开发。 除了一些新型的面向交互式剖析的数据产品,更多的还是惯例的数据利用开发,即基于微服务或Java中间件等形式来开发的企业级利用,只是其这些利用的不再是用户点击驱动的流程变动,而是数据变动带动的状态机变更。对这类数据密集型的利用,其开发过程总体上还是惯例的软件开发过程,须要有利用开发平台和CICD流程,须要有配套用于外部利用开发过程的品质治理、平安治理、配置管理等过程治理和流程。在利用的公布上,因为数据产品须要让企业不同区域的员工都能够间接应用,因而公布零碎须要反对企业本身的多数据中心或混合云架构,甚至是边缘端。举个例子,在国内总部开发的数字化驱动的考核零碎,须要可能运行在海内分支构造的数据中心外部;同样总部研发的新的运维模型,可能便捷的公布到终端的设施或工控机上,这要求利用开发平台有很好的利用公布能力。 在数据产品的经营上,企业能够通过建设一个数据利用市场让开发者和用户都能疾速找到相干的数据利用或产品。这些产品能够依照面向SaaS或DaaS模式来辨别,也能够依照面向最终用户、数据产品开发者、数据分析人员等不同的用户来辨别,不便不同的用户依照其需要来发现和了解产品,也让更多的开发者和剖析人员来奉献数据产品,从而逐渐买通外部的经营闭环。 — 数据产品对外的价值发明实现数据资本化 —数据因素市场是国家十四五的一个重要的数字化方向,对于一些数据资源十分丰盛,或者自身是一个平台型经营的企业,亦或者是专门为数据因素市场设立的各中央数据交易所等,他们的企业数据产品不仅能够对内进步经营效率,还能够间接对外部企业或生态内企业赋能,间接发明数据相干的支出,将数据价值化更加间接的体现进去,达到数据资本化阶段,甚至能够并入企业财务报表中。 国外数据交易平台以企业建设为主导,有数据提供方供给数据、网络爬虫、政府公开数据、数据社区提供数据以及传统形式线下收集数据等数据起源形式。数据社区是若干个社会群体或组织汇集在大数据畛域内造成的一个互相关联、互相沟通的大个体,通过数据社区能够及时理解用户需要,更新数据。国外数据社区为交易平台提供数据,促成了数据交易平台的倒退,而国内此种形式较为少见。国外数据交易平台有Factual、BDEX、Azure、Qlik Data market等以企业自主建设平台为主。交易平台的产品类型有API、数据包、解决方案、数据产品、云服务等,且具备不同平台针对不同畛域数据的独有性、专业性等特点。交易平台会对卖方数据进行筛选、分类等工作。 我国数据交易市场还处于初期阶段,并率先提出数据因素这一概念,数据在赋能其余因素后,其价值能够数倍倒退。据相干数据预测显示,到2025年我国数据交易市场规模将达到500亿元,将来的市场规模还会更大。数据交易平台在交易过程中,首先要解决效率问题,比方一家企业须要数据资源,在传统模式下,须要对接不同的数据资源,效率不高,而通过数据交易中心平台,能够取得更多源的数据,对数据提供方而言,通过数据交易平台,能够找到很多个潜在的客户,同样也能够晋升效率;其次是要解决合规的问题,数据交易中心是强监管的经营模式,其目标是确保在平台上交易的数据都是合规非法的。目前国内数据交易多是在政府为主导的数据交易平台进行。交易平台的产品类型有API、数据包、解决方案、数据产品、云服务等,平台交易数据类型品种较多,绝对于国外数据品种多但不精。 一些平台型企业的供应链或者投资布局内有大量的生态企业,为了更好的欠缺供应链治理或者欠缺投资生态,一个比拟可行的形式是构建一个系统性的数据驱动的利用平台,生态类企业在这个平台上依照治理要求来买通业务流程和数据交互,让各方间接做到业务和数据协同,这样平台型企业就能够基于数据的能力来做更多的业务优化,如优化供应链过程、倒退供应链金融等新业务,提供企业的经营效率或开翻新业务场景。一些典型的案例包含各地的产业集群、大型央国企、行业监管机构和被监管企业、投资性集团公司等,行业内都曾经造成了一些典型案例。当然,平台企业和生态类企业的数据互通并不是间接的原始数据替换,而是基于相似数据交易所的企业间数据合规流通的形式,甚至是通过隐衷计算等新技术来落地。 回到技术上,要实现这类业务价值也须要一个弱小的数据共享经营平台来撑持,并且这个阶段的外围是建设信赖,因而数据安全与合规是平台建设的重点。近年来行业也陆续摸索进去一些可行的落地实施方案,包含云上的数据沙箱和私有化的数据一体机,此外须要配套数据合规与隐衷计算平台,解决数据流通中的数据合规问题。 数据沙箱是数据提供方向数据需求方提供的一套关闭的数据开发环境,满足企业外部和企业间的共享场景,通过数据库安全、数据内容平安、基础设施平安全方位保障数据可入不可出,解决提供方不愿不敢不能将数据凋谢给需求方应用的问题,实现数据在合规非法的条件下平安凋谢共享。 数据沙箱能够被用于企业外部的数据翻新实验室、团体类企业对内对外的凋谢,以及企业间或数据交易所的凋谢场景中,而且须要配套一些跟数据产品自身敏感性相干的合规和平安管理策略,从而提供足够的安全性并满足合规要求。 随着对外共享凋谢数据集数量的减少,一级数据开发的范畴扩充,企业须要建设数据安全与合规检测零碎,可继续一直的对开发治理好的数据资源进行分类检测,为每份数据资源标记数据分类状况,标记数据的平安凋谢等级。同时,数据审计模块可对数据的应用进行具体审计,可回溯数据应用的全副记录。为了保障数据在存储和应用中的平安合规,该零碎须要提供数据分类分级、数据安全策略核心、个人信息去标识化、数据监测与审计等几个外围能力。 为了实现数据业务平安合规,企业除了构建围绕数据生命周期的平安技术之外,须要有一个数据安全合规建设体系去领导相干部门进行落地。数据安全合规倡议的流程机制如下: 首先企业要定期对数据资产进行分类分级,及时发现全量以及增量的集体敏感数据、重要数据等,对敏感数据的散布做到心里有数。而后要深刻生产流动,对数据安全生命周期进行平安评估,发现数据安全危险并量化危险等级。基于上述步骤梳理的不同平安危险等级的数据,有针对性的进行数据安全能力建设,包含IT能力建设、组织与制度建设等。最初要造成一个继续的数据安全经营体系,包含日常的治理、监控、应急处理。同时还要继续的评估平安能力建设情况,查漏补缺,继续迭代,逐渐达到平安合规。 — 小结—咱们用了三篇的篇幅介绍了从根底的数据存储算力、数据资产化、数据共享与剖析、对内赋能经营和对外发明价值等五个建设阶段。至此,置信大家对构建企业数据平台各阶段的重点已成竹在胸。从下篇开始,咱们将深刻底层技术,为大家介绍几大支流的分布式技术,敬请期待。

April 6, 2023 · 1 min · jiezi

关于数据挖掘:R语言使用ARIMAX预测失业率经济时间序列数据附代码数据

全文链接:http://tecdat.cn/?p=22521最近咱们被客户要求撰写对于ARIMAX的钻研报告,包含一些图形和统计输入。 在大数据的趋势下,咱们常常须要做预测性剖析来帮忙咱们做决定。其中一个重要的事件是依据咱们过来和当初的数据来预测将来。这种办法咱们通常被称为预测 许多状况下都须要预测:决定是否在将来五年内再建一座发电站须要对将来的需要进行预测;安顿下周呼叫核心的工作人员须要对呼叫量进行预测;储备库存须要对库存需要进行预测。一个事件的可预测性取决于几个因素,包含。 咱们对造成这种状况的因素理解得如何。有多少数据可用。预测是否能影响咱们试图预测的事物。ARIMA差分整合自回归挪动均匀模型(ARIMA)(p,d,q)是自回归(AR)、挪动均匀(MA)和自回归挪动均匀(ARMA)模型的扩大版本。ARIMA模型是利用于工夫序列问题的模型。ARIMA将三种类型的建模过程联合到一个建模框架中。 I:差分是用d示意的。它通知咱们在间断的察看样本中,被差分的序列对于原始序列的变动数量。AR:自回归用p示意,它通知咱们为适应安稳序列的AR过程所需的滞后期数。ACF和PACF帮忙咱们确定AR过程的最佳参数集。MA:挪动均匀阶数用q示意。它通知咱们要回归的序列中的误差项的数量,以便将差分的AR过程残差缩小为白噪声。对于ARIMAXARIMAX或回归ARIMA是ARIMA模型的一个扩大。在预测中,这种办法也波及自变量。ARIMAX模型表示输入工夫序列由以下局部组成:自回归(AR)局部,挪动均匀(MA)局部,差分整合(I)局部,以及属于外生输出(X)的局部。外生局部(X)反映了将外生输出的现值和过来值包含到ARIMAX模型中。 多元回归模型公式: 其中Y是xi预测变量的因变量,通常被认为是一个不相干的误差项(即是白噪声)。咱们思考了诸如Durbin-Watson测验等测验办法来评估是否有显著的相关性。咱们将在方程中用nt代替。误差序列被假设为遵循ARIMA模型。例如,如果 nt 遵循一个 ARIMA(1,1,1)模型,咱们能够写成 其中t是一个白噪声序列。ARIMAX模型有两个误差项,一个是回归模型的误差,咱们用jt示意,另一个是ARIMA模型的误差,咱们用t示意。只有ARIMA模型的误差被认为是白噪声。 实例探索咱们将应用经济序列数据。数据是一个五个季度的经济序列,蕴含以下数字变量:季度失业率、国民生产总值、生产、政府投资和私人投资。有161个观测点。 季节性成分曾经从数据中去除。集中在失业率(Ut)、国民生产总值(Gt)和生产(Ct)上,首先对每个序列进行记录,而后去掉线性趋势,对数据拟合一个向量ARMA模型。也就是说,对xt=(x1t,x2t,x3t)t拟合一个向量ARMA模型,例如,x1t=log(Ut)-0^-1^t,其中0^和1^是log(Ut)对工夫t的回归的最小二乘预计。对残差运行一套残缺的诊断办法。 数据摸索grid.arrange(p1,p2,p3,ncol=2) 从图中能够看出,国民生产总值和生产能够作为回归应用。咱们能够用工夫、国民生产总值和生产来预测失业率。 点击题目查阅往期内容 R语言ARIMA集成模型预测工夫序列剖析 左右滑动查看更多 01 02 03 04 ARIMAX模型拟合summary(varma) plot(df,aes(t,res))+line(col=colpla[2]) acf_pacf(res_= acf(x, plot= F)                        , label= "ACF")plot(df, aes(x=res)) +   histogram(aes(y=..density..) 咱们的残差在大多数状况下是正态分布的,ACF图中没有显著的尖峰。Ljung-Box测验在5%的程度上有0.05297的p值,所以数据是独立散布的,在任何滞后期都没有显著的自相干。这是一个现实的后果。 预测咱们随机生成log(g)和log(c)的向量,作为咱们预测模型的输出值。两个向量的长度都是8,所以咱们的指标是预测将来8个季度的log(u)值。请留神,对于多个回归因子,咱们必须将这些向量合并成一个矩阵,以便咱们进行预测工作。 forecast(m,x=logfc+logc )plot(yfor) ARIMA模型通过应用ARIMA,咱们只依据间断的工夫数据来预测将来。它疏忽了可能影响生产变动的其余因素。 ARIMAX长处毛病要应用ARIMAX模型,有几个可能的长处和毛病。 长处应用ARIMAX的益处是咱们能够将回归和工夫序列局部联合在一个模型中,命名为ARIMAX。与回归模型或ARIMA模型相比,这个模型能够优化咱们的误差。 毛病一个毛病是,协变量系数很难解释。斜率的值不是xt减少1时对Yt的影响(就像回归中那样)。方程右侧存在因变量的滞后值,这意味着斜率只能以因变量以前的值为条件进行解释,这很不直观。 点击文末 “浏览原文” 获取全文残缺代码和数据资料。 本文选自《R语言应用ARIMAX预测失业率经济工夫序列数据》。 点击题目查阅往期内容 R语言危险价值:ARIMA,GARCH,Delta-normal法滚动预计VaR(Value at Risk)和回测剖析股票数据 多元工夫序列滚动预测:ARIMA、回归、ARIMAX模型剖析 【视频】工夫序列剖析:ARIMA-ARCH / GARCH模型剖析股票价格 工夫序列GARCH模型剖析股市稳定率 PYTHON用GARCH、离散随机稳定率模型DSV模仿预计股票收益工夫序列与蒙特卡洛可视化 极值实践 EVT、POT超阈值、GARCH 模型剖析股票指数VaR、条件CVaR:多元化投资组合预测危险测度剖析 Garch稳定率预测的区制转移交易策略 金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言危险价值:ARIMA,GARCH,Delta-normal法滚动预计VaR(Value at Risk)和回测剖析股票数据 R语言GARCH建模罕用软件包比拟、拟合规范普尔SP 500指数稳定率工夫序列和预测可视化 Python金融工夫序列模型ARIMA 和GARCH 在股票市场预测利用 MATLAB用GARCH模型对股票市场收益率工夫序列稳定的拟合与预测R语言GARCH-DCC模型和DCC(MVT)建模预计 Python 用ARIMA、GARCH模型预测剖析股票市场收益率工夫序列 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言ARIMA-GARCH稳定率模型预测股票市场苹果公司日收益率工夫序列 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 R语言工夫序列GARCH模型剖析股市稳定率 R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测 matlab实现MCMC的马尔可夫转换ARMA - GARCH模型预计 Python应用GARCH,EGARCH,GJR-GARCH模型和蒙特卡洛模仿进行股价预测 应用R语言对S&P500股票指数进行ARIMA + GARCH交易策略 R语言用多元ARMA,GARCH ,EWMA, ETS,随机稳定率SV模型对金融工夫序列数据建模 R语言股票市场指数:ARMA-GARCH模型和对数收益率数据探索性剖析 R语言多元Copula GARCH 模型工夫序列预测 R语言应用多元AR-GARCH模型掂量市场危险 R语言中的工夫序列分析模型:ARIMA-ARCH / GARCH模型剖析股票价格 R语言用Garch模型和回归模型对股票价格剖析 GARCH(1,1),MA以及历史模拟法的VaR比拟 matlab预计arma garch 条件均值和方差模型R语言POT超阈值模型和极值实践EVT剖析 ...

April 5, 2023 · 1 min · jiezi

关于数据挖掘:2022年中国服务机器人行业研究报告PDF分享附原数据表

报告链接:http://tecdat.cn/?p=31419随着大量企业的涌入,服务机器人产业化行将到来。 通过多年的倒退,我国曾经实现了残缺的服务机器人产业生态系统。在常态化疫情防控、人口老龄化、技术提高和政策反对等多种因素的推动下,行业疾速度过市场教育阶段。据统计,近三年我国服务机器人相干企业数量增长了296 %,已冲破10万家。 参考报告PDF列表36Kr:2022年中国服务机器人行业钻研报告 报告2022-12-06头豹:2022年医疗机器人行业概览-医疗机器人厂商泛滥-是否决出龙头存... 报告2022-12-22甲子光年:2022中国商用服务机器人行业简析 报告2022-12-12果集数据:2022年Q1-Q3扫地机器人热门品牌社媒电商剖析报告 报告2022-12-11国海证券:寰球机器人产业钻研之利用框架:孕育人类“奇点”时刻 报告2022-12-09甲子光年:2022中国商用服务机器人行业简析 报告2022-11-24亿欧智库:英特尔赋能产业智能化降级-机器人特刊2022 报告2022-11-15头豹研究院:2022年中国商用清洁机器人行业概览 ――从立体到平面,开... 报告2022-11-15Geek:仓库机器人的将来 报告2022-11-08蛋壳研究院:血管染指手术机器人钻研报告 报告2022-10-24IT桔子:2022年中国机器人投融资数据分析报告 报告2022-10-23DeepTech:2022寰球医疗微纳机器人技术现状及产业发展前景钻研... 报告2022-10-09亿欧智库:2022中国公共服务机器人市场钻研报告 报告2022-09-29头豹:2022年中国人形机器人行业概览-TESLABOT开启机器人新纪... 报告2022-09-20灼识征询:2022中国机器人行业蓝皮书 报告2022-09-142021世界机器人大会:2021-2022年机器人十大前沿热点畛域洞察 报告2022-09-11头豹:2022年中国仓储机器人行业概览 报告2022-09-02GfK:2022年中国扫地机器人市场走势 报告2022-09-01中国电子学会:中国机器人产业倒退报告(2022年) 报告2022-08-25灼鼎征询:中国物流移动机器人钻研报告 报告2022-08-22德勤:物流机器人产业渐入佳境 物流产业数字化提速 报告2022-08-17中信建投:机器人-特斯拉人形机器人产业链投资机会剖析 报告2022-08-11维科网:2022中国智能巡检机器人行业倒退钻研白皮书 报告2022-06-29阿里云:2022年中国机器人产业图谱及云上倒退钻研报告 报告2022-06-28亿欧智库:2022中国工业机器人市场钻研报告 报告2022-06-01灼鼎征询:中国语音机器人钻研报告 报告2022-05-26觅途征询&立方知造局 :2022年中国工业机器人市场白皮书 报告2022-05-24MAIA钻研:2022-2029年寰球合作机器人市场钻研报告(2022... 报告2022-05-24灼鼎征询:2021年外骨骼机器人市场剖析报告 报告2022-03-16动脉橙:2015-2021年医疗机器人价值报告 报告2022-03-11LeWIS:中国聊天机器人 -对话式商务的衰亡 报告2022-01-04工信部:“十四五”机器人产业倒退布局 报告2021-12-2936氪:2021年中国机器人行业钻研报告 报告2021-12-28浦发硅谷银行:机器人行业的将来 报告2021-12-21中国电子学会:2021中国机器人产业倒退报告 报告2021-11-09亿欧智库:2021年中国医疗机器人商业化洞察报告 报告2021-10-12动脉橙:寰球医疗机器人价值趋势报告2015-2021年H1 报告2021-10-03亿欧智库:2021中国商用服务机器人市场钻研 报告2021-09-14甲子光年:2021仓储物流机器人行业钻研报告 报告2021-08-24艾瑞征询:2021年中国对话机器人chatbot行业倒退钻研报告 报告2021-07-08

April 5, 2023 · 1 min · jiezi

关于数据挖掘:自然语言处理NLP主题LDA情感分析疫情下的新闻文本数据附代码数据

全文链接:http://tecdat.cn/?p=12310最近咱们被客户要求撰写对于自然语言解决NLP的钻研报告,包含一些图形和统计输入。 新冠肺炎的暴发让往年的春节与平常不同。与此同时,新闻记录下了这场疫情倒退的时间轴 ▼ 为此咱们剖析了疫情相干的新闻内容、公布期间以及公布内容的主题和情感偏向这些方面的数据,心愿通过这些数据,能对这场疫情有更多的理解。 新闻对疫情相干主题的情感偏向 通过对疫情相干的新闻进行主题剖析和情感剖析,咱们能够失去每个主题的关键词以及情感散布。 图表1 症状检测主题的新闻内容表白出最多踊跃情感,该话题下探讨的是医院中检测患者的症状,其次是城市服务以及学校相干的新闻内容,探讨了商店敞开,社区隔离和学校提早开学等话题,生存主题也表白出较多的踊跃情感(关键词:工夫、家庭),疫情减少了家人相处的工夫(图1)。 点击题目查阅往期相干内容 R语言自然语言解决(NLP):情感剖析新闻文本数据 左右滑动查看更多 01 02 03 04 新闻表白的情感偏向随工夫变动 思考到新闻公布的工夫、新闻相干的话题因素,图2显示了通过情感穿插剖析失去的后果。 图表2 从话题排名来看,不同时间段的新闻中最热门的话题都有经济、出行和政治。从情感散布来看,1月份的经济主题新闻表白出较多的负面情绪(如股市因对冠状病毒的日益关注而上涨)。3月份随着疫情逐步恶化,城市主题新闻(如疫情期间保障商店服务和生产经营)的热度排名超过防护主题(关键词:口罩,洗手,衰弱等)。从1月到3月,各个主题下的踊跃情感比例都在一直减少。 新闻对不同主题关键词的关注度 思考到不同话题的关注度,图3显示了高频关键词的散布。 图表3 从中咱们能够看到疫情相干的新闻中最关注的方面,首先是衰弱,家庭和隔离和出行,其中衰弱呈现的频率最高。而后关注的话题,蕴含冠状病毒、疫情期间的工作和病毒检测。其次关注的话题蕴含辨别衰弱和感化的症状。其余关注的热门关键词蕴含学校、商业、旅行和经济等。 本文章中的所有信息(包含但不限于剖析、预测、倡议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。 本文摘选 《 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 》 ,点击“浏览原文”获取全文残缺材料。 点击题目查阅往期内容 【视频】文本开掘:主题模型(LDA)及R语言实现剖析游记数据 NLP自然语言解决—主题模型LDA案例:开掘人民网留言板文本数据 Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本开掘新闻组数据集 自然语言解决NLP:主题LDA、情感剖析疫情下的新闻文本数据 R语言对NASA元数据进行文本开掘的主题建模剖析 R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 用于NLP的Python:应用Keras进行深度学习文本生成 长短期记忆网络LSTM在工夫序列预测和文本分类中的利用 用Rapidminer做文本开掘的利用:情感剖析 R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研 R语言对推特twitter数据进行文本情感剖析 Python应用神经网络进行简略文本分类 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 R语言文本开掘应用tf-idf剖析NASA元数据的关键字 R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据 Python应用神经网络进行简略文本分类 R语言自然语言解决(NLP):情感剖析新闻文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言对推特twitter数据进行文本情感剖析 R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析 R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation)R语言对NASA元数据进行文本开掘的主题建模剖析 R语言文本开掘、情感剖析和可视化哈利波特小说文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 用于NLP的Python:应用Keras进行深度学习文本生成 长短期记忆网络LSTM在工夫序列预测和文本分类中的利用 用Rapidminer做文本开掘的利用:情感剖析 R语言文本开掘tf-idf,主题建模,情感剖析,n-gram建模钻研 R语言对推特twitter数据进行文本情感剖析 Python应用神经网络进行简略文本分类 用于NLP的Python:应用Keras的多标签文本LSTM神经网络分类 R语言文本开掘应用tf-idf剖析NASA元数据的关键字 R语言NLP案例:LDA主题文本开掘优惠券举荐网站数据 Python应用神经网络进行简略文本分类 R语言自然语言解决(NLP):情感剖析新闻文本数据 Python、R对小说进行文本开掘和档次聚类可视化剖析案例 R语言对推特twitter数据进行文本情感剖析 R语言中的LDA模型:对文本数据进行主题模型topic modeling剖析 R语言文本主题模型之潜在语义剖析(LDA:Latent Dirichlet Allocation) ...

April 5, 2023 · 1 min · jiezi

关于数据挖掘:R语言随机波动模型SV马尔可夫蒙特卡罗法MCMC正则化广义矩估计和准最大似然估计上证指数收益时间序列附代码数据

全文链接:http://tecdat.cn/?p=31162最近咱们被客户要求撰写对于SV模型的钻研报告,包含一些图形和统计输入 本文做SV模型,选取马尔可夫蒙特卡罗法(MCMC)、正则化狭义矩预计法和准最大似然预计法预计。 模仿SV模型的预计办法:sim <- svsim(1000,mu=-9, phi = 0.97, sigma = 0.15)print(sim)summary(sim) plot(sim) 绘制上证指数收益工夫序列图、散点图、自相干图与偏自相干图咱们选取上证指数5分钟高频数据: data=read.csv("上证指数-5min.csv",header=TRUE)#open:开盘价 close:收盘价 vol:成交量 amount:成交额head(data,5) #察看数据的头5行tail(data,5) #察看数据的最初5行Close.ptd<-data$closeClose.rtd<-diff(log(Close.ptd)) #指标一:logReturnrets=diff(data$close)/data$close[-length(data$close)] #指标二:Daily Returns,咱们抉择Daily Returnslibrary(tseries)adf.test(rets)## 绘制上证指数收益工夫序列图、散点图、自相干图与偏自相干图Close.ptd.ts<-ts(Close.ptd,start=c(2005,1,4),freq=242) plot(Close.ptd.ts, type="l",main="(a) 上证指数日收盘价序列图",acf(Close.rtd,main='',xlab='Lag',ylab='ACF',las=1) title(main='(b) 上证指数收益率自相干测验',cex.main=0.95)pacf(Close.rtd,main='',xlab='Lag',ylab='PACF',las=1) title(main='(c) 上证指数收益率偏自相干测验',cex.main=0.95)def.off## Q-Q图、教训累积散布ecdf图、密度图、直方图 qqnorm(Close.rtd,main="(a) 上证指数收益率Q-Q图",cex.main=0.95, xlab='实践分位数',ylab='样本分位数') qqline(Close.rtd) #教训累积散布ecdf图plot(ECD,lwd = 2,main="(b) 上证指数收益率累积散布函数图",cex.main=0.95,las=1) xx <- unique(sort(c(seq(-3, 2, length=24), knots(ECD)))) abline(v = knots(ECD), lty=2, col='gray70') x1 <- c((-4):3) # 设定区间范畴lines(x1,pnorm(x1,mean(Close.rtdC[1:10]),sd(Close.rtd[1:10]))) #密度图plot(D, main="(c) 上证指数核密度曲线图 ",xlab="收益", ylab='密度', xlim = c(-7,7), ylim=c(0,0.5),cex.main=0.95) polygon(D, col="gray", border="black") curve(dnorm,lty = 2, add = TRUE) lines(x2,dnorm(x2,mean=0,sd=1)) abline(v=0,lty = 3) legend("topright", legend=c("核密度","正态密度"),lty=c(1,2),cex=0.5)#直方图hist(Close.rtd[1:100],xaxt='n',main='(d) 上证指数收益率直方图', xlab='收益/100',ylab='密度', freq=F,cex.main=0.95,las=1) lines(x2,dnorm(x2,mean(Close.rtd[1:100]),sd(Close.rtd[1:100]))) axis(1,at=axTicks(1),labels = as.integer(axTicks(1))/100 ) ...

April 5, 2023 · 1 min · jiezi

关于数据挖掘:Python电力负荷ARIMALSTM神经网络时间序列预测分析

全文链接:http://tecdat.cn/?p=32059原文出处:拓端数据部落公众号分析师:Eileen电力系统源源不断向各用户提供继续稳固的电能,本文通过对数据的提取,帮忙客户别离对不同客户端日,月,年的用电负荷状况进行剖析,并通过模型对单户负荷状况进行预测。 解决方案工作/指标本课题的数据分析对象是电力在2011-2014年的370个客户端的耗电数据,依据预测负荷能够安顿发电厂发电机组的启停,升高储备容量的节约,节约老本。   数据源筹备负荷预测是用历史负荷建设模型来预测将来负荷的办法,因而历史数据收集的数量、品质间接决定了负荷预测的准确性。所以在负荷预测前,须要收集大量的历史负荷数据、天气数据等。这些数据因为一些因素可能会造成数据的缺失,须要利用一些办法去填补缺失值,进步负荷预测的精确度。 本我的项目采纳均值填补法,找到所有有缺失值的列,用各列的均值填充缺失值。  数据分析通过曲线类图像,以特定工夫周期所统计的负荷值为纵坐标来画出负荷/工夫的关系曲线,出现负荷的大小及发展趋势。例如年、月、季、天等指标。   划分训练集和测试集对样本集拆分成训练集和测试集 values = reframed.valuesn_train_time = 365*24*3train = values[:n_train_time, :]test = values[n_train_time:, :]思考到最终模型会预测未来的某时间段的数据,为了更实在的测试模型成果,以工夫来切分训练集和测试集。具体做法如下:假如咱们有2011-2014的客户端耗电数据。以2011 ~ 2013的数据作为训练,以2013 ~ 2014的数据作为测试。 建模LSTM 模型, 工夫序列预测剖析就是利用过来一段时间内某事件工夫的特色来预测将来一段时间内该事件的特色,将问题转化为监督学习问题。将特色进行规范化、归一化,进而搭建网络模型、训练网络。 ARIMA , 个别利用在股票和电商销量畛域 该模型用于应用察看值和滞后察看值的挪动均匀模型残差间的依赖关系,我采纳了拟合ARIMA(5,1,0)模型,将自回归的滞后值设为5,应用1的差分阶数使工夫序列安稳,应用0的挪动均匀模型。 在此案例中,使用2种办法预测电力负荷,其可视化图形如下: ARIMA模型 LSTM模型 能够看出,预测值的趋势曾经根本与实在趋势保持一致,然而在预测期较长的区间段,其预测值之间的差异较大。 对于分析师 在此对Eileen对本文所作的奉献示意诚挚感激,她专一数据处理、数据分析、数据预测畛域。善于Python、数据分析。 最受欢迎的见解 1.R语言实现CNN(卷积神经网络)模型进行回归 2.r语言实现拟合神经网络预测和后果可视化 3.python用遗传算法-神经网络-含糊逻辑控制算法对乐透剖析 4.R语言联合新冠疫情COVID-19股票价格预测:ARIMA,KNN和神经网络工夫序列剖析 5.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格工夫序列和MSE评估准确性 6.Matlab用深度学习长短期记忆(LSTM)神经网络对文本数据进行分类 7.用于NLP的seq2seq模型实例用Keras实现神经机器翻译 8.R语言用FNN-LSTM假近邻长短期记忆人工神经网络模型进行工夫序列深度学习预测 9.Python用RNN循环神经网络:LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数工夫序列预测

April 5, 2023 · 1 min · jiezi

关于数据挖掘:Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析附代码数据

全文下载链接:http://tecdat.cn/?p=17748最近咱们被客户要求撰写对于销售量工夫序列建模的钻研报告,包含一些图形和统计输入。 在本文中,在数据迷信学习之旅中,我常常解决日常工作中的工夫序列数据集,并据此做出预测 我将通过以下步骤: 探索性数据分析(EDA)问题定义(咱们要解决什么)变量辨认(咱们领有什么数据)单变量剖析(理解数据集中的每个字段)多元分析(理解不同畛域和指标之间的相互作用)缺失值解决离群值解决变量转换预测建模LSTMXGBoost问题定义咱们在两个不同的表中提供了商店的以下信息: 商店:每个商店的ID销售:特定日期的营业额(咱们的指标变量)客户:特定日期的客户数量StateHoliday:假日SchoolHoliday:学校假期StoreType:4个不同的商店:a,b,c,dCompetitionDistance:到最近的竞争对手商店的间隔(以米为单位)CompetitionOpenSince [月/年]:提供最近的竞争对手凋谢的大抵年份和月份促销:当天促销与否Promo2:Promo2是某些商店的间断和间断促销:0 =商店不参加,1 =商店正在参加PromoInterval:形容促销启动的间断区间,并指定从新开始促销的月份。利用所有这些信息,咱们预测将来6周的销售量。 # 让咱们导入EDA所需的库:import numpy as np # 线性代数import pandas as pd # 数据处理,CSV文件I / O导入(例如pd.read_csv)import matplotlib.pyplot as pltimport seaborn as snsfrom datetime import datetimeplt.style.use("ggplot") # 绘图#导入训练和测试文件:train_df = pd.read_csv("../Data/train.csv")test_df = pd.read_csv("../Data/test.csv")#文件中有多少数据:print("在训练集中,咱们有", train_df.shape[0], "个察看值和", train_df.shape[1], 列/变量。")print("在测试集中,咱们有", test_df.shape[0], "个察看值和", test_df.shape[1], "列/变量。")print("在商店集中,咱们有", store_df.shape[0], "个察看值和", store_df.shape[1], "列/变量。")在训练集中,咱们有1017209个察看值和9列/变量。 在测试集中,咱们有41088个观测值和8列/变量。 在商店集中,咱们有1115个察看值和10列/变量。 首先让咱们清理  训练数据集。 #查看数据train_df.head().append(train_df.tail()) #显示前5行。 train_df.isnull().all()Out[5]:Store            FalseDayOfWeek        FalseDate             FalseSales            FalseCustomers        FalseOpen             FalsePromo            FalseStateHoliday     FalseSchoolHoliday    Falsedtype: bool让咱们从第一个变量开始->  销售量 opened_sales = (train_df[(train_df.Open == 1) #如果商店停业opened_sales.Sales.describe()Out[6]:count    422307.000000mean       6951.782199std        3101.768685min         133.00000025%        4853.00000050%        6367.00000075%        8355.000000max       41551.000000Name: Sales, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c38fa6588> 看一下顾客变量 In [9]:train_df.Customers.describe()Out[9]:count    1.017209e+06mean     6.331459e+02std      4.644117e+02min      0.000000e+0025%      4.050000e+0250%      6.090000e+0275%      8.370000e+02max      7.388000e+03Name: Customers, dtype: float64<matplotlib.axes._subplots.AxesSubplot at 0x7f7c3565d240> train_df[(train_df.Customers > 6000)] 咱们看一下**假期** 变量。 train_df.StateHoliday.value_counts()0    8550870    131072a     20260b      6690c      4100Name: StateHoliday, dtype: int64train_df.StateHoliday_cat.count()1017209train_df.tail() train_df.isnull().all() #查看缺失Out[18]:Store               FalseDayOfWeek           FalseDate                FalseSales               FalseCustomers           FalseOpen                FalsePromo               FalseSchoolHoliday       FalseStateHoliday_cat    Falsedtype: bool让咱们持续进行商店剖析 store_df.head().append(store_df.tail()) #缺失数据:Store                         0.000000StoreType                     0.000000Assortment                    0.000000CompetitionDistance           0.269058CompetitionOpenSinceMonth    31.748879CompetitionOpenSinceYear     31.748879Promo2                        0.000000Promo2SinceWeek              48.789238Promo2SinceYear              48.789238PromoInterval                48.789238dtype: float64In [21]:让咱们从缺失的数据开始。第一个是 CompetitionDistance store_df.CompetitionDistance.plot.box()让我看看异样值,因而咱们能够在均值和中位数之间进行抉择来填充NaN 点击题目查阅往期内容 Python中利用长短期记忆模型LSTM进行工夫序列预测剖析 - 预测电力负荷数据 左右滑动查看更多 01 02 03 04 短少数据,因为商店没有竞争。 因而,我倡议用零填充缺失的值。store_df["CompetitionOpenSinceMonth"].fillna(0, inplace = True)让咱们看一下促销流动。 store_df.groupby(by = "Promo2", axis = 0).count() 如果未进行促销,则应将“促销”中的NaN替换为零  咱们合并商店数据和训练集数据,而后持续进行剖析。 第一,让咱们按销售量、客户等比拟商店。 f, ax = plt.subplots(2, 3, figsize = (20,10))plt.subplots_adjust(hspace = 0.3)plt.show() 从图中能够看出,StoreType A领有最多的商店,销售和客户。然而,StoreType D的均匀每位客户均匀收入最高。只有17家商店的StoreType B领有最多的均匀顾客。 咱们逐年查看趋势。 sns.factorplot(data = train_store_df, # 咱们能够看到季节性,但看不到趋势。 该销售额每年放弃不变<seaborn.axisgrid.FacetGrid at 0x7f7c350e0c50> 咱们看一下相干图。   "CompetitionOpenSinceMonth", "CompetitionOpenSinceYear", "Promo2<matplotlib.axes._subplots.AxesSubplot at 0x7f7c33d79c18> 咱们能够失去相关性: 客户与销售(0.82)促销与销售(0,82)均匀顾客销量 vs促销(0,28)商店类别 vs 均匀顾客销量 (0,44)我的剖析论断:商店类别 A领有最多的销售和顾客。商店类别 B的每位客户均匀销售额最低。因而,我认为客户只为小商品而来。商店类别 D的购物车数量最多。促销仅在工作日进行。客户偏向于在星期一(促销)和星期日(没有促销)购买更多商品。我看不到任何年度趋势。仅季节性模式。 点击文末 “浏览原文” 获取全文残缺代码数据资料。 本文选自《Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析》。 ...

April 4, 2023 · 1 min · jiezi

关于数据挖掘:MCMC的rstan贝叶斯回归模型和标准线性回归模型比较附代码数据

原文链接:http://tecdat.cn/?p=25453最近咱们被客户要求撰写对于贝叶斯回归的钻研报告,包含一些图形和统计输入。 当初有了对贝叶斯办法的概念了解,咱们将理论钻研应用它的回归模型 为了简略起见,咱们从回归的规范线性模型开始。而后增加对采样散布或先验的更改。咱们将通过 R 和相干的 R 包 rstan 应用编程语言 Stan。 示例:线性回归模型在下文中,咱们将设置一些初始数据,并应用规范 lm 函数运行模型比拟。 设置首先,咱们须要创立在此处应用的数据。 # 设置可复制种子set.seed(8675309)# 运行 lm 以供稍后比拟; 但如果须要,请立刻查看modlm = lm(y~., data=data.frame)此时咱们有三个协变量和一个 y,它是正态分布线性函数,标准差等于 2。系数的总体值包含截距别离为 5、0.2、-1.5 和 0.9,只管增加了噪声,但样本的理论估计值略有不同。当初咱们筹备好为输出到 Stan 的数据设置一个 R 列表对象,以及对这些数据进行建模的相应 Stan 代码。 我将展现在 R 中通过单个字符串实现的所有 Stan 代码,而后提供每个相应模型块的一些细节。然而,这里的指标不是专一于工具,而是专一于概念。 Stan 的数据列表应包含 Stan 代码中可能应用的任何矩阵、向量或值。例如,与数据一起,能够包含样本大小、组指标(例如混合模型)等。在这里,咱们能够只应用样本大小 (N)、模型矩阵中的列数 (K)、指标变量 (y) 和模型矩阵 (X)。 # 为stan输出创立数据列表对象dat = list接下来是 Stan 代码。在 R2OpenBugs 或 rjags 中,能够应用代码调用独自的文本文件,并且能够对 rstan 执行雷同操作,但出于咱们的目标,咱们在 R 代码中显示它。首先要留神的是模型代码。接下来,Stan 有必须按顺序调用的编程块。我将在代码中列出所有块来记录它们的程序并顺次探讨每个块。// 或 # 之后或 / **/ 之间的任何内容都是与代码相干的正文。而散布用 ∼∼ 指定,例如, y ~ normal(0, 1) 示意 y 正态分布,均值为 0,标准差为 1。 ...

April 4, 2023 · 1 min · jiezi