算法 | 乐趣区

关于算法:R语言乘法GARCH模型对高频交易数据进行波动性预测

原文链接：http://tecdat.cn/?p=22692 原文出处：拓端数据部落公众号在过来十年中，人们对高频交易和模型的趣味成倍增长。尽管我对高频乐音中呈现信号的有效性有一些狐疑，但我还是决定应用GARCH模型钻研一下收益率的统计模型。与每日和较低频率的收益不同，日内高频数据有某些非凡的特点，使得应用规范的建模办法是有效的。在这篇文章中，我将应用花旗集团2008年1月2日至2008年2月29日期间的1分钟收益率。这个数据集删除了异样值。思考的日内工夫范畴是09:30至16:00，即证券交易所的正式交易工夫。与大多数此类对于日内数据建模的钻研一样，当天的第一个收益被删除。每日数据从雅虎财经下载。 getSymbols('C')C = adjustOHLC(C, use.Adjusted = TRUE)R_d = ROC(Cl(C), na.pad = FALSE)考虑一下花旗集团在上述样本期间的1分钟相对收益的相干图。 acf(abs((R_i)) 有法则的模式非常明显，大概每 390 个周期（1 天）反复一次，并显示出收盘和开盘时的波动性减少。GARCH，以及更广泛的ARMA模型只能解决指数衰减，而不是这里看到的那种模式。为了使相对收益去节令化，文献中提出了几种办法，如Andersen和Bollerslev（1997）的灵便傅里叶办法，以及Bollerslev和Ghysels（1996）的定期GARCH模型。然而，我发现这些模型都不太容易操作。Engle和Sokalska（2012）（以下简称ES2012）引入了乘法重量GARCH模型作为一种简略的代替办法。本文探讨了它的实现、挑战和应用这个模型的具体细节。模型思考间断复利收益率 r_{t,i} ，其中 t 示意一天， i 示意计算收益率的定期间隔时间。在这个模型下，条件方差是每日和随机（日内）成分的乘积，因而，收益能够示意为：。其中 q_{t,i}是随机的日内稳定率，sigma\_t是每日外生确定的预测稳定率， s\_i是每个定期距离 i 的日稳定率。预测稳定率 sigma_t是由内部的多因素危险模型得出的，然而同样能够从每日 GARCH 模型中产生这种预测。该过程的季节性局部定义为：。用残差除以稳定率和日稳定率，就失去了归一化残差。而后能够用它来生成稳定率的随机重量 q_{t,i} 与 GARCH 的动静关系。接下来的章节提供了一个应用花旗集团数据集的模型演示。估算模型要求用户传递一个xts对象，即所思考期间的数据的预测日方差。 # 定义一个日模型spec(list(armaOrder = c(1, 1)))# 应用ugarchroll办法创立一个滚动的预测roll(spec)#提取sigma 预测sigma = as.xts(df\[, 'Sigma'\])#当初预计日内模型spec( list(model = 'mcsGARCH'))# DailyVar是预测日方差的必要xts对象fit(data = R, spec, Var = sigma^2)上面的图表显示了将稳定率合成为其不同的组成部分。应用规范的 GARCH 模型不可能捕捉到总稳定率的法则模式。 plot(fit@DiurnalVar^0.5)) 预测为预测编写代码的最大挑战是解决工夫的对齐和匹配问题，特地是将来的工夫/日期，因为该模型依赖于日内重量，而日内重量是特定的。与预计办法一样，预测程序也要求提供所思考的期间的预测稳定率。咱们用ugarchforecast估算。 forecast(fit2, n.ahead = 10, n.roll = 299, f_sigma^2) 仿真与规范的GARCH仿真不同，区间工夫在日内GARCH中很重要，因为咱们生成的门路是遵循十分具体的定期抽样的工夫点。此外，须要再次提供所思考的模仿期的模仿或预测日方差。这是一个xts对象，也能够抉择有m.sim列，这样每个独立的模仿都是基于日方差独立模仿的调整残差。上面的示例代码显示了对将来1分钟距离的10,000个点的模仿，并阐明了季节性成分的影响。 # dtime蕴含了数据集中惟一的区间点的汇合# (可从mcsGARCH模型的所有rugarch对象中取得)sim = sim(fit, n.sim = 10000,Var = var_sim)#plot(as.numeric(sim@simulation$DiurnalVar^0.5), type = 'l') 滚动的回测和危险值ugarchroll函数对于在回测利用中测试模型的充分性十分有用，上面的代码阐明了模型在数据期间的状况。 n = length(index(R_d\['2008-01-01/2008-03-01'\]))roll(spec, data = R, refit.window = 'moving') 成果比拟现实。如下图所示，VaR能很好地解决日内数据。察看到的VaR峰值是收盘前后的季节性因素造成的。 D = as.POSIXct(rownames(roll@forecast$VaR))VaRplot(0.01, actual = xts(roll@forecast$VaR\[, 3\], D), VaR = xts(roll@forecast$VaR\[,1\], D)) 瞻望在乘法模型中减少额定的GARCH模型是十分 "容易 "的，如eGARCH、GJR等。另一个可能的扩大方向是别离解决一周中每一天的昼夜效应。最初，这个模型不是 "上手即用 "的，须要在筹备日内收益率数据时进行一些思考。参考文献Bollerslev, T., & Ghysels, E. (1996). Periodic autoregressive conditional heteroscedasticity. Journal of Business & Economic Statistics, 14(2), 139–151. ...

关于算法:算法电话号码字母组合

【问题】电话号码的字母组合给定一个仅蕴含数字 2-9 的字符串，返回所有它能示意的字母组合。给出数字到字母的映射如下（与电话按键雷同）。留神 1 不对应任何字母。 public static void main(String[] args) { char[][] strMap = new char[][]{ {}, // 0 {}, // 1 {'a', 'b', 'c'}, // 2 {'d', 'e', 'f'}, // 3 {'g', 'h', 'i'}, // 4 {'j', 'k', 'l'}, // 5 {'m', 'n', 'o'}, // 6 {'p', 'q', 'r', 's'}, // 7 {'t', 'u', 'v'}, // 8 {'w', 'x', 'y', 'z'} // 9 }; dfs(strMap, new char[]{'2', '3', '4'}, 0, ""); } private static void dfs(char[][] strMap, char[] digit, int h, String combineStr) { if (h == digit.length) { // 递归终止条件 System.out.println(combineStr); // 间接打印了更清晰明了 return; } for (int i = 0; i < strMap[digit[h] - '0'].length; i++) { combineStr += strMap[digit[h] - '0'][i]; // 加上以后遍历的字符 dfs(strMap, digit, h + 1, combineStr); combineStr = combineStr.substring(0, combineStr.length() - 1); // 减去减少的字符 } }打印后果 ...

关于算法:R语言社区主题检测算法应用案例

原文链接：http://tecdat.cn/?p=5658原文出处：拓端数据部落公众号创立主题网络通过剖析文本和独特作者社交网络来钻研社会科学、计算机和信息学方面的出版物。我遇到的一个问题是：如何掂量主题之间的关系（相关性）？我想创立一个连贯相似主题的网络可视化，并帮忙用户更轻松地浏览大量主题。数据筹备咱们的第一步是加载LDA输入的主题矩阵。LDA有两个输入：词主题矩阵和文档主题矩阵。作为加载文件的代替办法，您能够应用topicmodels包lda函数的输入来创立单词主题和文档主题矩阵。 # 加载到作者主题矩阵中，第一列是单词author.topic <- read.csv("topics.csv", stringsAsFactors = F)# 加载到单词-主题矩阵中，第一列是单词# 重命名主题colnames(author.topic) <- c("author\_name",name$topic\_name)与规范LDA不同，我运行了“以作者为核心”的LDA，其中所有作者的摘要被合并并被视为每个作者的一个文档。这是因为我的最终目标是应用主题建模作为信息检索过程来确定钻研人员的专业知识。创立动态网络在下一步中，我应用每个主题的单词概率之间的相关性创立一个网络。首先，我决定只保留具备显着相关性（0.2+相关性）的关系（边）。我应用0.2，因为它对100个察看样本具备0.05的统计显着性程度。 cor_threshold <- .2接下来，咱们应用相关矩阵来创立igraph数据结构，删除所有具备小于0.2最小阈值相关性的边。library(igraph)让咱们绘制一个简略的igraph网络。title( cex.main=.8) 每个数字代表一个主题，每个主题都有编号辨认它。应用社区检测，特地是igraph中的标签流传算法来确定网络中的群集。 clp <- cluster\_label\_prop(graph)class(clp)社区检测发现了13个社区，以及多个孤立主题的社区（即没有任何分割的主题）。与我最后的察看后果相似，该算法找到了咱们在第一个图中辨认的三个次要聚类，但也增加了其余较小的聚类，这些聚类仿佛不适宜三个次要聚类中的任何一个。 V(graph)$community <- clp$membershipV(graph)$degree <- degree(graph, v = V(graph))动静可视化在本节中，咱们将应用visNetwork交互式网络图。首先，让咱们调用库并运行visIgraph交互式网络，设置在igraph构造（图形）上运行。咱们通过创立visNetwork数据结构，而后将列表分成两个数据帧：节点和边。 data <- toVisNetworkData(graph)nodes <- data\[\[1\]\]删除没有连贯的节点（主题）（度= 0）。 nodes <- nodes\[nodes$degree != 0,\]增加色彩和其余网络参数来改善网络。 library(RColorBrewer)col <- brewer.pal(12, "Set3")\[as.factor(nodes$community)\]nodes$shape <- "dot"s$betweenness))+.2)*20 # 节点大小nodes$color.highlight.background <- "orange"最初，用交互式图表创立咱们的网络。您能够应用鼠标滚轮进行缩放。 visNetwork(nodes, edges) %>%visOptions(highlightNearest = TRUE, selectedBy = "community", nodesIdSelection = TRUE)首先，有两个下拉菜单。第一个下拉列表容许您按名称查找任何主题（按单词概率排名前五个单词）。第二个下拉列表突出显示了咱们算法中检测到的社区。最大的三个仿佛是：计算（灰色，簇4）社交（绿蓝，簇1）衰弱（黄色，簇2）检测到的较小社区有什么独特之处？你能解释一下吗？最受欢迎的见解 1.探析大数据期刊文章钻研热点 2.618网购数据盘点-剁手族在关注什么 3.r语言文本开掘tf-idf主题建模，情感剖析n-gram建模钻研 4.python主题建模可视化lda和t-sne交互式可视化 5.疫情下的新闻数据察看 6.python主题lda建模和t-sne可视化 7.r语言中对文本数据进行主题模型topic-modeling剖析 8.主题模型：数据凝听人民网留言板的那些“网事” 9.python爬虫进行web抓取lda主题语义数据分析

关于算法:PYTHON中用PROPHET模型对天气时间序列进行预测与异常检测

原文链接：http://tecdat.cn/?p=22673 办法Prophet异样检测应用了Prophet工夫序列预测。根本的Prophet模型是一个可分解的单变量工夫序列模型，联合了趋势、季节性和节假日效应。该模型预测还包含一个围绕预计的趋势局部的不确定性区间。另外，齐全的贝叶斯推断也能够以减少计算量为代价。而后，不确定性区间的下限和下限值能够作为每个工夫点的离群点阈值。首先，计算从观测值到最近的不确定度边界（下限或上限）的间隔。如果察看值在边界内，离群点得分等于负间隔。因而，当观测值与模型预测值相等时，离群点得分最低。如果察看值在边界之外，得分等于间隔测量，察看值被标记为离群点。然而，该办法的一个次要毛病是，当新的数据进来时，你须要从新调整模型。这对于具备实时检测的利用来说是不可取的。数据集这个例子应用了地球化学研究所记录的天气工夫序列数据集。该数据集蕴含14个不同的特色，如空气温度、大气压力和湿度。这些都是在2003年开始，每10分钟收集一次。咱们只应用2009年至2016年期间收集的数据。 import matplotlib.pyplot as pltimport numpy as npimport osimport pandas as pdimport tensorflow as tf加载数据集df = pd.read\_csv(csv\_path)df\['Date Time'\] = pd.to_datetime(df\['Date Time'\], format='%d.%m.%Y %H:%M:%S')df.head() 抉择子集来测试Prophet模型。 ``````n_prophet = 10000Prophet模型须要失去一个有两列的DataFrame：一列名为ds，蕴含工夫戳，一列名为y，蕴含要评估的工夫序列。咱们只看温度数据。 print(df_T.shape)df_T.head() plt.plot(df\_T\['ds'\], df\_T\['y'\]) 加载或定义离群检测你能够将预训练的模型保留在本地目录的文件门路中，并加载检测模型。或者，你也能够从头开始训练一个检测模型。 filepath = 'my_path' # 改为下载模型的目录if outlier_detector: # 加载预训练的离群检测器 filepath = os.path.join(filepath, detector_name)else: # 初始化、拟合并保留离群检测 od.fit(df_T)请查看文档以及原始的Prophet文档，理解如何定制基于Prophet的异样值检测器，并增加季节性因素、假期、抉择饱和逻辑增长模型或利用参数正则化。预测测试数据中的异样值定义测试数据。重要的是，测试数据的工夫与训练数据统一。上面咱们通过比拟测试数据框的前几行和训练数据框的最初几行来查看这一点。 df\_T\_test = pd.DataFrame(data=d) df_T.tail() 预测测试数据的异样值。 predict( df\_T\_test)后果可视化咱们能够用Prophet将咱们的预测后果可视化。包含历史预测。 model.predict(future)model.plot(forecast) 咱们还能够绘制预测中不同成分的细分。预测的不确定性区间是由外推趋势的MAP估计值决定的。 plot_component(forecast) 很显著，咱们对将来的预测越远，决定离群值阈值的不确定性区间就越大。让咱们把理论数据与离群点阈值的下限和上限预测值叠加起来，查看咱们预测的离群点在哪里。 plot(x='ds', y=\['y', 'yhat', 'yhat\_upper', 'yhat\_lower'\]) 异样点的得分和预测。 np.zeros(n_periods)plot(x='ds', y=\['score', 'threshold'\]) 当咱们进一步预测将来时，随着不确定性的减少，离群点的分数天然呈降落趋势。让咱们来看看一些个别的离群值。 outlier = fcst.loc\[fcst\['score'\] > 0\]print((outlier.shape\[0\])) 最受欢迎的见解 1.在python中应用lstm和pytorch进行工夫序列预测 2.python中利用长短期记忆模型lstm进行工夫序列预测剖析 3.应用r语言进行工夫序列（arima，指数平滑）剖析 4.r语言多元copula-garch-模型工夫序列预测 5.r语言copulas和金融工夫序列案例 6.应用r语言随机稳定模型sv解决工夫序列中的随机稳定 7.r语言工夫序列tar阈值自回归模型 8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类 9.python3用arima模型进行工夫序列预测

关于算法:数据结构链表

把数组转成链表 var head = [1, 2, 3, 4, 5] function arrayToListNode(arr) { if (arr.length === 0) return null; let head = { val: arr[0], next: null } let pre = head; for (let i = 1; i < arr.length; i++) { pre.next = { val: arr[i], next: null } pre = pre.next // let node = { val: arr[i], next: null } // pre.next = node; // pre = node } return head } head = arrayToListNode(head) console.log('head', head)

关于算法:R语言状态空间模型和卡尔曼滤波预测酒精死亡人数时间序列

原文链接：http://tecdat.cn/?p=22665 摘要状态空间建模是一种高效、灵便的办法，用于对大量的工夫序列和其余数据进行统计推断。本文介绍了状态空间建模，其观测值来自指数族，即高斯、泊松、二项、负二项和伽马散布。在介绍了高斯和非高斯状态空间模型的根本实践后，提供了一个泊松工夫序列预测的说明性例子。最初，介绍了与拟合非高斯工夫序列建模的其余办法的比拟。绪论状态空间模型为几种类型的工夫序列和其余数据的建模提供了一个对立的框架。结构性工夫序列、自回归综合挪动均匀模型（ARIMA）、简略回归、狭义线性混合模型和三次样条平滑模型只是一些能够示意为状态空间模型的统计模型的例子。最简略的一类状态空间模型是线性高斯状态空间模型（也被称为动静线性模型），常常被用于许多迷信畛域。高斯状态空间模型本节将介绍无关高斯状态空间模型实践的要害概念。因为卡尔曼滤波（Kalman filtering）背地的算法次要是基于Durbin和Koopman（2012）以及同一作者的相干文章。对于具备间断状态和离散工夫距离的线性高斯状态空间模型t=1, . . . ，n，咱们有其中t∼N（0，Ht），t∼N（0，Qt）和1∼N（a1，P1）互相独立。咱们假如yt是一个p×1，t+1是一个m×1，t是一个k×1的向量。 = ( > 1 , . . . , > n ) >，同样y = (y > 1 , . . , y> n ) >。状态空间建模的次要指标是在给定观测值y的状况下取得潜状态的常识。这能够通过两个递归算法实现，即卡尔曼滤波和平滑算法。从卡尔曼滤波算法中，咱们能够失去先行一步的预测后果和预测误差和相干的协方差矩阵利用卡尔曼滤波的后果，咱们建设了状态平滑方程，在工夫上向后运行，产生了对于烦扰项t和t，对于信号t = Ztt，也能够计算相似的平滑预计。高斯状态空间模型的例子当初通过例子来阐明。咱们的工夫序列包含1969-2007年40-49岁年龄组每年每10万人中酒精相干的死亡人数（图1）。数据取自统计局。对于观测值 y1, ... . , yn，咱们假如在所有t = 1, . . . , n，其中t是一个随机游走的漂移过程 t∼N(0, 2 )。假如咱们没有对于初始状态1或斜率的先验信息。这个模型能够用状态空间的模式来写，定义为在KFAS中，这个模型能够用以下代码来写。为了阐明问题，咱们手动定义所有的零碎矩阵，而不采纳默认值。 R> Zt <- matrix(c(1, 0), 1, 2)R> model_gaussian <-Model(deaths / population ~ -1 +custom(Z = Zt)第一个参数是定义观测值的公式（左侧~）和状态方程的构造（右侧）。这里死亡人数/人口是一个单变量工夫序列，状态方程是用矩阵来定义的，为了放弃模型的可识别性，截距项用-1省略。观测程度方差通过参数H定义，NA值代表未知方差参数 2和 2 。预计之后，进行过滤和平滑递归。 KF(fit_gaussian)在这种状况下，最大似然估计值对于 2是9.5，对于 2 是4.3。从卡尔曼滤波算法中，咱们失去了对状态的一步超前预测，at = (µt , t) 。请留神，即便斜率项在咱们的模型中被定义为工夫不变量（t = ），它也是由卡尔曼滤波算法递归预计的。因而，在每个工夫点t，当新的观测值yt可用时，的估计值被更新，以思考到yt所提供的新信息。在卡尔曼滤波完结时，an+1给出了咱们对所有数据下恒定斜率项的最终预计。这里斜率项被预计为0.84，标准误差为0.34。对于µt，卡尔曼滤波给出了一步的预测，然而因为状态是时变的，如果咱们对t=1, ..., n的µt估计值感兴趣，咱们还须要运行平滑算法。n的估计值。 ...

关于算法:FBNetFBNetV2FBNetV3Facebook在NAS领域的轻量级网络探索-轻量级网络

FBNet系列是齐全基于NAS办法的轻量级网络系列，剖析以后搜寻办法的毛病，逐渐减少创新性改良，FBNet联合了DNAS和资源束缚，FBNetV2退出了channel和输出分辨率的搜寻，FBNetV3则是应用准确率预测来进行疾速的网络结构搜寻起源：晓飞的算法工程笔记公众号FBNet论文: FBNet: Hardware-Aware Efficient ConvNet Design via Differentiable Neural Architecture Search | CVPR 2019 论文地址：https://arxiv.org/abs/1812.03443论文代码：https://github.com/facebookresearch/mobile-visionIntroduction 近期卷积网络的设计除了重视准确率之外，还须要兼顾运行性能，特地是在挪动设施上的运行性能，这使得卷积神经网络的设计变得更加难，次要有以下难点： Intractable design space，因为卷积网络参数很多，导致设计空间十分复杂，目前很多办法提出自动化搜寻，可能简化人工设计的流程，但这种办法个别须要大量的算力。Nontransferable optimality，卷积网络的性能取决于很多因素，比方输出分辨率和指标设施，不同的分辨率须要调整不同的网络参数，而雷同block在不同的设施上的效率也可能大不相同，所以须要对网络在特定的条件下进行特定的调优。Inconsistent efficiency metrics，大多数效率指标不仅与网络结构相干，也和指标设施上的软硬件设置无关。为了简化，很多钻研都采纳硬件无关的指标来示意卷积的效率，比方FLOPs，但FLOPs并不能总等同于性能，还跟block的实现形式相干，这使得网络的设计更加艰难。为了解决以上问题，论文提出FBNet，应用可微神经网络搜寻(DNAS)来发现硬件相干的轻量级卷积网络，流程如图1所示。DNAS办法将整体的搜寻空间示意为超网，将寻找最优网络结构问题转换为寻找最优的候选block散布，通过梯度降落来训练block的散布，而且能够为网络每层抉择不同的block。为了更好的预计网络的时延，事后测量并记录了每个候选block的理论时延，在估算时间接依据网络结构和对应的时延累计即可。 Method DNAS将网络结构搜寻问题公式化为：给定构造空间$\mathcal{A}$，寻找最优的构造$a\in \mathcal{A}$，在训练好权值$w_a$后，能够满足最小化损失$\mathcal{L}(a, w_a)$，论文次要集中于3个因素：搜寻空间$\mathcal{A}$、思考理论时延的损失函数$\mathcal{L}(a, w_a)$以及高效的搜索算法。 The Search Space 之前的办法大都搜寻单元构造，而后重叠成残缺的网络，但实际上，雷同的单元构造在不同的层对网络的准确率和时延的影响是大不相同的。为此，论文结构了整体网络结构(macro-architecture)固定的layer-wise搜寻空间，每层能够抉择不同构造的block，整体网络结构如表1所示，前一层和后三层的构造是固定的，其余层的构造须要进行搜寻。后面的层因为特色分辨率较大，人工设定了较小的核数量以保障网络的轻量性。 layer-wise搜寻空间如图3所示，基于MobileNetV2和ShuffleNet的经典结构设计，通过设定不同的卷积核大小$K$(3或5)、扩大率$e$以及分组数来结构成不同的候选block。若block的输出和输入分辨率统一，则增加element-wise的shortcut，而若应用了分组卷积，则须要对卷积输入进行channel shuffle。论文的试验蕴含9种候选block，每种block的超参数如表2所示。另外，还有skip构造，间接映射输出到输入，用来缩短整体网络的深度。总体而言，整体网络蕴含22个须要搜寻的层，每层从9个候选block中抉择，共有$9^{22}$种可能的构造。 Latency-Aware Loss Function 公式1中的损失函数不仅要反映准确率，也要反馈指标硬件上的时延。因而，定义以下损失函数： $CE(a, w_a)$示意穿插熵损失，$LAT(a)$示意以后构造在指标硬件上的时延，$\alpha$管制整体损失函数的幅值，$\beta$调整时延项的幅值。时延的计算可能比拟耗时，论文应用block的时延lookup表格来预计网络的的整体： $b^{(a)}_l$为构造$a$中$l$层的block，这种预计办法假如block间的计算互相独立，对CPUs和DSPs等串行计算设施无效，通过这种办法，可能疾速预计$10^{21}$种网络的理论时延。 The Search Algorithm 论文将搜寻空间示意为随机超网，超网为表1整体构造，每层蕴含9个表2的并行block。在推理的时候，候选block被执行的概率为： $\theta_l$蕴含决定$l$层每个候选block采样概率的参数，$l$层的输入可示意为： $m_{l,i}$是$\{0, 1\}$随机变量，依据采样概率随机赋值，层输入为所有block的输入之和。因而，网络结构$a$的采样概率可示意为： ...

关于算法:手把手教你刷搜索

大话搜寻搜寻个别指在无限的状态空间中进行枚举，通过穷尽所有的可能来找到符合条件的解或者解的个数。依据搜寻形式的不同，搜索算法能够分为 DFS，BFS，A*算法等。这里只介绍 DFS 和 BFS，以及产生在 DFS 上一种技巧-回溯。搜寻问题覆盖面十分宽泛，并且在算法题中也占据了很高的比例。我甚至还在公开演讲中提到了前端算法面试中搜寻类占据了很大的比重，尤其是国内公司。搜寻专题中的子专题有很多，而大家所熟知的 BFS，DFS 只是其中特地根底的内容。除此之外，还有状态记录与保护，剪枝，联通重量，拓扑排序等等。这些内容，我会在这里一一给大家介绍。另外即便仅仅思考 DFS 和 BFS 两种根本算法，外面能玩的花色也十分多。比方 BFS 的双向搜寻，比方 DFS 的前中后序，迭代加深等等。对于搜寻，其实在二叉树局部曾经做了介绍了。而这里的搜寻，其实就是进一步的泛化。数据结构不再局限于后面提到的数组，链表或者树。而扩大到了诸如二维数组，多叉树，图等。不过外围依然是一样的，只不过数据结构产生了变动而已。搜寻的外围是什么？实际上搜寻题目实质就是将题目中的状态映射为图中的点，将状态间的分割映射为图中的边。依据题目信息构建状态空间，而后对状态空间进行遍历，遍历过程须要记录和保护状态，并通过剪枝和数据结构等进步搜寻效率。状态空间的数据结构不同会导致算法不同。比方对数组进行搜寻，和对树，图进行搜寻就不太一样。再次强调一下，我这里讲的数组，树和图是状态空间的逻辑构造，而不是题目给的数据结构。比方题目给了一个数组，让你求数组的搜寻子集。尽管题目给的线性的数据结构数组，然而实际上咱们是对树这种非线性数据结构进行搜寻。这是因为这道题对应的状态空间是非线性的。对于搜寻问题，咱们外围关注的信息有哪些？又该如何计算呢？这也是搜寻篇外围关注的。而市面上很多材料讲述的不是很具体。搜寻的外围须要关注的指标有很多，比方树的深度，图的 DFS 序，图中两点间的间隔等等。这些指标都是实现高级算法必不可少的，而这些指标能够通过一些经典算法来实现。这也是为什么我始终强调肯定要先学习好根底的数据结构与算法的起因。不过要讲这些讲述残缺并非容易，以至于如果残缺写完可能须要花很多的工夫，因而始终没有入手去写。另外因为其余数据结构都能够看做是图的特例。因而钻研透图的根本思维，就很容易将其扩大到其余数据结构上，比方树。因而我打算围绕图进行解说，并逐渐具象化到其余非凡的数据结构，比方树。状态空间论断后行：状态空间其实就是一个图构造，图中的节点示意状态，图中的边示意状态之前的分割，这种分割就是题目给出的各种关系。搜寻题目的状态空间通常是非线性的。比方下面提到的例子：求一个数组的子集。这里的状态空间实际上就是数组的各种组合。对于这道题来说，其状态空间的一种可行的划分形式为：长度为 1 的子集长度为 2 的子集。。。长度为 n 的子集（其中 n 为数组长度）而如何确定下面所有的子集呢。一种可行的计划是能够采取相似分治的形式逐个确定。比方咱们能够：先确定某一种子集的第一个数是什么再确定第二个数是什么。。。如何确定第一个数，第二个数。。。呢？暴力枚举所有可能就能够了。这就是搜寻问题的外围，其余都是辅助，所以这句话请务必记住。所谓的暴力枚举所有可能在这里就是尝试数组中所有可能的数字。比方第一个数是什么？很显著可能是数组中任意一项。ok，咱们就枚举 n 种状况。第二个数呢？很显著能够是除了下面曾经被抉择的数之外的任意一个数。ok，咱们就枚举 n - 1 种状况。据此，你能够画出如下的决策树。（下图形容的是对一个长度为 3 的数组进行决策的局部过程，树节点中的数字示意索引。即确定第一个数有三个抉择，确定第二个数会依据上次的抉择变为剩下的两个抉择）决策过程动图演示：一些搜索算法就是基于这个奢侈的思维，实质就是模仿这个决策树。这外面其实也有很多乏味的细节，前面咱们会对其进行更加具体的解说。而当初大家只须要对解空间是什么以及如何对解空间进行遍历有一点概念就行了。前面我会持续对这个概念进行加深。这里大家只有记住状态空间就是图，构建状态空间就是构建图。如何构建呢？当然是依据题目形容了。 DFS 和 BFSDFS 和 BFS 是搜寻的外围，贯通搜寻篇的始终，因而有必要先对其进行解说。 ...

关于算法:R语言用LOESS局部加权回归季节趋势分解STL进行时间序列异常检测

原文链接：http://tecdat.cn/?p=22632 这篇文章形容了一种对波及季节性和趋势成分的工夫序列的中点进行建模的办法。咱们将对一种叫做STL的算法进行钻研，STL是 "应用_LOESS_(部分加权_回归_)的节令-趋势合成 "的缩写，以及如何将其利用于异样检测。其根本思维是，如果你有一个有法则的工夫序列，你能够通过STL算法运行该序列，并拆散出法则的模式。剩下的是 "不规则的"，而异样检测相当于断定不规则性是否足够大。例子：航空乘客，1949-1960让咱们在数据集上运行该算法，该数据集给出了1949-1960年期间每月的航空公司乘客数量。首先，这是未经批改的工夫序列。 plot(y) 这里显然有一个规律性的模式，然而在这个序列中没有任何显著的降落，无奈在异样检测中显示进去。所以咱们将设置一个。 y\[40\] = 150 跌幅足够大，咱们心愿异样检测能发现它，但又不至于大到你只看一眼图就会发现。当初让咱们通过STL查看它。 plot(fit) 首先，我不是在y上运行STL，而是在log(y)上。该算法将序列合成为三个局部：季节性、趋势和残余成分。季节性是周期性成分，趋势是个别的回升/降落，残余成分是剩下的趋势成分。季节性和趋势独特形成了序列的 "惯例 "局部，因而是咱们在异样检测过程中要剔除的局部。残余局部基本上是原始序列的正常化版本，所以这是咱们监测异常情况的局部。残余序列的降落是很显著的。咱们在1952年初设置的异样降落很可能算在内。咱们还能够调整每一时期的观测值数量，负责拆散季节性和趋势成分的平滑办法，拟合模型的 "稳健性"（即对异样值不敏感）等等。这些参数中的大多数须要对根底算法的工作原理有肯定的理解。上面是一些显示理论数据与阈值的代码。 data <- merge(df, ba, by.x='x')ggplot(data) + geom(aes(x=x, ymin=ymin, ymax=ymax)) 再次，聪慧如你可能会留神到通过exp()进行的逆变换。咱们当初探讨这个问题。为什么要进行对数和逆变换？并非所有的合成都波及对数变换，但这个合成却波及。其起因与合成的性质无关。STL的合成总是加法的。 y = s + t + r但对于某些工夫序列，乘法合成更适宜。 y = str这种状况产生在销售数据中，季节性成分的振幅随着趋势的减少而减少。这实际上是乘法序列的标记，航空旅客序列也体现出这种模式。为了解决这个问题，咱们对原始值进行对数转换，这使咱们进入加法畛域，在那里咱们能够进行STL合成。当咱们实现后，咱们再进行逆变换，回到原始序列。多重季节性的状况如何？一些工夫序列有一个以上的季节性。例如，在酒店预订工夫序列有三个季节性：每日、每周和每年。尽管有一些程序能够生成具备多个季节性成分的合成，但STL并没有这样做。最高频率的季节性被作为季节性成分，而任何较低频率的季节性都被排汇到趋势中。最受欢迎的见解 1.在python中应用lstm和pytorch进行工夫序列预测 2.python中利用长短期记忆模型lstm进行工夫序列预测剖析 3.应用r语言进行工夫序列（arima，指数平滑）剖析 4.r语言多元copula-garch-模型工夫序列预测 5.r语言copulas和金融工夫序列案例 6.应用r语言随机稳定模型sv解决工夫序列中的随机稳定 7.r语言工夫序列tar阈值自回归模型 8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类 9.python3用arima模型进行工夫序列预测

关于算法:NetAdaptMobileNetV3用到的自动化网络简化方法-ECCV-2018

NetAdapt的思维奇妙且无效，将优化指标分为多个小指标，并且将理论指标引入到优化过程中，可能自动化产生一系列平台相干的简化网络，不仅搜寻速度快，而且失去简化网络在准确率和时延上都于较好的体现起源：晓飞的算法工程笔记公众号论文: NetAdapt: Platform-Aware Neural Network Adaptation for Mobile Applications 论文地址：https://arxiv.org/abs/1804.03230论文代码：https://github.com/denru01/netadaptIntroduction 轻量化网络次要有两种办法，别离为构造优化以及人工量化，然而以上两种办法都不能保障网络可能在不同的设施上都有较优的体现，而且目前的办法大都以非间接指标(计算量/参数量)作为领导，往往与理论后果有出入。为此，论文提出平台相干的自动化网络简化办法NetAdapt，逻辑如图1所示，以迭代优化的形式缓缓获取满足预期资源耗费的网络。NetAdapt将资源间接指标引入优化过程，可同时反对多种资源束缚，可能疾速搜寻平台相干的简化网络。 Methodology: NetAdaptProblem Formulation NetAdapt次要指标是解决以下非凸束缚优化问题： $Net$是从初始预训练网络简化失去的网络，$Acc(\cdot)$是准确率计算，$Res_j (\cdot)$是对资源$j$的耗费计算，$Bud_j$是资源$j$的总量，也是优化的约束条件，能够为时延、能耗、内存或其它。 NetAdapt将上述优化指标分成多个小指标进行迭代优化： $Net_i$是第$i$次迭代产生的准确率最高的网络，$Net_0$是初始预训练模型。随着迭代次数的减少，网络的资源耗费会变得更少，$\Delta R_{i,j}$代表$i$次迭代中资源$j$的缩减量，整体的想法相似于学习率调度。当$Res_j(Net_{i-1})-\Delta R_{i,j}=Bud_j$满足所有资源时，算法终止，输入每一轮迭代优化中最优的网络，从中抉择适合的网络。 Algorithm Overview 假如以后优化指标只有时延，可采纳缩小卷积层或全连贯层的核数量进行材料耗费的优化，NetAdapt的算法逻辑如Algorithm 1所示。图2是每次迭代的细节，逐层(也能够网络unit为单位)抉择保留的核数量(Choose # of Filters)以及保留的核(Choose Which Filters)，核数量的抉择基于教训预计(前面会讲到)，留神这里抉择去除整个核而不是其中的一些权值，比方$512\times 3\times 3$的卷积核缩减为$256\times 3\times 3$的卷积核，去除核后要去除对应的特色图。每层的优化都产生一个简化后的网络，简化后的网络随后进行短时间fine-tune(Short-Term Fine-Tune)来复原准确率。在上述操作实现后，NetAdapt单次迭代产生$K$个简化网络，抉择其中准确率最高的网络作为下一轮迭代的初始网络(Pick Highest Accuracy)。若以后迭代的网络已满足资源要求时，退出优化并将每次迭代产生的最优网络fine-tune直到收敛(Long-Term Fine-Tune)。 Algorithm DetailsChoose Number of Filters 以后层抉择的核数量基于教训预计来决定，逐渐缩小核数量并计算每个简化网络的资源耗费，抉择能满足以后资源耗费束缚的最大核数量。当缩小以后层的核数量时，后一层的相干维度要对应批改，这个也要思考到资源耗费计算中。 Choose Which Filters 有很多办法来决定抉择保留的核，论文采纳简略magnitude-based办法，即抉择$N$个L2-norm最大的核，$N$由下面的步骤决定。 Short-/Long-Term Fine-Tune 在NetAdapt的每次迭代中，都应用绝对较小的次数(short-term)fine-tune搜寻到的简化网络来复原准确率，这一步对于小网络而言相当重要。因为大量缩小资源量，如果不这样做，网络的准确率可能会降为零，导致算法抉择了谬误的网络。随着算法的进行，尽管网络会继续训练，但还没到收敛的境地，所以当失去最初的一系列自适应网络后，应用较多的次数(long-term)fine-tune直到收敛作为最初一步。 ...

关于算法:R语言数据可视化分析案例探索BRFSS数据

原文链接：http://tecdat.cn/?p=9284加载包 library(tidyr)library(knitr)opts_chunk$set(echo = TRUE, fig.align = "center")载入材料load("brfss2013.RData")第1局部：数据形容如何收集样本中的观测值，以及此数据收集办法对推断范畴（可概括性/因果关系）的影响。http://www.cdc.gov/brfss/，以及上面的“无关数据的更多信息”局部。 “ BRFSS是一项横断面电话考察，州卫生部门每月通过座机和电话进行考察，并取得标准化问卷和CDC的技术和办法反对。在进行BRFSS座机电话考察时，拜访员从一个家庭中随机抉择的成年人那里收集数据。在进行BRFSS问卷的电话版本时，拜访员从成年人中收集数据。” 推论范畴（普遍性/因果关系）：普遍性：考察数据是从50个州和美国领土收集的，这使得数据看起来足够随机样本，从而能够将其推广到整个美国人口。因果关系：因为所有参与者均未承受指定的医治和对照组的医治-无奈假如因果关系-只能测量相关性。方法论，偏见和须要改良的方面的问题：通过电话考察，有可能低估了几种类型的集体： 1.没有座机或手机的集体 2.回绝答复或加入电话考察的集体。 3.在进行考察时无奈通过电话分割/无奈分割到考察的集体。采访问题的答案尚未通过验证，这意味着受访者能够通过以下形式批改其答复： 1.适度报告现实的行为和/或特色。 2.漏报不良行为。 3.夸张或扭曲某些特色，例如身高，学历或支出。 4.谬误地提供要害信息。 5.参加的机构之间的面试做法和问题集可能不统一。供当前参考，如果数据集蕴含无关每个访谈的详细信息，例如收集数据的工夫和访谈的持续时间，将很有用。第2局部：钻研问题钻研问题1：体重指数（BMI）是否与受访者本人的衰弱认识相干？这个问题探讨了BMI“失常”的人是否对本人的健康状况有更好的意识。尽管BMI并不是完满的衰弱指标，但仍被公认为衰弱的初始指标。应用的总变量：2 genhlth-个别衰弱 X_bmi5cat-将BMI分为4类（体重过轻，失常，超重，瘦削）的计算变量 ————- 钻研问题2：一个人的夜间睡眠工夫与他们的能量程度之间是否存在相关性？性别之间有区别吗？这是一个乏味的问题，因为常常吹牛睡眠是维持良好总体衰弱的重要组成部分。钻研表明，那些睡眠工夫少于5小时的人甚至更容易患慢性或重大疾病。应用的总变量：3 sleptim1-报告的睡眠工夫 qlhlth2-在过来30天中，有几天被报告为“全力以赴” 性别-报告的生物性别 ————- 钻研问题3：总体生存满意度与受教育水平之间是否存在相关性？性别之间有什么区别吗？这个问题将试图看看总体生存满意度和集体受教育水平之间是否存在任何关联。一些钻研表明，与受教育水平较低的人相比，受教育程度较高的人较少呈现婚姻问题，并且可能享有更好的健康状况。它将进一步探讨男性和女性之间是否存在任何差别。应用的总变量：3 称心-整体生存满意度教育-教育程度性别-集体的生物性别第3局部：探索性数据分析钻研问题1：体重指数（BMI）是否与受访者本身衰弱的认识相干？ load("brfss2013.RData")dim(brfss2013)## \[1\] 491775 330 ``````q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()dim(q1) ``````## \[1\] 463275 2领有460,000多个察看值，通过表格进行察看更容易，如下所示： prop.table(table(q1$genhlth,q1$X_bmi5cat),2)## ## Underweight Normal weight Overweight Obese## Excellent 0.19987805 0.26019496 0.17373887 0.07933813## Very good 0.26402439 0.35069868 0.35401238 0.26824837## Good 0.26146341 0.24667514 0.30698451 0.37088006## Fair 0.15829268 0.09751640 0.11943759 0.19913468## Poor 0.11634146 0.04491484 0.04582665 0.08239876 表中有大量的数据。 g1 <- ggplot(q1) + aes(x=X\_bmi5cat,fill=genhlth) + geom\_bar(position = "fill")g1 每列代表4种BMI类别（体重过轻，失常，超重，瘦削）和形容本人健康状况的受访者比例。能够得出结论，在肯定水平上，对这一问题的答复是“是”。个体的BMI与他或她本人对衰弱的认识之间仿佛存在关联。钻研问题2：一个人的夜间睡眠工夫与他们的能量程度之间是否存在相关性？性别之间有区别吗？ ## qlhlth2 sex sleptim1 ## Min. : 0.00 Male :162 Min. : 2.000 ## 1st Qu.: 2.00 Female:287 1st Qu.: 6.000 ## Median :15.00 Median : 7.000 ## Mean :15.56 Mean : 7.013 ## 3rd Qu.:28.00 3rd Qu.: 8.000 ## Max. :30.00 Max. :12.000## Warning: Removed 12 rows containing non-finite values (stat_smooth).## Warning: Removed 12 rows containing missing values (geom_point). 睡眠工夫和充斥能量的天数之间仿佛总体上呈正相干。女性的相关性仿佛比男性略强，因为男性的数据分布更宽泛。 ++++++++++++++++++++++++ 钻研问题3：总体生存满意度与受教育水平之间是否存在相关性？性别之间有什么区别吗？ ## # A tibble: 4 x 2## lsatisfy count## <fct> <int>## 1 Very satisfied 5378## 2 Satisfied 5506## 3 Dissatisfied 598## 4 Very dissatisfied 161q3 %>% group_by(educa) %>% summarise(count=n())## # A tibble: 6 x 2## educa count## <fct> <int>## 1 Never attended school or only kindergarten 10## 2 Grades 1 through 8 (Elementary) 496## 3 Grades 9 though 11 (Some high school) 1078## 4 Grade 12 or GED (High school graduate) 3708## 5 College 1 year to 3 years (Some college or technical school) 3055## 6 College 4 years or more (College graduate) 3296q3 %>% group_by(sex) %>% summarise(count=n())## # A tibble: 2 x 2## sex count## <fct> <int>## 1 Male 4078## 2 Female 7565 男性和女性的教育程度和总体生存满意度之间仿佛总体上呈正相干。至多实现了高中（或同等学历）的人的满意度仿佛更高。数据中还存在某些异样值，其中一些反馈者在没有受过教育的状况下会“称心”或“十分称心”。因为大多数人口至多已从高中毕业，因而该数据仿佛精确地代表了受访者的散布。最受欢迎的见解 1.R语言动态图可视化：如何、创立具备精美动画的图 2.R语言生存剖析可视化剖析 3.Python数据可视化-seaborn Iris鸢尾花数据 4.r语言对布丰投针（蒲丰投针）试验进行模仿和动静 5.R语言生存剖析数据分析可视化案例 6.r语言数据可视化剖析案例：摸索brfss数据数据分析 7.R语言动静可视化：制作历史寰球平均温度的累积动静折线图动画gif视频图 8.R语言高维数据的主成分pca、 t-SNE算法降维与可视化剖析案例报告 9.python主题LDA建模和t-SNE可视化

关于算法:使用R语言随机波动模型SV处理时间序列中的随机波动率

原文链接：http://tecdat.cn/?p=12030筹备数据采样函数svsample须要其输出数据y是数值向量，而且没有任何缺失值（NA），如果提供其余任何内容，则会报错。在y蕴含零的状况下，会收回正告，并在进行辅助混合采样之前，将大小为sd（y）/ 10000的小偏移常数增加到平方收益上。然而，咱们通常倡议完全避免零收益数据，例如通过事后升高零收益。上面是如何应用样本数据集进行阐明。图1提供了该数据集中工夫序列的可视化。 R> par(mfrow = c(2, 1), mar = c(1.9, 1.9, 1.9, 0.5), mgp = c(2, 0.6, 0))R> plot(exrates$date, exrates$USD, type = "l",+ main = "Price of 1 EUR in USD")R> plot(exrates$date\[-1\], ret, type = "l", main = "Demeaned log returns") 除了事实世界的数据外，还能够应用内置的模仿数据生成器svsim。此函数仅对SV流程的实现，并返回svsim类的对象，该对象具备本人的print，summary和plot办法。上面给出了应用svsim的示例代码，该模仿实例显示在图2中。 R> par(mfrow = c(2, 1))R> plot(sim) 运行采样器函数svsample，它用作C语言中理论采样器的R-wrapper 。此函数的示例用法在上面的代码中提供了默认输入。 Calling GIS_C MCMC sampler with 11000 iter. Series length is 3139.0% \[+++++++++++++++++++++++++++++++++++++++++++++++++++\] 100%Timing (elapsed): 12.92 seconds.851 iterations per second.Converting results to coda objects... Done!Summarizing posterior draws... Done!能够看出，该函数调用主MCMC采样器并将其输入转换为与coda兼容的对象。后者的实现次要是出于兼容性的思考，并且能够间接拜访收敛诊断查看。 svsample的返回值是svdraws类型的对象，该对象是具备八个元素的命名列表，其中蕴含（1）参数在para中绘制，（2）潜在的对数稳定率，（3）初始潜在的对数稳定率绘制latent0，（4）y中提供的数据，（5）运行时中的采样运行时，（6）先验中的先验超参数，（7）细化的参数值，以及（8）这些图的汇总统计信息，以及一些常见的转换。评估输入并显示后果依照惯例做法，可应用svdraws对象的print和summary办法。每个参数都有两个可选参数showpara和showlatent，用于指定应显示的输入。如果showpara为TRUE（默认设置），则会显示参数绘制的值/摘要。如果showlatent为TRUE（默认值），则显示潜在变量绘制的值/摘要。在上面的示例中，仅显示参数绘制的摘要。 Summary of 10000 MCMC draws after a burn-in of 1000.Prior distributions:mu ~ Normal(mean = -10, sd = 1)(phi+1)/2 ~ Beta(a0 = 20, b0 = 1.1)sigma^2 ~ 0.1 * Chisq(df = 1)Posterior draws of parameters (thinning = 1):mean sd 5% 50% 95% ESSmu -10.1366 0.22711 -10.4749 -10.1399 -9.7933 4552phi 0.9935 0.00282 0.9886 0.9938 0.9977 397sigma 0.0656 0.01001 0.0509 0.0649 0.0830 143exp(mu/2) 0.0063 0.00075 0.0053 0.0063 0.0075 4552sigma^2 0.0044 0.00139 0.0026 0.0042 0.0069 143（1）volplot：绘制潜在稳定率的分位数，以百分比示意，即随工夫变动的后验散布的教训分位数。罕用的可选参数包含n步稳定率的预测，x轴上标签的日期以及一些图形参数。上面的代码片段显示了一个典型示例，图3显示了其输入。（2）paratraceplot：显示中蕴含的参数的轨迹图。图5显示了一个示例。（3）paradensplot：显示中蕴含的参数的核密度估计。为了更快地绘制较大的后验样本，应将此参数设置为FALSE。如果参数showprior为TRUE（默认值），则先验散布通过虚线灰色线批示。图6显示了从汇率提取数据集中取得的EUR-USD汇率的示例输入。 svdraws对象的通用绘图办法将上述所有图合并。能够应用上述所有参数。请参见图7。 R> plot(res, showobs = FALSE) 为了提取标准化残差，能够在给定的svdraws对象上应用残差办法。应用可选的参数类型，能够指定摘要统计的类型。以后，类型容许为“平均值”或“中位数”，其中前者对应于默认值。此办法返回svresid类的实向量，其中蕴含每个工夫点所申请的标准化残差的摘要统计量。还有一种绘图办法，当参数origdata给定时，提供了将标准化残差与原始数据进行比拟的选项。请参见上面的代码，对于相应的输入，请参见图8。最受欢迎的见解 1.HAR-RV-J与递归神经网络（RNN）混合模型预测和交易大型股票指数的高频稳定率 2.WinBUGS对多元随机稳定率模型：贝叶斯预计与模型比拟 3.稳定率的实现：ARCH模型与HAR-RV模型 4.R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测 5.应用R语言随机稳定模型SV解决工夫序列中的随机稳定率 6.R语言多元COPULA GARCH 模型工夫序列预测 7.R语言基于ARMA-GARCH过程的VAR拟合和预测 8.R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型 9.R语言对S＆P500股票指数进行ARIMA + GARCH交易策略

关于算法:R语言区间数据回归分析

原文链接http://tecdat.cn/?p=14850回归剖析是一种非常常见的数据分析办法,通过观测数据确定变量间的互相关系.传统回归剖析以点数据为钻研对象,预测后果也是点数据,而实在数据往往在肯定范畴内变动的.基于置信度能够造成置信区间,肯定水平补救了预测值为单点的有余,但将点数据作为钻研对象,以点带表某范畴内的所有数据,往往存在信息失落的问题. 区间回归剖析是一种以区间数为钻研对象的数据分析办法.区间数能反映出数据的变动范畴,更合乎现实情况.区间型符号数据是区间数的一种,通过"数据打包"造成,因而除具备区间端点信息外,还具备区间外部散点信息. 本文将做一个简短的解释阐明如何应用R在有区间的状况下提取高低限值。让咱们从生成数据开始， X=rnorm(n)Y=2+X+rnorm(n,sd = .3) 假如当初咱们不再察看变量x，而只是察看一个类（咱们将创立八个类，每个类有八分之一的察看值） Q=quantile(x = X,(0:8)/8)Q\[1\]=Q\[1\]-.00001Xcut=cut(X,breaks = Q) 例如，对于第一个值，咱们有 as.character(Xcut\[1\])\[1\] "(-0.626,-0.348\]" 要提取无关这些边界的信息，咱们能够应用上面的小代码，该代码返回区间的上限，下限和中值 lower = c(lower1,lower2)lower=lower\[!is.na(lower)\]upper = c(upper1,upper2)upper=upper\[!is.na(upper)\]mid = (lower+upper)/2return(c(lower=lower,mid=mid,upper=upper)extrai(Xcut\[1\])lower mid upper -0.626 -0.487 -0.348 能够看到，咱们能够在数据库中创立三个变量（具备上限，下限和中值信息） B$lower=B2\[1,\]B$mid =B2\[2,\]B$upper=B2\[3,\] 咱们能够比拟4个回归（i）咱们对8个类别进行回归，即咱们的8个因子（ii）咱们对区间的上限进行回归，（iii）对区间的“平均值”值进行回归（iv）对下限 regF=lm(Y~X,data=B)regL=lm(Y~lower,data=B)regM=lm(Y~mid,data=B)regU=lm(Y~upper,data=B) 咱们能够将预测与咱们的四个模型进行比拟更进一步，咱们还能够比拟模型的AIC， AIC(regF)\[1\] 204.5653AIC(regM)\[1\] 201.1201AIC(regL)\[1\] 266.5246AIC(regU)\[1\] 255.0687如果上限和上限值的应用不是确定性的，则在此处应留神，应用区间的平均值会比应用8个因子略好。参考文献 1.用SPSS预计HLM档次线性模型模型 2.R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA） 3.基于R语言的lmer混合线性回归模型 4.R语言Gibbs抽样的贝叶斯简略线性回归仿真剖析 5.在r语言中应用GAM（狭义相加模型）进行电力负荷工夫序列剖析 6.应用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM 7.R语言中的岭回归、套索回归、主成分回归：线性模型抉择和正则化 8.R语言用线性回归模型预测空气质量臭氧数据 9.R语言分层线性模型案例

关于算法:R语言-线性混合效应模型实战案例

原文链接：http://tecdat.cn/?p=3015介绍首先，请留神，围绕多层次模型的术语有很大的不一致性。例如，多层次模型自身可能被称为分层线性模型、随机效应模型、多层次模型、随机截距模型、随机斜率模型或汇合模型。依据不同的学科、应用的软件和学术文献，许多这些术语可能指的是雷同的个别建模策略。在本文中，我将试图通过演示如何在R中拟合多层次模型，并试图将模型拟合过程与无关这些模型的罕用术语分割起来，为用户提供一个多层次模型的指南。读入数据多层次模型适宜于一种非凡的数据结构，即单位嵌套在组内（个别是5个以上的组），咱们想对数据的组构造进行建模。 ## id extro open agree social class school## 1 1 63.69 43.43 38.03 75.06 d IV## 2 2 69.48 46.87 31.49 98.13 a VI## 3 3 79.74 32.27 40.21 116.34 d VI## 4 4 62.97 44.41 30.51 90.47 c IV## 5 5 64.25 36.86 37.44 98.52 d IV## 6 6 50.97 46.26 38.83 75.22 d I在这里，咱们有对于嵌套在班级和学校内的科目的内向性的数据。在咱们开始之前，让咱们先理解一下数据的构造。 ## 'data.frame': 1200 obs. of 7 variables:## $ id : int 1 2 3 4 5 6 7 8 9 10 ...## $ extro : num 63.7 69.5 79.7 63 64.2 ...## $ open : num 43.4 46.9 32.3 44.4 36.9 ...## $ agree : num 38 31.5 40.2 30.5 37.4 ...## $ social: num 75.1 98.1 116.3 90.5 98.5 ...## $ class : Factor w/ 4 levels "a","b","c","d": 4 1 4 3 4 4 4 4 1 2 ...## $ school: Factor w/ 6 levels "I","II","III",..: 4 6 6 4 4 1 3 4 3 1 ...这里咱们看到咱们有两个可能的分组变量--班级和学校。让咱们进一步探讨一下它们。 ## ## a b c d ## 300 300 300 300## ## I II III IV V VI ## 200 200 200 200 200 200## ## I II III IV V VI## a 50 50 50 50 50 50## b 50 50 50 50 50 50## c 50 50 50 50 50 50## d 50 50 50 50 50 50这是一个齐全均衡的数据集。让咱们来绘制一下数据。能够摸索学校和班级之间的变量关系。 plot(extro ~ open + social + agree | school + class 在这里咱们看到，在班级外部有显著的分层，咱们也看到社会变量与凋谢和同意变量有强烈的区别。咱们还看到，A班和D班在最低和最高段的散布显著更多。接下来让咱们按学校绘制数据。按学校划分，咱们看到学生的分组很严密，但学校一和学校六比其余学校显示出显著的分散性。在学校之间，咱们的预测指标的模式与班级之间的模式雷同。这里咱们能够看到，学校和班级仿佛亲密辨别了咱们的预测因素和内向性之间的关系。摸索merMod对象咱们对咱们的嵌套数据拟合了一系列的随机截距模型。咱们将更深刻地钻研咱们拟合这个模型时产生的lmerMod对象，以理解如何在R中应用混合效应模型。咱们首先拟合上面这个按班级分组的根本例子。 ## \[1\] "lmerMod"## attr(,"package")## \[1\] "lme4"首先，咱们看到MLexamp1当初是一个lmerMod类的R对象。这个lmerMod对象是一个S4类，为了摸索其构造，咱们应用slotNames。 ## \[1\] "resp" "Gp" "call" "frame" "flist" "cnms" "lower" ## \[8\] "theta" "beta" "u" "devcomp" "pp" "optinfo"在lmerMod对象中，咱们看到了一些咱们可能心愿摸索的对象。比如说。 ## lmer(formula = extro ~ open + agree + social + (1 | school), ## data = lmm.data)## \[1\] 59.116514 0.009751 0.027788 -0.002151## \[1\] "data.frame"## extro open agree social school## 1 63.69 43.43 38.03 75.06 IV## 2 69.48 46.87 31.49 98.13 VI## 3 79.74 32.27 40.21 116.34 VI## 4 62.97 44.41 30.51 90.47 IV## 5 64.25 36.86 37.44 98.52 IV## 6 50.97 46.26 38.83 75.22 ImerMod对象有许多可用的办法--在此无奈一一列举。然而，咱们将在上面的列表中介绍一些比拟常见的办法。 ## \[1\] anova.merMod* as.function.merMod* coef.merMod* ## \[4\] confint.merMod deviance.merMod* df.residual.merMod* ## \[7\] drop1.merMod* extractAIC.merMod* extractDIC.merMod* ## \[10\] family.merMod* fitted.merMod* fixef.merMod* ## \[13\] formula.merMod* isGLMM.merMod* isLMM.merMod* ## \[16\] isNLMM.merMod* isREML.merMod* logLik.merMod* ## \[19\] model.frame.merMod* model.matrix.merMod* ngrps.merMod* ## \[22\] nobs.merMod* plot.merMod* predict.merMod* ## \[25\] print.merMod* profile.merMod* qqmath.merMod* ## \[28\] ranef.merMod* refit.merMod* refitML.merMod* ## \[31\] residuals.merMod* sigma.merMod* simulate.merMod* ## \[34\] summary.merMod* terms.merMod* update.merMod* ## \[37\] VarCorr.merMod* vcov.merMod weights.merMod* ## ## Non-visible functions are asterisked一个常见的需要是从merMod对象中提取固定效应。 fixef提取一个固定效应的命名数字向量，这很不便。 ## (Intercept) open agree social ## 59.116514 0.009751 0.027788 -0.002151理解这些参数的p值或统计显着性：如果你想理解这些参数的P值或统计学意义，首先通过运行 "mcmcsamp "查阅lme4帮忙，理解各种办法。包中内置的一个不便的办法是。 ## 0.5 % 99.5 %## .sig01 4.91840 23.88758## .sigma 2.53287 2.81456## (Intercept) 46.27751 71.95610## open -0.02465 0.04415## agree -0.01164 0.06721## social -0.01493 0.01063从这里咱们能够首先看到咱们的固定成果参数重叠0示意没有成果。咱们还能够看到.sig01，这是咱们对随机效应变动的预计。这表明咱们的群体之间的影响很小，要么失去更准确的预计的群体太少。另一个常见的需要是提取残余标准误差，这是计算成果大小所必须的。要取得残差规范误的命名向量： ## \[1\] 2.671例如，教育钻研中的常见做法是通过将固定效应参数除以残差标准误差来将固定成果标准化为“成果大小”： ## (Intercept) open agree social ## 22.1336705 0.0036508 0.0104042 -0.0008055从这一点，咱们能够看到，咱们对开放性，同意性和社交性的预测因素在预测内向性方面简直毫无用处。让咱们把注意力转向下一个随机效应。摸索组变动和随机成果您很可能适宜混合成果模型，因为您间接对模型中的组级变动感兴趣。目前还不分明如何从后果中摸索这种群体程度的变动summary.merMod。咱们从这个输入失去的是组效应的方差和标准偏差。 ## $school## (Intercept)## I -14.091## II -6.183## III -1.971## IV 1.966## V 6.331## VI 13.948运行ranef函数能够失去每个学校的截距，但没有太多的额定信息--例如这些估计值的精确度。咱们须要一些额定的命令。 ## \[1\] "ranef.mer"## , , 1## ## \[,1\]## \[1,\] 0.03565## ## , , 2## ## \[,1\]## \[1,\] 0.03565## ## , , 3## ## \[,1\]## \[1,\] 0.03565## ## , , 4## ## \[,1\]## \[1,\] 0.03565## ## , , 5## ## \[,1\]## \[1,\] 0.03565## ## , , 6## ## \[,1\]## \[1,\] 0.03565ranef.mer对象是一个列表，其中蕴含每个组程度的数据框。数据框蕴含每个组的随机效应（这里咱们只有每个学校的截距）。lme4提供随机效应的条件方差时，它贮存在这些数据框的一个属性中，作为方差-协方差矩阵的一个列表。这种构造确实很简单，但它很弱小，因为它容许嵌套的、分组的和跨级别的随机效应。 ``````## $school## (Intercept)## I -14.091## II -6.183## III -1.971## IV 1.966## V 6.331## VI 13.948## ## with conditional variances for "school"## $school 这个图形显示了随机效应项的点阵图，也被称为毛毛虫图。在这里，你能够分明地看到每个学校对外向性的影响，以及它们的标准误差，以帮忙确定随机效应之间的区别。应用模仿和图来摸索随机效应一种常见的计量经济学办法是创立所谓的群体程度项的教训贝叶斯预计。然而，对于什么是随机效应项的适当标准误差，甚至对于如何统一地定义教训贝叶斯估计值，目前还没有太多的共识。在R中，有一些额定的办法能够取得随机效应的估计值。 ## X1 X2 mean median sd## 1 I (Intercept) -14.053 -14.093 3.990## 2 II (Intercept) -6.141 -6.122 3.988## 3 III (Intercept) -1.934 -1.987 3.981## 4 IV (Intercept) 2.016 2.051 3.993## 5 V (Intercept) 6.378 6.326 3.981## 6 VI (Intercept) 13.992 14.011 3.987REsim函数为每个学校返回程度名称X1、预计名称X2、估计值的平均值、中位数和估计值的标准差。另一个不便的函数能够帮忙咱们绘制这些后果，看看它们与dotplot的后果相比如何。 ymin = "ymin")) + geom\_pointrange() + theme\_dpi() + theme(panel.grid.major = element\_blank(), panel.grid.minor = element\_blank(), axis.text.x = element\_blank(), axis.ticks.x = element\_blank()) + geom_hline(yintercept = 0, color = I("red"), size = I(1.1))} 依据你的数据收集形式和你的钻研问题，预计这些效应大小的其余办法是可能的。咱们能够测试是否蕴含随机效应来进步模型的拟合度，咱们能够应用基于模仿的似然比测试来评估额定的随机效应项的p值。 ## ## simulated finite sample distribution of LRT. (p-value based on## 10000 simulated values)## ## data: ## LRT = 2958, p-value < 2.2e-16这里程序收回了一个正告，因为咱们最后是用REML而不是齐全最大似然来拟合模型。但lme4中的refitML函数容许咱们应用齐全最大似然法轻松地从新拟合咱们的模型。 ## ## simulated finite sample distribution of LRT. (p-value based on## 10000 simulated values)## ## data: ## LRT = 2958, p-value < 2.2e-16在这里，咱们能够看到，即便每个独自的群体的影响可能是实质性的小和/或不准确的测量，但纳入咱们的分组变量是显著的。这对于了解模型是很重要的。随机效应有什么意义？如何解释咱们的随机效应的实质性影响？在应用多层次构造的察看工作中，这往往是至关重要的，理解分组对个体察看的影响。为了做到这一点，咱们抉择了12个随机案例，而后模仿他们的预测值，如果他们被安顿在6所学校中的每一所，他们的extro预测值。请留神，这是一个非常简单的模仿，只是应用了固定效应的平均值和随机效应的条件模式，并没有进行复制或抽样。 qplot(school, yhat, data = simDat) + facet\_wrap(~case) + theme\_dpi() 这张图通知咱们，在每个图中，代表一个案例，不同的学校有很大的变动。因而，把每个学生移到不同的学校，对外向性得分有很大的影响。然而，每个案例在每个学校都有差别吗？ + facet\_wrap(~school) + theme\_dpi() + theme(axis.text.x = element_blank()) 在这里，咱们能够分明地看到，在每所学校内，案例绝对雷同，表明群体效应大于个体效应。这些图在以实质性的形式展现群体和个体效应的绝对重要性方面很有用。甚至还能够做更多的事件来使图表更有信息量，比方提到后果的总变异性，也能够看一下挪动群体使每个察看值离其实在值的间隔。论断R为解决混合效应模型提供了一个十分弱小的面向对象的工具集。了解模型拟合和置信区间须要一些钻研。参考文献 1.基于R语言的lmer混合线性回归模型 2.R语言用Rshiny摸索lme4狭义线性混合模型（GLMM）和线性混合模型（LMM） 3.R语言线性混合效应模型实战案例 4.R语言线性混合效应模型实战案例2 5.R语言线性混合效应模型实战案例 6.线性混合效应模型Linear Mixed-Effects Models的局部折叠Gibbs采样 7.R语言LME4混合效应模型钻研老师的受欢迎水平 8.R语言中基于混合数据抽样(MIDAS)回归的HAR-RV模型预测GDP增长 9.应用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

关于算法:Python用时变马尔可夫区制转换Markov-regime-switching自回归模型分析经济时间序列

原文链接：http://tecdat.cn/?p=22617 ============================================================== 本文提供了一个在统计模型中应用马可夫转换模型模型的例子，来复现Kim和Nelson（1999）中提出的一些后果。它利用了Hamilton（1989）的滤波器和Kim（1994）的平滑器。 %matplotlib inlineimport numpy as npimport pandas as pdimport statsmodels.api as smfrom pandas_datareader.data import DataReaderfrom datetime import datetime DataReader(start=datetime(1947, 1, 1), end=datetime(2013, 4, 1)) Hamilton (1989) 马尔可夫转换模型（_Markov -switching_ _model_）这是对Hamilton(1989)介绍马可夫转换模型（_Markov -switching_ _model_）的开创性论文的复现。该模型是一个4阶的自回归模型，其中过程的平均值在两个区制之间切换。能够这样写。每个期间，区制都依据以下的转移概率矩阵进行转换。其中 pij是从区制 i 转移到区制 j 的概率。该模型类别是工夫序列局部中的MarkovAutoregression。为了创立这个模型，咱们必须指定k\_regimes=2的区制数量，以及order=4的自回归阶数。默认模型还包含转换自回归系数，所以在这里咱们还须要指定switch\_ar=False。创立后，模型通过极大似然预计进行拟合。应用冀望最大化（EM）算法的若干步骤找到好的起始参数，并利用准牛顿（BFGS）算法来疾速找到最大值。 \[2\]:#获取数据hamilton= pd.read('gndata').iloc\[1:\]# 绘制数据hamilton.plot()# 拟合模型Markovreg(hamilton) summary() 咱们绘制了通过过滤和平滑解决的消退概率。滤波指的是基于截至并包含工夫tt（但不包含工夫t+1,...,Tt+1,...,T）的数据对工夫t的概率预计。平滑化是指应用样本中的所有数据对工夫t的概率进行预计。 fig, axes = plt.subplots(2, figsize=(7,7))ax = axes\[0\]ax.plot(margl_prob\[0\])ax = axes\[1\]ax.plot(smoomarginal_pro\[0\]) 依据预计的转移矩阵，咱们能够计算出消退与扩张的预期持续时间。 print(expected_du) 在这种状况下，预计经济衰退将继续约一年（4个季度），扩张约两年半。 Kim, Nelson, and Startz (1998) 三状态方差转换模型。这个模型展现了带有区制异方差（方差转换）和无均匀效应的预计。模型是: 因为没有自回归成分，这个模型能够用MarkovRegression类来拟合。因为没有均匀效应，咱们指定趋势='nc'。假如转换方差有三个区制，所以咱们指定k\_regimes=3和switching\_variance=True（默认状况下，方差被假设为在不同区制下是雷同的）。 raw = pd.read_table(ew ,engine='python')# 绘制数据集plot( figsize=(12, 3)) res_kns.summary() 上面咱们绘制了处于每个区制中的概率；只有在多数期间，才有可能呈现高_方差_区制。 fig, axes = plt.subplots(3, figsize=(10,7))ax.plot(smoothed_proba\[0\])ax.plot(smoothed_proba\[2\])ax.plot(smoothed_proba\[3\]) Filardo (1994) 时变的转移概率这个模型展现了用时变的转移概率进行预计。在上述模型中，咱们假如转移概率在不同期间是不变的。在这里，咱们容许概率随着经济情况的变动而变动。否则，该模型就是Hamilton（1989）的马尔可夫自回归。每个期间，区制当初都依据以下的时变转移概率矩阵进行转移。其中 pij,tipij,t 是在 t 期间从区制 i 转移到区制 j 的概率，并定义为。与其将转移概率作为最大似然法的一部分进行预计，不如预计回归系数ij。这些系数将转移概率与预先确定的或外生的变量xt-1向量分割起来。 \[9\]:# 用标准差进行标准化data\['p'\]\['1960-01-01':\].std() / data\['dlip'\]\[:'1959-12-01'\].std()# 绘制数据data\['dlip'\].plot( ) data\['dmdlleading'\].plot( figsize=(13,3)); 时变的转移概率是由exog_tvtp参数指定的。这里咱们展现了模型拟合的另一个特点--应用随机搜寻的MLE起始参数。因为马尔科夫转换模型的特色往往是似然函数的许多部分最大值，执行初始优化步骤有助于找到最佳参数。上面，咱们规定对起始参数向量的20个随机扰动进行查看，并将最好的一个作为理论的起始参数。因为搜寻的随机性，咱们当时设置了随机数种子，以便后果复制。 markovreg(data, k=2, order=4)fit(search=20)summary() 上面咱们绘制了经济运行在低生产状态下的平滑概率，并再次将NBER的消退状况纳入其中进行比拟。 ax.plot(smoo\_marg\_prob\[0\]) 利用工夫变动的转移概率，咱们能够看到低生产状态的预期持续时间如何随工夫变动。 exp_dura\[0\].plot( figsize=(12,3)); ...

关于算法:DARTS基于梯度下降的经典网络搜索方法开启端到端的网络搜索-ICLR-2019

DARTS是很经典的NAS办法，它的呈现突破了以往的离散的网络搜寻模式，可能进行end-to-end的网络搜寻。因为DARTS是基于梯度进行网络更新的，所以更新的方向比拟精确，搜寻工夫相当于之前的办法有很大的晋升，CIFAR-10的搜寻仅须要4GPU days。起源：晓飞的算法工程笔记公众号论文: DARTS: Differentiable Architecture Search 论文地址：https://arxiv.org/abs/1806.09055论文代码：https://github.com/quark0/dartsIntroduction 目前风行的神经网络搜寻办法大都是对离散的候选网络进行抉择，而DARTS则是对间断的搜寻空间进行搜寻，并依据验证集的体现应用梯度降落进行网络结构优化，论文的次要奉献如下：基于bilevel优化提出翻新的gradient-based神经网络搜寻办法DARTS，实用于卷积构造和循环构造。通过试验表明gradient-based构造搜寻办法在CIFAR-10和PTB数据集上都有很好的竞争力。搜寻性能很强，仅须要大量GPU days，次要得益于gradient-based优化模式。通过DARTS在CIFAR-10和PTB上学习到的网络可能转移到大数据集ImageNet和WikiText-2上。Differentiable Architecture SearchSearch Space DARTS的整体搜寻框架跟NASNet等办法一样，通过搜寻计算单元(cell)的作为网络的根底构造，而后重叠成卷积网络或者循环网络。计算单元是个有向无环图，蕴含$N$个节点的有序序列，每个节点$x^{(i)}$代表网络的两头信息(如卷积网络的特色图)，边代表对$x^{(i)}$的操作$o^{(i,j)}$。每个计算单元有两个输出和一个输入，对于卷积单元，输出为前两层的计算单元的输入，对于循环网络，输出则为以后step的输出和前一个step的状态，两者的输入均为将两头节点的所有输入进行合并操作。每个两头节点的计算基于后面所有的节点：这里蕴含一个非凡的zero操作，用来指定两个节点间没有连贯。DARTS将计算单元的学习转换为边操作的学习，整体搜寻框架跟NASNet等办法一样，本文次要集中在DARTS如何进行gradient-based的搜寻。 Continuous Relaxation and Optimization 让$O$为候选操作集，每个操作代表利用于$x^{(i)}$的函数$o(\cdot)$，为了让搜寻空间间断化，将本来的离散操作抉择转换为所有操作的softmax加权输入：节点$(i,j)$间的操作的混合权重示意为维度$|O|$的向量$\alpha^{(i,j)}$，整个架构搜寻则简化为学习间断的值$\alpha=\{\alpha^{(i, j)}\}$，如图1所示。在搜寻的最初，每个节点抉择概率最大的操作$o^{(i,j)}=argmax_{o\in O}\alpha^{(i,j)}_o$代替$\bar{o}^{(i,j)}$，构建出最终的网络。在简化后，DARTS指标是够同时学习网络结构$\alpha$和所有的操作权值$w$。比照之前的办法，DARTS可能依据验证集损失应用梯度降落进行构造优化。定义$\mathcal{L}_{train}$和$\mathcal{L}_{val}$为训练和验证集损失，损失由网络结构$\alpha$和网络权值$w$独特决定，搜寻的最终目标是找到最优的$\alpha^{*}$来最小化验证集损失$\mathcal{L}_{val}(w^{*}, \alpha^{*})$，其中网络权值$w^{*}$则是通过最小化训练损失$w^{*}=argmin_w \mathcal{L}_{train}(w, \alpha^{*})$取得。这意味着DARTS是个bilevel优化问题，应用验证集优化网络结构，应用训练集优化网络权重，$\alpha$为下级变量，$w$为上级变量： Approximate Architecture Gradient 公式3计算网络结构梯度的开销是很大的，次要在于公式4的内层优化，即每次构造的批改都须要从新训练失去网络的最优权重。为了简化这一操作，论文提出了提出了简略的近似的改良： $w$示意以后的网络权重，$\xi$是内层优化单次更新的学习率，整体的思维是在网络结构扭转后，通过单次训练step优化$w$来迫近$w^{(*)}(\alpha)$，而不是公式3那样须要残缺地训练直到收敛。理论当权值$w$为内层优化的部分最优解时($\nabla_{w}\mathcal{L}_{train}(w, \alpha)=0$)，公式6等同于公式5$\nabla_{\alpha}\mathcal{L}_{val}(w, \alpha)$。迭代的过程如算法1，交替更新网络结构和网络权重，每次的更新都仅应用大量的数据。依据链式法则，公式6能够开展为： $w^{'}=w - \xi \nabla_w \mathcal{L}_{train}(w, \alpha)$，上述的式子的第二项计算的开销很大，论文应用无限差分来近似计算，这是论文很要害的一步。$\epsilon$为小标量，$w^{\pm}=w\pm \epsilon \nabla_{w^{'}} \mathcal{L}_{val}(w^{'}, \alpha)$，失去：计算最终的差分须要两次正向+反向计算，计算复杂度从$O(|\alpha| |w|)$简化为$O(|\alpha|+|w|)$。 First-order Approximation 当$\xi=0$时，公式7的二阶导会隐没，梯度由$\nabla_{\alpha}\mathcal{L}(w, \alpha)$决定，即认为以后权值总是最优的，间接通过网络结构批改来优化验证集损失。$\xi=0$能减速搜寻的过程，但也可能会带来较差的体现。当$\xi=0$时，论文称之为一阶近似，当$\xi > 0$时，论文称之为二阶近似。 ...

关于算法:R语言有限混合模型FMMfinite-mixture-model分析间歇泉喷发时间数据

原文链接：http://tecdat.cn/?p=22609 摘要本文提供了一套用于剖析各种无限混合模型的办法。既包含传统的办法，如单变量和多变量正态混合的EM算法，也包含反映无限混合模型的一些最新钻研的办法。许多算法都是EM算法或基于相似EM的思维，因而本文包含无限混合模型的EM算法的概述。 1.无限混合模型介绍人群中的个体往往能够被划分为群。然而，即便咱们察看到这些个体的特色，咱们也可能没有真正察看到这些成员的群体。这项工作在文献中有时被称为 "无监督聚类"，事实上，混合模型个别能够被认为是由被称为 "基于模型的聚类 "的聚类办法的子集组成。无限混合模型也可用于那些对个体聚类感兴趣的状况之外。首先，无限混合模型给出了整个子群的形容，而不是将个体调配到这些子群中。有时，无限混合模型只是提供了一种充沛形容特定散布的伎俩，例如线性回归模型中存在异样值的残差散布。无论建模者在采纳混合模型时的指标是什么，这些模型的大部分实践都波及到一个假如，即子群是依照一个特定的参数模式散布的--而这个模式往往是单变量或多变量正态。最近的钻研指标是放宽或批改多变量正态假如，无限混合模型剖析的计算技术，其中的成分是回归、多变量数据离散化产生的向量，甚至是齐全未指定的散布。 2. 无限混合模型的EM算法=== EM算法迭代最大化，而不是察看到的对数似然Lx()，算式为 1. E步：计算Q(|(t)) 2. M步骤：设定(t+1)=argmax∈ Q(|(t)) 对于无限混合模型，E步骤不依赖于F的构造，因为缺失数据局部只与Z无关。 Z是离散的，它们的散布是通过贝叶斯定理给出的。M步骤自身能够分成两局部，与无关的最大化，它不依赖于F，与无关的最大化，它必须为每个模型专门解决（例如，参数化、半参数化或非参数化）。因而，模型的EM算法有以下独特特点。 11. E步。计算成分蕴含的 "后验 "概率（以数据和（t）为条件）。对于所有i = 1, . . . ，n和j = 1， . . . 从数值上看，齐全依照公式（2）的写法来实现是很危险的，因为在xi离任何一个成分都很远的状况下，所有的（t）j 0（xi）值都会导致数值下溢为零，所以可能会呈现不确定的模式0/0。因而，许多例程实际上应用的是等价表达式或其某种变体。 2. 的M步骤。设 2.3. 一个EM算法的例子作为一个例子，咱们思考对图1中形容的间歇泉喷发间隔时间期待数据进行单变量正态混合剖析。这种齐全参数化的状况对应于第1节中形容的单变量高斯家族的混合散布，其中（1）中的第j个重量密度j（x）为正态，均值为j，方差为 2 j。对于参数(µj , 2 j )的M步，j = 1, . . 这个EM算法对这种单变量混合散布的M步骤是很简略的，例如能够在McLachlan和Peel（2000）中找到。 mixEM(waiting, lambda = .5) 下面的代码将拟合一个二成分的混合散布（因为mu是一个长度为2的向量），其中标准偏差被假设为相等（因为sigma是一个标量而不是一个向量）。图1:对数似然值的序列，Lx( (t)) 图2：用参数化EM算法拟合间歇泉期待数据。拟合的高斯成分。 R> plot(wait1, density = TRUE, cex.axis = 1.4, cex.lab = 1.4, cex.main = 1.8,+ main2 = "Time between Old Faithful eruptions", xlab2 = "Minutes")两个图：察看到的对数似然值的序列t 7→Lx( (t))和数据的直方图，其中有N(µj , 2 j)的m(这里m=2)个拟合的高斯重量密度，j=1, . . . ，m，叠加在一起。预计 ...

关于算法:R语言中的Wilcoxon符号秩检验与配对学生t检验

原文链接：http://tecdat.cn/?p=3172在这篇文章中，咱们将摸索比拟两组依赖（即配对）定量数据的测验：Wilcoxon符号秩测验和配对学生t测验。这些测验之间的要害区别在于Wilcoxon的测验是非参数检验，而t测验是参数检验。在下文中，咱们将探讨这种差别的结果。睡眠数据集咱们来思考睡眠数据集。数据集通过提供服用药物后睡眠工夫与基线相比的变动来比照两种催眠药物（即安眠药）的成果： _extra_示意与基线测量相比睡眠中的减少/缩小（正/负值），_组_示意药物，_ID_示意患者ID。为了更分明，我将_组_重命名为_药物_： ## extra group ID## 1 0.7 1 1## 2 -1.6 1 2## 3 -0.2 1 3## 4 -1.2 1 4## 5 -0.1 1 5## 6 3.4 1 6## 7 3.7 1 7## 8 0.8 1 8## 9 0.0 1 9## 10 2.0 1 10## 11 1.9 2 1## 12 0.8 2 2## 13 1.1 2 3## 14 0.1 2 4## 15 -0.1 2 5## 16 4.4 2 6## 17 5.5 2 7## 18 1.6 2 8## 19 4.6 2 9## 20 3.4 2 10留神，睡眠数据集蕴含每个患者的两个测量值。因而，它适宜于展现配对测验，例如咱们正在解决的测验。咱们测验的是什么？假如咱们在一家制药公司工作，这些是刚从临床试验中取得的数据。当初，咱们必须决定你应该推出哪两种药物用于市场。抉择药物的正当办法是确定体现更好的药物。为了直观理解这两种药物的有效性，让咱们绘制相应的值：该图显示药物1的睡眠工夫的中值减少靠近0，而药物2的中值减少靠近2小时。因而，依据这些数据，仿佛药物2比药物1更无效。然而，咱们仍须要确定咱们的发现是否具备统计学意义。零假如测验的零假如是，两种药物之间的额定睡眠工夫没有任何差异。因为咱们想晓得药物2是否优于药物1，所以咱们不须要双尾测验（测验任何一种药物是否具备优越性能），而是须要单尾检验。因而，备选假如是，药物2比药物1更优。 Wilcoxon符号秩测验因为测验统计量是基于排名而不是测量值自身，因而Wilcoxon符号秩测验能够被认为是测验两组之间中值变动。要在R中执行测验，咱们能够应用该wilcox.test。然而，咱们必须明确设置_配对_参数，以表明咱们正在解决匹配的察看。要指定单尾检验，咱们将_代替_参数设置为_更大_。以这种形式，测验的代替计划是药物2是否与睡眠持续时间减少相关联而不是药物1。 wilcox(x, y, paired = TRUE, alternative = "greater" 正告在取得后果之前，咱们应该考察执行检验所产生的两个正告。正告1：关系第一个正告产生的起因是，该测试对成对的额定数值的差别进行排名。如果两对有雷同的差别，在排名时就会呈现并列。咱们能够通过计算配对之间的差别来验证这一点 x - y## \[1\] 1.2 2.4 1.3 1.3 0.0 1.0 1.8 0.8 4.6 1.4并发现第3和第4对都有雷同的差值1.3。为什么并列是一个问题？调配给并列关系的等级是基于它们所逾越的等级的平均值。因而，如果有许多并列，这就升高了测试统计的表现力，使Wilcoxon测试不适合。因为咱们这里只有一个并列，这不是一个问题。正告2：零值第二个正告波及差别为0的对。在睡眠数据集中，来自第5个患者的状况就是这种状况（见上文）。为什么零是个问题？请记住，零假如是对的差别以0为核心。然而，察看值恰好为0的差别并不能为咱们提供任何回绝零的信息。因而，在计算测验统计量时抛弃这些配对。如果许多配对的状况如此，则测验的统计成果将大幅降落。同样，这不是问题，因为只存在一个零值。调查结果测验的次要后果是它的p值，能够通过以下形式取得： res$p.value## \[1\] 0.004545349因为p值小于5%的显著性程度，这意味着咱们能够回绝无效假设。因而，咱们偏向于承受备选假如，即药物2优于药物1。配对学生的t测验配对Student's t测验是对两组配对定量测量方法的参数检验。这里，参数意味着t测验假如样本之间的均匀差别是正态分布的。测验依赖于确定两组的测量值的均匀差别，X¯d大于 d， d通常设置为0查找是否存在任何差别。在R中，咱们能够用t.test函数进行配对t测验。请留神，t.test假设人口变异是不相等的。在这种状况下，该测验也被称为韦尔奇的t测验。要取得假设种群方差相等的原始t测验，咱们能够间接将equal.var参数设置为TRUE。在这里，咱们将只应用默认设置。 print(t.result$p.value)## \[1\] 0.001416同样，P值小于0.05。因而，咱们偏向于承受另一个假如：药物2比药物1在均匀睡眠工夫上有更大的增长。查看学生t测验的假如t测验要求样本均值是正态分布。依据核心极限定理，在有足够数量的样本时，群体中的样本均值靠近正态分布。因而，只有有足够数量的样本，即便对于非正态测量，也能满足t测验的假如。因为睡眠数据只蕴含10个成对的测量值，应该有理由放心。因而，咱们应该查看测量值之间的差别是否为正态分布，以验证t测验是否无效。 ggplot(diff.df, aes(x = diff)) 看一下直方图，数据仿佛相当平均，而不是正态分布。为了更认真地察看，咱们用Q-Q图将差别与正态分布的期望值进行比拟。 qqp(diff.df$diff) QQ图显示，除了重尾之外，差别相当合乎正态模型。由此，咱们能够得出结论，t测验的假如失去了充沛的满足。不过，咱们还是对t测验是否是这些数据最合适的抉择感到不确定。总结：Wilcoxon符号秩测验与配对学生t测验在这项剖析中，Wilcoxon符号秩测验和配对学生t测验导致回绝零假如。但总的来说，哪种测验更适合？答案是，这取决于几个规范：假如：学生t测验是比拟平均值的测验，而Wilcoxon测验是测验数据的排序。例如，如果你在剖析有许多离群值的数据，如集体财产（多数亿万富翁会极大地影响后果），Wilcoxon测验可能更适合。解释：尽管也能够为Wilcoxon测验计算置信区间，但在t测验中争执平均数的置信区间可能比Wilcoxon测验的假说更天然。假如的实现：对于小规模的样本，学生t测验的假如可能无奈满足。在这种状况下，抉择一个非参数检验往往是比拟平安的。然而，如果满足t测验的假如，它的统计能力比Wilcoxon测验大。因为睡眠数据集的样本量较小，对于这些数据，我更偏向于采纳Wilcoxon的测验。你会用哪种测验？

关于算法:IGC系列全分组卷积网络分组卷机极致使用-轻量级网络

IGC系列网络的外围在分组卷积的极致使用，将惯例卷积分解成多个分组卷积，可能缩小大量参数，另外互补性准则和排序操作可能在起码的参数量状况下保障分组间的信息流通。但整体而言，尽管应用IGC模块后参数量和计算量升高了，但网络结构变得更为繁琐，可能导致在实在应用时速度变慢起源：晓飞的算法工程笔记公众号IGCV1论文: Interleaved Group Convolutions for Deep Neural Networks 论文地址：https://arxiv.org/abs/1707.02725Introduction Interleaved group convolution(IGC)模块蕴含主分组卷积和次分组卷积，别离对主分区和次分区进行特征提取，主分区通过输出特色分组取得，比方将输出特色分为$L$个分区，每个分区蕴含$M$维特色，而对应的次分区则分为$M$个分区，每个分区蕴含$L$维特色。主分组卷积负责对输出特色图进行分组特征提取，而次组卷积负责对主分组卷积的输入进行交融，为$1\times 1$卷积。IGC模块模式上与深度可拆散卷积相似，但分组的概念贯通整个模块，也是节俭参数的要害，另外模块内补充了两个排序模块来保障channel间的信息交换。 Interleaved Group Convolutions IGC模块如图1所示，主卷积对输出进行分组特征提取，而后将主卷积输入的特色进行隔区采样，不便后续的次卷积进行特色交融，将次卷积输入concate起来复原为采样前的程序后作为最初的输入。 Primary group convolutions 假如共$L$个主分区，每个主分区蕴含$M$维特色，主分组卷积的操作如公式1所示，$z_l$为按卷积核大小抠出来的$(MS)$维特征向量，$S$为卷积核大小，$W^p_{ll}$对应第$l$分区的卷积核，大小为$M\times (MS)$，$x=[z^{\top}_1\ z^{\top}_2\ \cdots \ z^{\top}_L]^{\top}$代表主分组卷积的输出。 Secondary group convolutions 将主分组卷积的输入$\{y_1, y_2,\cdots ,y_L \}$重排成$M$个次分区，每个分区蕴含$L$维特色，这样可能保障每个分区都蕴含来自不同主分区的特色，第$m$个次分区因为每个主分区的第$m$维特色组成： $\bar{y}_m$对应第$m$个次分区，$y_{lm}$为$y_l$的第$m$维特色，$P$为排序矩阵，次分组卷积在次分区上进行计算： $W^d_{mm}$对应第$m$个次分区对应的$1\times 1$卷积核，大小为$L\times L$，次分组卷积的输入将重排为主分区的程序，$L$个重排分区$\{x^{'}_1, x^{'}_2, \cdots, x^{'}_L \}$的计算如下：联合主卷积和次卷积的公式，IGC模块能够总结为： $W^p$和$W^d$为分块角对角矩阵，定义$W=PW^dPT^{\top}W^p$为混合卷积核，失去：即IGC模块能够看成是惯例卷积，其卷积核为两个稠密核的积。 AnalysisWider than regular convolutions 思考单像素的输出，IGC模块的参数量为： $G=ML$为IGC的笼罩的维度数，对于惯例卷积，输入输出维度为$C$，参数量为： ...

关于算法:R语言随机森林RandomForest逻辑回归Logisitc预测心脏病数据和可视化分析

原文链接：http://tecdat.cn/?p=22596 钻研纲要介绍数据集和钻研的指标摸索数据集可视化应用Chi-Square独立测验、Cramer's V测验和GoodmanKruskal tau值对数据集进行摸索预测模型，Logisitic回归和RandomForeststep()bestglm()两个逻辑回归的实例应用5折穿插验证对模型实例进行评估变量抉择改良随机森林模型用RandomForest和Logisitc回归进行预测应用可视化进行最终的模型摸索论断和下一步措施1.简介本报告是对心脏钻研的机器学习/数据迷信考察剖析。更具体地说，咱们的指标是在心脏钻研的数据集上建设一些预测模型，并建设探索性和建模办法。但什么是心脏钻研？咱们浏览了对于FHS的材料：心脏钻研是对社区自在生存的人群中心血管疾病病因的长期前瞻性钻研。心脏钻研是流行病学的一个里程碑式的钻研，因为它是第一个对于心血管疾病的前瞻性钻研，并确定了危险因素的概念。该数据集是FHS数据集的一个相当小的子集，有4240个观测值和16个变量。这些变量如下：观测值的性别。该变量在数据集中是一个名为 "男性 "的二值。年龄：体检时的年龄，单位为岁。教育 : 参与者教育水平的分类变量，有不同的级别。一些高中（1），高中/GED（2），一些大学/职业学校（3），大学（4)目前吸烟者。每天抽的烟的数量查看时应用抗高血压药物的状况流行性中风。流行性中风（0 = 无病）。流行性高血压（prevalentHyp）。流行性高血压。如果承受医治，受试者被定义为高血压糖尿病。依据第一次查看的规范医治的糖尿病患者总胆固醇(mg/dL)收缩压(mmHg) 舒张压(mmHg)BMI: 身材品质指数，体重（公斤）/身高（米）^2心率（次/分钟）葡萄糖。血糖程度(mg/dL)最初是因变量：冠心病（CHD）的10年危险。这4240条记录中有3658条是残缺的病例，其余的有一些缺失值。 2.理解数据的意义在每一步之前，要加载所需的库。 require(knitr)require(dplyr)require(ggplot2)require(readr)require(gridExtra) #出现多幅图而后，加载心脏钻研的数据集。 2.1 变量和数据集构造的查看咱们对数据集进行一次查看。 dim(dataset) kable(head(dataset)) str(dataset) ##查看变量的摘要summary(dataset) 2.2 数据集的单变量图生成一个数据集的所有单变量图。 # 须要删除字符、工夫和日期等变量 geom_bar(data = dataset, theme_linedraw()+#colnames(dataset) marrangeGrob(grobs=all_plots, nrow=2, ncol=2) 这是为了取得对变量，对整个问题和数据集的了解，将通过多变量或至多双变量的可视化来实现。 2.3 数据集的双变量图：因变量和预测因素之间的关系当初咱们能够进行一些双变量的可视化，特地是为了看到因变量（TenYearCHD）和预测因素之间的关系。因为图的数量太多，不是所有的一对变量都能被考察到！咱们能够在前面的步骤中持续考察。咱们能够稍后再回到这一步，深刻理解。上面的代码能够生成因变量的所有双变量图。因为因变量是一个二元变量，所以当预测变量是定量的时候，咱们会有boxplots，或者当预测变量是定性的时候，咱们会有分段的bar图。 for (var in colnames(dataset) ){ if (class(dataset\[,var\]) %in% c("factor","logical") ) {ggplot(data = dataset) + geom\_bar( aes\_string(x = var, } else if (class(dataset\[,var\]) %in% c("numeric","double","integer") ) { ggplot(data = dataset) + geom_boxplot() 依据咱们把握的状况，男性与TenYearCHD间接相干，因而男性这个变量仿佛是一个绝对较好的预测因素。同样，年龄仿佛也是一个很好的预测因素，因为TenYearCHD == TRUE的病人有较高的年龄中位数，其散布简直类似。相同，不同类别的教育和因变量之间仿佛没有关系。目前的吸烟者变量与因变量有轻微的关系，因为目前的吸烟者患TenYearCHD的危险略高。 2.4 应用Goodman&Kruskal tau测验定性变量之间的关系然而，除了这些实质上是定性办法的图表外，人们可能心愿对这种关联有一个数字值。为了有这样的数字测量，我想应用Goodman&Kruskal的tau测量，这是两个无序因子，即两个分类/名义变量之间的关联测量。在咱们这个数据集中的因子变量中，只有教育是_序数变量_，即它的类别有意义。这种测量方法比Cramer's V或chi-square测量方法更具信息量。 GKtauData(cat_variables)plot(dataset) 能够看出，对于因变量的变异性，预测因素的解释力十分小。换句话说，依据Goodman和Kruskal's tau度量，咱们的预测因素和因变量之间简直没有关联。这能够从TenYearCHD一栏的数值中看出。假如我的G&Ktau测验正确的话，这对模型来说并不是一个好消息。为了测验这些发现，咱们能够用Chi-square测验来测验分类变量与因变量的关联的显著性，而后用Phi相关系数来评估可能的关联的强度。Phi用于2x2等值表。对于更大的表格，即有更多层次的变量，能够利用Cramer's V。 chisq.test(table(dataset_cat$p.value )) phi(matrix(table(dataset\_cat\_variables\[,7\], 奇怪的是，当Chi-square的P值如此之低时，可能的关联的显著性为零。这两个测试（Chi-square和Phi相干）在大量的察看中基本上得出雷同的后果，因为一个是基于正态分布的，另一个是基于t散布的。 2.5 多重共线性的双变量剖析该模型的真正问题在于共线性现象。共线性关系产生在两个预测因子高度相干的状况下。咱们须要查看这种个性，而后持续建设对数回归模型。依据Goodman和Kruskal's tau图，咱们不应该放心共线性。然而，有序变量的教育变量呢？Cramer's V测验显示，其强度不大。 # 教育与其余分类变量的Chi square独立性测试 chisq.test(table(education,variables\[,x\]))$p.value ) #将教育变量从新定位到数据集的第一个变量上 assocstats(x = table(dataset\_cat\_variables\[,1\], dataset_$cramer ) ) 没有一个变量显示与教育有很强的关联。Cramer's V的最高值是0.145，这在教育和性别之间是相当弱的。然而诸如currentSmoker和cigsPerDay这样的变量呢？很显著，其中一个是能够预测的。有一个数字变量和一个分类变量，咱们能够把数字变量分成几个类别，而后应用Goodman和Kruskal's tau。GroupNumeric()函数能够帮忙将定量变量转换成定性变量，然而，基于对数据的主观了解，以及之前看到的cigsPerDay的多模态散布，在这里应用cut()函数很容易。当初让咱们检查一下GKtau的数值 class\_list <- lapply(X = 1:ncol(dataset\_2), function(x) class(dataset_2\[,x\]))t <- sapply(X = names(class\_list) , FUN = function(x) TRUE %in% ( class\_list\[x\] %in% c("factor","logical")) )dataset\_cat\_variables\_2 <- subset(x = dataset\_2, select = t )plot(dataset_2) 从矩阵图上的tau值及其背景形态，咱们能够看到cigsPerDay能够齐全解释currentSmoker的变异性。这并不奇怪，因为如果咱们晓得一个人每天抽多少支烟就能够断言咱们晓得一个人是否是吸烟者! 第二个关联是cigsPerDay与男性的关系，但它并不强烈。因而，前者能够解释后者的较小的变动性。在下一个数据集中，我把所有定量变量转换成定性/分类变量。当初咱们能够有一个全面的矩阵，只管因为转换，一些信息会失落。 dataset_3$totChol <- GroupNumeric(x = dataset$totChol , n = 5 ) 咱们能够看到，sysBP和diaBP能够预测prevalentHyp，但不是很强。(0.5左右)。因而咱们能够在模型中保留prevalentHyp。第二点是对于GK tau的输入。 3.预测模型:Logistic回归和RandomForest当初是评估模型实例的时候了。在这里，咱们把逻辑回归称为模型。咱们有两个实例。 1. 一个包含所有原始变量的模型实例，特地是cigsPerday和currentSmoker变量 ...

关于算法:某区块链公司竟然用这道算法题来面试

最近有粉丝和我交换面试遇到的算法题。其中有一道题比拟有意思，分享给大家。 ta 说本人面试了一家某大型区块链的公司的前端岗位，被问到了一道算法题。这道题也是一个十分常见的题目了，力扣中也有原题 110. 均衡二叉树，难度为简略。不过面试官做了一点点小的扩大，难度霎时降级了。咱们来看下面试官做了什么扩大。题目题目是《判断一棵树是否为均衡二叉树》，所谓均衡二叉树指的是二叉树中所有节点的左右子树的深度之差不超过 1。输出参数是二叉树的根节点 root，输入是一个 bool 值。代码会被以如下的形式调用： console.log(isBalance([3, 9, 2, null, null, 5, 5]));console.log(isBalance([1, 1, 2, 3, 4, null, null, 4, 4]));思路求解的思路就是围绕着二叉树的定义来进行即可。对于二叉树中的每一个节点都：别离计算左右子树的高度，如果高度差大于 1，间接返回 false否则持续递归调用左右子节点，如果左右子节点全部都是均衡二叉树，那么返回 true。否则返回 false能够看出咱们的算法就是死扣定义。计算节点深度比拟容易，既能够应用前序遍历 + 参考扩大的形式，也可应用后序遍历的形式，这里我用的是前序遍历 + 参数扩大。对此不相熟的强烈建议看一下这篇文章简直刷完了力扣所有的树题，我发现了这些货色。。。于是你能够写出如下的代码。 function getDepth(root, d = 0) { if (!root) return 0; return max(getDepth(root.left, d + 1), getDepth(root.right, d + 1));}function dfs(root) { if (!root) return true; if (abs(getDepth(root.left), getDepth(root.right)) > 1) return false; return dfs(root.left) && dfs(root.right);}function isBalance(root) { return dfs(root);}不难发现，这道题的后果和节点（TreeNode）的 val 没有任何关系，val 是多少齐全不影响后果。 ...

关于算法:R语言计算资本资产定价模型CAPM中的Beta值和可视化

原文链接：http://tecdat.cn/?p=22588 明天咱们将计算投资组合收益的CAPM贝塔。这须要拟合一个线性模型，失去可视化，从资产收益的角度思考咱们的后果的意义。简略的背景介绍，资本资产定价模型（CAPM）是由威廉·夏普（William Sharpe）创立的一个模型，它依据市场收益和资产与市场收益的线性关系来估算资产的收益。这种线性关系就是股票的贝塔系数。计算CAPM的betas能够作为一个团队工作中更简单的模型的一个很好的模板。咱们将专一于CAPM的一个特定方面：值。正如咱们下面所指出的，贝塔系数是指一项资产的收益率回归到市场收益率的后果。它抓住了资产与市场之间的线性关系在计算该投资组合的贝塔值之前，咱们须要找到投资组合的月度收益率。 pri <- getSymbols(symbols, src = 'yahoo', from = "2013-01-01", to = "2017-12-31", auto.assign = TRUE, warnings = FALSE) %>% monthly <- to.monthly(pri咱们将两个投资组合收益和一个资产收益一起剖析。 CAPM和市场收益咱们的第一步是做出抉择，用哪种资产作为市场收益的代理，咱们将抉择SPY ETF，将规范普尔500指数视为市场收益。让咱们计算一下SPY的市场收益。留神开始日期是 "2013-01-01"，完结日期是 "2017-12-31"，所以咱们将应用五年的收益。 getSymbols("SPY", src = 'yahoo', from = "2013-01-01", to = "2017-12-31", auto.assign = TRUE, warnings = FALSE) %>% return <- Return.calculate(monthl, method = "log") %>% 咱们还想要一个市场收益率的data.frame对象，并转换xts对象。 returns_tidy <- returns_xts %>% tk\_tbl(preserve\_index = TRUE, rename_index = "date") %>% 咱们有一个market\_returns\_tidy对象。咱们确保它的周期性与投资组合周期统一 monthly %>% mutate(market\_returns = returns\_tidy$returns) %>% head() 如果周期性不统一，mutate()就会抛出一个谬误。计算CAPM贝塔计算投资组合的值，首先让咱们看看这个方程式。投资组合等于投资组合收益和市场收益的协方差，除以市场收益的方差。咱们能够用cov计算分子，即投资组合和市场收益的协方差，用var计算分母。咱们的投资组合值等于。 cov(monthly,returns)/var(returns) 这个值相当靠近于1，毕竟SPY是这个投资组合的一个重要局部。咱们也能够通过找到咱们每个资产的贝塔值，而后乘以资产权重来计算组合贝塔值。也就是说，投资组合贝塔值的另一个方程式是资产贝塔值的加权和。为了在R中应用这种办法，咱们首先要找到咱们每个资产的值。咱们须要将每项资产的收益率回归到市场收益率上。咱们能够用lm()对资产1进行回归，而后再用lm()对资产2进行回归，等等。但如果咱们有一个50个资产的投资组合，这将是不事实的。相同，咱们写一个代码流程，应用map()来回归咱们所有的资产，并通过一次调用计算betas。咱们将从咱们的returns_long参差的数据框架开始。 assets nest(-asset)扭转了咱们的数据框架，所以有两列：一列叫做asset，保留咱们的资产名称，一列叫做data，保留每个资产的收益列表。当初咱们曾经将收益列表 "嵌套 "在一列中。当初咱们能够应用map()对每个嵌套的列表利用一个函数，并通过mutate()函数将后果存储在一个新的列中。整个管道命令是mutate(model = map(, ~ lm()) long %>% mutate( map(data, ~ lm(returns ~ returns) assets 咱们当初有三列：之前的资产，之前的数据，以及咱们刚刚增加的模型。模型一栏是咱们对每项资产进行回归的后果lm( )。这些后果是咱们每个资产的值和截距。让咱们用tidy()函数整顿一下咱们的后果。咱们想将该函数利用于咱们的模型列，并将再次应用mutate()和map()组合。 mutate(model = map(data, ~ lm(returns ~ returns)) %>% mutate(model = map(model, tidy)) 咱们当初曾经很靠近了，然而模型栏里有嵌套的数据框。它们是格式化很好的数据框架。 beta_assets$model 不过，我不喜爱最终呈现嵌套的数据框架，所以咱们调整模型列。 mutate(model = map(data, ~ lm(returns ~returns)) %>%unnest(model) 当初，这看起来比拟整洁。咱们将做进一步的清理，去掉截距，因为咱们须要贝塔值。 mutate(map( ~ lm(returns ~ returns)) %>% filter(term == "returns") %>% 疾速查看应该发现SPY与本身的贝塔为1。 bet %>% filter(asset == "SPY") 当初让咱们看看咱们对这些资产的组合如何影响投资组合的值。让咱们依照下面的抉择来调配投资组合的权重。当初咱们能够应用这些权重来取得咱们的投资组合的值，基于每个资产的值。 w\[1\] * beta$estimate\[1\] + w\[2\] * beta$estimate\[2\] + w\[3\] * beta$estimate\[3\] + w\[4\] * beta$estimate\[4\] + w\[5\] * beta$estimate\[5\]这个贝塔值与咱们下面用协方差/方差法计算的是一样的，当初咱们晓得投资组合收益和市场收益的协方差除以市场收益的方差等于咱们把每项资产的收益回归到市场收益上失去的加权预计。 xts计算CAPM的Beta值应用内置CAPM.beta（）函数。该函数须要两个参数：咱们心愿计算其值的投资组合（或任何资产）的收益，以及市场收益。 CAPM.beta(\_monthly, returns\_xts) 在Tidyverse中计算CAPM Beta首先，咱们将应用dplyr来抓取咱们的投资组合贝塔。咱们稍后会进行一些可视化，但当初将提取投资组合的值。为了计算贝塔值，咱们调用do(model = lm())。而后咱们应用tidy()函数，使模型后果更容易看懂。 do(model = lm(returns ~return)) %>% mutate(term = c("alpha", "beta")) Tidyquant计算CAPM的值应用tidyquant函数。可能将CAPM.beta()函数利用于一个数据框架。 tq_performance(Ra = returns, Rb = return, performance_fun = CAPM.beta) 稳固的后果和靠近1的贝塔值是比拟现实的，因为咱们的投资组合有25%调配给规范普尔500指数。 CAPM beta的可视化在可视化之前，咱们须要计算投资组合的收益，而后计算投资组合波及到的单个资产的CAPM。可视化投资组合收益、危险和市场收益之间的关系CAPM的值通知咱们投资组合收益与市场收益之间的线性关系。它还通知咱们投资组合的风险性--投资组合绝对于市场的稳定水平。在咱们探讨贝塔系数自身之前，让咱们先看看咱们的资产的预期月度收益与咱们个别资产的月度危险的比照。 ...

关于算法:R语言配对检验分析案例

原文http://tecdat.cn/?p=3424什么是测验对？测验对的模式（x1，x2）呈现在两种状况中：对同一实体执行两次测量。例如，一项评估新型胰岛素疗效的临床钻研将为每位患者测量两次血糖程度：之前（X1）服药后（X2）。对不同的实体进行测量。然而，实体依据其特色进行匹配。例如，为了测试药物的效用，您可能心愿依据体重，年龄或其余特色配对钻研参与者，以管制这些混淆因素。在第一种状况下，配对是数据生成过程的天然后果。在第二种状况下，配对由钻研设计强制执行。为什么依赖测量有用？应用配对测验，能够管制影响测量后果的混淆因素。因而，配对钻研设计通常比波及独立组的设计更弱小。睡眠数据集让咱们思考睡眠数据集，举例说明： data(sleep)print(sleep)## extra group ID## 1 0.7 1 1## 2 -1.6 1 2## 3 -0.2 1 3## 4 -1.2 1 4## 5 -0.1 1 5## 6 3.4 1 6## 7 3.7 1 7## 8 0.8 1 8## 9 0.0 1 9## 10 2.0 1 10## 11 1.9 2 1## 12 0.8 2 2## 13 1.1 2 3## 14 0.1 2 4## 15 -0.1 2 5## 16 4.4 2 6## 17 5.5 2 7## 18 1.6 2 8## 19 4.6 2 9## 20 3.4 2 10_extra_示意与基线测量相比睡眠中的减少/缩小（正/负值），_组_示意药物，_ID_示意患者ID。为了更分明，我将_组_重命名为_药物_：考察睡眠数据集重要的是要留神每个人都是不同的。因而，雷同药物的效用可能因人而异。让咱们看看这个数据集中是否也是这种状况：实际上，个体钻研对象的额定睡眠工夫散布仿佛是双峰的。大概一半的受试者体现出两种药物的睡眠持续时间大幅减少，而另一半受试者简直没有好处甚至患有药物。应用配对测验，能够校对这些患者间差别，而对于假如测量是独立的测试，这是不可能的。比拟不成对和配对测验当初让咱们比拟不成对测试和配对测验对睡眠数据集的执行状况。 Wilcoxon秩和测验如果咱们在测量中应用未配对的Wilcoxon秩和测验（Mann-Whitney U测验），则该测验将产生以下药物程序以确定显着性： ## \[1\] 1 1 1 1 2 1 2 1 1 2 2 2 2 1 1 2 1 2 2 2## Levels: 1 2咱们能够看到，尽管代表性有余，但药物1在最高级别中呈现了好几次。这是因为，对于两种药物反馈良好的患者，药物1也运作良好。因为依赖药物的额定睡眠工夫没有显著的拆散，因而测试在5％的程度上不会显着： ## \[1\] 0.06932758_威尔科克森_符号秩测验思考配对的测验值更有意义，因为测验后果不受个体受试者的药物敏感性的影响。咱们能够看到，当咱们计算患者内额定睡眠差别时，用于未配对Wilcoxon测验的度量： ## \[1\] -1.2 -2.4 -1.3 -1.3 0.0 -1.0 -1.8 -0.8 -4.6 -1.4非阳性差别分明地表明药物1在所有钻研受试者中都不如药物2。因为Wilcoxon测验基于这些差别，因而发现两种药物在显着性程度为5％时存在显着差别： # 配对测验w.unpaired <- wilcox.test(x, y, paired = TRUE)print(w.unpaired$p.value) ``````## \[1\] 0.009090698论断这个例子阐明了为什么分组钻研设计优于测验独立的钻研设计。当然，仅在应用思考配对测验的测试来评估数据的状况下才是这种状况。否则，实际上重要的后果可能被谬误地视为无关紧要。十分感谢您浏览本文，有任何问题请在上面留言！

关于算法:R语言极值推断广义帕累托分布GPD使用极大似然估计轮廓似然估计Delta法

原文链接：http://tecdat.cn/?p=22566 本文是极其值推断的内容。咱们在狭义帕累托散布上应用最大似然办法。极大似然预计在参数模型的背景下，规范技术是思考似然的最大值（或对数似然）。思考到一些技术性假如，如，的某个邻域，那么其中示意费雪信息矩阵。在此思考一些样本，来自狭义帕累托散布，参数为，因而如果咱们解决极大似然的一阶条件，咱们失去一个满足以下条件的预计这种渐进正态性的概念如下：如果样本的实在散布是一个具备参数的GPD，那么，如果n足够大，就会有一个联结正态分布。因而，如果咱们产生大量的样本（足够大，例如200个观测值），那么预计的散点图应该与高斯分布的散点图雷同。 > for(s in 1:1000){+ param\[s,\]=gpd(x,0)$par.ests> image(x,y,z)失去一个3D的示意 > persp(x,y,t(z)+ xlab="xi",ylab="sigma") 有了200个观测值，如果真正的根底散布是GPD，那么，联结散布是正态的。 Delta德尔塔法另一个重要的属性是德尔塔法。这个想法是，如果是渐进正态，足够平滑，那么也是渐进高斯的。从这个属性中，咱们能够失去（这是极值模型中应用的另一个参数化）的正态性，或者在任何四分位数上。咱们运行一些模仿，再一次查看联结正态性。 > for(s in 1:1000)+ gpd(x,0)$par.ests+ q=sha * (.01^(-xih) - 1)/xih+ tvar=q+(sha + xih * q)/(1 - xih)dmnorm(cbind(vx,vy),m,S)> image(x,y,t(z) 正如咱们所看到的，在样本大小为200的状况下，咱们不能应用这个渐进式的后果：看起来咱们没有足够的数据。然而，如果咱们在n=5000运行同样的代码， ``````> n=5000 咱们失去和的联结正态性。这就是咱们能够从这个后果中失去的delta-办法。轮廓似然( Profile Likelihood )另一个乏味的办法是Profile 似然函数的概念。因为尾部指数，在这里是辅助参数。这能够用来推导出置信区间。在GPD的状况下，对于每个，咱们必须找到一个最优的。咱们计算Profile 似然函数，即。而咱们能够计算出这个轮廓似然的最大值。一般来说，这个两阶段的优化与（全局）最大似然是不等价的，计算结果如下 + profilelikelihood=function(beta){+ -loglik(XI,beta) }+ L\[i\]=-optim(par=1,fn=profilelik)$value } 如果咱们想计算轮廓似然的最大值（而不是像以前那样只计算网格上的轮廓似然的值），咱们应用 + profile=function(beta){+ -loglikelihood(XI,beta) }(OPT=optimize(f=PL,interval=c(0,3))) 咱们失去后果和最大似然预计的类似。咱们能够用这种办法来计算置信区间，在图表上将其可视化 > line(h=-up-qchisq(p=.95,df=1)> I=which(L>=-up-qchisq(p=.95,df=1))> lines(XIV\[I\] 竖线是参数95%置信区间的上限和下限。最受欢迎的见解 1.R语言POT超阈值模型和极值实践剖析 2.R语言极值实践EVT：基于GPD模型的火灾损失散布剖析 3.R语言有极值（EVT）依赖构造的马尔可夫链(MC)对洪水极值剖析 4.R语言回归中的hosmer-lemeshow拟合优度测验 5.matlab实现MCMC的马尔可夫切换ARMA – GARCH模型预计 6.R语言区间数据回归剖析 7.R语言WALD测验 VS 似然比测验 8.python用线性回归预测股票价格 9.R语言如何在生存剖析与Cox回归中计算IDI，NRI指标

关于算法:基于R语言实现LASSO回归分析

原文链接：http://tecdat.cn/?p=10997模仿假数据集 set.seed(0820) n <- 50 p <- 25 beta <- rep(0,p) beta\[1:5\] <- 1:5/5 X <- matrix(rnorm(n*p),n,p) X <- scale(X) Xb <- X%*%beta Y <- X%*%beta+rnorm(n) Y <- Y-mean(Y) plot(cor(X,Y),xlab="j",ylab="Cor(Y,X_j)",main="Sample correlations",cex=2) 规范最小二乘法 summary(ols)## ## Call:## ## Residuals:## Min 1Q Median 3Q Max ## -2.54540 -0.38971 -0.00738 0.49058 1.90900 ## ## Coefficients:## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -3.914e-16 1.648e-01 0.000 1.00000 ## X1 6.020e-01 2.097e-01 2.871 0.00841 ** ## X2 5.924e-01 2.013e-01 2.944 0.00709 ** ## X3 -1.106e-01 2.290e-01 -0.483 0.63363 ## X4 1.117e+00 2.058e-01 5.427 1.42e-05 ***## X5 1.234e+00 2.190e-01 5.633 8.46e-06 ***## X6 -3.225e-01 2.322e-01 -1.389 0.17755 ## X7 -1.954e-01 2.150e-01 -0.909 0.37231 ## X8 1.466e-01 2.532e-01 0.579 0.56803 ## X9 4.678e-02 2.353e-01 0.199 0.84409 ## X10 -2.779e-01 2.151e-01 -1.292 0.20864 ## X11 -7.308e-02 2.553e-01 -0.286 0.77717 ## X12 -4.424e-02 2.642e-01 -0.167 0.86839 ## X13 -1.078e-01 2.101e-01 -0.513 0.61270 ## X14 3.000e-01 2.263e-01 1.326 0.19743 ## X15 2.396e-01 2.480e-01 0.966 0.34365 ## X16 -1.178e-01 2.285e-01 -0.515 0.61100 ## X17 -2.409e-01 2.280e-01 -1.057 0.30104 ## X18 -3.191e-01 2.396e-01 -1.332 0.19551 ## X19 -1.207e-01 2.372e-01 -0.509 0.61553 ## X20 1.721e-01 2.179e-01 0.790 0.43733 ## X21 -1.677e-02 2.144e-01 -0.078 0.93831 ## X22 3.706e-02 2.145e-01 0.173 0.86426 ## X23 3.233e-02 2.108e-01 0.153 0.87938 ## X24 -1.541e-01 2.343e-01 -0.658 0.51691 ## X25 -1.970e-01 1.965e-01 -1.002 0.32622 ## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1## ## Residual standard error: 1.166 on 24 degrees of freedom## Multiple R-squared: 0.8416, Adjusted R-squared: 0.6767 ## F-statistic: 5.102 on 25 and 24 DF, p-value: 7.861e-05 LASSO `````` plot(lasso) 应用BIC抉择门路上的最佳点## df MSE bic## Intercept 1 4.1174138 74.67329## 2 3.8224639 74.86881## 3 1.9171062 44.27691## 4 1.9136899 48.09976## 5 1.5118875 40.22806## 6 1.3016560 36.65400## 7 1.2693779 39.31051## 8 1.2124870 40.92986## 9 1.1814011 43.54326## 10 1.1728179 47.09070## 11 1.1016346 47.87201## 12 1.0050559 47.19643## 13 0.9867377 50.18875## 14 0.9636054 52.91465## 15 0.8686856 51.64164## 16 0.7777734 50.02637## 17 0.7700763 53.44111## 18 0.7663544 57.11089## 19 0.7510361 60.01336## 20 0.7451598 63.53263## 19 0.7196873 57.88151## 20 0.7149486 61.46323## 21 0.7141592 65.32002## 20 0.7051259 60.77152## 21 0.6875391 63.42065## 22 0.6764241 66.51776## 23 0.6739037 70.24313## 24 0.6570954 72.89225## 25 0.6564105 76.75213## 26 0.6520870 80.33373 后果 # beta真值 ## \[1\] 0.2 0.4 0.6 0.8 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0## \[18\] 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 #应用最小二乘预测beta round(beta_ols,3)## X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 ## 0.602 0.592 -0.111 1.117 1.234 -0.323 -0.195 0.147 0.047 -0.278 ## X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 ## -0.073 -0.044 -0.108 0.300 0.240 -0.118 -0.241 -0.319 -0.121 0.172 ## X21 X22 X23 X24 X25 ## -0.017 0.037 0.032 -0.154 -0.197 # LASSO预测beta round(beta_lasso,3)## \[1\] 0.238 0.238 0.000 0.900 0.786 0.000 0.000 0.000 0.000 0.000## \[11\] 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000## \[21\] 0.000 0.000 0.000 0.000 -0.075 #MSE - OLS mean((beta-beta_ols)^2)## \[1\] 0.06204978 #MSE - LASSO mean((beta-beta_lasso)^2)## \[1\] 0.01795647 最受欢迎的见解 1.R语言多元Logistic逻辑回归利用案例 2.面板平滑转移回归(PSTR)剖析案例实现 3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR） 4.R语言泊松Poisson回归模型剖析案例 5.R语言回归中的Hosmer-Lemeshow拟合优度测验 6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现 7.在R语言中实现Logistic逻辑回归 8.python用线性回归预测股票价格 9.R语言如何在生存剖析与Cox回归中计算IDI，NRI指标

关于算法:Python用PyMC3实现贝叶斯线性回归模型

原文链接：http://tecdat.cn/?p=5263在本文中，咱们将在贝叶斯框架中引入回归建模，并应用PyMC3 MCMC库进行推理。咱们将首先回顾经典或频率论的多重线性回归办法。而后咱们将探讨贝叶斯如何思考线性回归。用PyMC3进行贝叶斯线性回归在本节中，咱们将对统计实例进行一种历史悠久的办法，即模仿一些咱们晓得的属性的数据，而后拟合一个模型来推算这些原始属性。什么是狭义线性模型？在咱们开始探讨贝叶斯线性回归之前，我想简要地概述狭义线性模型（GLM）的概念，因为咱们将应用它们来在PyMC3中制订咱们的模型。狭义线性模型是将一般线性回归扩大到更个别模式的回归的灵便机制，包含逻辑回归（分类）和泊松回归（用于计数数据）以及线性回归自身。GLM容许具备除正态分布以外的误差散布的因变量。用PyMC3模仿数据并拟合模型在咱们应用PyMC3来指定和采样贝叶斯模型之前，咱们须要模仿一些噪声线性数据。输入如下图所示：通过Numpy，pandas和seaborn模仿噪声线性数据当初咱们曾经进行了模仿，咱们想要对数据拟合贝叶斯线性回归。这是glm模块。与R指定模型有相似的模型标准语法。而后咱们将找到MCMC采样器的最大后验概率（MAP）估计值。最初，咱们将应用No-U-Turn Sampler（NUTS）来进行理论推理，而后绘制模型的曲线，将前500个样本抛弃为“burn in”预烧过程。 traceplot如下图所示：应用PyMC3将贝叶斯GLM线性回归模型拟合到模仿数据首先咱们应用seaborn lmplot办法，fit_reg参数设置False为进行绘制频数回归曲线。而后咱们绘制100个采样的后验预测回归线。最初，咱们绘制应用原始的“实在”回归线和1=2的参数。咱们能够在下图中看到回归线的抽样范畴：有问题欢送分割咱们！最受欢迎的见解 1.matlab应用贝叶斯优化的深度学习 2.matlab贝叶斯隐马尔可夫hmm模型实现 3.R语言Gibbs抽样的贝叶斯简略线性回归仿真 4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归 5.R语言中的Stan概率编程MCMC采样的贝叶斯模型 6.Python用PyMC3实现贝叶斯线性回归模型 7.R语言应用贝叶斯层次模型进行空间数据分析 8.R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型 9.matlab贝叶斯隐马尔可夫hmm模型实现

关于算法:Python随机波动率SV模型对标普500指数时间序列波动性预测

原文链接：http://tecdat.cn/?p=22546 资产价格具备随工夫变动的波动性（逐日收益率的方差）。在某些期间，收益率是高度变动的，而在其余期间则十分安稳。随机稳定率模型用一个潜在的稳定率变量来模仿这种状况，该变量被建模为随机过程。上面的模型与 No-U-Turn Sampler 论文中形容的模型类似，Hoffman (2011) p21。这里，r是每日收益率序列，s是潜在的对数稳定率过程。建设模型首先，咱们加载标普500指数的每日收益率。 returns = (pm.get_data("SP500.csv"))returns\[:5\] 正如你所看到的，波动性仿佛随着工夫的推移有很大的变动，但集中在某些时间段。在2500-3000个工夫点左近，你能够看到2009年的金融风暴。 ax.plot(returns)指定模型。 GaussianRandomWalk('s', hape=len(returns))nu = Exponential( .1)r = StudentT( pm.math.exp(-2*s), obs=returns)拟合模型对于这个模型，最大后验(_Maximum_ _A_ _Posteriori_,MAP)概率预计具备有限的密度。然而，NUTS给出了正确的后验。 pm.sample(tune=2000Auto-assigning NUTS sampler... plot(trace\['s'\]); 察看一段时间内的收益率，并叠加预计的标准差，咱们能够看到该模型是如何拟合一段时间内的稳定率的。 plot(returns)plot(exp(trace\[s\]); np.exp(trace\[s\]) 参考文献Hoffman & Gelman. (2011). The No-U-Turn Sampler: Adaptively Setting Path Lengths in Hamiltonian Monte Carlo. 最受欢迎的见解 1.HAR-RV-J与递归神经网络（RNN）混合模型预测和交易大型股票指数的高频稳定率 2.WinBUGS对多元随机稳定率模型：贝叶斯预计与模型比拟 3.稳定率的实现：ARCH模型与HAR-RV模型 4.R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测 5.应用R语言随机稳定模型SV解决工夫序列中的随机稳定率 6.R语言多元COPULA GARCH 模型工夫序列预测 7.R语言基于ARMA-GARCH过程的VAR拟合和预测 8.R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型 9.R语言对S＆P500股票指数进行ARIMA + GARCH交易策略

关于算法:521花一夜给女神写走迷宫游戏

以前尽管写过走迷宫，很多人反映没找到代码不会部署，没看明确原理，这次把更具体写出优化并将代码放到github，趁着520,521能够本人放一些图片献给女神！起因先看效果图(文末有动态图)(在线电脑尝试地址http://biggsai.com/maze.html)：我的项目github地址：https://github.com/javasmall/mazegame：作为程序猿，经常因为身务忙碌，常常忙于coding很少空闲来顾及女朋友，也常被吐槽为渣男。然而，渣着渣着，却发现520到了。卧槽，520？！咱们经常悔恨本人激动时候说过的话，我筹备个毛线，啥都没筹备，但好体面的我也不可能随随便便坑骗人家女孩子(尽管曾经骗了)，习惯性关上淘宝，逛着看看有没有啥适合的，一想明天曾经19号了，卧槽要凉了难道？一想还有美团补救一下能够送的到，关上美团发现都是吃喝玩，完蛋，真的要凉了。深夜，我在忏悔本人说过的大话，没本事不能瞎说啊，一早晨啥也干不了啥哇。等等，还有一早晨耶！此时我忽然眼前一亮，对于程序猿，一早晨也能制作属于他的浪漫！打开各种搜索引擎、博客搜素一番：程序员520表白神器代码果然不出我所料！有货色，哈哈哈ctrl+c,ctrl+v我可太会了，浪漫要来了！找了几个代码，发现哇塞好牛哇，还能跑起来，然而发现好多雷同我也找不到原作者是谁，但我心中十分崇拜作者的才华(救命之恩)。这时我的头脑又浮现她时长对我说的一句话："一点都不上心"！这些可能的确都曾经很老套和小儿科了，不行，我要以我本人的形式来！我要有点我本人的特色。我推敲着怎么用相熟的数据结构与算法搞个乏味的货色。追忆着我晓得的数据结构与算法：链表、队列、栈、图、dfs、bfs、并查集、Dijkstra、Prime…… 以前模摸糊糊如同记得有人用Java Swing配合并查集算法画迷宫，我是否能够写一个走迷宫的小游戏呢？但我搜了一下并未发现有HTML、JavaScript版本的，但Swing那玩意除了特定场景根本没人用我要整一个不一样的，尽管JavaScript和HTML我不太熟，但我应该能够，加油！剖析我须要从0到1的设计实现一个走迷宫游戏，但这外面肯定是艰难阻阻，不过凡是问题都能够先拆开分步，而后一一击破合并。对于一个走迷宫的小游戏，我想了一下可能须要把握以下的常识：搞懂一个初始地位至完结地位有达到门路的迷宫生成算法用JavaScript在canvas上画棋盘(迷宫初始状态)利用迷宫生成算法生成一个迷宫(擦除须要擦掉的线)利用JavaScript、事件监听和canvas画图实现方块挪动(要思考不出界、不穿墙)推敲的过程大略是：画单条线—>画多个线—>擦线(造成迷宫)—>方块挪动、挪动束缚(不出界不穿墙)—>实现游戏。画线(棋盘)对于html+js(canvas)画的货色以前没接触过，但之前学过Java Swing写过五子棋游戏、翻卡牌游戏和这个有点相似，在html中有个canvas 的画布，能够在下面画一些货色和申明一些监听(键盘监听)。对于这种canvas、Java Swing、QT等画图库，如果你应用它进行画图，要分明你画下来的货色其实就是一条条线，没有理论的属性，你只不过须要在编程语言中依据数据结构与算法去操作画布，让canvas画布的内容是对你写的数据结构或算法是一个正确正当的展示。所以对于迷宫来说，一个个线条线条是没有属性的，只有地位x,y，你操作这个画布时候，可能和咱们习惯的面相对象思维不一样，设计的线或者点的时候，要可能通过计算推理这些点、线在什么地位，在后续画线、擦线、挪动方格的时候依据这个地位进行操作让整个迷宫在视觉效果上是残缺对立的。对于这个画棋盘的步骤也很简略，首先尝试画一条线，当时想好迷宫每个方格格的大小和方格总个数，之后依照起始(左上)坐标程序画程度方向、竖直方向的线(平行线之间起末点地位上有法则的)，最终就能够实现一个视觉上的迷宫。 <!DOCTYPE html><html><head> <title>MyHtml.html</title></head><body> <canvas id="mycanvas" width="600px" height="600px"></canvas></body><script type="text/javascript"> var chessboradsize=14;//棋盘大小 var chess = document.getElementById("mycanvas"); var context = chess.getContext('2d'); function drawChessBoard(){//绘画 for(var i=0;i<chessboradsize+1;i++){ context.strokeStyle='gray';//可选区域 context.moveTo(15+i*30,15);//垂直方向画15根线，相距30px; context.lineTo(15+i*30,15+30*chessboradsize); context.stroke(); context.moveTo(15,15+i*30);//程度方向画15根线，相距30px;棋盘为14*14； context.lineTo(15+30*chessboradsize,15+i*30); context.stroke(); } } drawChessBoard();//绘制棋盘</script></html>实现成果画迷宫随机迷宫怎么生成？怎么搞？又陷入一脸懵逼。因为咱们想要迷宫，那么就须要这个迷宫进口和入口有连通门路，不钻研的话很难晓得用什么算法生成这个迷宫。这时耳角传来相熟的声音：用并查集(不相交汇合)。迷宫和不相交汇合有什么分割呢？(规定) 之前笔者在后面数据结构与算法系列中已经介绍过并查集(不相交汇合)，它的次要性能是森林的合并、查找：不联通的通过并查集可能疾速将两个森林合并，并且可能疾速查问两个节点是否在同一个森林(汇合)中！而随机迷宫生成正也利用了这个思维：在每个方格都不联通的状况下，是一个棋盘方格，每个迷宫格子绝对独立，这是它的初始状态；前面生成可能须要若干相邻节点进行联通(合并为一个汇合)，且这个节点能够跟街坊可能相连，也可能不相连。咱们能够通过并查集实现其底层数据结构的撑持。 ...

关于算法:R语言在地图上绘制散点饼图可视化

咱们在ggplot2中制作的饼实际上是一个条形图转换为极坐标。如果咱们想制作一个像下面截图那样的地图，这就很艰难了。但在地图上绘制饼图时，它也有本人的毛病。首先，当咱们绘制大量的饼图时，它以光栅图像的模式渲染，使得它的渲染速度很慢。本文创立了一个封装函数，使其更容易绘制一组饼图。例如，假如咱们有以下数据。 set.seed(123)long <- rnorm(50, sd=100)lat <- rnorm(50, sd=50) It is very easy to draw the pies on the map by the geom_scatterpie layer. 在地图上绘制饼图。 ggplot(map_data('world'), aes(long, lat) +pie(aes(x=long, y=lat, group=region, r=radius 这是一个简略利用，我发现很多人喜爱它。他们要求我实现饼的大小图例。我实现了一个legend层为饼的大小增加了一个图例，如上图所示。

关于算法:R语言中ARMAARIMABoxJenkinsSARIMA和ARIMAX模型用于预测时间序列数据

原文链接:http://tecdat.cn/?p=5919在本文中，我将介绍ARMA，ARIMA（Box-Jenkins），SARIMA和ARIMAX模型如何用于预测工夫序列数据。应用滞后算子计算滞后差分咱们能够应用backshift滞后算子来执行计算。例如，滞后算子可用于计算的工夫序列值的滞后差分，其中k示意的差分滞后期。对于k=1，咱们取得一般的差分，而对于k=2咱们取得绝对于一阶的差分。让咱们思考R中的一个例子。应用R，咱们能够应用diff函数计算滞后差分。函数的第二个参数示意所需的滞后k，默认设置为k=1。例如： By <- diff(y) # y\_i - B y\_iB3y <- diff(y, 3) # y\_i - B^3 y\_imessage(paste0("y is: ", paste(y, collapse =## y is: 1,3,5,10,20## By is: 2,2,5,10## B^3y is: 9,17 自相干函数滞后k的自相干定义为：要计算自相干，咱们能够应用以下R函数： get_autocor <- function(x, lag) { x.left <- x\[1:(length(x) - lag)\] x.right <- x\[(1+lag):(length(x))\] autocor <- cor(x.left, x.right) return(autocor)}get_autocor(y, 1) ## \[1\] 0.9944627# 相隔2个工夫点（滞后期2）测量值的相关性get_autocor(y, 2)## \[1\] 0.9819805数据的高度自相干表明数据具备明确的工夫趋势。偏自相干因为察看到较大滞后的自相干能够是较低滞后的相干后果，因而通常值得思考偏自相干函数（pACF）。pACF的想法是计算偏相关性，这种相关性决定了对变量的最近察看样本的相关性。pACF定义为：应用pACF能够辨认是否存在理论滞后的自相干或这些自相干是否是由其余样本引起的。计算和绘制ACF和pACF的最简略办法是别离应用acf和pacf函数： par(mfrow = c(1,2))acf(y) # ACFpacf(y) # pACF 在ACF可视化中，ACF或pACF被绘制为滞后的函数。批示的程度蓝色虚线示意自相干显著的程度。合成工夫序列数据StTtt执行合成的形式取决于工夫序列数据是加法还是乘法。加法和乘法工夫序列数据加法模型假如数据能够合成为另一方面，乘法模型假如数据能够被合成为加法：每个期间的节令效应类似。乘法：季节性趋势随工夫序列的变动而变动。AirPassengers数据集提供了乘法工夫序列的示例。 data(AirPassengers)plot(AirPassengers) AirPassengers 数据集： plot(log(AirPassengers)) 正如咱们所看到的，采纳对数曾经使季节性成分的变动平衡。请留神，总体增长趋势没有扭转。在R中合成工夫序列数据要合成R中的工夫序列数据，咱们能够应用该decompose函数。请留神，咱们应该通过type参数提供工夫序列是加法的还是乘法的。示例1：AirPassengers数据集对于AirPassengers数据集，咱们指定数据是乘法的并取得以下合成： plot(decompose(AirPassengers, type = "multiplicative")) 合成表明，多年来航空公司乘客总数在减少。此外，咱们曾经察看到的季节性影响已被分明地捕捉到。示例2：EuStockMarkets数据集让咱们思考能够EuStockMarkets数据集的合成： daxData <- EuStockMarkets\[, 1\] #数据仿佛不是可乘的，请应用加法合成decomposed <- decompose(daxData, type = "additive")plot(decomposed) 该图显示了1992年至1998年的DAX数据中的以下内容：整体价格稳步回升。季节性趋势强烈：每年年初，股价绝对较低，并在冬季完结时达到绝对最大值。除1997年和1998年之间的最终测量外，随机噪声的影响能够忽略不计。安稳与非安稳过程生成工夫序列数据的过程能够是安稳的也能够是非安稳的。例如，数据EuStockMarkets和AirPassengers数据都是非安稳的，因为数据有减少的趋势。为了更好地区分安稳和非安稳过程，请思考以下示例： par(mfrow = c(1,2))#data(nino)x <- nino3.4plot(x, main = "Stationary process")# 飞机旅客数据plot(AirPassengers, main = "Non-stationary process") 左图显示了一个安稳过程，其中数据在所有测量中体现类似。右图显示了一个非安稳过程，其中平均值随着工夫的推移而减少。介绍了与工夫序列数据分析相干的最重要概念后，咱们当初能够开始钻研预测模型。 ARMA模型ARMA代表自回归挪动均匀模型。ARMA模型仅实用于安稳过程，并具备两个参数： p：自回归（AR）模型的阶数q：挪动均匀（MA）模型的阶数应用backshift运算符制订ARMA模型应用backshift运算符，咱们能够通过以下形式制订ARMA模型：通过定义和，ARMA模型简化为。 ARIMA模型总之，ARIMA模型具备以下三个参数： p：自回归（AR）模型的阶数d：差分阶数q：挪动均匀（MA）模型的阶数在ARIMA模型中，通过将替换差分，将后果转换为差分yt 而后通过指定模型在下文中，让咱们思考ARIMA模型的三个参数的解释。自回归的影响咱们能够应用该arima.sim函数模仿自回归过程。通过该函数，能够通过提供要应用的MA和AR项的系数来指定模型。在下文中，咱们将绘制自相干图，因为它最适宜于发现自回归的影响。第一个例子表明，对于ARIMA（1,0,0）过程，阶数1的pACF十分高，而对于ARIMA（2,0,0）过程，阶数1和阶数2自相干都很重要。因而，能够依据pACF显着的最大滞后来抉择AR项的阶数。差分的影响 ARIMA（0,1,0）模型简化为随机游走模型以下示例演示了差分对AirPassengers数据集的影响：尽管第一个图表显示数据显然是非安稳的，但第二个图表明差分工夫序列是相当安稳的。其中以后估计值取决于先前测量值的残差。挪动均匀MA的影响能够通过绘制自回归函数来钻研挪动均匀的影响：请留神，对于自回归图，咱们须要留神第一个x轴地位示意滞后为0（即标识向量）。在第一个图中，只有第一个滞后的自相干是显着的，而第二个图表明前两个滞后的自相干是显着的。为了找到MA的阶数，实用与AR相似的规定：MA的阶数对应于自相干显着的最大滞后期。在AR和MA之间进行抉择为了确定哪个更适合，AR或MA，咱们须要思考ACF（自相干函数）和PACF（偏ACF）。 AR和MA的影响AR和MA的组合失去以下工夫序列数据： SARIMA模型P：季节性自回归（SAR）项的阶数D：节令差分阶数q：季节性挪动平均线（SMA）的阶数ARIMAX模型R中的预测auto.arima`forecast` SARIMA模型用于安稳过程咱们将应用数据展现ARMA的应用，该数据tseries给出了Nino Region 3.4指数的海面温度。让咱们验证数据是否安稳： ...

关于算法:使用R语言进行多项式回归非线性回归模型曲线拟合

原文链接：http://tecdat.cn/?p=22531 对于线性关系，咱们能够进行简略的线性回归。对于其余关系，咱们能够尝试拟合一条曲线。曲线拟合是构建一条曲线或数学函数的过程，它对一系列数据点具备最佳的拟合成果。应用示例数据集#咱们将使Y成为因变量，X成为预测变量#因变量通常在Y轴上plot(x,y,pch=19) 看起来咱们能够拟合一条曲线。 #拟合一次多项式方程。fit <- lm(y~x)#二次fit2 <- lm(y~poly(x,2)#三次......#生成50个数字的范畴，从30开始到160完结xx <- seq(30,160, length=50)lines(xx, predict(fit, xx) 咱们能够看到每条曲线的拟合水平。咱们能够应用summary()函数对拟合后果进行更具体的统计。应用不同多项式R平方的总结。 1st: 0.57592nd: 0.94743rd: 0.99244th: 0.9943咱们能够用 "方差分析 "来比拟不同的模型。 Pr(>F)值是回绝无效假设的概率，即一个模型不比另一个模型更适宜。咱们有十分显著的P值，所以咱们能够回绝无效假设，即fit2比fit提供了更好的拟合。咱们还能够创立一个反映多项式方程的函数。从三次多项式推算出来的数值与原始数值有很好的拟合，咱们能够从R-squared值中得悉。论断对于非线性曲线拟合，咱们能够应用lm()和poly()函数，这也为多项式函数对数据集的拟合水平提供了有用的统计数据。咱们还能够应用方差分析测试来评估不同模型之间的比照水平。从模型中能够定义一个反映多项式函数的函数，它能够用来推算因变量。 yy<-third(xx,fit)plot(xx,yy) 最受欢迎的见解 1.R语言多元Logistic逻辑回归利用案例 2.面板平滑转移回归(PSTR)剖析案例实现 3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR） 4.R语言泊松Poisson回归模型剖析案例 5.R语言回归中的Hosmer-Lemeshow拟合优度测验 6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现 7.在R语言中实现Logistic逻辑回归 8.python用线性回归预测股票价格 9.R语言如何在生存剖析与Cox回归中计算IDI，NRI指标

关于算法:R语言中的偏最小二乘回归PLSDA

原文链接：http://tecdat.cn/?p=8890主成分回归（PCR）的办法实质上是应用第一个办法的一般最小二乘（OLS）拟合来自预测变量的主成分（PC）。这带来许多长处：预测变量的数量实际上没有限度。相干的预测变量不会毁坏回归拟合。然而，在许多状况下，执行相似于PCA的合成要理智得多。明天，咱们将在Arcene数据集上执行PLS-DA，其中蕴含100个察看值和10,000个解释变量。让咱们开始应用R癌症/无癌标签（编码为-1 / 1）存储在不同的文件中，因而咱们能够将其间接附加到残缺的数据集，而后应用公式语法来训练模型。 # 装置加载library(caret)arcene <- read.table("train.data", sep = " ", colClasses = c(rep("numeric", 10000), "NULL"))# 将标签增加为附加列arcene$class <- factor(scan("rain.labels", sep = "\\t")) 当初的次要问题是：咱们如何依据其血清的MS谱精确预测患者是否生病？哪种蛋白质/ MS峰最能辨别患者和衰弱患者？对于预处理，咱们将应用preProc参数以准确的程序删除零方差预测变量，并对所有残余的变量进行标准化。思考样本的大小（_n_= 100），我将抉择10次反复的5折穿插验证（CV）–大量反复补救了因缩小的验证次数而产生的高方差–总共进行了50次准确性估算。 # 编译穿插验证设置set.seed(100)myfolds <- createMultiFolds(arcene$class, k = 5, times = 10)control <- trainControl("repeatedcv", index = myfolds, selectionFunction = "oneSE") 此图描述了CV曲线，在这里咱们能够学习从应用不同数量的LV（_x_轴）训练的模型中取得的均匀准确度（_y_轴，％）。当初，咱们进行线性判别分析（LDA）进行比拟。咱们还能够尝试一些更简单的模型，例如随机森林（RF）。最初，咱们能够比拟PLS-DA，PCA-DA和RF的准确性。咱们将应用resamples编译这三个模型，并借用ggplot2的绘图性能来比拟三种状况下最佳穿插验证模型的50个准确性估计值。显然，长时间的RF运行并没有转化为杰出的性能，恰恰相反。只管三个模型的均匀性能类似，但RF的精度差别要大得多，如果咱们要寻找一个鲁棒的模型，这当然是一个问题。在这种状况下，PLS-DA和PCA-DA体现出最好的性能（准确度为63-95％），并且这两种模型在诊断新血清样品中的癌症方面都表现出色。总而言之，咱们将应用PLS-DA和PCA-DA中预测的变量重要性（ViP）确定十种最能诊断癌症的蛋白质。下面的PLS-DA ViP图分明地将V1184与所有其余蛋白质辨别开。这可能是一个乏味的癌症生物标志物。当然，必须进行许多其余测试和模型来提供牢靠的诊断工具。

关于算法:R语言使用ARIMAX预测失业率经济时间序列数据

原文链接：http://tecdat.cn/?p=22521 ============================================================== 在大数据的趋势下，咱们常常须要做预测性剖析来帮忙咱们做决定。其中一个重要的事件是依据咱们过来和当初的数据来预测将来。这种办法咱们通常被称为预测。许多状况下都须要预测：决定是否在将来五年内再建一座发电站须要对将来的需要进行预测；安顿下周呼叫核心的工作人员须要对呼叫量进行预测；储备库存须要对库存需要进行预测。一个事件的可预测性取决于几个因素，包含。咱们对造成这种状况的因素理解得如何。有多少数据可用。预测是否能影响咱们试图预测的事物。ARIMA差分整合自回归挪动均匀模型（ARIMA）(p,d,q)是自回归（AR）、挪动均匀（MA）和自回归挪动均匀（ARMA）模型的扩大版本。ARIMA模型是利用于工夫序列问题的模型。ARIMA将三种类型的建模过程联合到一个建模框架中。 I：差分是用d示意的。它通知咱们在间断的察看样本中，被差分的序列对于原始序列的变动数量。AR：自回归用p示意，它通知咱们为适应安稳序列的AR过程所需的滞后期数。ACF和PACF帮忙咱们确定AR过程的最佳参数集。MA：挪动均匀阶数用q示意。它通知咱们要回归的序列中的误差项的数量，以便将差分的AR过程残差缩小为白噪声。对于ARIMAXARIMAX或回归ARIMA是ARIMA模型的一个扩大。在预测中，这种办法也波及自变量。ARIMAX模型表示输入工夫序列由以下局部组成：自回归（AR）局部，挪动均匀（MA）局部，差分整合（I）局部，以及属于外生输出（X）的局部。外生局部（X）反映了将外生输出的现值和过来值包含到ARIMAX模型中。多元回归模型公式：其中Y是xi预测变量的因变量，通常被认为是一个不相干的误差项（即是白噪声）。咱们思考了诸如Durbin-Watson测验等测验办法来评估是否有显著的相关性。咱们将在方程中用nt代替。误差序列被假设为遵循ARIMA模型。例如，如果 nt 遵循一个 ARIMA（1,1,1）模型，咱们能够写成其中t是一个白噪声序列。ARIMAX模型有两个误差项，一个是回归模型的误差，咱们用jt示意，另一个是ARIMA模型的误差，咱们用t示意。只有ARIMA模型的误差被认为是白噪声。实例探索咱们将应用经济序列数据。数据是一个五个季度的经济序列，蕴含以下数字变量：季度失业率、国民生产总值、生产、政府投资和私人投资。有161个观测点。季节性成分曾经从数据中去除。集中在失业率（Ut）、国民生产总值（Gt）和生产（Ct）上，首先对每个序列进行记录，而后去掉线性趋势，对数据拟合一个向量ARMA模型。也就是说，对xt=(x1t,x2t,x3t)t拟合一个向量ARMA模型，例如，x1t=log(Ut)-0^-1^t，其中0^和1^是log(Ut)对工夫t的回归的最小二乘预计。对残差运行一套残缺的诊断办法。数据摸索grid.arrange(p1,p2,p3,ncol=2) 从图中能够看出，国民生产总值和生产能够作为回归应用。咱们能够用工夫、国民生产总值和生产来预测失业率。 === ARIMAX模型拟合summary(varma) plot(df,aes(t,res))+line(col=colpla\[2\]) acf\_pacf(res\_= acf(x, plot= F) , label= "ACF")plot(df, aes(x=res)) + histogram(aes(y=..density..) 咱们的残差在大多数状况下是正态分布的，ACF图中没有显著的尖峰。Ljung-Box测验在5%的程度上有0.05297的p值，所以数据是独立散布的，在任何滞后期都没有显著的自相干。这是一个现实的后果。预测咱们随机生成log(g)和log(c)的向量，作为咱们预测模型的输出值。两个向量的长度都是8，所以咱们的指标是预测将来8个季度的log(u)值。请留神，对于多个回归因子，咱们必须将这些向量合并成一个矩阵，以便咱们进行预测工作。 forecast(m,x=logfc+logc )plot(yfor） ARIMA模型通过应用ARIMA，咱们只依据间断的工夫数据来预测将来。它疏忽了可能影响生产变动的其余因素。 ARIMAX长处毛病要应用ARIMAX模型，有几个可能的长处和毛病。长处应用ARIMAX的益处是咱们能够将回归和工夫序列局部联合在一个模型中，命名为ARIMAX。与回归模型或ARIMA模型相比，这个模型能够优化咱们的误差。毛病一个毛病是，协变量系数很难解释。斜率的值不是xt减少1时对Yt的影响（就像回归中那样）。方程右侧存在因变量的滞后值，这意味着斜率只能以因变量以前的值为条件进行解释，这很不直观。最受欢迎的见解 1.在python中应用lstm和pytorch进行工夫序列预测 2.python中利用长短期记忆模型lstm进行工夫序列预测剖析 3.应用r语言进行工夫序列（arima，指数平滑）剖析 4.r语言多元copula-garch-模型工夫序列预测 5.r语言copulas和金融工夫序列案例 6.应用r语言随机稳定模型sv解决工夫序列中的随机稳定 7.r语言工夫序列tar阈值自回归模型 8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类 9.python3用arima模型进行工夫序列预测

关于算法:喜讯-观远数据苏春园入选中国产业创新百人榜

日前，由创业家&i黑马联结《证券日报》、环球网、新浪财经、财联社旗下科创板日报，携手50多家出名投资机构，独特发动的年度重要创业家评比 ——《中国产业翻新百人榜》重磅公布。观远数据创始人兼CEO苏春园入选该榜单。该榜单通过线上评审会，投资人、行业专家、媒体第三方等组成的评审团对参选企业进行打分，层层筛选，最终选出100家企业创始人上榜。该榜单旨在寻找产业中最具代表性的“产业翻新推动者”，并将它们推上数字化时代的舞台地方，展现其独特价值。 01 AI+BI，让决策更智能！从卡内基梅隆大学研究生毕业，到退出美国老牌BI公司MicroStrategy，再到创建观远数据，苏春园始终专一于数据分析畛域。苏春园指出：“AI+BI是比传统BI更新一代的技术，它将产生的商业价值也是传统BI的十倍以上，这正是咱们创建观远数据的起因”。与传统商业智能不同的是，观远数据致力于通过智能数据分析，为客户提供“Actionable Insight”，即真正可口头的决策倡议，帮忙企业在数字化与智能化降级的过程中建设可继续的竞争劣势。个别在数据平台的布局中，底层大数据平台布局要稳，将来业务指标、状态、日志剖析能力稳步进行，而观远数据的AI+BI就是基于完整的BI根底，利用AI算法达到准确度的晋升，一步一步进化到实现销售预测、智能备货、提供智能决策倡议等性能。苏春园强调，AI+BI 是比传统 BI 更新一代的技术，它将产生的商业价值也是传统 BI 十倍以上。观远数据独创性地提出一整套从BI（麻利剖析）到AI（智能决策）的残缺“5A”落地门路方法论（Agile麻利化、Accurate场景化、Automated自动化、Actionable口头化、Augmented加强化），为企业构建智能决策大脑，鼎力推动从传统BI到智能剖析与决策的胜利转型。 02 深耕批发生产行业观远数据自成立以来，始终深耕泛批发与生产行业，目前已服务了联合利华、沃尔玛、百威英博等500强客户，全家、欧莱雅、小红书、鲜丰水果、元气森林等两百多家头部当先批发生产企业，并取得多项行业权威奖项。将来十年，批发与生产行业乃至全行业都在从流量、营销时代，进入到效率、供应链时代，考验精细化经营和快速反应的能力。而通过科技驱动、数据精细化剖析达到降本增效的成果，对企业来说也必然是显著且直观的。观远数据也将继续深耕泛批发生产行业，通过一直地自我迭代与产品更新赋能批发生产企业，为企业提供决策分析，帮忙企业继续晋升竞争力，从而实现规模化增长。

关于算法:R语言GARCHDCC模型和DCCMVT建模估计

原文链接：http://tecdat.cn/?p=7194这个简短的演示阐明了应用r软件包的DCC模型及其办法的应用，尤其是在存在MVT散布形态参数的状况下进行2级DCC预计的另一种办法。第一阶段并将其传递给dccfit cl = makePSOCKcluster(10)multf = multifit(uspec, Dat, cluster = cl)接下来，预计DCC模型。 fit1 = dccfit(spec1, data = Dat, fit.control = list(eval.se = TRUE), fit = multf, cluster = cl)为了在实践中拟合DCC（MVT）模型，要么假设第一阶段的QML，要么必须在阶段中独特估算独特的形态参数。在上面的示例中，一种代替办法用于预计近似独特形态参数。似然度和形态参数变动的图表明，只需几次迭代即可收敛到稳固值。 shape参数的值示意峰度为1.06。对非对称DCC（MVT）模型反复进行拟合。 xspec = ugarchspec(mean.model = list(armaOrder = c(1,1)), variance.model = list(garchOrder = c(1,1), model = "eGARCH"), distribution.model = "norm")下表显示了估算模型的摘要，系数旁边的星号示意显着性程度（*** 1％，* 5％， 10％）。 ## DCC-MVN aDCC-MVN DCC-MVL aDCC-MVL DCC-MVT aDCC-MVT## a 0.00784*** 0.00639*** 0.00618*** 0.0055*** 0.00665*** 0.00623***## b 0.97119*** 0.96956*** 0.97624*** 0.97468*** 0.97841*** 0.97784***## g 0.00439 0.00237 0.00134## shape 9.63947*** 9.72587***## LogLik 22812 22814 22858 22859 23188 23188下图表说明了来自不同模型的一些动静相关性：终止集群对象： stopCluster(cl) 参考文献 1.用机器学习辨认一直变动的股市情况—隐马尔科夫模型(HMM)的利用 2.R语言GARCH-DCC模型和DCC（MVT）建模预计 3.R语言实现 Copula 算法建模依赖性案例剖析报告 4.R语言COPULAS和金融工夫序列数据VaR剖析 5.R语言多元COPULA GARCH 模型工夫序列预测 6.用R语言实现神经网络预测股票实例 7.r语言预测稳定率的实现：ARCH模型与HAR-RV模型 8.R语言如何做马尔科夫转换模型markov switching model 9.matlab应用Copula仿真优化市场危险

关于算法:R语言用ARIMA模型ARIMAX模型预测冰淇淋消费时间序列数据

原文链接：http://tecdat.cn/?p=22511规范的ARIMA（挪动均匀自回归模型）模型容许只依据预测变量的过来值进行预测。该模型假设一个变量的将来的值线性地取决于其过来的值，以及过来（随机）影响的值。ARIMAX模型是ARIMA模型的一个扩大版本。它还包含其余独立（预测）变量。该模型也被称为向量ARIMA或动静回归模型。 ARIMAX模型相似于多变量回归模型，但容许利用回归残差中可能存在的自相干来进步预测的准确性。本文练习提供了一个进行ARIMAX模型预测的练习。还查看了回归系数的统计学意义。这些练习应用了冰淇淋生产数据。该数据集蕴含以下变量。美国的冰淇淋生产（人均）每周的均匀家庭收入冰淇淋的价格平均温度。观测数据的数量为30个。它们对应的是1951年3月18日至1953年7月11日这一时间段内的周围工夫。练习1加载数据集，并绘制变量cons（冰淇淋生产）、temp（温度）和支出。 ggplot(df, aes(x = X, y = income)) + ylab("支出") + xlab("工夫") +grid.arrange(p1, p2, p3, ncol=1, nrow=3)练习 2 对冰淇淋生产数据预计ARIMA模型。而后将该模型作为输出传给预测函数，失去将来6个期间的预测数据。 auto.arima(cons) fcast\_cons <- forecast(fit\_cons, h = 6) 练习3绘制失去的预测图。练习4找出拟合的ARIMA模型的均匀绝对误差（MASE）。 accuracy 练习5为生产数据预计一个扩大的ARIMA模型，将温度变量作为一个额定的回归因子（应用auto.arima函数）。而后对将来6个期间进行预测（留神这个预测须要对冀望温度进行假如；假如将来6个期间的温度将由以下向量示意： fcast_temp <- c(70.5, 66, 60.5, 45.5, 36, 28)）绘制取得的预测图。练习6输入取得的预测摘要。找出温度变量的系数，它的标准误差，以及预测的MASE。将MASE与初始预测的MASE进行比拟。 summary(fca) 温度变量的系数是0.0028 该系数的标准误差为0.0007 均匀相对比例误差为0.7354048，小于初始模型的误差（0.8200619）。练习7查看温度变量系数的统计意义。该系数在5%的程度上是否有统计学意义？ test(fit) 练习8预计ARIMA模型的函数能够输出更多的附加回归因子，但只能以矩阵的模式输出。创立一个有以下几列的矩阵。温度变量的值。支出变量的值。滞后一期的支出变量的值。滞后两期的支出变量的值。输入该矩阵。留神：最初三列能够通过在支出变量值的向量中增加两个NA来创立，并将失去的向量作为嵌入函数的输出（维度参数等于要创立的列数）。 vars <- cbind(temp, income)print(vars) 练习9应用取得的矩阵来拟合三个扩大的ARIMA模型，应用以下变量作为额定的回归因子。温度、支出。温度、支出的滞后期为0、1。温度，滞后期为0、1、2的支出。查看每个模型的摘要，并找到信息准则（AIC）值最低的模型。留神AIC不能用于比拟具备不同阶数的ARIMA模型，因为察看值的数量不同。例如，非差分模型ARIMA（p，0，q）的AIC值不能与差分模型ARIMA（p，1，q）的相应值进行比拟。 auto.arima(cons, xreg = var)print(fit0$aic) 能够应用AIC，因为各模型的参数阶数雷同（0）。 AIC值最低的模型是第一个模型。它的AIC等于-113.3。练习10应用上一练习中发现的模型对将来6个期间进行预测，并绘制预测图。预测须要一个将来6个期间的冀望温度和支出的矩阵；应用temp变量和以下冀望支出值创立矩阵：91, 91, 93, 96, 96, 96。找出该模型的均匀相对比例误差，并与本练习集中前两个模型的误差进行比拟。带有两个内部回归因子的模型具备最低的均匀相对比例误差(0.528) 最受欢迎的见解 1.在python中应用lstm和pytorch进行工夫序列预测 2.python中利用长短期记忆模型lstm进行工夫序列预测剖析 3.应用r语言进行工夫序列（arima，指数平滑）剖析 4.r语言多元copula-garch-模型工夫序列预测 5.r语言copulas和金融工夫序列案例 6.应用r语言随机稳定模型sv解决工夫序列中的随机稳定 7.r语言工夫序列tar阈值自回归模型 8.r语言k-shape工夫序列聚类办法对股票价格工夫序列聚类 9.python3用arima模型进行工夫序列预测

关于算法:SOFAChannel20-用安全计算保护关键业务

SOFAChannel#20 流动来啦流动主题：SOFAChannel#20 用平安计算爱护要害业务流动工夫：2021年5月19日19:00流动模式：线上直播B站直播地址：live.bilibili.com/21954520直播ID：21954520 议题简介：随着全社会对隐衷爱护越来越关注平安计算也成了近期的热点。蚂蚁做为一家金融科技公司，特地重视用科技的办法来爱护用户隐衷。这次直播会介绍蚂蚁在平安计算方面的一些办法和实际。

关于算法:极客星球｜基于加权DBSCAN的工作地居住地计算方法

本文亮点随着智能手机和信息通信技术的一直倒退和遍及，大规模的轨迹数据存储曾经比拟广泛，成为开掘用户行为模式的重要起源，工作地和居住地是用户行为模式的重要体现，能够用于辅助智能城市的建设，比方优化通勤路线、产业布局、剖析人口流动状况等等，从而缩小交通拥堵、进步市民生存便利性和满意度等。然而现有的工作地居住地计算方法存在不同水平的问题，本文提出一种改良计划。 01 现有办法目前的工作地居住地定位办法次要有两种，一是基于规定，一是基于模型; 基于规定的办法是通过业务教训设计逻辑，依据设定的统计指标抉择工作地居住地。比方基于汽车的数据会基于用户每天的起始点和起点，来统计频次、时长等指标，抉择排名最高的作为工作地居住地; 基于基站的数据会统计用户连贯每个基站的工夫，抉择工作工夫连接时间最长且月度工作日连贯次数/休息日连贯次数最高的作为工作地; 基于模型的办法是通过聚类+有监督模型来定位工作地居住地，通过聚类来剔除噪声点，而后通过规定来生成特色，通过人工对工作地居住地进行标注，最初通过有监督模型来预测工作地和居住地。 02 现有办法局限性基于规定的办法局限性比拟大，不同行业都有本人的规定和特定构造的数据，不够通用；且难以穷尽所有规定，对于异常情况的适应性不够好，简单且不够准确；基于模型的办法须要进行人工标注，老本较高且整个计算流程比较复杂；准确率对特色的代表性和样本笼罩的广度依赖较大；现有办法计算出的工作地居住地常常不合乎业务逻辑，如失常的工作地应该大部分散布在写字楼、工业园区等poi，少部分散布在餐厅、商场等其余各种类型的poi；失常的居住地应该大部分散布在小区、别墅、公寓等poi，少部分散布在其余各种类型的poi；然而现有办法计算的后果受数据源影响较大，并不能保障这一点，导致可能大量的工作地呈现在小区里，大量的居住地呈现在写字楼或商场里等状况，导致业务不可用。本文提出了一种更通用的计算方法，升高整个流程的复杂性并进步准确性；设计一种更贴近业务的计算方法，进步工作地居住地的可用性。 03 背景常识介绍 1、DBSCAN聚类简介：首先设定一个阈值a，对于样本集中的每个点，以这个点为圆心，a为半径划一个圆，被蕴含在这个圆中的点的个数记为b（包含圆心）；而后再设定一个阈值c，如果b>=c，则把这个圆心叫做外围对象；如果一个外围对象A被蕴含在另一个外围对象B的圆中，外围对象B被蕴含在另一个外围对象C的圆中，则称A到C是密度可达的；如果外围对象X到外围对象Y密度可达，外围对象Z也密度可达，则Y和Z密度相连，找到最大的密度相连的样本汇合，就是聚类的一个簇，如下图所示：其长处在于：能够对任意形态的浓密数据集进行聚类，实用于地理位置数据；绝对的，K-Means之类的聚类算法个别只实用于凸数据集；能够在聚类的同时发现异常点，对数据集中的异样点不敏感；聚类后果没有偏倚，绝对的，K-Means之类的聚类算法，初始值对聚类后果有很大影响。 2、加权几何平均数： 3、经纬度求中心点 Lat_i = lat_i * pi/180，i= 1,2,…,n Lon_i = lon_i * pi/180，i= 1,2,…,n xi = cos(Lat_i) * cos(Lon_i)，i= 1,2,…,n yi = cos(Lat_i) * sin(Lon_i) ，i= 1,2,…,n zi = sin(Lat_i) ，i= 1,2,…,n x = (x1 + x2 + ... + xn) / n ...

关于算法:R语言主成分分析PCA葡萄酒可视化主成分得分散点图和载荷图

咱们将应用葡萄酒数据集进行主成分剖析。数据数据蕴含177个样本和13个变量的数据框；vintages蕴含类标签。这些数据是对成长在意大利同一地区但来自三个不同栽培品种的葡萄酒进行化学分析的后果：内比奥罗、巴贝拉和格里格诺葡萄。来自内比奥罗葡萄的葡萄酒被称为巴罗洛。这些数据蕴含在三种类型的葡萄酒中各自发现的几种成分的数量。 # 看一下数据head(no)输入转换和标准化数据对数转换和标准化，将所有变量设置在同一尺度上。 # 对数转换no_log <- log(no)# 标准化log\_scale <- scale(no\_log)head(log_scale) 主成分剖析（PCA）应用奇怪值合成算法进行主成分剖析 prcomp(log_scale, center=FALSE)summary(PCA) 根本图形（默认设置）带有根底图形的主成分得分和载荷图 plot(scores\[,1:2\], # x和y数据 pch=21, # 点形态 cex=1.5, # 点的大小legend("topright", # legend的地位 legend=levels(vint), # 图例显示plot(loadings\[,1:2\], # x和y数据 pch=21, # 点的形态text(loadings\[,1:2\], # 设置标签的地位此外，咱们还能够在分数图中的组别上增加95%的置信度椭圆。置信度椭圆图函数## 椭圆曲线图 elev=0.95, # 椭圆概率程度 pcol=NULL, # 手工增加色彩，必须满足长度的因素 cexsize=1, # 点大小 ppch=21, # 点类型，必须满足因素的长度 legcexsize=2, # 图例字体大小 legptsize=2, # 图例点尺寸 ## 设定因子程度 if(is.factor(factr) { f <- factr } else { f <- factor(factr, levels=unique(as.character(factr))) } intfactr <- as.integer(f) # 设置与因子程度相匹配的整数向量 ## 获取椭圆的数据 edf <- data.frame(LV1 = x, LV2=y, factr = f) # 用数据和因子创立数据框 ellipses <- dlply(edf, .(factr), function(x) { Ellipse(LV1, LV2, levels=elev, robust=TRUE, draw=FALSE) #从dataEllipse()函数中按因子程度获取置信度椭圆点 }) ## 获取X和Y数据的范畴 xrange <- plotat(range(c(as.vector(sapply(ellipses, function(x) x\[,1\])), min(x), max(x)))) ## 为图块设置色彩 if(is.null(pcol) != TRUE) { # 如果色彩是由用户提供的 pgcol <- paste(pcol, "7e", sep="") # 减少不透明度 # 绘图图形 plot(x,y, type="n", xlab="", ylab="", main="" abline(h=0, v=0, col="gray", lty=2) #在0增加线条 legpch <- c() # 收集图例数据的矢量 legcol <- c() # 收集图例col数据的向量 ## 增加点、椭圆，并确定图例的色彩 ## 图例 legend(x=legpos, legend=levels(f), pch=legpch, ## 应用prcomp()函数的PCA输入的轴图示 pcavar <- round((sdev^2)/sum((sdev^2))根底图形绘制主成分得分图，应用根本默认值绘制载荷图 plot(scores\[,1\], # X轴的数据 scores\[,2\], # Y轴的数据 vint, # 有类的因素 pcol=c(), # 用于绘图的色彩(必须与因素的数量相匹配) pbgcol=FALSE, #点的边框是彩色的？ cexsize=1.5, # 点的大小 ppch=c(21:23), # 点的形态(必须与因子的数量相匹配) legpos="bottom right", # 图例的地位 legcexsize=1.5, # 图例文字大小 legptsize=1.5, # 图例点的大小 axissize=1.5, # 设置轴的文字大小 linewidth=1.5 # 设置轴线尺寸) title(xlab=explain\[\["PC1"\]\], # PC1上解释的方差百分比 ylab=explain\[\["PC2"\]\], # PC2解释的方差百分比 main="Scores", # 题目 cex.lab=1.5, # 标签文字的大小 cex.main=1.5 # 题目文字的大小plot(loadings\[,1:2\], # x和y数据 pch=21, # 点的形态 cex=1.5, # 点的大小 # type="n", # 不绘制点数 axes=FALSE, # 不打印坐标轴 xlab="", # 删除x标签 ylab="" # 删除y标签)pointLabel(loadings\[,1:2\], #设置标签的地位 labels=rownames(PCAloadings), # 输入标签 cex=1.5 # 设置标签的大小) # pointLabel将尝试将文本放在点的四周axis(1, # 显示x轴 cex.axis=1.5, # 设置文本的大小 lwd=1.5 # 设置轴线的大小)axis(2, # 显示y轴 las=2, # 参数设置文本的方向，2是垂直的 cex.axis=1.5, # 设置文本的大小 lwd=1.5 # 设置轴线的大小)title(xlab=explain\[\["PC1"\]\], # PC1所解释的方差百分比 ylab=explain\[\["PC2"\]\], # PC2解释的方差百分比 cex.lab=1.5, # 标签文字的大小 cex.main=1.5 # 题目文字的大小)

关于算法:Python使用GARCHEGARCHGJRGARCH模型和蒙特卡洛模拟进行股价预测

原文链接：http://tecdat.cn/?p=20678 预测股价曾经受到了投资者，政府，企业和学者宽泛的关注。然而，数据的非线性和非平稳性使得开发预测模型成为一项简单而具备挑战性的工作。在本文中，我将解释如何将 GARCH，EGARCH和 GJR-GARCH 模型与Monte-Carlo 模仿联合应用，以建设无效的预测模型。金融工夫序列的峰度，稳定率和杠杆效应特色证实了GARCH的合理性。工夫序列的非线性特色用于查看布朗运动并钻研工夫演变模式。非线性预测和信号分析方法因其在特征提取和分类中的鲁棒性而在股票市场上越来越受欢迎。动力学零碎能够用一组时变（间断或离散）变量来形容，这些变量形成信号剖析非线性办法的根底。如果工夫的以后值和状态变量能够精确地形容下一时刻的零碎状态，则能够说这样的零碎是确定性的。另一方面，如果工夫和状态变量的以后值仅形容状态变量的值随工夫变动的概率，则将动力学零碎视为随机零碎。因而，在应用GARCH 建模办法之前，我将采纳分形维数（FD），重定范畴和递归量化剖析（RQA）的数据建模技术来总结数据的非线性动力学行为并实现钻研指标。办法Hurst系数（H）是长期依赖的特征参数，与 FD （_FD + H = 2_）无关。 R / S剖析是数据建模的外围工具。教训钻研表明，与同类中的其余办法相比， _R / S_带来了更好的后果，例如自相干，光谱合成的剖析。它是度量工夫序列差别的度量，该工夫序列的定义是给定持续时间_（T）_的均值范畴，除以该持续时间的标准偏差 [ R / S = k * T（H） ]； _ķ_ 是一个取决于工夫序列的常数。H度量工夫序列的长期记忆，将其表征为均值回复，趋势或随机游走。 H <0.5示意均值回复 H> 0.5示意趋势序列，并且 H = 0.5示意随机游走。我将展现如何应用 GARCH 模型进行危险评估。 GARCH 模型的一个要害限度是对其参数施加非负束缚，以确保条件方差的正性。这样的束缚会给预计GARCH 模型带来艰难。因而，提出了非对称GARCH 模型，即俗称的 GJR-GARCH 模型，以解决对称GARCH 模型的局限性。更重要的是，指数 GARCH 或 EGARCH 模型绝对于传统的GARCH 模型具备潜在的改良。数据挖掘查看数据。在过来的几十年中，原油价格呈现出较大的稳定，尤其是在2008年左右。能够看出，随着屡次回升和降落，价格放弃在绝对较低的程度。从自相干图能够看出原始数据中显著的自相干。QQ和PP图的形态表明该过程靠近正态，然而_重尾散布_。简略收益率的罕用模式为：r（t）= {p（t）— p（t-1）} / p（t-1），对数收益率= ln（pt / p（t-1），pt每日原油价格，r（t）是每日收益。对数收益率在这里被视为本文的每日收益率。原始价格和对数收益率的直观显示分明地证实了以简直恒定的均值，应用对数收益率是正当的。收益率序列图显示了高和低变动周期。在图中能够看到一个随机且集中在零左近的过程。大幅度稳定的正收益和负收益都减少了风险投资和治理的难度。每日收益率的平均值基本上在零程度程度左近，并且具备显著的波动性聚类，表明存在异方差性。ACF很小，然而高度相干。QQ和PP图的形态没有显著变动。 sns.distplot(df.returns, color=’blue’) #密度图# 汇总统计数据print(df.returns.describe())收益率的偏度（-0.119）和向右偏离表明，收益率反比负收益率高，峰度（7.042）反映了油价稳定大。规范正态分布的偏度和峰度别离为0和3。Jarque-Bera测验的值表明，传统的正态分布假如不适用于原油收益的实在散布。 ADF = ADF(df.returns)print(ADF.summary().as_text())kpss = KPSS(df.returns)print(kpss.summary().as_text()) 进行了VR测验，以测试对数收益率序列是否是纯正的随机游走，以及是否具备肯定的可预测性。我在这里比拟了1个月和12个月的对数收益率，并且回绝了该系列为纯随机游走的空值。用负测验统计量VA（-11.07）回绝零示意在工夫序列中存在序列相关性。用ADF，KPSS，DFGLS，PP和ZA统计量对单位根和平稳性进行的测验均显示出显着性，表明应用 GARCH型模型来拟合收益序列是适合的。非线性动力学应用_Hurst_对平稳性的钻研。 # 计算最近价格的Hurst系数tau = \[sqrt(std(subtract(closes\_recent\[lag:\], closes\_recent\[:-lag\]))) for lag in lags\]m = polyfit(log(lags), log(tau), 1)hurst = m\[0\]*2_H_（0.531）示意具备长期依赖性的随机静止工夫序列。证实了本钻研中GARCH模型的合理性。 computation = RQAComputation.create(settings,verbose=True)result = computation.run()result.min\_diagonal\_line_length = 2此处，低 R 示意较低的周期性和随机行为。此外，较低的 DET 值示意不确定性。这证实了应用GARCH 办法的合理性。 GARCH模型在估算GARCH类型的模型之前，将收益率乘以100。因为稳定率截距与模型中其余参数十分靠近，因而这有助于优化程序进行转换。 X = 100* df.returns让咱们拟合一个 ARCH 模型并绘制平方残差以查看自相关性。 def getbest(TS):best_aic = np.inffor i in pq_rng:for d in d_rng:for j in pq_rng:try:tmp_mdl = smt.ARIMA(TS, order=(i,d,j)).fit(#aic: 22462.01 | order: (2, 0, 2)gam = arch_model(Model.resid, p=2, o=0, q=2, dist=’StudentsT’)gres = gam.fit(update_freq=5, disp=’off’)print(gres.summary())tsplot(gres.resid**2, lags=30)咱们能够看到平方残差具备自相干的根据。让咱们拟合一个GARCH模型并查看其性能。我将依照以下步骤进行操作：通过ARIMA（p，d，q）模型的组合进行迭代，以拟合最优工夫序列。依据具备最低AIC的ARIMA模型抉择 GARCH模型。将 GARCH（p，q）模型拟合到工夫序列。查看模型残差和平方残差进行自相干因而，咱们在这里发现，最好的模型是 ARIMA（2,0,2）。当初，咱们对残差进行绘图，以确定它们是否具备条件异方差。 arch_model(X, p=2, q=2, o=1,power=2.0, vol=’Garch’, dist=’StudentsT’) am = arch_model(X, p=2, q=2, o=1,power=2.0, vol=’Garch’, dist=’StudentsT’)所有3个GARCH 模型的输入都以表格格局显示。 _（）_ 是白噪声，alpha和beta是模型的参数。此外， _[1] +[1] <1_ 示意稳固的模型。 EGARCH 仿佛是最好的三个这模型。最好在训练/测试中拆分数据并取得MSE / MAE / RMSE后果以比拟最佳模型拟合。 ...

关于算法:R语言生态学建模增强回归树BRT预测短鳍鳗生存分布和影响因素

原文链接：http://tecdat.cn/?p=22482=== 引言本文是一个简短的教程，在R中拟合BRT（晋升回归树）模型。咱们的指标是使BRT（晋升回归树）模型利用于生态学数据，并解释后果。本教程的目标是帮忙你学习如何在R中开发一个BRT模型。示例数据有两套短鳍鳗的记录数据。一个用于模型训练（建设），一个用于模型测试（评估）。在上面的例子中，咱们加载的是训练数据。存在（1）和不存在（0）被记录在第2列。环境变量在第3至14列。 > head(train) 拟合模型拟合gbm模型，你须要决定应用什么设置，本文为你提供教训法令应用的信息。这些数据有1000个地点，包含202条短鳍鳗的存在记录。你能够假如：1. 有足够的数据来建设具备正当复杂性的相互作用模型 2. 大概0.01的lr学习率可能是一个正当的初始点。上面的例子显示如何确定最佳树数（nt）。 step(data= train, x = 3:13, family = "bernoulli", comp = 5, lr = 0.01, bag.fr = 0.5)对晋升回归树模型进行穿插验证优化。应用1000个观测值和11个预测因子，创立10个50棵树的初始模型。下面咱们应用了穿插验证的。咱们定义了：数据；预测变量；因变量--示意物种数据的列号；树的复杂度--咱们首先尝试树的复杂度为5；学习率--咱们尝试用0. 01。运行一个如上所述的模型，将输入进度报告，做出图形。首先，你能看到的货色。这个模型是用默认的10倍穿插验证法建设的。彩色实心曲线是预测偏差变动的平均值，点状曲线是1个标准误差（即在穿插验证上测量的后果）。红线示意平均值的最小值，绿线示意生成该值的树的数量。模型对象中返回的最终模型是在残缺的数据集上建设的，应用的是最优的树数量。 length(fitted)返回的后果蕴含 fitted - 来自最终树的拟合值，fitted.vars - 拟合值的方差， residuals - 拟合值的残差，contribution - 变量的绝对重要性。 statistics - 相干的评估统计量。cv.statistics 这些是最合适的评估统计数据。咱们在每个穿插验证中计算每个统计量（在确定的最佳树数下，依据所有穿插验证中预测偏差的均匀变动进行计算），而后在此出现这些基于穿插验证的统计量的平均值和标准误差。 weights - 拟合模型时应用的权重（默认状况下，每个观测值为 "1"，即权重相等）。 trees. fitted - 阶段性拟合过程中每一步所拟合的树的数量记录；training.loss.values - 训练数据上偏差的阶段性变动，cv.values - 阶段性过程中每一步所计算的预测偏差的CV估计值的平均值。你能够用摘要函数查看变量的重要性 > summary(lr ) 抉择设置以上是对设置的初步猜想，应用了Elith等人（2008）中探讨的教训法令。它做出的模型只有650棵树，所以咱们的下一步将是缩小lr。例如，尝试lr = 0.005，争取超过1000棵树。 step(data=train, x = 3:13, tree.co = 5,+ lr = 0.005 为了摸索其余设置是否体现更好，你能够将数据分成训练集和测试集，或者应用穿插验证后果，扭转tc、lr和bagging，而后比拟后果。简化模型简化会建设了许多模型，所以它可能很慢。在其中，咱们评估了简化lr为0.005的模型的价值，但只测试剔除最多5个变量（"n.drop "参数；默认是主动规定始终继续到预测偏差的均匀变动超过gbm.step中计算的原始标准误差）。对于咱们的运行，预计要剔除的最佳变量数是1；能够应用红色垂直线批示的数字。当初，建设一个剔除1个预测变量的模型，应用[[1]]示意咱们要剔除一个变量。 step( x= pred.list\[\[1\]\], ) 当初这曾经造成了一个新的模型，然而思考到咱们并不特地想要一个更简略的模型（因为在这种规模的数据集中，蕴含的变量奉献很小是能够承受的），咱们不会持续应用它。绘制模型的函数和拟合值由咱们的函数创立的BRT模型的拟合函数能够用plot来绘制。 > plot( lr005 ) 这个函数的附加参数容许对图进行平滑示意。依据环境空间内观测值的散布，拟合函数能够给出与每个预测因子无关的拟合值散布。 fits( lr005) 每张图上方的数值示意与每个非因素预测因子无关的拟合值的加权平均值。绘制交互作用该代码评估数据中成对的交互作用的水平。 ...

关于算法:用Rapidminer做文本挖掘的应用情感分析

原文链接：http://tecdat.cn/?p=14547情感剖析或观点开掘是文本剖析的一种利用，用于辨认和提取源数据中的主观信息。情感剖析的根本工作是将文档，句子或实体特色中表白的观点分类为必定或否定。本教程介绍了Rapidminer中情感剖析的用法。此处提供的示例给出了电影列表及其评论，例如“ 侧面” 或“ 负面”。该程序实现了Precision and Recall办法。精度是（随机抉择的）检索文档相干的概率。召回率是在搜寻中检索到（随机抉择的）相干文档的概率。高召回率意味着算法返回了大多数相干后果。精度高示意算法返回的相干后果多于不相干的后果。首先，对某部电影进行侧面和负面评论。而后，单词以不同的极性（正负）存储。矢量单词表和模型均已创立。而后，将所需的电影列表作为输出。模型将给定电影列表中的每个单词与先前存储的具备不同极性的单词进行比拟。电影评论是依据极性下呈现的大多数单词来估算的。例如，当查看Django Unchained时，会将评论与结尾创立的矢量单词表进行比拟。最多的单词属于正极性。因而后果是必定的。负面后果也是如此。进行此剖析的第一步是从数据中解决文档，即提取电影的侧面和负面评论并将其以不同极性存储。该模型如图1所示。图1 在“解决文档”下，单击右侧的“编辑列表”。在不同的类名称“ Positive”和“ Negative”下加载必定和否定评论。图2 在Process Document运算符下，产生嵌套操作，例如对单词进行标记，过滤进行单词。而后应用两个运算符，例如Store和Validation运算符，如图1所示。Store运算符用于将字向量输入到咱们抉择的文件和目录中。验证算子（穿插验证）是评估统计模型准确性和有效性的一种规范办法。咱们的数据集分为两个局部，一个训练集和一个测试集。仅在训练集上训练模型，并在测试集上评估模型的准确性。反复n次。双击验证运算符。将有两个面板-训练和测试。在“训练”面板下，应用了线性反对向量机（SVM），这是一种风行的分类器集，因为该函数是所有输出变量的线性组合。为了测试模型，咱们应用“利用模型”运算符将训练集利用于咱们的测试集。为了测量模型的准确性，咱们应用“ Performance”运算符。而后运行模型。类召回率％和精度％的后果如图5所示。模型和向量单词表存储在存储库中。图5 而后从之前存储的存储库中检索模型和矢量单词表。而后从检索单词列表连贯到图6所示的流程文档操作符。而后单击“流程文档”运算符，而后单击右侧的编辑列表。这次，我从网站增加了5条电影评论的列表，并将其存储在目录中。为类名称调配未标记的名称，如图7所示。 Apply Model运算符从Retrieve运算符中获取一个模型，并从Process文档中获取未标记的数据作为输出，而后将所利用的模型输入到“实验室”端口，因而将其连贯到“ res”（后果）端口。后果如下所示。当查看《悲惨世界》时，有86.4％的人认为它是侧面的，而13.6％的人认为是负面的，这是因为评论与正极性词表的匹配度高于负面。图8 参考文献： 1.探析大数据期刊文章钻研热点 2.618网购数据盘点-剁手族在关注什么 3.r语言文本开掘tf-idf主题建模，情感剖析n-gram建模钻研 4.python主题建模可视化lda和t-sne交互式可视化 5.r语言文本开掘nasa数据网络剖析，tf-idf和主题建模 6.python主题lda建模和t-sne可视化 7.r语言中对文本数据进行主题模型topic-modeling剖析 8.r语言对nasa元数据进行文本开掘的主题建模剖析 9.python爬虫进行web抓取lda主题语义数据分析

关于算法:matlab实现扩展卡尔曼滤波EKF进行故障检测

原文链接：http://tecdat.cn/?p=22467 本文展现了如何应用扩大卡尔曼滤波器进行故障检测。本文应用扩大的卡尔曼滤波器对一个简略的直流电机的摩擦力进行在线预计。预计的摩擦力的重大变动被检测进去，并表明存在故障。电机模型电机被模仿成具备阻尼系数c，_转动惯量_J，由一个扭矩u驱动。电机的角速度w和加速度w是测量输入。为了应用扩大卡尔曼滤波器预计阻尼系数c，为阻尼系数引入一个辅助状态，并将其导数设为零。因而，模型状态，x = [w;c]，和测量，y，方程式为：应用近似值x=xn+1-xnTs将间断工夫方程转换为离散工夫，其中Ts为离散采样周期。这就失去了离散工夫模型方程。指定电机参数 J = 10; % 惯性Ts = 0.01; % 采样工夫指定初始状态。 x = \[... 0; ... % 角速度 1\]; % 摩擦力% 以摩擦为状态的电机的状态更新方程% 状态更新方程式x1 = \[... x0(1)+Ts/J*(u-x0(1)*x0(2)); ... x0(2)\];% 以摩擦为状态的电机的测量方程% 输入。% y - 电机测量元素\[角速度；角加速度\]。y = \[... x(1); ... (u-x(1)*x(2))/J\];电机经验状态（过程）噪声烦扰，q，和测量噪声烦扰，r。噪声项是相加的。过程和测量噪声的平均值为零，E[q]=E[r]=0，协方差Q=E[qq']和R=E[rr']。摩擦状态有很高的过程噪声烦扰。这反映了咱们心愿摩擦力在电机失常运行期间会有变动，并且滤波器能跟踪这种变动。减速和速度状态的噪声很低，但速度和加速度测量的噪声绝对较大。指定过程噪声协方差。 \[... 1e-6 0; ... % 角速度 0 1e-2\]; % 摩擦力指定测量噪声协方差。 \[... 1e-4 0; ... % 速度测量 0 1e-4\]; % 加速度测量创立一个扩大的卡尔曼过滤器创立一个扩大的卡尔曼滤波器来预计模型的状态。咱们特地关注阻尼状态，因为这个状态值的急剧变动表明存在故障事件。创立一个扩大卡尔曼滤波器对象，并指定状态转换和测量函数的雅各布系数。扩大卡尔曼滤波器的输出参数是之前定义的状态转换和测量函数。初始状态值x0、初始状态协方差、过程和测量噪声协方差也是扩大卡尔曼滤波器的输出。在这个例子中，准确的雅各布函数能够从状态转换函数f和测量函数h中失去。 % 输入Jac - 在x处计算出的状态雅各布系数% 雅各布系数Jac = \[ 1-Ts/J\*x(2) -Ts/J\*x(1); ... 0 1\];% 电机模型测量方程的雅各布系数% 输入Jac - 在 x 处计算的测量雅各布系数% 雅各布系数J = \[ ... 1 0; -x(2)/J -x(1)/J\];Simulation仿真为了模仿工厂，创立一个环路，在电机中引入一个故障（虚构的电机激烈变动）。在模仿回路中，应用扩大的卡尔曼滤波器来预计电机状态，并特地跟踪摩擦状态，检测摩擦力何时产生统计意义上的变动。电机被模仿成一个脉冲序列，重复减速和加速。这种类型的电机操作对于生产线上的采摘机器人来说是典型的。在模仿电机时，退出与构建扩大卡尔曼滤波器时应用的Q和R噪声协方差值类似的过程和测量噪声。对于摩擦，应用一个小得多的噪声值，因为除了故障产生时，摩擦大多是恒定的。在模仿过程中人为地诱发故障。 Qv = chol(Q); % 过程噪声的标准偏差Qv(end) = 1e-2; % 较小的摩擦噪声Rv = chol(R); % 测量噪声的标准偏差应用状态更新方程对模型进行仿真，并在模型状态中退出过程噪声。仿真十秒钟后，强制扭转电机的摩擦力。应用模型测量性能来模仿电机传感器，并在模型输入中退出测量噪声。 for ct = 1:numel(t) % 模型输入更新 y = y+Rv*randn(2,1); % 增加测量噪声 % 模型状态更新 xSig(:,ct) = x0; % 诱发摩擦力的变动 if t(ct) == 10 x1(2) = 10; % 步骤变动 x1n = x1+Qv*randn(nx % 退出过程噪声Significant friction change at 10.450000为了从电机测量值中预计电机状态，应用扩大卡尔曼滤波器的预测和纠正命令。 % 应用扩大卡尔曼滤波器进行状态预计 x_corr = correct(ekf,y,u(ct),J,Ts); % 依据以后测量后果修改状态预计。 predict(ekf,u(ct),J,Ts); % 依据以后状态和输出预测下一个状态。为了检测摩擦力的变动，应用4秒的挪动窗口来计算预计的摩擦力平均值和标准偏差。在最后的7秒之后，锁定计算的平均值和标准差。这个最后计算出的平均值是摩擦力的预期无故障平均值。7秒后，如果预计的摩擦力与预期的无故障平均值相差超过3个标准差，这就意味着摩擦力有了显著的变动。为了缩小乐音和预计摩擦力的影响，在与3个标准差的界线比拟时，应用预计摩擦力的平均值。 % 计算预计平均值和标准偏差。 else % 存储计算出的平均数和标准差，不须要 %从新计算。 fMean(ct) = fMean(ct-1) % 应用预期的摩擦力平均值和标准偏差来检测 %摩擦力变动。 estFriction = mean(xSigEst(2, if fChanged(ct) && ~fChanged(ct-1) % 检测摩擦变动信号的回升沿|fChanged|应用预计的状态来计算预计的输入。计算测量输入和预计输入之间的误差，并计算出误差统计。误差统计可用于检测摩擦力的变动。这一点将在前面具体探讨。 kurtosis(ySigEst(1,idx)-ySig(1,idx)); kurtosis(ySigEst(2,idx)-ySig(2,idx))\];扩大的卡尔曼滤波器性能请留神，在10.45秒时检测到了一个摩擦变动。咱们当初形容一下这个故障检测规定是如何得出的。首先查看仿真后果和过滤器的性能。 figure, plot(t, Sig(1,:) Sig(2,:)); 模型的输入输出响应表明，很难间接从测量信号中检测出摩擦力的变动。扩大的卡尔曼滤可能预计状态，特地是摩擦状态。比拟实在的模型状态和预计状态。预计的状态显示了对应于3个标准差的置信区间。 plot(t, True(1,:), t, Est(1,:), ... 请留神，滤波器的估计值跟踪了实在值，而且置信区间依然有界。查看预计误差能够更深刻地理解滤波器。 plot(t,True(1,:)-Est(1,:) 误差图显示，滤波器在10秒的摩擦力变动后进行了调整，并将预计误差升高到了零。然而，误差图不能用于故障检测，因为它们依赖于对实在状态的理解。将测量的状态值与加速度和速度的预计状态值进行比拟，能够提供一种检测机制。 plot(t,Sig(1,:-Est(1,:) 加速度误差图显示，在引入故障的10秒左右，平均误差有渺小的差别。查看误差统计，看看是否能够从计算的误差中检测出故障。加速度和速度误差预计是正态分布的（噪声模型都是高斯的）。因而，加速度误差的峰度可能有助于辨认因为摩擦力的变动和由此产生的误差散布从对称变为不对称的变动状况。 plot(t,Kur(1,:) 疏忽预计器仍在收敛和收集数据的前4秒，误差的峰度绝对稳固，在3（高斯分布的预期峰度值）左近有渺小的变动。因而，在这个利用中，误差统计不能被用来自动检测摩擦力的变动。在这个利用中，应用误差的峰度也是很艰难的，因为过滤器正在适应并一直地将误差推向零，只给出了一个误差散布与零不同的短暂工夫窗口。因而在这个利用中，应用预计的摩擦力的变动提供了自动检测电机故障的最好办法。来自已知无故障数据的摩擦力估计值（平均值和标准偏差）提供了摩擦力的预期界线，当这些界线被超过时，很容易检测进去。上面的图强调了这种故障检测办法。 plot(t,x,\[nan t\],\[Mean+3\*STD,Mean-3\*STD\] 摘要这个例子展现了如何应用扩大的卡尔曼滤波器来预计一个简略的直流电动机的摩擦力，并应用摩擦力估计值进行故障检测。最受欢迎的见解 1.matlab应用教训模式合成emd 对信号进行去噪 2.Matlab应用Hampel滤波去除异样值 3.matlab偏最小二乘回归(PLSR)和主成分回归(PCR) 4.matlab预测ARMA-GARCH 条件均值和方差模型 5.matlab中应用VMD(变分模态合成) 6.matlab应用贝叶斯优化的深度学习 7.matlab贝叶斯隐马尔可夫hmm模型 8.matlab中的隐马尔可夫模型(HMM)实现 9.matlab实现MCMC的马尔可夫切换ARMA – GARCH模型

关于算法:R语言经济学动态模型平均DMA动态模型选择DMS预测原油时间序列价格

原文链接：http://tecdat.cn/?p=22458 简介本文提供了一个经济案例。着重于原油市场的例子。简要地提供了在经济学中应用模型均匀和贝叶斯办法的论据，应用了动静模型平均法（DMA），并与ARIMA、TVP等办法进行比拟。心愿对经济和金融畛域的从业人员和钻研人员有用。动机事实上，DMA将计量经济学建模的几个特点联合在一起。首先，最终预测是通过模型平均化从几个回归模型中产生的。其次，该办法是贝叶斯办法，也就是说，概率是以置信水平的形式解释的。例如，对工夫t的DMA预测只基于截至工夫t-1的数据。此外，新数据的取得间接导致参数的更新。因而，在DMA中，回归系数和赋予模型的权重都随工夫变动。贝叶斯办法不是古代计量经济学的支流。然而，这些办法最近正取得越来越多的关注。这其中有各种起因。首先，咱们能够将其与钻研中日益增多的数据量分割起来。因为技术提高，人们通常面临着许多潜在的解释变量的状况。只管大多数变量可能并不重要，但研究者通常不晓得哪些变量应该被剔除。当然，到某种程度上依然能够应用惯例办法。但因为不足足够的信息，通常无奈对参数进行准确预计。最简略的例子是当解释变量的数量大于工夫序列中的察看值的数量时。例如，即便在线性回归的状况下，规范的一般最小二乘法预计也会呈现一个奇怪矩阵，导致不可能取其倒数。在贝叶斯框架下，依然能够得出一个有意义的公式。贝叶斯办法仿佛也能更好地解决适度参数化和适度拟合问题。在最近的预测趋势中能够发现各种办法。以原油价格为例，预测办法通常能够分为工夫序列模型、构造模型和其余一些办法，如机器学习、神经网络等。一般来说，工夫序列模型的重点是对稳定的建模，而不是对现货价格的建模。构造模型顾名思义包含因果关系，但它们通常在某些期间有很好的预测能力，而在其余期间则很差。另外，基于小波合成、神经网络等的其余办法通常疏忽了其余因素的影响，只关注繁多工夫序列。这些使得DMA成为从业者的一个乏味的办法。 DMA的下一个方面是，它容许回归系数是随工夫变动的。事实上，在经济呈现迟缓和疾速（结构性中断）变动的状况下，计量经济学模型的这种属性是十分可取的。当然，这样的办法也存在于传统的方法论中，例如，递归或滚动窗口回归。实践框架咱们将简短地形容fDMA的实践框架。特地是，动静模型平均化（DMA）、动静模型抉择（DMS）、中位概率模型。动静模型均匀（DMA）DMA在[1]的原始论文中失去了十分具体的介绍。然而，上面是一个简短的阐述，对于了解fDMA中每个函数的作用是必要的。假如yt是预测的工夫序列（因变量），让x（k）t是第k个回归模型中独立变量的列向量。例如，有10个潜在的原油价格驱动因素。如果它们中的每一个都由一个适合的工夫序列来示意，那么就能够构建2^10个可能的线性回归模型。每个变量都能够包含或不包含在一个模型中。因而，每个变量有两种抉择，形成了2^10种可能性。这包含一个只有常数的模型。因而，一般来说，有潜在的有用的m个独立变量，最多能够构建K=2^m个模型。换句话说，状态空间模型是由以下几个局部组成的其中k = 1, ... . ，K，t是回归系数的列向量。假如误差遵循正态分布，即e（k）t∼N（0，V（k）t）和（k）t∼N（0，W（k）t）。在此请留神，有m个潜在的解释变量，2m是构建模型的下限。然而，本文形容的所有办法（如果没有特地阐明的话）都实用于这些2m模型的任何子集，即K≤2m。动静模型抉择(DMS)动静模型抉择（DMS）是基于雷同的理念，与DMA的理念雷同。惟一的区别是，在DMA中进行的是模型平均化，而在DMS中是模型抉择。换句话说，对于每个期间t，抉择具备最高后验概率的模型。这意味着，只需将公式批改为其中HT示意k模型。一个例子：原油市场咱们举一个原油市场的例子。据此能够说，在哪些工夫序列能够作为预测现货原油价格的有用解释变量方面，存在着不确定性。 xts对象crudeoil蕴含来自原油市场的选定数据，即。 -WTI代表WTI（西德克萨斯中质油）现货价格，以每桶计。 - MSCI代表MSCI世界指数。 - TB3MS代表3个月国库券二级市场利率（%）。 - CSP代表粗钢产量，单位是千吨（能够作为掂量寰球经济流动的一种形式）。 - TWEXM代表贸易加权的指数（1973年3月=100）。 - PROD代表原油产品供应量，单位为千桶。 - CONS代表经合组织的原油产品总消费量。 - VXO代表规范普尔100指数的隐含稳定率（即股票市场稳定率）。这些数据的频率为每月一次。它们涵盖了1990年1月至2016年12月的期间。 xts对象的趋势蕴含来自谷歌的对于选定搜索词的互联网数量的数据。 - stock_markets代表Google Trends的 "股票市场"。 - interest_rate代表Google Trends的 "利率"。 - economic_activity示意 "经济流动 "的Google趋势。 - exchange_rate代表 "汇率 "的谷歌趋势。 - oil_production示意 "石油生产 "的Google趋势。 - oil_consumption代表 "石油生产 "的谷歌趋势。 - market_stress代表Google Trends的 "市场压力"。这些数据也是以月度为频率的。它们涵盖了2004年1月至2016年12月这段时间，因为谷歌趋势没有涵盖更早的期间。从经济角度来看，思考这些工夫序列的对数差分是正当的 R> drivers <- (lag(crudeoil\[ , -1\], k = 1))\[-1, \]R> l.wti <- (diff(log(wti)))\[-1, \]R> l.drivers <- (diff(log(driv )))\[-1, \] ...

关于算法:R语言实现偏最小二乘回归法-partial-least-squares-PLS回归

原文链接：http://tecdat.cn/?p=8652偏最小二乘回归是一种回归模式。当应用pls时，新的线性组合有助于解释模型中的自变量和因变量。在本文中，咱们将应用pls在“ Mroz”数据集中预测“支出”。 library(pls);library(Ecdat)data("Mroz")str(Mroz)## 'data.frame': 753 obs. of 18 variables:## $ work : Factor w/ 2 levels "yes","no": 2 2 2 2 2 2 2 2 2 2 ...## $ hoursw : int 1610 1656 1980 456 1568 2032 1440 1020 1458 1600 ...## $ child6 : int 1 0 1 0 1 0 0 0 0 0 ...## $ child618 : int 0 2 3 3 2 0 2 0 2 2 ...## $ agew : int 32 30 35 34 31 54 37 54 48 39 ...## $ educw : int 12 12 12 12 14 12 16 12 12 12 ...## $ hearnw : num 3.35 1.39 4.55 1.1 4.59 ...## $ wagew : num 2.65 2.65 4.04 3.25 3.6 4.7 5.95 9.98 0 4.15 ...## $ hoursh : int 2708 2310 3072 1920 2000 1040 2670 4120 1995 2100 ...## $ ageh : int 34 30 40 53 32 57 37 53 52 43 ...## $ educh : int 12 9 12 10 12 11 12 8 4 12 ...## $ wageh : num 4.03 8.44 3.58 3.54 10 ...## $ income : int 16310 21800 21040 7300 27300 19495 21152 18900 20405 20425 ...## $ educwm : int 12 7 12 7 12 14 14 3 7 7 ...## $ educwf : int 7 7 7 7 14 7 7 3 7 7 ...## $ unemprate : num 5 11 5 5 9.5 7.5 5 5 3 5 ...## $ city : Factor w/ 2 levels "no","yes": 1 2 1 1 2 2 1 1 1 1 ...## $ experience: int 14 5 15 6 7 33 11 35 24 21 ...首先，咱们必须通过将数据分为训练和测试集来筹备数据。 set.seed(777)train<-sample(c(T,F),nrow(Mroz),rep=T) #50/50 训练/测试拆分test<-(!train)在下面的代码中，咱们设置“ set.seed函数”以确保可重复性。而后，咱们创立了“ train”对象。当初，咱们应用 “plsr”函数创立模型，而后应用“ summary”函数查看后果。咱们应用穿插验证。上面是代码。 ## Data: X dimension: 392 17 ## Y dimension: 392 1## Fit method: kernelpls## Number of components considered: 17## ## VALIDATION: RMSEP## Cross-validated using 10 random segments.## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps## CV 11218 8121 6701 6127 5952 5886 5857## adjCV 11218 8114 6683 6108 5941 5872 5842## 7 comps 8 comps 9 comps 10 comps 11 comps 12 comps 13 comps## CV 5853 5849 5854 5853 5853 5852 5852## adjCV 5837 5833 5837 5836 5836 5835 5835## 14 comps 15 comps 16 comps 17 comps## CV 5852 5852 5852 5852## adjCV 5835 5835 5835 5835## ## TRAINING: % variance explained## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps## X 17.04 26.64 37.18 49.16 59.63 64.63 69.13## income 49.26 66.63 72.75 74.16 74.87 75.25 75.44## 8 comps 9 comps 10 comps 11 comps 12 comps 13 comps 14 comps## X 72.82 76.06 78.59 81.79 85.52 89.55 92.14## income 75.49 75.51 75.51 75.52 75.52 75.52 75.52## 15 comps 16 comps 17 comps## X 94.88 97.62 100.00## income 75.52 75.52 75.52输入包含“验证”局部中均方根误差。因为有17个独立变量，所以有17个成分。能够看到，在成分3或4之后，因变量中解释的方差简直没有改善。上面是这些后果图的代码。咱们将应用咱们的模型进行预测。尔后，咱们计算均方误差。这是通过从测试集的因变量中减去咱们的预测模型的后果来实现的。而后，咱们对这些信息求平方并计算平均值。 mean((pls.pred-Mroz$income\[test\])^2)## \[1\] 63386682 咱们应用传统的最小二乘回归模型运行数据并比拟后果。 ## \[1\] 59432814 最小二乘模型比偏最小二乘模型好一点，然而如果看一下模型，咱们会看到几个不重要的变量。咱们删除这些，看看后果如何``````summary(lm.fit)## ## Call:## lm(formula = income ~ ., data = Mroz, subset = train)## ## Residuals:## Min 1Q Median 3Q Max ## -20131 -2923 -1065 1670 36246 ## ## Coefficients:## Estimate Std. Error t value Pr(>|t|) ## (Intercept) -1.946e+04 3.224e+03 -6.036 3.81e-09 ***## workno -4.823e+03 1.037e+03 -4.651 4.59e-06 ***## hoursw 4.255e+00 5.517e-01 7.712 1.14e-13 ***## child6 -6.313e+02 6.694e+02 -0.943 0.346258 ## child618 4.847e+02 2.362e+02 2.052 0.040841 * ## agew 2.782e+02 8.124e+01 3.424 0.000686 ***## educw 1.268e+02 1.889e+02 0.671 0.502513 ## hearnw 6.401e+02 1.420e+02 4.507 8.79e-06 ***## wagew 1.945e+02 1.818e+02 1.070 0.285187 ## hoursh 6.030e+00 5.342e-01 11.288 < 2e-16 ***## ageh -9.433e+01 7.720e+01 -1.222 0.222488 ## educh 1.784e+02 1.369e+02 1.303 0.193437 ## wageh 2.202e+03 8.714e+01 25.264 < 2e-16 ***## educwm -4.394e+01 1.128e+02 -0.390 0.697024 ## educwf 1.392e+02 1.053e+02 1.322 0.186873 ## unemprate -1.657e+02 9.780e+01 -1.694 0.091055 . ## cityyes -3.475e+02 6.686e+02 -0.520 0.603496 ## experience -1.229e+02 4.490e+01 -2.737 0.006488 ** ## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1## ## Residual standard error: 5668 on 374 degrees of freedom## Multiple R-squared: 0.7552, Adjusted R-squared: 0.744 ## F-statistic: 67.85 on 17 and 374 DF, p-value: < 2.2e-16lm.pred<-predict(lm.fit,Mroz\[test,\])mean((lm.pred-Mroz$income\[test\])^2)## \[1\] 57839715 误差升高很多，这表明最小二乘回归模型优于偏最小二乘模型。此外，偏最小二乘模型很难解释。因而，最小二乘模型是最受欢迎的模型。

关于算法:R语言预测波动率的实现ARCH模型与HARRV模型

原文：http://tecdat.cn/?p=3832稳定率是泛滥定价和危险模型中的要害参数，例如BS定价办法或危险价值的计算。在这个模型中，或者说在教科书中，这些模型中的稳定率通常被认为是一个常数。然而，状况并非如此，依据学术研究，稳定率是具备聚类,厚尾和长记忆特色的工夫序列变量。本博客比拟了GARCH模型（形容稳定率聚类），ARFIMA模型（长记忆），HAR-RV模型（基于高频数据），以及来自SSE 50指数和CME利率期货的样本。此外，本文应用滚动工夫窗预测办法来计算预测稳定率并构建指数以评估模型的准确性。结果表明，基于长记忆和实现稳定率的ARFIMA-RV模型是最精确的模型。 1.基于GARCH的模型形容稳定率聚类为了模仿异方差性，GARCH采纳以下过程：为了反映金融市场的不对称性，学者们提出了EGARCH，TGARCH或APARCH，其中APARCH更为个别。咱们从在R中拟合APARCH开始：能够看出ARCH效应是不言而喻的咱们能够失去模型的系数，以及误差剖析为了进一步分析模型，咱们剖析了QQ图中的正态性残差。咱们发现残差不合乎正态性，而后咱们测试残差的自相干：测试对于下面列出的模型，所有残差都具备一些自相干效应。因而，基于GARCH的模型可能不够精确，无奈预测波动性。咱们应用MSE（误差的均方）来测量模型的预测性能。 MSE.NGARCH 0.000385108313676526 MSE.tGARCH 0.00038568802365854 MSE.APARCH 0.000385278917823468 2.基于HAR-RV的模型解决高频理论稳定率高频数据蕴含更丰盛的日内交易信息，因而可用于掂量稳定率。实现稳定是其中一种形式。如果咱们将交易日_t_划分为_N个_时段，每个时段都会有一个对数收益率，那么理论收益能够计算如下： HAR-RV，异构自回归RV模型由科希创立。 MSE计算如下 MSE.HARRV 1.08226110318177 * 10 ^（ - 7） MSE.HARRVCJ 1.90270268315141 * 10 ^（ - 7） 3.基于ARFIMA的模型形容长记忆 ARFIMA是分整自回归挪动均匀模型，其具备与ARMA模型雷同的示意模式，但差分参数d能够是非整数值：在差分参数d是非整数的状况下，则能够如下操作在R中，咱们编程摸索HAR-RV和HAR-RV-CJ模型。 MSE如下所列 MSE.ARFIMA1 1.0663781087345 * 10 ^（ - 7） ...

关于算法:R语言基于Bagging分类的逻辑回归Logistic-Regression决策树森林分析心脏病患者

原文链接：http://tecdat.cn/?p=22448=== 明天，咱们将看下bagging 技术外面的启发式算法。通常，bagging 与树无关，用于生成森林。但实际上，任何类型的模型都有可能应用bagging 。回顾一下，bagging意味着 "boostrap聚合"。因而，思考一个模型m：X→Y。让示意从样本中失去的m的预计当初思考一些boostrap样本，，i是从{1,⋯,n}中随机抽取的。基于该样本，预计。而后抽出许多样本，思考取得的估计值的一致性，应用少数规定，或应用概率的平均值（如果思考概率主义模型）。因而 Bagging逻辑回归考虑一下逻辑回归的状况。为了产生一个bootstrap样本，天然要应用下面形容的技术。即随机抽取一对(yi,xi)，平均地（概率为）替换。这里考虑一下小数据集。对于bagging局部，应用以下代码 for(s in 1:1000){ df_s = df\[sample(1:n,size=n,replace=TRUE) logit\[s\]= glm(y~., df_s, family=binomial而后，咱们应该在这1000个模型上进行汇总，取得bagging的局部。 unlist(lapply(1:1000,function(z) predict(logit\[z\],nnd))}咱们当初对任何新的察看都有一个预测 vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))contour(vu,vu,vv,levels = .5,add=TRUE) Bagging逻辑回归另一种可用于生成bootstrap样本的技术是保留所有的xi，但对其中的每一个，都（随机地）抽取一个y的值，其中有因而因而，当初Bagging算法的代码是 glm(y~x1+x2, df, family=binomial)for(s in 1:100) y = rbinom(size=1,prob=predict(reg,type="response") L\_logit\[s\] = glm(y~., df\_s, family=binomial)bagging算法的agg局部放弃不变。在这里咱们取得 vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))))contour(vu,vu,vv,levels = .5,add=TRUE) 当然，咱们能够应用该代码，查看预测取得咱们的样本中的察看。在这里思考心肌梗塞数据。数据咱们应用心脏病数据，预测急诊病人的心肌梗死，蕴含变量：心脏指数心搏量指数舒张压肺动脉压心室压力肺阻力是否存活其中咱们有急诊室的察看后果，对于心肌梗塞，咱们想理解谁存活下来了，失去一个预测模型 reg = glm(as.factor(PRO)~., carde, family=binomial)for(s in 1:1000){ L\_logit\[s\] = glm(as.factor(PRO)~., my\_s, family=binomial)}unlist(lapply(1:100,predict(L_logit\[z\],newdata=d,type="response")}对于第一个察看，通过咱们的1000个模仿数据集，以及咱们的1000个模型，咱们失去了以下死亡概率的预计。 v_x = p(x)hist(v_x,proba=TRUE,breaks=seq(,by.05),=",="",segments(mean(v\_x),0,mean(v\_x,5="=2)因而，对于第一个察看，在78.8%的模型中，预测的概率高于50%，均匀概率实际上靠近75%。或者，对于样本22，预测与第一个十分靠近。 histo(23)histo(11)咱们在此察看到 Bagging决策树Bagging是由Leo Breiman于1994年在Bagging Predictors中介绍的。如果说第一节形容了这个程序，那么第二节则介绍了 "Bagging分类树"。树对于解释来说是不错的，但大多数时候，它们是相当差的预测模型。Bagging的想法是为了进步分类树的准确性。 bagging 的想法是为了生成大量的树 for(i in 1:12) set.seed(sed\[i\])idx = sample(1:n, size=n, replace=TRUE)cart = rpart(PR~., md\[idx,\]) 这个策略其实和以前一样。对于bootstrap局部，将树存储在一个列表中 for(s in 1:1000)idx = sample(1:n, size=n, replace=TRUE) L_tree\[\[s\]\] = rpart(as.(PR)~.)而对于汇总局部，只需取预测概率的平均值即可 p = function(x){ unlist(lapply(1:1000,function(z) predict(L_tree\[z\],newdata,)\[,2\])因为在这个例子中，咱们无奈实现预测的可视化，让咱们在较小的数据集上运行同样的代码。 for(s in 1:1000){ idx = sample(1:n, size=n, replace=TRUE) L_tree\[s\] = rpart(y~x1+x2,} unlist(lapply(1:1000,function(z) predict(L_tree\[\[z\]\])outer(vu,vu,Vectorize(function(x,y) mean(p(c(x,y))) 从bagging到森林在这里，咱们生成了很多树，但它并不是严格意义上的随机森林算法，正如1995年在《随机决策森林》中介绍的那样。实际上，区别在于决策树的创立。当咱们有一个节点时，看一下可能的宰割：咱们思考所有可能的变量，以及所有可能的阈值。这里的策略是在p中随机抽取k个变量（当然k<p，例如k=sqrt{p}）。这在高维度上是乏味的，因为在每次宰割时，咱们应该寻找所有的变量和所有的阈值，而这可能须要相当长的工夫（尤其是在bootstrap 程序中，指标是长出1000棵树）。最受欢迎的见解 1.用机器学习辨认一直变动的股市情况—隐马尔科夫模型(HMM)的利用 2.R语言GARCH-DCC模型和DCC（MVT）建模预计 3.R语言实现 Copula 算法建模依赖性案例剖析报告 4.R语言COPULAS和金融工夫序列数据VaR剖析 5.R语言多元COPULA GARCH 模型工夫序列预测 6.用R语言实现神经网络预测股票实例 7.r语言预测稳定率的实现：ARCH模型与HAR-RV模型 8.R语言如何做马尔科夫转换模型markov switching model 9.matlab应用Copula仿真优化市场危险

关于算法:关于写好文章的3个心法和5点技巧

简介：技术类文章最须要的是扎实的教训累积、深度思考和精益求精的精力，这些技巧，心愿可能精益求精。作者 | 双宏起源 | 阿里技术公众号我是双宏，负责阿里巴巴外部技术人社区的内容经营，包含每天头条热文专题举荐、重大选题流动的策动落地。正好借这个机会，和大家一起分享下好文章的打磨技巧。先强调下，技术类文章最须要的是扎实的教训累积、深度思考和精益求精的精力，这些技巧，心愿可能精益求精。一、谋篇布局的3个心法：1. 对象感一篇文章是否是好的文章，不单是你的信息你的概念有多牛，更重要的是你的读者有没有get对他有用的货色。开始写作前，要先想分明这篇文章是筹备写给谁的？心愿谁看到？心愿他有什么样的播种？有个简略的心法，把电脑关上，构想你对面坐着一位技术同学（间接拉一个不同部门的单干过的共事当面讲一讲也能够），他有肯定的技术背景，但不是你同一个BU的，你要怎么讲清楚、让他明确你这篇文章最想表白的主题、你的逻辑框架、你的论断。说分明这些，文章架构就根本有了雏形。 2. 价值感驰名商业参谋、畅销书作者刘润老师讲过，文章分为三类：WHAT（是什么），WHY（为什么），HOW（怎么做）。写WHAT类绝对最容易，解释概念：沉没老本“是什么”；写WHY类专栏要难不少，分割动机：我“为什么”要了解沉没老本；写HOW类专栏绝对最难，理论利用：到底“怎么做” ，我能力利用沉没老本，并因而获益。WHY，比WHAT有价值感；HOW，比WHY有价值感。写作之前，你要想分明，你这篇文章是心愿给出WHAT，还是WHY，还是让同学们失去HOW。不要贪多、一次把一个技术计划、一个我的项目停顿、一个细分畛域的价值讲清楚就能够。另外，你还要沉下去思考、想尽办法建设和读者的相关性。想一想，你的这个技术除了对本人的团队有用，对其余团队的价值在哪里。对不懂技术的同学有什么价值，想方法建设内容与读者之间的相关度。比方你想让大家理解架构的魅力/算法的魅力，如果能晋升到它延长的思考形式和能力体系，那么大多数技术同学都会从中受害。 3. 构造感优良的文章，须要清晰的内容主线和逻辑脉络，要想方法做到让读者“醍醐灌顶式的了解”，而不是单纯表白欲的满足。有个可尝试的思路是，开篇先定义问题，这篇文章次要是解决哪一类的问题，痛点是什么，之前的计划是怎么设计的，当初的技术计划跟以前相比有什么不同，对其余技术线的同学们来说有什么借鉴价值。这里揭示一句，同学们更喜爱看到计划背地的思考和分析判断，其余相干团队可借鉴复用的局部，深度思考和可借鉴性的价值越大，越受欢迎。二、具体成文的5点小技巧：1. 好题目是好文章的第一步有很多同学文章写得很好，但起题目的时候懒得花心思，这个真的有点得失相当。一个好的题目，是一篇好文章的必备因素。这里有几个准则供大家参考，第一个是数字法令，人的大脑和视觉零碎在解决数字的时候，要比解决简单的文字优先得多，如果你的文章里那些比拟有亮点的数字、金额、排名、要点什么的，记得肯定要把它们往题目上放，会让人感觉信息含量比拟高。第二个是尽量通俗易懂地间接给出论断/价值感，避免出现生僻、业余的词汇。能让普通人和专业人士都了解的题目，才叫好题目。第三个是建设好奇，要想方法让读者有趣味、建设内容与受众之间的相关性。来看这几篇爆款文的题目：总结：5年来我从身边TL学到的3种思维我1年从19个重大故障中学到了什么警觉复杂度困局：关于软件复杂度的思考五福项目组通知你，数据可视化还能这样玩2. 用过往的教训建设信赖文章开篇提出问题之后，最好先介绍下本人，我是谁，我过往做了什么，为什么是我来和大家分享这个主题，让读者和你建设信任感，这样前面的文章会更有说服力。 3. 设置路标和问题，像向导一样疏导读者想要继续吸引读者读上来，你须要像个向导一样，继续在文章里设置路标。如果你的文章比拟长，能够在开篇先通知读者，这篇文章会讲几个局部，每局部用小标题和第一第二第三的关键点，继续牵引读者和你一起走上来。有一些路标性的疏导语，也能够适当退出，它们能帮你一起突破读者原有的认知立场，建设好奇、迫不得已被你吸引。来阿里前，我在罗辑思维和失去APP负责内容主编，负责《刘润·5分钟商学院》《香帅的北大金融学课》几个明星滞销专栏的整体打造经营。过后在罗辑思维打磨课程时，有几句心法，供大家参考：你认为是这样的，不对；你感觉这个事件很简略，我通知你，其实它背地有着很简单的一套逻辑；你感觉这个事件很简单，其实它实质上是这样一回事；这个事你之前不晓得，你听我说；4. 遇到专业术语，多用举例和比喻终于要讲核心技术计划了，但光讲概念，读者不爱听。太生僻、太业余的词汇，读者听不懂就间接过掉了，最好联合一些简略易懂的案例，或者一些计划、图片，把术语翻译成读者能了解的语言。 5. 点出论断、突出价值文章结尾，记得把所有关键点，用一两句话说分明，强化读者能够带走间接用的概念、计划、技术思考，帮忙读者把价值感牢牢抓在手里。先分享到这里，找机会咱们再一起聊聊体系化专题内容的创立逻辑，以及点线面体集体影响力的打造。更多举荐更多阿里技术人对于写好文章的教训心得，点击以下文章题目即可查看：如何写出高质量的技术文章？对于写文章的一点教训程序员写好技术文章的几点小技巧版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于算法:算法leetode300题之1两数之和

题目：算法（leetode）300题之（1）两数之和题目形容计划总览 1 计划11)代码： // 不思考任何复杂度的限度，2层for循环即可var twoSum = function(nums, target) { let l = nums.length; // 因为要找2个数，所以 i值最多为 l-2 for(let i=0; i<l-1; i++) { // 因为要找2个数，所以 j值最多为 l-1 for(let j=i+1; j<l; j++) { // 若以后2个i、j下标对应的数值相加正好等于 target， // 间接返回以后的 i、j 所组成的数组（因为题目限定必存在惟一答案） let sumTmp = nums[i] + nums[j]; if(sumTmp === target) { return [i, j] } } }};2 计划21）代码： // hash法（JS应用 Map数据结构）。“记住，程序 = 数据结构 + 算法”// 此时，Map是咱们的数据结构，具体遍历、判断值等逻辑是咱们的算法。var twoSum = function(nums, target) { // 尽管选定了Map构造，但Map是有“key、value”组成 // 此时咱们还需思考“key、value”的构造（类型值）。 // 这里 key、value 别离为数组某个具体元素的值、下标 let l = nums.length, m = new Map(); for(let i=0; i<l; i++) { m.set(nums[i], i); } for(let i=0; i<l-1; i++) { let valTmp = target - nums[i], idxTmp = m.get(valTmp); // 边界：别忘了 2个index 不能雷同！（具体为啥大家能够评论区探讨~） if(idxTmp !== undefined && i !== idxTmp) { return [i, idxTmp]; } }};3 计划3（计划2的优化版）1）代码： ...

关于算法:R语言多项式回归拟合非线性关系

原文链接：http://tecdat.cn/?p=22438 多项式回归是独立x变量和因果y变量之间的非线性关系。当咱们剖析有一些蜿蜒的稳定数据时，拟合这种类型的回归是很要害的。在这篇文章中，咱们将学习如何在R中拟合和绘制多项式回归数据。咱们在这个回归模型中应用了lm()函数。尽管它是一个线性回归模型函数，但通过扭转指标公式类型，lm()对多项式模型也实用。本教程包含筹备数据拟合模型寻找最佳拟合源代码筹备数据咱们首先要筹备测试数据，如下所示。 function(x) x^3+2*x^2+5 df = data.frame(x = x, y = y)head(df)咱们能够将'df'数据可视化，在图中进行直观的查看。咱们的工作是用最佳曲线拟合这个数据。 plot(df$x, df$y 拟合模型咱们用lm()函数建设一个带有公式的模型。 I(x^2)在一个公式中代表x2。咱们也能够应用poly(x,2)函数，它与I(x^2)的表达方式雷同。接下来，咱们将用训练好的模型来预测数据。 pred = predict(model,data=df)寻找最佳拟合找到最佳拟合的曲线很重要。咱们用各种可能的函数查看模型。在这里，咱们利用四种类型的函数进行拟合，并查看其性能。橙色线（线性回归）和黄色曲线对这个数据来说是谬误的抉择。粉红色曲线很靠近，但蓝色曲线是与咱们的数据趋势最匹配的。因而，我应用y~x3+x2公式来建设咱们的多项式回归模型。你能够通过将你的数据可视化来找到最适宜的公式。源代码列在上面。 lines(df$x, predict(lm(y~x, data=df)), type="l" lwd=2) legend("topleft", legend = c("y~x, - 线性","y~x^2", "y~x^3", "y~x^3+x^2"),绘制后果1. 用plot()函数作图。 2. 用ggplot()作图。多项式回归数据能够用ggplot()拟合和绘制。 ggplot(data=df ) + geom_smooth( y~I(x^3)+I(x^2)) 在本教程中，咱们简要理解了如何拟合多项式回归数据，并应用R中的plot()和ggplot()函数绘制后果，残缺的源代码如下。最受欢迎的见解 1.R语言多元Logistic逻辑回归利用案例 2.面板平滑转移回归(PSTR)剖析案例实现 3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR） 4.R语言泊松Poisson回归模型剖析案例 5.R语言回归中的Hosmer-Lemeshow拟合优度测验 6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现 7.在R语言中实现Logistic逻辑回归 8.python用线性回归预测股票价格 9.R语言如何在生存剖析与Cox回归中计算IDI，NRI指标

关于算法:R语言社区主题检测算法应用案例

原文链接：http://tecdat.cn/?p=5658应用R检测相干主题的社区创立主题网络我通过剖析形象文本和独特作者社交网络来钻研社会科学、计算机和信息学方面的出版物。我遇到的一个问题是：如何掂量主题之间的关系（相关性）？我想创立一个连贯相似主题的网络可视化，并帮忙用户更轻松地浏览大量主题。数据筹备咱们的第一步是加载LDA输入的主题矩阵。LDA有两个输入：词主题矩阵和文档主题矩阵。作为加载文件的代替办法，您能够应用topicmodels包lda函数的输入来创立单词主题和文档主题矩阵。 # 加载到作者主题矩阵中，第一列是单词author.topic <- read.csv("./author_topics.csv", stringsAsFactors = F)# 加载到单词-主题矩阵中，第一列是单词top.words <- word.topics\[order(-word.topic\[,i\])\]name$topic_name\[i\] <- paste(top.words\[1:5\], collapse = " + ")}# 重命名主题colnames(author.topic) <- c("author\_name",name$topic\_name)与摘要是文档的规范LDA不同，我运行了一个“以作者为核心”的LDA，其中所有作者的摘要被合并并被视为每个作者的一个文档。这是因为我的最终目标是应用主题建模作为信息检索过程来确定钻研人员的专业知识。创立动态网络在下一步中，我应用每个主题的单词概率之间的相关性创立一个网络。首先，我决定只保留具备显着相关性（20％+相关性）的关系（边）。我应用20％，因为它对100个察看维基百科的样本具备0.05的统计显着性程度。 cor_threshold <- .2接下来，咱们应用相关矩阵来创立igraph数据结构，删除所有具备小于20％最小阈值相关性的边。library(igraph)让咱们绘制一个简略的igraph网络。par(mar=c(0, 0, 3, 0))y30")title( cex.main=.8) 每个数字代表一个主题，每个主题都有编号以辨认它。应用社区检测，特地是igraph中的标签流传算法来确定网络中的群集。 clp <- cluster\_label\_prop(graph)class(clp)社区检测发现了13个社区，以及每个孤立主题的多个社区（即没有任何分割的主题）。与我最后的察看后果相似，该算法找到了咱们在第一个图中辨认的三个次要聚类，但也增加了其余较小的聚类，这些聚类仿佛不适宜三个次要聚类中的任何一个。 V(graph)$community <- clp$membershipV(graph)$degree <- degree(graph, v = V(graph))动静可视化在本节中，咱们将应用visNetwork容许R中的交互式网络图的包。首先，让咱们调用库并运行visIgraph一个交互式网络，然而应用igraph图形设置在igraph构造（图形）上运行。咱们须要无关网络的更多详细信息。咱们通过创立visNetwork数据结构，而后将列表分成两个数据帧：节点和边。 data <- toVisNetworkData(graph)nodes <- data\[\[1\]\]删除没有连贯的节点（主题）（度= 0）。 nodes <- nodes\[nodes$degree != 0,\]让咱们增加色彩和其余网络参数来改善咱们的网络。 library(RColorBrewer)col <- brewer.pal(12, "Set3")\[as.factor(nodes$community)\]nodes$shape <- "dot"s$betweenness))+.2)*20 # 节点大小nodes$color.highlight.background <- "orange"最初，让咱们用交互式图表创立咱们的网络。您能够应用鼠标滚轮进行缩放。 visNetwork(nodes, edges) %>%visOptions(highlightNearest = TRUE, selectedBy = "community", nodesIdSelection = TRUE)首先，有两个下拉菜单。第一个下拉列表容许您按名称查找任何主题（按单词概率排名前五个单词）。第二个下拉列表突出显示了咱们算法中检测到的社区。最大的三个仿佛是：计算（灰色，簇4）社交（绿蓝，簇1）衰弱（黄色，簇2）检测到的较小社区有什么独特之处？你能解释一下吗？

关于算法:算法6数组异或操作异或性质

算法(6)-数组异或操作1486. 数组异或操作力扣官网题解L6 1. 题目1486. 数组异或操作难度简略83 给你两个整数，n 和 start 。数组 nums 定义为：nums[i] = start + 2*i（下标从 0 开始）且 n == nums.length 。请返回 nums 中所有元素按位异或（XOR）后失去的后果。示例 1：输出：n = 5, start = 0输入：8解释：数组 nums 为 [0, 2, 4, 6, 8]，其中 (0 ^ 2 ^ 4 ^ 6 ^ 8) = 8 。 "^" 为按位异或 XOR 运算符。示例 2：输出：n = 4, start = 3输入：8解释：数组 nums 为 [3, 5, 7, 9]，其中 (3 ^ 5 ^ 7 ^ 9) = 8.示例 3： ...

关于算法:如何用R语言在机器学习中建立集成模型

原文链接：http://tecdat.cn/?p=6608介绍在本文中，我将向您介绍集成建模的基础知识。另外，为了向您提供无关集成建模的实践经验，咱们将应用R进行集成。 1.什么是集成？通常，集成是一种组合两种或多种相似或不同类型算法的技术，称为根底学习模型。这样做是为了建设一个更加强壮的零碎，其中蕴含了所有根底学习模型的预测。能够了解为多个交易者之间的会议室会议，以决定股票的价格是否会上涨。因为他们都对股票市场有不同的了解。因而，他们应该依据本人对市场的了解对股票价格做出各种预测。 2.汇合的类型在进一步具体介绍之前，一些基本概念是：均匀：它被定义为在回归问题的状况下或在预测分类问题的概率时从模型中获取预测的平均值。少数投票：它被定义为在预测分类问题的后果的同时，从多个模型预测中以最大投票/举荐进行预测。加权平均值：在此，不同的权重利用于来自多个模型的预测，而后取平均值。一些次要应用的技术： Bagging： Bagging也称为bootstrap聚合。加强的一些例子是XGBoost，GBM，ADABOOST等。重叠：在重叠多层机器时，学习模型彼此叠加，每个模型将其预测传递给下面层中的模型，顶层模型依据模型上面的模型输入做出决策。3.汇合的长处和毛病3.1长处集成是一种通过验证的办法，能够进步模型的准确性，实用于大多数状况。集成使模型更加持重和稳固，从而确保在大多数状况下测试用例具备良好的性能。您能够应用集成来捕捉数据中的线性和非线性简单关系。这能够通过应用两个不同的模型造成两个汇合来实现。3.2毛病集成缩小了模型的可解释性，并且很难在最初绘制要害的业务见解。十分耗时，因而不是实时应用程序的最佳抉择。4.在R中施行汇合的实用指南＃让咱们看一下数据集数据的构造 'data.frame'：614 obs。13个变量： $ ApplicantIncome：int 5849 4583 3000 2583 6000 5417 2333 3036 4006 12841 ...$ CoapplicantIncome：num 0 1508 0 2358 0 ...$ LoanAmount：int NA 128 66 120 141 267 95 158 168 349 ...$ Loan\_Amount\_Term：int 360 360 360 360 360 360 360 360 360 360 ...$ Credit_History：int 1 1 1 1 1 1 1 0 1 1 ... ＃应用中位数填充缺失值preProcValues < - preProcess（data，method = c（“medianImpute”，“center”，“scale”））#Spliting训练依据后果分为两局部：75％和25％index < - createDataPartition（data\_processed $ Loan\_Status，p = 0.75，list = FALSE）trainSet < - data_processed \[index，\]testSet < - data_processed \[-index，\]我将数据分成两局部，我将用它来模拟训练和测试操作。咱们当初定义训练以及预测变量和后果变量：＃定义多个模型的训练参数fitControl < - trainControl（ method =“cv”， savePredictions ='final'，classProbs = T）咱们开始训练随机森林并在咱们创立的测试集上测试其准确性：＃查看随机森林模型的准确性 Confusion matrix and statisticsreferenceForecast N Y.N 28 20Y 9 96Accuracy: 0.810595% CI: (0.7393,0.8692)No information rate: 0.7582P value\[Acc> NIR\]: 0.07566Kappa: 0.5306Mcnemar's test P value: 0.06332Sensitivity: 0.7568Specificity: 0.8276Pos Pred value: 0.5833Neg Pred value: 0.9143Prevalence rate: 0.2418Detection rate: 0.1830Detection prevalence rate: 0.3137Balance accuracy: 0.7922 咱们应用随机森林模型取得了0.81的准确度。看看KNN的体现：＃训练knn模型 #应用knn模型预测testSet $ pred\_knn <-predict（object = model\_knn，testSet \[，predictors\]）＃查看随机森林模型的准确性 referenceForecast N Y.N 29 19Yes 2 103Accuracy: 0.862795% CI: (0.7979, 0.913)No information rate: 0.7974P value\[Acc> NIR\]: 0.0241694Kappa: 0.6473Mcnemar's test P value: 0.0004803Sensitivity: 0.9355Specificity: 0.8443Pos Pred value: 0.6042Neg Pred value: 0.9810Prevalence rate: 0.2026Detection rate: 0.1895Detection prevalence rate: 0.3137Balance accuracy: 0.8899 咱们可能通过独自的KNN模型取得0.86的准确度。Logistic回归的体现： #训练Logistic回归模型 #预测应用knn模型testSet $ pred\_lr <-predict（object = model\_lr，testSet \[，predictors\]）＃查看随机森林模型的准确性 Confusion matrix and statisticsreferenceForecast N Y.N 29 19Yes 2 103Accuracy: 0.862795% CI: (0.7979, 0.913)No information rate: 0.7974P value\[Acc> NIR\]: 0.0241694Kappa: 0.6473Mcnemar's test P value: 0.0004803Sensitivity: 0.9355Specificity: 0.8443Pos Pred value: 0.6042Neg Pred value: 0.9810Prevalence rate: 0.2026Detection rate: 0.1895Detection prevalence rate: 0.3137Balance accuracy: 0.8899逻辑回归也给出了0.86的准确度。当初，让咱们尝试用这些模型造成汇合的不同办法，如咱们所探讨的：均匀咱们将均匀三个模型的预测。因为预测是“Y”或“N”，因而平均值对于此二进制分类没有多大意义。然而，咱们能够对察看概率的平均值进行均匀解决。 #预测概率testSet $ pred\_rf\_prob <-predict（object = model_rf，testSet \[，predictors\]，type ='prob'）testSet $ pred\_knn\_prob <-predict（object = model_knn，testSet \[，predictors\]，type ='prob'）testSet $ pred\_lr\_prob <-predict（object = model_lr，testSet \[，predictors\]，type ='prob'）少数表决：在少数表决中，咱们将为大多数模型预测的察看指定预测。少数投票加权平均值咱们能够采纳加权平均值，而不是采纳简略平均值。通常，对于更精确的模型，预测的权重很高。让咱们将0.5调配给logistic回归，将0.25调配给KNN和随机森林。之前咱们在顶层应用了简略的公式。相同，咱们能够应用另一种机器学习模型，这就是重叠。咱们能够应用线性回归来建设线性公式，用于在回归问题中进行预测，以便在分类问题的状况下将底层模型预测映射到后果或逻辑回归。在同一个例子中，让咱们尝试将逻辑回归和GBM设置为顶层模型。请记住，咱们将采取以下步骤：在训练数据上训练各个根底层模型。预测应用每个根底层模型来训练数据和测试数据。当初，再次对顶层模型进行训练，对底层模型进行训练数据的预测。最初，应用顶层模型预测底层模型的预测。步骤1：在训练数据上训练各个根底层模型#定义参数fitControl < - trainControl（method =“cv”， savePredictions ='final'，＃保留最佳参数组合的预测classProbs = T＃保留预测的类概率）#训练随机森林模型＃训练knn模型 #训练逻辑回归模型步骤2：应用每个根底层模型预测训练数据和测试数据#预测训练数据的概率 #预测测试数据的概率步骤3：当初再次训练顶层模型对底层模型的预测，对训练数据进行预测首先，让咱们从GBM模型开始作为顶层模型。 #顶层模型用于预测的变量predictors\_top <-c（ 'OOF\_pred\_rf'， 'OOF\_pred\_knn'， 'OOF\_pred_lr'） #GBM作为顶层模型同样，咱们也能够应用逻辑回归创立一个汇合作为顶层模型。 #Logistic回归作为顶层模型model_glm < - （ \[，predictors_top\]， trControl = fitControl，tuneLength = 3）步骤4：最初，应用顶层模型预测#应用GBM顶层模型预测测试集$ gbm\_stacked <-predict（model\_gbm，测试集\[，predictors_top\]）#应用logictic回归顶层模型预测测试集$ glm\_stacked <-predict（model\_glm，测试集\[，predictors_top\]）抉择模型十分重要，而后能力从整体中获得最佳成果。还有问题？分割咱们！最受欢迎的见解 1.从决策树模型看员工为什么到职 2.R语言基于树的办法：决策树，随机森林 3.python中应用scikit-learn和pandas决策树 4.机器学习：在SAS中运行随机森林数据分析报告 5.R语言用随机森林和文本开掘进步航空公司客户满意度 6.机器学习助推快时尚精准销售工夫序列 7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用 8.python机器学习：举荐零碎实现（以矩阵合成来协同过滤） 9.python中用pytorch机器学习分类预测银行客户散失

关于算法:R语言逻辑回归Logistic回归模型分类预测病人冠心病风险

原文链接：http://tecdat.cn/?p=22410 本文的目标是实现一个逻辑回归剖析。使你对剖析步骤和思维过程有一个基本概念。 library(tidyverse)library(broom)这些数据来自一项正在进行的对镇居民的心血管钻研。其目标是预测一个病人是否有将来10年的冠心病危险。该数据集包含以下内容。男性：0=女性；1=男性年龄。教育。1 = 高中以下；2 = 高中；3 = 大学或职业学校；4 = 大学以上以后是否吸烟。0=不吸烟；1=吸烟者cigsPerDay: 每天抽的烟数量（预计均匀）。BPMeds: 0 = 不服用降压药；1 = 正在服用降压药中风。0 = 家族史中不存在中风；1 = 家族史中存在中风高血压。0 =高血压在家族史上不风行；1 =高血压在家族史上风行糖尿病：0 = 没有；1 = 有totChol: 总胆固醇(mgdL)sysBP: 收缩压(mmHg)diaBP: 舒张压(mmHg)BMI: 体重指数心率葡萄糖：总葡萄糖mgdLTenYearCHD: 0 = 患者没有将来10年冠心病的危险; 1 = 患者有将来10年冠心病的危险加载并筹备数据read_csv("framingham.csv") %>% drop_na() %>% #删除具备缺失值的察看值 ageCent = age - mean(age), totCholCent = totChol - mean(totChol),拟合逻辑回归模型glm(TenYearCHD ~ age + Smoker + CholCent, data = data, family = binomial) 预测对于新病人 data_frame(ageCent = (60 - 49.552), totCholCent = (263 - 236.848), 预测对数几率 predict(risk_m, x0) 预测概率依据这个概率，你是否认为这个病人在将来10年内有患冠心病的高风险？为什么？ risk 混同矩阵risk_m %>% group\_by(TenYearCHD, risk\_predict) %>% kable(format="markdown") mutate( predict = if_else(.fitted > threshold, "1: Yes", "0: No")) 有多大比例的察看后果被谬误分类？依附混同矩阵来评估模型的准确性有什么毛病？ ROC曲线ggplot(risk\_m\_aug, oc(n.cuts = 10, labelround = 3) + geom_abline(intercept = 0) + auc(roc )$AUC 一位医生打算应用你的模型的后果来帮忙抉择病人加入一个新的心脏病预防打算。她问你哪个阈值最适宜为这个项目选择病人。依据ROC曲线，你会向医生举荐哪个阈值？为什么？假如为什么咱们不绘制原始残差？ggplot(data = risk aes(x = .fitted, y = .resid)) + labs(x = "预测值", y = "原始残差") 分级的残差图 plot(x = fitted, y = resid, xlab = "预测概率", main = "分级后的残值与预测值的比照", ## # A tibble: 2 x 2## currentSmoker mean_resid## <fct> <dbl>## 1 0 -2.95e-14## 2 1 -2.42e-14查看假如：- 线性？- 随机性？- 独立性？系数的推断currentSmoker1的测试统计量是如何计算的？在统计学上，totalCholCent是否是预测一个人患冠心病高风险的重要因素？用测验统计量和P值来证实你的答案。用置信区间阐明你的答案。偏离偏差测验 glm(TenYearCHD ~ ageCent + currentSmoker + totChol, data = heart_data, family = binomial) anova AIC 依据偏离偏差测验，你会抉择哪个模型？基于AIC，你会抉择哪个模型？应用step逐步回归抉择模型step(full_model ) ...

关于算法:Python之LDA主题模型算法应用

原文链接：http://tecdat.cn/?p=5318在这篇文章中，我将介绍用于Latent Dirichlet Allocation（LDA）的lda Python包的装置和根本用法。我不会在这篇文章中介绍该办法的实践根底。将语料库（文档集）中的文档调配给基于单词矢量的潜在（暗藏）主题的次要思维是相当容易了解的，而这个例子（来自lda）将有助于坚固咱们对LDA模型的了解。装置lda简而言之，两种办法：办法1：我将以用户身份装置lda $ pip install --user lda这也将装置所需的pbr包。当初我将在一个设置中提供lda，其中蕴含我之前装置的所有其余软件包。应用此办法，您应该在装置后失去相似的内容： $ pip show lda\-\-\-Name: ldaRequires: pbr, numpylda曾经装置好了。让咱们一起实现示例。一个例子查看路透社新闻公布的语料库。首先，咱们做一些导入： import numpy as npimport ldaimport lda.datasets接下来，咱们导入用于示例的数据。这蕴含在 lda包中，因而这一步很简略（我还输入出每个我的项目的数据类型和大小）：从下面咱们能够看到有395个新闻我的项目（文档）和一个大小为4258的词汇表。文档术语矩阵X具备395个词汇，表中是每个4258个词汇单词的呈现次数。文档。例如，X [0,3117]是单词3117在文档0中呈现的次数。咱们能够找出计数和与之对应的单词和文档题目： doc_id = 0word_id = 3117print("doc id: {} word id: {}".format(doc\_id, word\_id))print("-- count: {}".format(X\[doc\_id, word\_id\]))print("-- word : {}".format(vocab\[word_id\]))print("-- doc : {}".format(titles\[doc_id\]))抉择模型接下来，咱们初始化并拟合LDA模型。咱们必须抉择主题的数量（其余办法也能够尝试查找主题的数量，但对于LDA，咱们必须假如一个数字）。持续咱们抉择的示例： model = lda.LDA(n\_topics=20, n\_iter=500, random_state=1)先前有几个参数是咱们保留默认值。据我所知，这里只应用对称先验。主题字从拟合模型中咱们能够看到主题词概率：从输入的大小咱们能够看出，对于20个主题中的每一个，咱们在词汇表中调配了4258个单词。对于每个主题，应该对单词的概率进行标准化。咱们来看看前5： for n in range(5): sum\_pr = sum(topic\_word\[n,:\]) print("topic: {} sum: {}".format(n, sum_pr))咱们还能够取得每个主题的前5个单词（按概率）： * 主题 6- 德国和平政治政府* 主题 7- 哈里曼克林顿丘吉尔大使* 主题 8- 俄罗斯总统克里姆林宫* 主题 9- 王子女王鲍尔斯教会王* 主题 10- 辛普森亿年前南- 红衣主教癌症教会生存* 主题 17- 丧葬教会城市死亡* 主题 18- 博物馆文化城市文化* 主题 19- 艺术展世纪城市之旅这让咱们理解了20个主题可能是什么含意。文档主题咱们从模型中取得文档主题概率： doc\_topic = model.doc\_topic_查看输入的大小，咱们能够看到395个文档中的每个文档都有20个主题的散布。这些应该针对每个文档进行标准化，让咱们测试前5个： for n in range document: 0 sum: 1.0 document: 1 sum:文件： 0 总和： 1.0 文件： 1 总和： 1.0 文件： 2 总和： 1.0 文件： 3 总和： 1.0 文件： 4 总和： 1.0 咱们能够对最可能的主题进行抽样： for n in range(10): topic\_most\_pr = doc_topic\[n\].argmax可视化让咱们看看主题词散布是什么样的。每个主题应该有一个独特的单词散布。在上面的词干图中，每个词干的高度反映了主题中单词的概率： plt.tight_layout()plt.show() 最初，让咱们看一下几个文档的主题散布。这些散布给出了每个文档的20个主题中每个主题的概率。 plt.tight_layout()plt.show()

关于算法:R语言文本挖掘tfidf主题建模情感分析ngram建模研究

原文链接：http://tecdat.cn/?p=6864咱们对20个Usenet布告板的20,000条音讯进行剖析。此数据集中的Usenet布告板包含新汽车，体育和密码学等主题。预处理咱们首先浏览20news-bydate文件夹中的所有音讯，这些音讯组织在子文件夹中，每个音讯都有一个文件。 raw_text## # A tibble: 511,655 x 3## newsgroup id text ## <chr> <chr> <chr> ## 1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk> ## 2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources ## 3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism ## 4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres## # … with 511,645 more rows请留神该newsgroup列形容了每条音讯来自哪20个新闻组，以及id列，用于标识该新闻组中的音讯。 tf-idfTF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。咱们心愿新闻组在主题和内容方面有所不同，因而，它们之间的词语频率也不同。 newsgroup_cors## # A tibble: 380 x 3## item1 item2 correlation## <chr> <chr> <dbl>## 1 talk.religion.misc soc.religion.christian 0.835## 2 soc.religion.christian talk.religion.misc 0.835## 3 alt.atheism talk.religion.misc 0.779## 4 talk.religion.misc alt.atheism 0.779## 5 alt.atheism soc.religion.christian 0.751## 6 soc.religion.christian alt.atheism 0.751## 7 comp.sys.mac.hardware comp.sys.ibm.pc.hardware 0.680## 8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware 0.680## 9 rec.sport.baseball rec.sport.hockey 0.577## 10 rec.sport.hockey rec.sport.baseball 0.577## # … with 370 more rows 主题建模 LDA能够整顿来自不同新闻组的Usenet音讯吗？主题1当然代表sci.space新闻组（因而最常见的词是“空间”），主题2可能来自密码学，应用诸如“密钥”和“加密”之类的术语。情绪剖析咱们能够应用咱们探讨的情绪剖析技术来查看这些Usenet帖子中呈现的侧面和负面词的频率。哪些新闻组总体上最踊跃或最消极？在这个例子中，咱们将应用AFINN情感词典，它为每个单词提供积极性分数，并用条形图可视化用语言剖析情绪值得深刻理解_为什么_有些新闻组比其余新闻组更踊跃或更消极。为此，咱们能够查看每个单词的总踊跃和消极贡献度。 N-gram剖析Usenet数据集是一个古代文本语料库，因而咱们会对本文中的情绪剖析感兴趣.

关于算法:R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

原文链接：http://tecdat.cn/?p=3772创立测试数据第一步，咱们创立一些测试数据，用来拟合咱们的模型。咱们假如预测变量和因变量之间存在线性关系，所以咱们用线性模型并增加一些乐音。 trueA <- 5trueB <- 0trueSd <- 10sampleSize <- 31 # 创立独立的x值x <- (-(sampleSize-1)/2):((sampleSize-1)/2)# 依据ax + b + N（0，sd）创立因变量y <- trueA * x + trueB + rnorm(n=sampleSize,mean=0,sd=trueSd) plot(x,y, main="Test Data")图定义统计模型下一步是指定统计模型。咱们曾经晓得数据是用x和y之间的线性关系y = a * x + b和带有标准差sd的正态误差模型N（0，sd）创立的，所以让咱们应用雷同的模型进行拟合，看看如果咱们能够检索咱们的原始参数值。从模型中导出似然函数为了预计贝叶斯剖析中的参数，咱们须要导出咱们想要拟合的模型的似然函数。似然函数是咱们冀望察看到的数据以咱们所看到的模型的参数为条件产生的概率（密度）。因而，鉴于咱们的线性模型y = b + a*x + N(0,sd)将参数（a, b, sd）作为输出，咱们必须返回在这个模型下取得上述测试数据的概率（这听起来比较复杂，正如你在代码中看到的，咱们只是计算预测值y = b + a*x与察看到的y之间的差别，而后咱们必须查找这种偏差产生的概率密度（应用dnorm）。 likelihood <- function(param){ a = param\[1\] b = param\[2\] sd = param\[3\] pred = a*x + b sumll = sum(singlelikelihoods) (sumll) } slopevalues <- function(x){return(likelihood(c(x, trueB, trueSd)))} 斜率参数对数似然曲线作为阐明，代码的最初几行绘制了斜率参数a的一系列参数值的似然函数。为什么咱们应用对数您留神到后果是似然函数中概率的对数，这也是我对所有数据点的概率求和的起因（乘积的对数等于对数之和）。咱们为什么要做这个？因为很多小概率乘以的可能性很快就会变得十分小（比方10 ^ -34）。在某些阶段，计算机程序存在数字四舍五入的问题。定义先验第二步，与贝叶斯统计中一样，咱们必须为每个参数指定先验散布。为了不便起见，我对所有三个参数应用了均匀分布和正态分布。 _无信息先验通常是1 / sigma（如果你想理解起因，请看这里）。 _ #先验散布prior <- function(param){ a = param\[1\] b = param\[2\] sd = param\[3\] aprior = (a, min=0, max=10, log = T) bprior = dnorm(b, sd = 5, log = T) }后验先验和似然性的乘积是MCMC将要解决的理论数量。这个函数被称为后验。同样，在这里咱们应用加总，因为咱们应用对数。 posterior <- function(param){ return ( (param) + prior(param))}MCMC接下来是Metropolis-Hastings算法。该算法最常见的利用之一（如本例所示）是从贝叶斯统计中的后验密度中提取样本。然而，原则上，该算法可用于从任何可积函数中进行采样。因而，该算法的目标是在参数空间中跳转，然而以某种形式使得在某一点上的概率与咱们采样的函数成比例（这通常称为指标函数）。在咱们的例子中，这是下面定义的后验。这是通过从随机参数值开始依据称为提议函数的某个概率密度，抉择靠近旧值的新参数值以概率p（新）/ p（旧）跳到这个新点，其中p是指标函数，p> 1示意跳跃当咱们运行这个算法时，它拜访的参数的散布会收敛到指标散布p。那么，让咱们在R中失去： ########Metropolis算法# ################ proposalfunction <- function(param){ return(rnorm(3,mean = param, sd= c(0.1,0.5,0.3)))} run\_metropolis\_MCMC <- function(startvalue, iterations){ for (i in 1:iterations){ if (runif(1) < probab){ chain\[i+1,\] = proposal }else{ chain\[i+1,\] = chain\[i,\] } } return(chain)} chain = run\_metropolis\_MCMC(startvalue, 10000) burnIn = 5000acceptance = 1-mean(duplicated(chain\[-(1:burnIn),\]))应用后验的对数可能在开始时有点凌乱，特地是当您查看计算承受概率的行时（probab = exp（后验散布（提议散布） - 后验（链[i，]）））。要了解咱们为什么这样做，请留神p1 / p2 = exp [log（p1）-log（p2）]。算法的第一步可能受初始值的偏差，因而通常被抛弃用于进一步剖析。要看的一个乏味的输入是承受率：承受规范回绝提议的频率是多少？承受率能够受提议函数的影响：通常，提议越靠近，承受率越大。然而，十分高的承受率通常是有益的：这意味着算法“停留”在同一点。能够证实，20％到30％的承受率对于典型利用来说是最佳的。 ###概要####################### par(mfrow = c(2,3))hist( \[-(1:burnIn),1\],nclass=30, , main="Posterior of a", xlab="True value = red line" )abline(v = mean(chain\[-(1:burnIn),1\])) #进行比拟：summary(lm(y~x))生成的图应该相似于下图。您能够看到咱们或多或少地检索了用于创立数据的原始参数，并且您还看到咱们取得了一个围绕最高后验值的特定区域，这些区域也有一些数据反对，这是贝叶斯相当于置信度的区间。所失去的图应该看起来像上面的图。你看到咱们检索到了或多或少用于创立数据的原始参数，你还看到咱们在最高后验值四周失去了肯定的区域，这些后验值也有一些数据，这相当于贝叶斯的置信区间。图：上排显示斜率（a）的后验预计，截距（b）和误差的标准偏差（sd）。下一行显示马尔可夫链参数值。还有问题吗？请在上面留言！最受欢迎的见解 1.matlab应用贝叶斯优化的深度学习 2.matlab贝叶斯隐马尔可夫hmm模型实现 3.R语言Gibbs抽样的贝叶斯简略线性回归仿真 4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归 5.R语言中的Stan概率编程MCMC采样的贝叶斯模型 6.Python用PyMC3实现贝叶斯线性回归模型 7.R语言应用贝叶斯层次模型进行空间数据分析 ...

关于算法:Python之LDA主题模型算法应用

关于算法:R语言文本挖掘tfidf主题建模情感分析ngram建模研究

关于算法:R语言时间序列GARCH模型分析股市波动率

原文链接：http://tecdat.cn/?p=22360 在这篇文章中，咱们将学习一种在价格序列中建设波动性模型的规范办法，即狭义自回归条件异方差（GARCH）模型。价格稳定的 GARCH 模型的思维是利用误差构造的近期实现来预测误差构造的将来实现。更简略地说，咱们常常看到在高波动性或低波动性期间的聚类，因而咱们能够利用近期的波动性来预测近期的波动性。咱们将应用SPY价格来阐明稳定率的模型。上面的图显示了SPY收益率。 colnames(SPYRet) <- c('SPY')SPYRet <- tidy(SPYRet)ggplot(SPYRet) + geom_line() + labs(title = "SPY收益率" 这篇文章的首要指标是对价格收益序列的变动的平均值和方差进行建模。接下来，咱们将通过两种罕用的形式来显示收益率的变动方差。这些是绘制价格收益的绝对值。或价格收益的平方这两种状况都是有意义的，因为方差总是一个负数，并且受到偏离平均值的影响。当然这是在咱们晓得收益序列的平均值为0的状况下。在价格数据中，百分比回报率的平均值简直都十分靠近于0。如果均匀回报率非零，那么咱们能够间接绘制 add_column( value^2, abs(value))ggplot(SPYRet) + geom_line() + labs(title = "SPY相对收益值" ggplot(Ret, aes(y = SquaredReturns) + geom_line() + labs(title = "SPY平方收益率" 稳定率的GARCH模型一般的（GARCH模型有很多变体）GARCH模型如下。第一行是为均值建模的方程。这里没有ARMA效应，但如果你发现它们很重要，能够很容易地把它们放进去。只有一个截距和一个误差项。接下来的三即将更多的构造放在误差项上，第二行为什么咱们要把两个项相乘来失去t？要看到这一点，重要的是要牢记这里的指标。咱们正在寻找一个能给咱们带来rSPYt变动方差的模型因而，如果根本收益模型是接下来的步骤依赖于随机变量方差的属性。具体来说，如果因而，如果咱们失去一个t的模型思考GARCH模型中的第二行。请留神 t22 最初一行是因为预计GARCH模型上面的代码应用rugarch R包来预计GARCH(p = 1, q = 1)模型。请留神，p和q示意2t2t的滞后数。第一条命令要求它用model = "sGARCH "指定一个一般的GARCH。它要求它应用ARMA(1, 1)作为收益模型，即armaOrder = c(1, 1), include.mean = TRUE。咱们要求它应用N(0,1)，distribution.model="norm"，模型输入显示在 "最优参数 "下。mu、ar1和ma1系数来自均值模型（ARMA（1，1）），omega、alpha1和beta1是来自 garchspec(variance.m = list(model = "sGARCH", mean.m= list(armaOrder = c(1, 1) dist = "norm")garchfit 当初让咱们用这个预计的模型来产生滚动预测，即 forecast(spec, n.ahead = 1, n.roll = 2499, out = 2500)plot(forecast) 能够看到，这个模型很好的预测了稳定率峰值将放弃多长时间，或者说是模仿了稳定率峰值回落到长期平均水平的门路。因为所有的计量经济学模型都是用过来的数值来预测以后的数值，所以它无奈预感稳定率最后回升的状况。最受欢迎的见解 1.HAR-RV-J与递归神经网络（RNN）混合模型预测和交易大型股票指数的高频稳定率 2.R语言中基于混合数据抽样(MIDAS)回归的HAR-RV模型预测GDP增长 3.稳定率的实现：ARCH模型与HAR-RV模型 ...

关于算法:R语言时变向量自回归TVVAR模型分析时间序列和可视化

原文链接：http://tecdat.cn/?p=22350 在心理学钻研中，集体主体的模型正变得越来越风行。起因之一是很难从人之间的数据推断出集体过程。另一个起因是，因为挪动设施无处不在，从集体取得的工夫序列变得越来越多。所谓的集体模型建模的次要指标是开掘潜在的外部心理现象变动。思考到这一指标，许多钻研人员曾经着手剖析集体工夫序列中的多变量依赖关系。对于这种依赖关系，最简略和最风行的模型是一阶向量自回归（VAR）模型，其中以后工夫点的每个变量都是由前一个工夫点的所有变量（包含其自身）预测的（线性函数）。规范VAR模型的一个要害假如是其参数不随工夫变动。然而，人们往往对这种随工夫的变动感兴趣。例如，人们可能对参数的变动与其余变量的关系感兴趣，例如一个人的环境变动。可能是一份新的工作，节令，或寰球大流行病的影响。在探索性设计中，人们能够钻研某些干涉措施（如药物医治或医治）对症状之间的相互作用有哪些影响。在这篇博文中，我十分简要地介绍了如何用核平滑法预计时变VAR模型。这种办法是基于参数能够随工夫平滑变动的假如，这意味着参数不能从一个值 "跳 "到另一个值。而后，我重点介绍如何预计和剖析这种类型的时变VAR模型。通过核平滑预计时变模型核平滑法的核心思想如下。咱们在整个工夫序列的持续时间内抉择距离相等的工夫点，而后在每个工夫点估计 "部分 "模型。所有的部分模型加在一起就形成了时变模型。对于 "部分 "模型，咱们的意思是，这些模型次要是基于靠近钻研工夫点的工夫点。这是通过在参数估计过程中对观测值进行相应的加权来实现的。这个想法在下图中对一个数据集进行了阐明。这里咱们只阐明在t=3时对部分模型的预计。咱们在右边的面板上看到这个工夫序列的10个工夫点。红色的一列w\_t\_e=3示意咱们在t=3时预计部分模型可能应用的一组权重：靠近t=3的工夫点的数据失去最高的权重，而更远的工夫点失去越来越小的权重。定义这些权重的函数显示在右图中。左图中的蓝色柱子和左边相应的蓝色函数示意另一种可能的加权。应用这种加权，咱们联合了更少的工夫上靠近的观测值。这使咱们可能在参数中检测到更多的 "工夫可变性"，因为咱们对更少的工夫点进行了平滑解决。然而，另一方面，咱们应用的数据较少，这使得咱们的估计值不太牢靠。因而，抉择一个加权函数，在对 "时变性 "的敏感性和稳固的预计之间获得良好的均衡是很重要的。在这里介绍的办法中，咱们应用了一个高斯加权函数（也称为核），它是由其标准差（或带宽）定义的。咱们将在上面探讨如何抉择一个好的带宽参数。加载和检查数据为了阐明预计时变VAR模型，我应用了12个情绪相干变量的ESM工夫序列，这些变量每天最多测量10次，间断测量238天。这些问题是 "我感到放松"、"我感到丧气"、"我感到焦躁"、"我感到称心"、"我感到孤单"、"我感到焦虑"、"我感到激情"、"我感到狐疑"、"我感到高兴"、"我感到内疚"、"我感到当机立断"、"我感到刚强"。每个问题都用7分的李克特量表答复，范畴从 "不 "到 "十分"。咱们看到数据集有1476个察看样本： ## \[1\] 1476 12head(data) time_data蕴含每个测量的工夫信息。咱们将利用测量产生的日期、测量提醒和工夫戳（time）。抉择最佳带宽抉择好的带宽参数的办法之一是在训练数据集上用不同的候选带宽参数拟合时变模型，并在测试数据集上评估它们的预测误差。此外，数据驱动的带宽抉择可能须要相当长的工夫来运行。因而，在本文中，咱们只是将带宽固定为曾经抉择的最佳值。 bandwidth <- .26预计时变var模型咱们当初能够指定工夫变动的VAR模型的预计。咱们提供数据作为输出，并通过type和level参数指定变量的类型以及它们有多少个类别。在咱们的例子中，所有的变量都是间断的，因而咱们设置type = rep("g")示意间断高斯。咱们抉择用lambdaSel = "CV "的穿插验证法来抉择正则化参数，并且咱们指定VAR模型应该包含一个滞后期=1的单滞后期。参数bee和day提供了每个测量的日期和某一天的告诉数量。此外，咱们还提供了所有测量的工夫戳，工夫点=time，来阐明缺失的测量。然而，请留神，咱们依然假如滞后期大小为1。工夫戳只是用来确保加权的确给那些最靠近以后预计点的工夫点最高的权重。对于时变模型，咱们须要指定两个额定的参数。首先，用 seq(0, 1, length = 20)咱们指定咱们想在整个工夫序列的持续时间内预计20个部分模型（被归一化为[0,1]）。预计点的数量能够任意抉择，但在某些时候，减少更多的预计点意味着减少了不必要的计算成本，因为后续的部分模型基本上是雷同的。最初，咱们用带宽参数指定带宽。 # 残缺数据集的估算模型tvvar(data, type = rep("g"), lambdaSel = "CV", lags = 1, estpoints = seq(0, 1, length = 20), bandwidth = bandwidth,咱们能够输入对象 # 查看应用了多少数据obj 其中提供了模型的摘要，也显示了VAR设计矩阵中的行数（876）与数据集中的工夫点数量（1476）。前者的数量较少，因为只有在给定的工夫点也有滞后1年的工夫点时，能力预计VAR（1）模型。计算时变预测误差与规范VAR模型相似，咱们能够计算预测误差。从模型对象中提供新数据和变量能够计算新样本的预测误差。参数errorCon = c("R2", "RMSE")指定解释方差的比例（R^2）和均方根误差（RMSE）作为预测误差。最初一个参数Method指定了如何计算工夫变动的预测误差。选项Method = "closestModel "应用最靠近的部分模型对一个工夫点进行预测。这里抉择的选项tvMethod = "weighted"，提供了所有部分模型预测的加权平均值，应用以以后工夫点的地位为核心的加权函数进行加权。通常状况下，这两种办法失去的后果十分类似。 pred_obj <- predict(object = obj, data = data, errorCon = c("R2", "RMSE"), Method = "weighted")次要的输入是以下两个对象。 tverrors是一个列表，包含每个预计点部分模型的预计误差；errors蕴含整个预计点的平均误差。将模型的局部内容可视化在这里，咱们抉择了两种不同的可视化形式。首先，咱们来查看预计点1、10和20的VAR交互参数。 for(tp in c(1,10,20))igraph(wadj\[, , 1,tp \], layout = "circle", paste0("预计点 = ")) 咱们看到，VAR 模型中的一些参数随工夫变化很大。例如，"放松 "的自相干效应仿佛随着工夫的推移而缩小，"强烈 "对 "称心 "的正效应只呈现在预计点20，"称心 "对 "有罪 "的负效应也只呈现在预计点20。咱们能够通过绘制这些单个参数与工夫的函数来放大它们。 # 画图title(xlab = "预计点", cex.lab = 1.2)title(ylab = "参数估计", cex.lab = 1.2)for(i in 1:nrow(display)) { lines(1:20, ests\[par_row\[1\], \], lty = i) legend<- c(expression("轻松"\["t-1"\] %->% "轻松"\["t"\]), expression("强烈"\["t-1"\] %->% "称心"\["t"\]), expression("称心"\["t-1"\] %->% "羞愧"\["t"\])) 咱们看到，在工夫序列的开始阶段，"放松 "对其自身的影响是比拟强的，但随后会向零降落，并在预计点13左右放弃零。“强烈”对“称心”对下一个工夫点的穿插滞后效应在预计点9之前等于零，但随后仿佛枯燥地减少。最初，"称心 "对 "羞愧 "的穿插滞后效应也等于零，直到预计点13左近，而后枯燥地缩小了。 ...

关于算法:SPSS中的多层等级线性模型Multilevel-linear-models研究整容手术数据

原文链接：http://tecdat.cn/?p=12761咱们应用整容手术数据阐明两种中心化类型。将此文件加载到SPSS中。假如咱们要中心化的变量BDI。数据中心化首先，咱们须要找出BDI的均匀得分。咱们能够应用一些简略的描述性统计信息。抉择进入对话框。抉择BDI并将其拖到标有Variable（s）的框中，而后单击并仅抉择均值。后果输入通知咱们平均值为23.05：咱们应用此值将变量中心化。通过抉择拜访计算命令。在呈现的对话框中，在标有“指标变量”的框中输出名称BDI_Centred，而后单击并为变量指定一个更具描述性的名称。抉择变量BDI并将其拖动到标记为Numeric Expression的区域，而后单击，而后键入平均值（23.05）。实现的对话框如图所示。单击，将创立一个名为BDI_Centred的新变量，该变量以BDI的平均值为核心。这个新变量的均值应约为0：运行一些描述性统计数据。能够在语法窗口中通过输出以下内容执行雷同的操作： COMPUTE BDI_Centred = BDI−23.05.EXECUTE.组均值中心化组均值中心化要简单得多。第一步是创立一个蕴含组均值的文件。让咱们再试一次以获取BDI分数。咱们心愿将此变量在Clinic的2级变量中中心化。咱们首先须要晓得每个组中的均匀BDI，并以SPSS模式保留该信息。咱们要应用aggregate命令。在此对话框（图3）中，咱们要抉择Clinic并将其拖动到标有Break Variable（s）的区域。这阐明着将应用变量Clinic来宰割数据文件（换句话说，当计算平均值时，它将对每个诊所别离进行解决）。而后，咱们须要抉择BDI并将其拖动到标记为变量汇总的区域。一旦抉择了此变量，默认值就是SPSS将创立一个名为BDI_mean的新变量，这是BDI的平均值（显然是由Clinic宰割）。咱们须要将此信息保留在一个文件中，以便当前应用。默认状况下，SPSS会将名称为aggr.sav的文件保留在默认目录中。如果您想将其保留在其余地位或应用其余名称，则单击以关上一个一般的文件系统对话框，能够在其中命名文件并导航至要保留在其中的目录。单击创立此新文件。如果关上生成的数据文件，则会看到它仅蕴含两列，其中一列带有一个数字，用于指定数据来自的诊所（共有10个诊所），第二个蕴含每个诊所内的均匀BDI得分。当SPSS创立汇总数据文件时，它将按从最低到最高的程序对诊所进行排序（无论它们在数据集中的程序如何）。因而，为了使咱们的工作数据文件与该聚合文件匹配，咱们须要确保从诊所1到诊所10也订购了来自各个诊所的所有数据。这能够通过应用sort cases命令轻松实现。要拜访sort cases命令，请抉择select。呈现的对话框如图所示。抉择您要对文件进行排序的变量（在本例中为Clinic），并将其拖动到标有“排序根据”的区域（或单击）。能够抉择按升序排列文件（诊所1到诊所10），或降序排列（返回诊所1的诊所10）。单击对文件排序。下一步是在汇总文件中应用这些临床办法，以将BDI变量放在咱们的主文件中。为此，咱们须要应用match files命令，能够通过抉择进行拜访。这将关上一个对话框，其中列出了所有关上的数据文件（在我的状况下，除了我正在工作的文件之外，其余所有文件都没有关上，因而该空间为空白）或询问您抉择SPSS数据文件。单击并导航到您决定存储聚合值文件的地位（在我的状况下为aggr.sav）。抉择此文件，而后单击以返回到对话框。而后单击进入下一个对话框。在下一个对话框中，咱们须要匹配两个文件，这只是通知SPSS两个文件已连贯。为此，请单击。而后，咱们还须要专门连贯Clinic变量上的文件。为此，select通知SPSS有效的数据集（即，汇总分数文件）应视为与要害变量上的工作数据文件匹配的值表。咱们须要抉择此要害变量是什么。咱们要匹配Clinic变量上的文件，因而在“排除的变量”列表中抉择此变量，并将其拖到标有“要害变量”的空间（或单击）。数据编辑器当初应蕴含一个新变量BDI\_mean，其中蕴含咱们文件aggr.sav中的值。基本上，SPSS已匹配诊所变量的文件，因而BDI\_mean中的值对应于各个诊所的平均值。因而，当临床变量为1时，BDI\_mean已设置为25.19，然而当临床变量为2时，BDI\_mean已设置为31.32。咱们能够再次在compute命令中应用这些值来使BDI中心化。通过抉择拜访计算命令。在呈现的对话框（图7）中，在标有“指标变量”的框中输出名称BDI\_Group\_Centred，而后单击并为变量指定一个更具描述性的名称。抉择变量BDI并将其拖到标有“数字表达式”的区域，而后单击，而后键入“ BDI_mean”或抉择此变量并将其拖到标有“指标变量”的框中。单击，将创立一个新变量，其中蕴含以组为核心的均值。另外，能够应用以下语法来实现所有操作： AGGREGATE /OUTFILE='C:\\Users\\Dr. Andy Field\\Documents\\Academic\\Data\\aggr.sav' /BREAK=Clinic /BDI_mean=MEAN(BDI).SORT CASES BY Clinic(A).MATCH FILES /FILE=* /TABLE='C:\\Users\\Dr. Andy Field\\Documents\\Academic\\Data\\aggr.sav' /BY Clinic.EXECUTE.COMPUTE BDI\_Group\_Centred=BDI − BDI_mean.EXECUTE.要拜访“重组数据向导”，请抉择。向导中的步骤如图所示。在第一个对话框中，您须要说是否要将变量转换为案例，还是将案例转换为变量。咱们在不同的列（变量）中具备不同的工夫级别，并且心愿它们在不同的行（案例）中，因而咱们须要抉择。单击以移至下一个对话框。该对话框询问您是要从旧数据文件的不同列中在新数据文件中仅创立一个新变量，还是要创立多个新变量。在咱们的案例中，咱们将创立一个代表生存满意度的变量。默认，SPSS在新数据文件中创立一个名为id的变量，该变量告诉您数据来自哪个样本（即原始数据文件的哪一行）。它通过应用原始数据文件中的案例编号来实现。而后从数据文件中抉择一个变量以充当新数据文件中的标签。其余对话框非常简单。接下来的两个解决索引变量。SPSS创立一个新变量，该变量将通知你数据源自哪一列。在咱们有四个工夫点的状况下，这将意味着变量只是一个从1到4的数字序列。多层（等级）线性模型将BDI，年龄和性别包含在内作为固定成果预测指标。抉择，而后通过从变量列表中抉择Clinic并将其拖动到标有Subjects的框中来指定变量（或单击）。单击以移至主对话框。首先，咱们必须指定后果变量，即手术后的生存品质（QoL），因而抉择Post_QoL并将其拖动到标有因变量的空间（或单击）。咱们须要将预测变量作为固定效应增加到咱们的模型中，因而单击，按住Ctrl并在标记为Factors和Covariates的列表中抉择Base_QoL，Surgery，Age，性别，Reason和BDI。当初，咱们须要申请随机截距和随机斜率以达到手术成果。单击并抉择。单击以返回到主对话框。在主对话框中，单击并申请参数估计和协方差参数的测验。单击以返回到主对话框。要运行剖析。输入如下：就此新模型的整体拟合而言，咱们能够应用对数似然统计：卡方统计的临界值为7.81（p <.05，df = 3）；因而，这一变动意义重大。包含这三个预测变量能够改善模型的拟合度。年龄，F（1，150.83）= 37.32，p <.001，BDI，F（1，260.83）= 16.74，p <.001，显着预测了手术后的生存品质，但性别没有，F（1，264.48 ）= 0.90，p = 0.34。包含这些因素的次要区别在于，Reason的次要影响变得不显着，并且Reason×Surgery交互作用变得更加重要（其b从4.22，p = .013变为5.02，p = .001）。咱们能够通过拆分并运行更简略的剖析来合成此交互，如本文所述（没有交互和Reason的次要影响，但包含Base_QoL，Surgery，BDI，Age和Gender）。如果进行这些剖析，将取得输入中所示的参数表。对于那些只为扭转外观而进行手术的患者，手术显着预测了手术后的生存品质，b = –3.16，t（5.25）= –2.63，p = .04。与不包含年龄，性别和BDI的状况不同，这种影响当初很显著。负系数表明，与对照组相比，这些人的手术后生存品质较低。然而，对于那些通过手术解决身材问题的人，手术并不能显着预测生存品质，b = 0.67，t（10.59）= 0.58，p = 0.57。从实质上讲，年龄，性别和BDI的纳入对后一组简直没有什么影响。然而，该斜率是正的，表明承受手术医治的人的生存品质得分比等待名单上的得分高（只管不是很显著！）。因而，相互作用的影响反映了在进行身材问题手术的患者（轻微的正斜率）和仅出于虚荣心进行手术的患者（负的斜率）中手术斜率作为生存品质预测指标的差别。 ...

关于算法:R语言样条曲线决策树Adaboost梯度提升GBM算法进行回归分类和动态可视化

原文链接：http://tecdat.cn/?p=22336 Boosting算法是一种把若干个分类器整合为一个分类器的办法，也就是一种集成分类办法（Ensemble Method）。计量经济学的视角能够从计量经济学的角度了解晋升办法（Boosting）的内容。这里的指标是要解决：损失函数ℓ，以及预测器汇合M。这是一个优化问题。这里的优化是在函数空间中进行的，是一个简略的优化问题。从数值的角度来看，优化是用梯度降落来解决的（这就是为什么这种技术也被称为梯度晋升）。同样，最佳值不是某个实值x⋆，而是某个函数m⋆。因而，在这里咱们会有相似m 其中左边的式子也能够写成从后者能够分明地看到f是咱们在残余残差上拟合的模型。咱们能够这样改写：定义指标是拟合一个模型，使 ri,k=h⋆(xi)，当咱们有了这个最优函数。设 mk(x)=mk-1(x)+kh⋆(x)。这里有两个重要点。首先，咱们拟合一个模型，通过一些协变量 x来解释 y。而后思考残差，并以雷同的协变量 x来解释它们。如果你尝试用线性回归，你会在第1步完结时实现，因为残差与协变量 x是正交的：咱们没有方法从它们那里学习。在这里它是无效的，因为咱们思考的是简略的非线性模型。而实际上，能够应用的货色是增加一个膨胀参数。不要思考 =y-m(x)，而是 =y-m(x) 。弱学习的概念在这里是极其重要的。咱们膨胀得越多，花的工夫就越长。一直从谬误中学习是件坏事。但从启发式的角度来看，当咱们开始适度拟合时，咱们应该进行。而这能够通过对初始数据集进行宰割训练验证或应用穿插验证来察看。样条曲线咱们尝试用样条曲线来学习。因为规范的样条曲线有固定的结点，在这里，咱们将（以某种形式）优化结点地位。为了阐明问题，这里应用的是高斯回归，而不是分类。思考以下数据集（只有一个协变量）：对于结点的最佳抉择，咱们能够应用 lsgen(x, y, degree = 1, numknot = 2)在5%的膨胀参数下，代码简略如下 v=.05fit=lm(y~bs(x,degree=1,knots=optknot))yp=predict(fit,newdata=df) yr= y - v*ypYP=v*ypfor(t in 1:200){fit=lm(yr~bs(x,degree=1,knots= optknot) ) plot( x, y,ylab="",xlab="")lines( x,y,type="l" )为了直观地看到100次迭代后的后果，应用 viz(100) 很显著，咱们看到，在这里从数据中学习。决策回归树咱们尝试一下别的模型。如果咱们在每一步都思考决策树，而不是线性逐步回归（这是用线性样条思考的）。 v=.1 rpart(y~x,data=df)yp=predict(fit) yr= y - ypYP=v*ypfor(t in 1:100){ predict(fit,newdata=df)同样，为了将学习过程可视化，应用 plot( x, y,ylab="",xlab="")lines( x,y,type="s"fit=rpart(y~x,data=df) 这一次，通过这些树咱们不仅有一个好的模型，而且与咱们应用繁多的回归树所能失去的模型不同。如果咱们扭转膨胀参数呢？ viz=function(v=0.05) f$yr=df$y -v*yp YP=v*yp for(t in 1:100){ yp=predict(fit,newdata=df) yr= yr - v*yp lines(df$x,y,type="s"显然，这个膨胀参数有影响。它必须很小能力失去一个好的模型。这就是应用弱学习来取得好的预测的想法。分类和Adaboost当初咱们理解了bootsting的工作原理，并把它用于分类。这将更加简单，因为残差在分类中通常信息量不大，而且它很难缩减。因而，让咱们尝试一些略微不同的办法，来介绍adaboost算法，AdaBoost是最驰名的Boosting族算法。在咱们最后的探讨中，指标是最小化一个凸的损失函数。在这里，如果咱们把类示意为{-1,+1}，咱们思考的损失函数是（与逻辑模型相干的损失函数是。咱们在这里所做的与梯度降落（或牛顿算法）无关。之前，咱们是从误差中学习的。在每个迭代中，计算残差，并对这些残差拟合一个(弱)模型。这个弱模型的奉献被用于梯度降落优化过程。这里的状况会有所不同，因为更难应用残差，空残差在分类中从不存在。所以咱们将减少权重。最后，所有的察看值都有雷同的权重。然而，迭代之后，咱们将减少预测谬误的个体的权重，缩小预测正确的个体的权重。咱们从0=1n开始，而后在每一步拟合一个模型（分类树），权重为k（咱们没有探讨树的算法中的权重，但实际上在公式中是很间接的）。让hk示意该模型（即每个叶子里的概率）。而后思考分类器，它返回一个在{-1,+1}的值。而后设 Ik是被谬误分类的个体汇合。而后设置并在最初更新模型时应用以及权重除以总和，以确保总和是1。如前所述，咱们能够包含一些膨胀参数。为了直观地看到这个过程的收敛性，咱们将在咱们的数据集上绘制总误差。 for(i in 1:n_iter)rfit = rpart(y~., x, w, method="class")g = -1 + 2*(predict(rfit,x)\[,2\]>.5) e = sum(w*(y*>0))error\[i\] = mean(1\*f\*y<0)plot(seq(1,n_iter),error 在这里，咱们面临一个机器学习中的经典问题：咱们有一个完满的模型，误差为零。用多项式拟合：有10个察看值，9度的多项式，拟合很好。将咱们的数据集一分为二，一个训练数据集，一个验证数据集。 train\_car = car\[id\_train,\]test\_car= car\[-id\_train,\]咱们在第一个模型上构建模型，并在第二个模型上查看 for(i in 1:n_iter){ rfit = rpart(y\_train~., x\_train, w_train, method="class") train\_error\[i\] = mean(1\*f\_train\*y_train<0) test\_error\[i\] = mean(1\*f\_test\*y_test<0)}plot(seq(1,n\_iter),test\_error) 在这里，和以前一样，通过80次迭代，咱们在训练数据集上有一个不错的模型，但在验证数据集上体现得很差。在20次迭代后，成果比拟好。 R函数：梯度晋升(_GBM_)算法也能够应用R函数。 gbm(y~ .,n.trees = 200,shrinkage = .01,cv.folds = 5这里思考的是穿插验证，而不是训练验证，以及用得是森林而不是单棵树，当然，输入要好得多（这里膨胀参数是一个十分小的参数，而且学习十分慢）。最受欢迎的见解 1.从决策树模型看员工为什么到职 2.R语言基于树的办法：决策树，随机森林 3.python中应用scikit-learn和pandas决策树 4.机器学习：在SAS中运行随机森林数据分析报告 ...

关于算法:R语言用局部加权回归Lowess对logistic逻辑回归诊断和残差分析

原文链接：http://tecdat.cn/?p=22328 目前，回归诊断不仅用于个别线性模型的诊断，还被逐步推广利用于狭义线性模型畛域（如用于logistic回归模型），但因为个别线性模型与狭义线性模型在残差散布的假设等方面有所不同，所以推广和利用还存在许多问题。鉴于此，本文应用图表考查logistic模型的拟合优度。如何解决从逻辑回归中失去的残差图？为了更好地了解，让咱们思考以下数据集 glm(Y~X1+X2,family=binomial)如果咱们应用R的诊断图，第一个是残差的散点图，对照预测值。 > plot(reg,which=1)也能够 > plot(predict(reg),residuals(reg))> abline(h=0,lty=2 ) 为什么咱们会有这两条线的点？因为咱们预测了一个变量取值为0或1的概率。当咱们应用黑白时，能够更分明地看到，如果真值是0，那么咱们总是预测得更多，残差必须是负的（蓝点），如果真值是1，那么咱们就低估了，残差必须是正的（红点）。当然，还有一个枯燥的关系 > plot(predict(reg),residuals(reg) ) 点正好在一条平滑的曲线上，是预测值的一个函数。当初，从这个图上看不出什么。咱们运行一个部分加权回归，看看产生了什么。 lowess(predict(reg),residuals(reg) 这是咱们在第一个诊断函数中所失去的。但在这个部分回归中，咱们没有失去置信区间。咱们能够假如图中水平线十分靠近虚线吗？ segments( fit+2* se.fit, fit-2* se.fit ) 能够。这个图表表明什么？事实上，该图可能不是察看残差的惟一办法。如果不把它们与两个解释变量绘制在一起呢？例如，如果咱们将残差与第二个解释变量作比照，咱们会失去 > lines(lowess(X2,residuals(reg)) 对照一下，该图与咱们之前的图类似。如果咱们当初看一下与第一个解释变量的关系： > lines(lowess(X1,residuals(reg)) 因为咱们能够分明地辨认出二次方的影响。这张图表明，咱们应该对第一个变量的平方进行回归。而且能够看出它是一个重要的影响因素。当初，如果咱们运行一个包含这个二次方效应的回归，咱们会失去什么。 glm(Y~X1+I(X1^2)+X2,family=binomial) 看起来和第一个逻辑回归模型后果相似。那么本文的观点是什么？观点是图形能够用来察看可能出错的中央，对可能的非线性转换有更多的直觉判断。图形不是万能的，从实践上讲，残差线应该是一条程度的直线。但咱们也心愿模型尽可能的简略。所以，在某个阶段，咱们兴许应该依附统计测验和置信区间。最受欢迎的见解 1.R语言多元Logistic逻辑回归利用案例 2.面板平滑转移回归(PSTR)剖析案例实现 3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR） 4.R语言泊松Poisson回归模型剖析案例 5.R语言回归中的Hosmer-Lemeshow拟合优度测验 6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现 7.在R语言中实现Logistic逻辑回归 8.python用线性回归预测股票价格 9.R语言如何在生存剖析与Cox回归中计算IDI，NRI指标

关于算法:算法5计数排序键索引计数法

算法(5)-计数排序(键索引计数法)01 计数排序算法概念计数排序不是一个比拟排序算法，该算法于1954年由 Harold H. Seward提出，通过计数将工夫复杂度降到了O(N)。 02 根底版算法步骤第一步：找出原数组中元素值最大的，记为max。第二步：创立一个新数组count，其长度是max加1，其元素默认值都为0。第三步：遍历原数组中的元素，以原数组中的元素作为count数组的索引，以原数组中的元素呈现次数作为count数组的元素值。第四步：创立后果数组result，起始索引index。第五步：遍历count数组，找出其中元素值大于0的元素，将其对应的索引作为元素值填充到result数组中去，每解决一次，count中的该元素值减1，直到该元素值不大于0，顺次解决count中剩下的元素。第六步：返回后果数组result。 03 根底版代码实现 public int[] countSort(int[] A) { // 找出数组A中的最大值 int max = Integer.MIN_VALUE; for (int num : A) { max = Math.max(max, num); } // 初始化计数数组count int[] count = new int[max+1]; // 对计数数组各元素赋值 for (int num : A) { count[num]++; } // 创立后果数组 int[] result = new int[A.length]; // 创立后果数组的起始索引 int index = 0; // 遍历计数数组，将计数数组的索引填充到后果数组中 for (int i=0; i<count.length; i++) { while (count[i]>0) { result[index++] = i; count[i]--; } } // 返回后果数组 return result;}04 优化版根底版可能解决个别的状况，然而它有一个缺点，那就是存在空间节约的问题。 ...

关于算法:动态规划

动静布局引子 - 爬楼梯在正式聊动静布局之前，咱们先来看一个经典问题 1.爬楼梯假如你正在爬楼梯。须要 n 阶你能力达到楼顶。每次你能够爬 1 或 2 个台阶。你有多少种不同的办法能够爬到楼顶呢？ 2.问题剖析假如台阶总数为10，咱们先不思考从第 0～ 8 阶的过程，也不思考从0~9的过程，想要达到第10阶，最初一步必然有两个抉择。 1. 从第9个台阶爬1阶 2. 从第8个台阶爬2阶接下来引申出一个新问题，如果咱们已知0～9阶台阶的走法有x种，0-8阶的走法有y种，那么达到第10阶有多少种走法呢？答案就是 x+y 种那达到第9个台阶有多少种办法呢？咱们能够依照下面的思路，持续剖析 3.问题泛化假如咱们以后处于第 i 个台阶上，依据已知条件，每次只能走1或2步，所以有两种办法达到第 i 个台阶 1. 从第i-1个台阶爬1阶 2. 从第i-2个台阶爬2阶假如咱们晓得达到第i-1个台阶有f(i-1)种办法，达到第i-2个台阶有 f(i-2)种办法若达到第i-1个台阶有f(i-1)种办法，达到第i-2个台阶有 f(i-2)种办法，则达到第i阶有f(i)种走法，且等于达到第i-1阶的办法数f(i-1)加上达到第i-2阶的办法数f(i-2) 故可得 f(i) = f(i-1)+f(i-2) 上述的过程就是将一个大问题拆解成一个一个的小问题，而后逐层剖析，失去最终后果其实爬楼梯问题就是一个求解斐波那契数列的问题 3.斐波那契数列的个别解决办法咱们解决此问题是通过递归形式，从第n层一层层递加求出最终后果 func fib(n int) int { if n < 0 { return 0 } else if n <= 1 { return 1 } return fib(n-1) + fib(n-2)}这里以5阶为例 ...

关于自然语言处理:算法专家解读-开放搜索教育搜题能力和实践

简介：达摩院算法专家--徐光伟（昆卡）聚焦在线教育行业的拍照搜题场景，介绍如何利用凋谢搜寻来构建更高搜寻性能及搜题准确率的搜题零碎，从而助力在线教育行业客户把握更高层次用户体验的获客工具。讲师：徐光伟（昆卡）--阿里云达摩院算法专家视频地址：https://developer.aliyun.com/live/246649 教育搜题解决方案地址：https://www.aliyun.com/page-source/data-intelligence/activity/edusearch 凋谢搜寻简介-引擎劣势凋谢搜寻（OpenSearch）是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜寻业务开发平台，通过内置各行业的查问语义了解、机器学习排序算法等能力，提供充沛凋谢的算法及引擎能力，助力开发者疾速搭建更高性能、更高搜寻基线成果的智能搜寻服务。其搜索引擎采纳阿里自研的整套搜寻工程体系-AIOS零碎，撑持着阿里系蕴含淘宝、天猫、lazada、闲鱼、优酷、菜鸟、盒马等全副的搜寻场景，在稳定性和工程效率上都是行业领先水平。凋谢搜寻简介-算法劣势凋谢搜寻（OpenSearch）在算法上集成达摩院NLP（自然语言解决）团队的核心技术，NLP Foundations 中的词法剖析、句法分析、语义剖析、文本剖析、deep learning 技术都处于业界当先。通过对各行业智能语言解决的深入研究，在凋谢搜寻的行业利用中产品化落地。教育搜题-业务背景近几年在线教育行业飞速发展，依据2020中国移动互联网教育学习APP行业月活用户规模TOP10的统计，月活前十中针对K12教育的APP有6个，具备搜题场景的APP有5个；阐明了搜题性能在教育行业的的重要性。 (数据起源:QuestMobile<2020中国移动互联网年度大报告>) 工具型的产品能力，它是用来帮忙产品取得大量的用户和流量，从而为其余的业务提供变现能力。在线教育行业中拍照搜题作为产品掠夺流量最重要的工具，抓住了家长、学生辅导和解题上需要，为其余的业务变现提供源源不断的流量。正是因为这样的定位，搜题的准确性和效率变得更加重要，将间接影响品牌的口碑和用户粘性。教育搜题-业务特点海量题库客户的题库个别都是千万甚至亿级别，而且还在疾速继续的增长。同时搜题业务存在比拟显著的顶峰景象。在平时的早晨787到8点，尤其是周末的最初一天或者是节假日的最初一天。QPS存在很显著的顶峰，具备高弹性和低提早的云搜寻，云搜寻能力就成为了客户的首选。场景丰盛搜题的场景越来越丰盛，涵盖不同的年级，比方低年级呈现比拟多的像看图识字、连线题等，这种须要图片信息的，还有蕴含不同的学科，当初已有的学科曾经超过10个，这些丰盛的场景都会对搜寻成果产生影响。算法需要因为收集产品个别只会展示top 3到top5的1个后果，对于准确性的要求极高，同时还会依赖一些多模态和多元的算法能力来解决图文搜寻和多元解决的需要。凋谢搜寻如何提供精准高效、稳固的一站式搜题解决方案右边：用户拍照题目，通过OCR辨认之后的文本，通过两头的凋谢搜寻（OpenSearch ）引擎失去Top 3-5的召回后果进行展现；左边：客户题库，凋谢搜寻会严格保障客户数据的平安和隐衷；两头：凋谢搜寻（Open Search ）引擎局部蕴含了文档召回、排序定制和干涉性能三大模块；凋谢搜寻Query解决流程查问语义了解案例阐明：教育搜题定制分词器搜题场景分词难点：英文题目，ocr 辨认之后的空格缺失；数学题目latex公式示意之后的切分；解决办法: 针对第一个问题，收集千万级K12英文语料训练语言模型，即使对超长的英文连写也能够精准切分；针对第二个问题，利用凋谢搜寻自带的分词干涉能力将latex示意中的运算符号预处理; 类目预测-学科、题型分类什么是类目预测？简略来说，用户输出一个query，查问失去一批商品，通过计算每一个商品所属的类目与query之间的相关度，只有商品的排序公式中援用了这个相关度，那么对于这个商品来说，它所属的类目与query的相关度越高，它的排序公式的计算结果就取得了越高的排序得分，从而这个商品就会排在越后面。教育行业中的利用联合输⼊的图⽚信息和OCR辨认之后的后果预测输⼊题⽬的学科类别、题目类型；预测各⽂本⽚段的字段类型(题干形容、选项等等)；词权重剖析性能介绍：该性能次要剖析了查问中每一个词在文本中的重要水平，并将其量化成权重，权重较低的词可能不会参加召回。这样能够防止当用户输出的查问词中蕴含一些权重低的词时，依然按用户输出的查问词限度召回，导致命中后果过少。性能用处： Query丢词、改写、文本相关性剖析； 1. 基于用户行为生成训练数据首先是基于querydock 点击行为去构建点击图，而后利用vpc 计算法失去TOM 之间的一个重要度偏训 2. 词权重模型训练在进行布局之后失去训练数据利用序列标注模型去预测每一个特用的权重；预测标签(7,4,1), 分值越⾼表⽰term的重要性越⼤，召回后果更精确；示例： Query改写-干涉性能凋谢搜寻除了曾经内置的这些算法能力同时还反对用户的批量干涉：：词典、拼写纠错，同义词，词权重等；示例： OCR辨认可能会把一些非题目因素辨认进来烦扰query剖析的后果，这时候能够应用词权重干涉的形式保障非题目因素字段被打标成低权重，保障召回和排序成果；用户能够自定义同义词来扩召回，例如“立方米” -> “吨”；教育搜题排序定制零碎凋谢了两阶段排序过程：根底排序和业务排序，即粗排和精排；根底排序即是海选，从检索后果中疾速找到品质高的文档，取出TOP N个后果再依照精排进行精密算分，最终返回最优的后果给用户。为了实现更细粒度的排序成果，联合排序表达式（Ranking Formula）能够为利用自定义搜寻后果排序形式。多路召回-语义向量召回为什么搜题要做多路召回？教育拍照搜题场景相比网页/电商的文本搜寻有显著差别：搜寻query特地长：惯例检索term数下限30，搜题须要放到100；搜寻query是由拍照OCR辨认之后失去的文本，要害term的辨认谬误会重大影响召回排序；纯文本查问计划 1. OR逻辑查问为了升高无后果率，搜题客户常见的零碎是基于ES默认的OR逻辑，latency高，计算耗费大；OpenSearch也反对OR逻辑，针对latency高能够通过并行seek的形式优化，但整体计算耗费依然高；2. AND逻辑查问采纳通用的query剖析模块，无后果率高，整体准确性不如OR逻辑；针对教育领域优化定制的query剖析模块，大幅提高成果，准确性靠近OR逻辑；如何去兼顾计算耗费和搜寻准确性那？咱们在此引入了文本向量检索文本向量检索指标：通过文本向量检索扩召回，联合AND逻辑查问，做到latency和计算耗费低于OR逻辑的状况下准确性更高；向量召回采纳目前最先进的BERT模型，其中针对教育搜题做的特地优化有： BERT模型采纳达摩院自研的StructBERT，并针对教育行业定制模型；向量检索引擎采纳达摩院自研的proxima引擎，准确性和运行速度远超开源零碎；训练数据能够基于客户的搜寻日志一直积攒，成果继续晋升；这个图咱们能够看到有一项召回，在召回率上曾经达到凹逻辑。同时在准确性上当初超出2逻辑3到5个点，整体的召回到数缩小40倍的状况下，latency 能够升高10倍以上。成果：召回率达到OR逻辑准确性超出OR逻辑3%-5%整体召回doc数量缩小40倍，latency升高10倍以上多路召回-文本向量多路召回多路召回劣势： ...

关于算法:Matlab中的偏最小二乘法PLS回归模型离群点检测和变量选择

本文建设偏最小二乘法（PLS）回归（PLSR）模型，以及预测性能评估。为了建设一个牢靠的模型，咱们还实现了一些罕用的离群点检测和变量抉择办法，能够去除潜在的离群点和只应用所选变量的子集来 "荡涤 "你的数据。步骤建设PLS回归模型PLS的K-折穿插验证PLS的蒙特卡洛穿插验证（MCCV）。PLS的双重穿插验证(DCV)应用蒙特卡洛抽样办法进行离群点检测应用CARS办法进行变量抉择。应用挪动窗口PLS（MWPLS）进行变量抉择。应用蒙特卡洛无信息变量打消法（MCUVE）进行变量抉择进行变量抉择建设PLS回归模型这个例子阐明了如何应用基准近红外数据建设PLS模型。 plot(X'); % 显示光谱数据。xlabel('波长指数');ylabel('强度'); 参数设定 A=6; % 潜在变量（LV）的数量。method='center'; % 用于建设PLS模型的X的外部预处理办法PLS(X,y,A,method); % 建设模型的命令 pls.m函数返回一个蕴含成分列表的对象PLS。后果解释。 regcoef_original：连贯X和y的回归系数。 X_scores：X的得分。 VIP：预测中的变量重要性，评估变量重要性的一个规范。变量的重要性。 RMSEF：拟合的均方根误差。 y_fit：y的拟合值。 R2：Y的解释变异的百分比。 PLS的K折穿插验证阐明如何对PLS模型进行K折穿插验证 clear;A=6; % LV的数量K=5; % 穿插验证的次数 plot(CV.RMSECV) % 绘制每个潜在变量(LVs)数量下的RMSECV值xlabel('潜在变量(LVs)数量') % 增加x标签ylabel('RMSECV') % 增加y标签返回的值CV是带有成分列表的构造数据。后果解释。 RMSECV：穿插验证的均方根误差。越小越好 Q2：与R2含意雷同，但由穿插验证计算得出。 optLV：达到最小RMSECV（最高Q2）的LV数量。蒙特卡洛穿插验证（MCCV）的PLS阐明如何对PLS建模进行MCCV。与K-fold CV一样，MCCV是另一种穿插验证的办法。 % 参数设置A=6;method='center';N=500; % Monte Carlo抽样的数量% 运行mccv.plot(MCCV.RMSECV); % 绘制每个潜在变量(LVs)数量下的RMSECV值xlabel('潜在变量(LVs)数量'); MCCV MCCV是一个结构性数据。后果解释。 Ypred:预测值 Ytrue：实在值 RMSECV：穿插验证的均方根误差，越小越好。 Q2：与R2含意雷同，但由穿插验证计算得出。 PLS的双重穿插验证（DCV）阐明如何对PLS建模进行DCV。与K-fold CV一样，DCV是穿插验证的一种形式。 % 参数设置N=50; % Monte Carlo抽样的数量dcv(X,y,A,k,method,N);DCV 应用蒙特卡洛抽样办法的离群点检测阐明离群点检测办法的应用状况 A=6;method='center';F=mc(X,y,A,method,N,ratio); 后果解释。 predError：每个抽样中的样本预测误差 MEAN：每个样本的均匀预测误差 STD:每个样本的预测误差的标准偏差 plot(F) % 诊断图注：MEAN值高或SD值高的样本更可能是离群值，应思考在建模前将其剔除。应用CARS办法进行变量抉择。A=6;fold=5;car(X,y,A,fold); 后果解释。 optLV:最佳模型的LV数量 vsel:选定的变量（X中的列）。 plotcars(CARS); % 诊断图注：在这幅图中，顶部和两头的面板显示了抉择变量的数量和RMSECV如何随着迭代而变动。底部面板形容了每个变量的回归系数（每条线对应一个变量）如何随着迭代而变动。星形垂直线示意具备最低RMSECV的最佳模型。应用挪动窗口PLS（MWPLS）进行变量抉择load corn_m51; % 示例数据width=15; % 窗口大小mw(X,y,width);plot(WP,RMSEF);xlabel('窗口地位'); 注：从该图中倡议将RMSEF值较低的区域纳入PLS模型中。应用蒙特卡洛无信息变量打消法（MCUVE）进行变量抉择N=500;method='center';UVE plot(abs(UVE.RI)) 后果解释。RI：UVE的可靠性指数，是对变量重要性的测量，越高越好。进行变量抉择A=6;N=10000;method='center';FROG=rd_pls(X,y,A,method,N); N: 10000 Q: 2 model: \[10000x700 double\] minutes: 0.6683 method: 'center' Vrank: \[1x700 double\] Vtop10: \[505 405 506 400 408 233 235 249 248 515\] probability: \[1x700 double\] nVar: \[1x10000 double\] RMSEP: \[1x10000 double\] xlabel('变量序号');ylabel('抉择概率'); 后果解释：模型后果是一个矩阵，贮存了每一个互相关系中的抉择变量。概率：每个变量被蕴含在最终模型中的概率。越大越好。这是一个掂量变量重要性的有用指标。

关于负载均衡:函数计算帮助石墨文档突破性能瓶颈有效节省服务器成本

简介：石墨文档是中国第一款反对云端合作的企业办公服务软件（性能类比于Google docs、Quip等），能够实现多成员多终端的在线实时合作，同步响应速度达到毫秒级，是团队合作的最佳抉择。石墨文档还是一款具备中国式美感的科技产品，2015 年取得极客公园最佳互联网翻新产品 50 强。客户介绍石墨文档是中国第一款反对云端合作的企业办公服务软件（性能类比于Google docs、Quip等），能够实现多成员多终端的在线实时合作，同步响应速度达到毫秒级，是团队合作的最佳抉择。石墨文档还是一款具备中国式美感的科技产品，2015 年取得极客公园最佳互联网翻新产品 50 强。 2014 年成立至今，石墨文档已累计为超过 20 万家企业提供了产品和服务。客户痛点石墨文档有两个特点：其一是，“简洁轻便符合中国人办公审美的板式格调及利用体验”，另一个则是“多成员多终端的在线实时合作”。为了反对实时合作编写，技术团队在背地做了十分多的致力。对 Operational Transformation 算法进行十分深刻的摸索和批改，将维度从一维拓展到二维，解决一段文字被多个客户端同时批改所引起的抵触合并问题。同时也面临着更严厉的挑战。多用户的实时批改会对服务器带来不小的压力。用户敲击键盘输入一个文字只须要几毫秒。而在石墨文档上同时编写文档的用户十分多，很容易呈现在一个很小的时间段内数据分布不均的状况。石墨文档须要实现一套弹性高可用的服务来实时处理文档编辑抵触，既要保障老本的可接受性，又要保障在负载突增时平滑解决峰值负载，保障毫秒级别的文档同步响应。解决方案借助私有云 Serverless 架构应答突发流量是个不错的解决方案。函数计算是阿里云提供的 Serverless 计算平台，依据申请量动态分配执行环境，毫秒级调度计算资源，确保在负载高时保持稳定的延时，在负载低时有着较高的资源利用率，且只会对代码运行时应用的计算资源付费。石墨文档应用函数计算搭建文档实时编辑服务，将文档实时合作的逻辑实现为函数，由函数计算的智能调度零碎主动调配执行环境解决多用户同时编写文档带来的峰值负载。函数计算的动静扩缩容能力保障利用的牢靠运行。应用成果“用户体验、老本耗费、上线速度” 是决定初创公司是否在茫茫商海展露头角的重要因素。借助函数计算毫秒级别的资源伸缩能力，石墨文档解决了早晚顶峰负载突增的计算资源扩容问题，相比于自建机房保护服务器，进步了资源利用率，缩小了闲置资源的节约，节俭了 58% 的服务器老本。因为不必再思考 CPU 密集型计算的负载平衡问题，我的项目的迭代与上线的步调逐步快了起来，工程师集中精力与产品团队单干，一直扩大业务价值。计算的负载平衡问题，大大提高了开发效率和过程稳定性。版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于存储:PAI和Hologres的个性化推荐最佳实践

简介：常见的个性化举荐零碎包含日志收集，数据加工，召回，排序，离在线成果评估等诸多环节，对于中小客户存在技术门槛高，搭建周期长等问题。计算平台基于 PAI，Hologres，MaxCompute，DataWorks 平台产品，能够帮忙客户疾速搭建个性化举荐解决方案。本次分享，次要从计算平台的举荐零碎整体解决方案登程，重点介绍基于 PAI 的向量召回算法和 Hologres 向量检索的整体架构，以及该架构在某社交APP的落地案例和成果分享。本文内容来自于由达摩院领航举办的3月20日向量检索专场Meetup讲师演讲内容讲师介绍天邑阿里云计算平台高级算法工程师。次要从事基于PAI平台的召回和排序算法研发，及基于云产品的举荐零碎解决方案研发，赋能客户个性化举荐解决方案落地。*内容简要：一、云上个性化举荐二、向量召回三、最佳实际 01 云上个性化举荐解决方案简介（一）个性化举荐 - 外围能力个性化举荐外围价值是要做到千人千面，实现用户需要和资源的最佳匹配，从而晋升流量到业务指标的转化成果。个性化举荐流程个别分召回和排序两个局部，咱们要从海量的数据中来精准的筛选出几个到几十个Item给用户举荐过来。（二）个性化举荐 – 常见计划痛点常见举荐计划一：经营教训制订举荐策略须要有举荐教训的产品设计或经营人员，通过积攒的集体教训，制订业务举荐策略，并联合数据分析，调整举荐计划，通常在业务规模比拟小的企业，冷启动阶段应用，有显著的成果弊病：举荐计划及成果，受到人为影响而不可控。计划难以实时联合业务倒退疾速更新，迭代速度慢。数据计算能力无限，大规模数据分析时候艰难。短少算法人员搭建企业举荐零碎，影响企业晋升市场竞争常见举荐计划二：开源框架自建举荐零碎越来越多的企业抉择联合AI技术实现企业举荐零碎，但应用开源框架自建举荐零碎，也存在诸多问题，影响业务倒退：老本高须要企业洽购大量机器用于反对数据计算，不仅一次性投入资金多，且大部分企业都会存在机器资源闲置的节约问题工程化工作量大须要适配支流开源框架，存在微小的工程化工作，以实现不同业务场景最优举荐成果，或实现反对多部门模型需要。运维难承载海量数据、多任务运行，日常运维难度很大。成果不现实。（三）个性化举荐 – 云上计划在云上咱们能够利用云上的工程基建和算法基建来减缓这部分的老本。在云上提供了两种的举荐计划，一种是黑盒化的，一种是白盒化的，黑盒化的解决方案低门槛易上手。白盒化的解决方案，整个算法流程是工程师全副自主可控的，它适宜于有肯定规模的，日解决数据百万起的团队，能够反对举荐算法的疾速迭代。（四）云上个性化举荐 – 白盒解决方案这是整个白盒化的推动解决方案的架构图，咱们从下往上看，最上层是数据处理模块，MaxCompute和Dataworks的负责离线的特色解决，失去一些离线训练样本和用户的特色数据物料数据，而Flink是反对实时的特色解决，有了特色样本数据，会流入到PAI-Studio一体化的建模平台中。其中PAI-EasyRec负责举荐算法，由GraphLearn和Alink负责一些图算法和传统机器设计算法。有了这一些算法，个别会产出两局部的模型，召回模型和排序模型。召回模型咱们能够例行部署到Hologres上，部署成各种根底索引表，向量召回的话会部署成向量表，这边图不太好画，user局部向量也能够在EAS上进行实时推理。排序模型的话，咱们会部署成在线的模型推理服务来进行在线的打分推理。有了根底索引表向量表和模型的推理服务，咱们再往下层就是整个举荐服务的引擎，咱们称之为PAI-Rec举荐服务引擎，PAI-Rec间接承受用户的举荐申请，串联了多路召回、过滤、排序和冷启动模块来给出TopN举荐列表。 PAI-Rec之外，咱们有PAI-ABTest来做ab试验，它次要负责迷信流量划分和指标的剖析，反对咱们云上举荐的成果的疾速迭代。（五）云上个性化举荐 – PAI-EasyRec算法框架咱们重点来看一下其中的几个模块，首先是PAI-EasyRec的整个举荐算法框架，能够反对多样化的数据源，比如说OSS、OdpsTable、HDFS、Kafka等等，有了这样的特色数据，咱们会进入一个离在线统一的特色解决模块，这外面能够反对IdFeature 、RawFeature 、SeqFeature等等的特色解决。最两头的是ModelZoo，蕴含很多PAI精心积淀的排序模型、召回模型和多指标模型，当然也反对算法工程师来基于此自定义本人的算法。整体上看，EasyRec能在PAI上提供万亿样本、千亿特色的超大规模分布式训练、分布式的评估能力，还反对主动超参搜寻和常识蒸馏等调优成果的性能。（六）云上个性化举荐 – PAI冷启动计划除了通用的举荐算法之外，咱们还提供了PAI冷启动计划，咱们为什么须要冷启动？因为常见的举荐算法对新物品和新用户是不太敌对的，新物品在很大水平上是经常会被低估的。冷启动问题解决不好会影响内容创造者的积极性，进而影响平台生态的衰弱倒退咱们PAI上的冷启动计划分为用户冷启动和物品冷启动两局部。用户冷启动次要是基于用户的根本画像，基于社交关系，基于用户趣味的一些热门举荐，U2U的举荐。物品的冷启动的算法的则比拟丰盛了，有基于内容了解的，有基于疾速试探强化学习的，基于不同场景间迁徙学习的，此外，少样本学习、常识图谱的算法，咱们也在逐渐的研发上线中。（七）云上个性化举荐 – PAIRec举荐引擎PAIRec举荐引擎从上往下看，分为接口层、召回层、过滤层、排序层、重排层，这些模块它端到端的串联起了整个举荐服务的各个流程，并且其中的一些内置模块是能够简略的通过config文件来配置化应用的。当然为了满足各种各样场景定制化的需要，咱们也反对在各个层便捷的注册各种定义的实现来满足灵活性的要求。（八）云上个性化举荐 – PAI-A/BTestPAI-A/BTest是咱们保障疾速做举荐迭代成果很重要的一环，咱们首先来看一下A/B Test是什么，咱们会在同一时间维度将用户划分成两组，在保障用户特色雷同的状况下，让用户看到不同的两个ab计划的设计，而后依据最初数据的好坏来决定到底抉择哪个计划，最终把哪个计划来推全，他要走的更进一步，能够满足各多样化的A/B Test的需要。举荐场景为例，咱们能够反对这种一般的流量划分，还能够反对分层的流量划分，分层流量划分有什么益处？举荐场景咱们分为召回、排序、重排的这些模块，这些流量是齐全能够正交复用的，咱们能够在很小的流量场景之下就能够上很多的试验下来帮忙咱们疾速的迭代，PAI-A/BTest还反对在实验室上设置各种各样的条件，比方辨别新用户和老用户，来满足各种各样多样化的ab的需要。 ...

关于物联网:LiteOS内核源码分析动态内存之Bestfit分配算法

摘要：本文为大家分析LiteOS动静内存模块bestfit算法的源代码，蕴含动态内存的构造体、动态内存池初始化、动态内存申请、开释等。本文分享自华为云社区《LiteOS内核源码剖析系列十三动态内存Bestfit调配算法》，原文作者：zhushy 。内存治理模块管理系统的内存资源，它是操作系统的外围模块之一，次要包含内存的初始化、调配以及开释。在零碎运行过程中，内存治理模块通过对内存的申请/开释来治理用户和OS对内存的应用，使内存的利用率和应用效率达到最优，同时最大限度地解决零碎的内存碎片问题。 Huawei LiteOS的内存治理分为动态内存治理和动态内存治理，提供内存初始化、调配、开释等性能。动态内存：在动态内存池中调配用户指定大小的内存块。（1）长处：按需分配。（2）毛病：内存池中可能呈现碎片。动态内存：在动态内存池中调配用户初始化时预设（固定）大小的内存块。（1）长处：调配和开释效率高，动态内存池中无碎片。（2）毛病：只能申请到初始化预设大小的内存块，不能按需申请。上一系列剖析了动态内存，咱们开始剖析动态内存。动态内存治理次要用于用户须要应用大小不等的内存块的场景。当用户须要应用内存时，能够通过操作系统的动态内存申请函数索取指定大小的内存块，一旦应用结束，通过动态内存开释函数偿还所占用内存，使之能够重复使用。 LiteOS动态内存反对bestfit（也称为dlink）和bestfit_little两种内存治理算法。本文次要剖析LiteOS动态内存的bestfit算法，后续系列会持续剖析动态内存的bestfit_little的算法。本文通过剖析LiteOS动静内存模块的源码，帮忙读者把握动态内存的应用。LiteOS动静内存模块的源代码，均能够在LiteOS开源站点https://gitee.com/LiteOS/LiteOS 获取。动态内存bestfit算法的源代码、开发文档，示例程序代码如下： LiteOS内核动态内存源代码包含动态内存的bestfit算法公有头文件kernel\base\mem\bestfit\los_memory_internal.h、动态内存公有头文件kernel\base\include\los_memory_pri.h、内存头文件kernel\include\los_memory.h、多链表头文件kernel\base\include\los_multipledlinkhead_pri.h、C源代码文件kernel\base\mem\bestfit\los_memory.c、C源代码文件kernel\base\mem\bestfit\los_multipledlinkhead.c。开发指南文档–内存在线文档https://gitee.com/LiteOS/Lite... 接下来，咱们看下动态内存的构造体，动态内存初始化，动态内存罕用操作的源代码。 1、动态内存构造体定义和罕用宏定义1.1 动态内存构造体定义动态内存bestfit算法的构造体有动态内存池信息结构体LosMemPoolInfo，多双向链表表头构造体LosMultipleDlinkHead、动态内存链表节点构造体LosMemDynNode，内存链表管制节点构造体LosMemCtlNode。对动态内存应用如下示意图进行阐明，对一块动态内存区域，第一局部是内存池信息结构体LosMemPoolInfo，接着是第二局部多双向链表表头构造体LosMultipleDlinkHead，第三局部是动态内存链表节点构造体LosMemDynNode，内存链表管制节点构造体LosMemCtlNode。应用动态内存的bestfit算法初始化后，第三局部蕴含2个内存块，第一个内存块蕴含内存链表管制节点构造体LosMemCtlNode和内存块数据区，尾节点只蕴含内存链表管制节点构造体LosMemCtlNode，没有数据区。管制节点构造体LosMemCtlNode持有上一个内存块的指针。有数据区的内存块会挂载在第二局部的链表上。当申请内存时，依据须要内存的大小，从第二局部的链表获取适合的内存块，如果内存块超出需要，会进行切割，残余的局部和后续的闲暇节点合并，从新挂载到第二局部的链表上。 1.1.1 动态内存池信息结构体LosMemPoolInfo在文件kernel\base\include\los_memory_pri.h中，定义了内存池信息结构体LosMemPoolInfo。这是动态内存池的第一局部，保护内存池的开始地址和大小信息。动态内存bestfit算法和bestfit_little算法中都定义了该构造体，构造体名称一样，成员有差别，咱们先看看bestfit算法的构造体，源代码如下。两个次要的成员是内存池开始地址.pool和内存池大小.poolSize。其余构造体须要开启相应的宏才失效，暂不探讨这些宏相干的个性。 typedef struct { VOID *pool; /* 内存池的内存开始地址 */ UINT32 poolSize; /* 内存池大小 */#ifdef LOSCFG_MEM_TASK_STAT Memstat stat;#endif#ifdef LOSCFG_MEM_MUL_POOL VOID *nextPool;#endif#ifdef LOSCFG_KERNEL_MEM_SLAB_EXTENTION struct LosSlabControlHeader slabCtrlHdr;#endif} LosMemPoolInfo;1.1.2 多双向链表表头构造体LosMultipleDlinkHead在文件kernel\base\include\los_multipledlinkhead_pri.h中，定义了内存池多双向链表表头构造体LosMultipleDlinkHead。这是动态内存池的第二局部，构造体自身是一个数组，每个元素是一个双向链表，所有free节点的管制头都会被分类挂在这个数组的双向链表中。假如内存容许的最小节点为2^min字节，则数组的第一个双向链表存储的是所有size为2^min<size< 2^(min+1)的free节点，第二个双向链表存储的是所有size为2^(min+1)<size< 2^(min+2)的free节点，顺次类推第n个双向链表存储的是所有size为2^(min+n-1)<size< 2^(min+n)的free节点。每次申请内存的时候，会从这个数组检索最合适大小的free节点以分配内存。每次开释内存时，会将该内存作为free节点存储至这个数组以便下次再应用。构造体源代码如下，非常简单，是一个长度为OS_MULTI_DLNK_NUM的双向链表数组。 typedef struct { LOS_DL_LIST listHead[OS_MULTI_DLNK_NUM];} LosMultipleDlinkHead;咱们再看看和构造体LosMultipleDlinkHead相干的宏定义，OS_MIN_MULTI_DLNK_LOG2和OS_MAX_MULTI_DLNK_LOG2指定了双向链表中存储的内存节点的大小拜访，第一个存储大小在[2^4,2^5)的闲暇内存节点，顺次类推，第26个即OS_MULTI_DLNK_NUM存储大小在[2^29,2^30)的闲暇内存节点。多链表表头构造体占用的内存大小为OS_DLNK_HEAD_SIZE。 #define OS_MAX_MULTI_DLNK_LOG2 29#define OS_MIN_MULTI_DLNK_LOG2 4#define OS_MULTI_DLNK_NUM ((OS_MAX_MULTI_DLNK_LOG2 - OS_MIN_MULTI_DLNK_LOG2) + 1)#define OS_DLNK_HEAD_SIZE OS_MULTI_DLNK_HEAD_SIZE#define OS_MULTI_DLNK_HEAD_SIZE sizeof(LosMultipleDlinkHead)1.1.3 动态内存链表节点构造体LosMemDynNode和链表管制节点构造体LosMemCtlNode在文件kernel\base\mem\bestfit\los_memory_internal.h中定义2个构造体，动态内存链表节点构造体LosMemDynNode和链表管制节点构造体LosMemCtlNode。这是动态内存池的第三局部，占用内存池极大局部的空间，是用于寄存各节点的理论区域。设计2个构造体的起因为满足备份内存链表节点的须要。能够看出开启备份链表节点的宏LOSCFG_MEM_HEAD_BACKUP时，LosMemDynNode构造体蕴含2个LosMemCtlNode，一个是.backupNode，另外一个是.selfNode。2个构造体源码如下，重要的成员的解释见正文局部。 ...

关于python3:王霸雄图荣华敝屣谈笑间尽归尘土基于Python3双队列数据结构搭建股票外汇交易匹配撮合系统

原文转载自「刘悦的技术博客」https://v3u.cn/a_id_192 如果你爱他，那么送他去股市，因为那里是地狱；如果你恨他，送他去股市，因为那里是天堂。在过来的一年里，新冠疫情继续冲击世界经济，寰球次要股票市场的稳定都绝对频繁，尤其是A股，正所谓：已经跌停难为鬼，除非解套才做人；抄底时难抛亦难，反弹有力百花残。对于波谲云诡的股票市场，新投资人还是须要审慎入场，本次咱们来利用双队列的数据结构实现实时在线交易匹配引擎，摸索股票交易的神秘。首先须要明确一点，证券交易和传统的B2C电商零碎交易齐全不同，证券交易零碎提供的交易标的物是规范的数字化资产，如美元、股票、比特币等等，它们的特点是数字计价，可宰割交易，也就是说，当咱们发动买盘申请的时候，须要有价格对应的卖盘响应，能力真正实现交易，反之亦然。具体逻辑是：所有买盘或者卖盘的订单队列都传递给匹配引擎，匹配引擎尝试将它们的价格进行匹配。该匹配队列分为买单（按价格升序排列，出价最高的优先交易）和卖单（按降序排列，买价最低的优先交易）。如果股票订单找不到与匹配的价格，那么该订单就持续保留在订单队列中的原适当地位。这里咱们以理论的案例来看一下相干匹配算法的实现，假如我有两个订单队列，一个买盘，一个卖盘： #买盘价格数量 100 50 100 10 90 5 88 3#卖盘价格数量 170 50 180 40 199 10 200 5 最常见的匹配算法就是“价格/工夫优先”队列。订单次要依据价格进行匹配，如果以雷同的价格水平存在多个订单，则最早的订单将首先被匹配，这也和队列原理雷同：先入先出。如上所示，假如有两个订单紧挨着。第一个是以100块钱的价格买入50股的买入订单，第二个也是以雷同价格买入10股的买入订单。鉴于订单与任何买价都不匹配（因为其价格低于最低的买价），所以它们都被搁置在订单队列中。第一订单和第二订单以雷同的价格水平存储，然而因为工夫优先，前者比后者具备优先权。这基本上意味着，第一个订单将被搁置在买入队列中的第二个订单的后面。而卖盘同理，首先买价最低的优先交易，如果买价雷同，则工夫优先，先进队列的先交易，可是很多散户都遇见过一种状况，就是如果手里的一支股票间断跌停，就算拼命挂高价单也很难卖出去，甚至可能间接跌到退市血本无归，这是为什么呢？因为当一只股票跌停时，也意味着有一大堆筹码沉积在跌停板上，想卖出去是不容易的，得排队，实践上依照“工夫优先、价格优先”的交易准则排队成交，但跌停的状况下，只存在“工夫优先”的思考，也就是说，如果想在封死跌停板时把股票卖出去，就得尽早对该股票挂跌停板价格卖出。可实际上，一只股票跌停，不光是小局部散户卖不出去，而是大多数散户都卖不出去，都在恐慌性出货，大家都在排队卖。更何况，股票买卖是通过券商进行的，而券商有VIP快速通道也不是什么机密，一些大资金的小户、游资、机构享有券商虐待，或通过租用通道实现对盘面的疾速优先交易，这也导致了在股票涨停板抢筹、跌停板出货时存在肯定的“不偏心”性，也就说，交易队列并非齐全遵循“价格/工夫”定序，还有可能呈现优先级(加权)队列，所以，跌停时跑不了，涨停时买不进就不是什么新鲜事了。另外，还须要留神匹配算法中的价格始终而数量匹配填充的问题，假如买单10块挂单50手，卖单10块挂单30手，则匹配的价格为10块钱，在买一卖一各显示30手，买单队列首地位就会有20手在排队，如下所示： #买盘价格数量 10 50 #卖盘价格数量 10 30 11 50通过匹配算法之后： #买盘价格数量 10 20 #卖盘价格数量 11 50OK，理解了基本概念，让咱们用Python3具体实现，首先须要定义两个类，订单和交易，订单对象作为匹配算法之前的元素，而交易对象则是匹配之后的成交对象： class Order: def __init__(self, order_type, side, price, quantity): self.type = order_type self.side = side.lower() self.price = price self.quantity = quantity class Trade: def __init__(self, price, quantity): self.price = price self.quantity = quantity这里type是订单类型，side代表买单或者卖单，price为价格，quantity为数量。 ...

关于区块链:NFT时代摸索市场另一个爆发点

起始于2020年下半场，NFT一度被认为是接力DeFi的下一个行业爆点。果不其然，NFT在2021年初，就凭借着Uniswap一双袜子卖16万美元，推特创始人五个单词拍出250万美元，加密艺术家Beeple在佳士得的NFT拍卖作品取得975万美元出价等超高交易额火速出圈。在2021年3月，加密艺术平台的总交易额就已超2亿美元，创历史新高。依据Google数据，NFT相干搜寻量现曾经超过DeFi、Polkadot，并在2月底的时候达到峰值。这也吸引了一波圈外人的强烈关注，并尝试退出这一新兴产物“NFT”的队列当中去。推特上领有 500 万粉丝的美国出名说唱歌手 Soulja Boy，发行了本人的 NFT；NBA 总冠军球队达拉斯独行侠的老板 Mark Cuban 发行了 NFT；超级球星凯文·杜兰特在社交媒体转发对于 NFT 的游戏；足球寒门巴萨罗那、AC 米兰等等顶级俱乐部也都有了本人的 NFT。 NFT+奢侈品，小众崛起因与加密艺术品畛域与收藏品游戏方面的人造锲合，NFT吸引了时代周刊、Gucci、纨绔子弟等传统企业的入局。奢侈品相干企业摸索NFT，让NFT这个词不再局限于币圈媒体，时尚产业的退出让NFT变得更加“时尚”。 "侈靡品牌早已意识到本人在此前电商趋势的崛起时，步调上落后了，因而当初人们比以往更违心尝试像区块链这样的新技术，问题在于谁将首先扣动扳机。”与时尚品牌单干区块链平台 Lukso 的创始人 Marjorie Hernandez 示意。对于反对时尚涉足区块链的人说，NFT 是数字时尚皮肤的下一个演变，应该为品牌所承受。他们示意，NFTs 的稀缺性和积攒价值的能力能够使数字时尚更靠近真正的时尚。资本入局，NFT越发国际化目前，NFT已占ETH应用总量的14％以上。随同着参与者和交易规模的一劳永逸，各类NFT平台或我的项目愈发受到资本青眼，例如NFT交易平台OpenSea取得顶级互联网风投A16Z领投的2300万美元融资、NFT开发团队Dapper Labs获乔丹、杜兰特参加的3.05亿美元融资等。最近加密市场最大的热度莫过于Coinbase的上市，作为数字资产进入支流资本配置的分水岭，Coinbase的上市无疑再一次沸腾了资本市场。这也给将来的市场走向，提供了更多抉择。近期Coinbase的首席财务官Alesia Haas就公开示意，Coinbase正摸索NFT作为潜在的新业务线，NFT很适宜平台，并且这些代币能够为公司提供新的交易费用起源。传统+新兴拍卖，NFT破冰其中最无奈疏忽并将NFT推向低潮的，是来自支流艺术圈的入局——世界出名艺术品拍卖行佳士得和苏富比。 3 月 11 日晚，佳士得首次拍卖以NFT模式出现的纯数字艺术品，Beeple的《每一天：前 5000 天》以 6934.6 万美元的天价成交，约合人民币4.5 亿，突破了NFT作品的最高拍卖价格记录。4月12至14日，苏富比拍卖行也举办了一场加密艺术品拍卖会。加密艺术家PAK的数字作品《立方体》最终以1680万美元成交。然而，这对整个NFT市场来说，仅仅是开始。簇新的数字艺术汇合从新定义了咱们对价值的了解。 NFT玩法降级，多元化趋势显著生存就像巧克力，你永远不晓得下一颗是什么滋味。在拆封前谁也不能确定盒子里藏的是哪一款，答案只有在关上的那一刻才揭晓。因兼具了艺术性和探索性，盲盒吸引了许多人的眼光，成为新兴收藏品抉择之一。在数字货币市场，也逐渐呈现了一种盲盒经济——CROSS翻新打造的Mystery Box，将当下热门NFT与盲盒相结合，以投资和求新心理登程，引领了一波新的盲盒潮流。不同于个别的拍卖，CROSS采取的GameTheory玩法，利用“盲拍+转拍”的模式来进行NFT流转和价值最大化，在自身 NFT 拍卖根底上又叠加了0.5BTC的等值处分。其一：盲拍。没有人晓得对方的出价，是依据对NFT作品自身价值的评估，防止了一部分市场泡沫；其二：转拍。在玩家取得NFT并没有打盲盒的状况下，仍旧放弃着神秘感，将NFT +盲盒进行转手拍卖，在耳濡目染中减少了NFT的流动性，进一步刺激了NFT的销售和价值反对寰球艺术家参加NFT发明、定期举办NFT盲盒流动的平台CROSS，才上线火币生态链Heco三个月，便发明了接入地址数超25万，单日竞拍次数可达1万余次。据 CROSS 数据显示，仅是第四期盲盒流动5小时内累计出价近17万美元，单次流动交易量超100万人民币。采取“Gametheory+盲盒”的新型机制，购买者取得独有的艺术品加上拆盲盒的乐趣体验是难以被精确掂量以及预计的， NFT盲盒潜在市场和价值微小。 NFT+借贷，将来市场指向依据NonFungible的统计，最近一周NFT的首次销售额降落了42.43%，二手销售总额远高于首次销售总额。只管目前NFT市场宏大，然而与法定资产、股权以及其余类型的资产相比，艺术品和收藏品市场的流动性还有待晋升，这也是目前困扰NFT倒退的难题。为了解决市场痛点，CROSS已着手设计和研发NFT借贷服务，所有通过CROSS拍卖胜利的NFT都能够通过抵押来借贷出CVT通证。如果NFT是证券化的数字IP，那么交易市场就表演了相似银行的角色，CROSS提供NFT借贷服务，在数字资产进行生产、交易、借贷时，还能随时追踪交易数据；凭借借贷的流动性来为NFT解决流动性问题，潜在赋能NFT，来扩充NFT市场的占比。同理，NFT能够把之前无奈变现虚构物品资产化，也是间接为CROSS减少了将来倒退的扩容点。那么。迎接CROSS的将会是一个超百亿级别的DeFi+NFT市场。欢送大家退出并关注CyberVein其余自媒体社交平台，获取最新动静！官网微博weibo.com/CyberVein官网CSDNblog.csdn.net/CyberVein官网GitHubgithub.com/CyberVein-official官网电报群t.me/CyberVeinCommunity官网推特twitter.com/cyberveingroup最新动静twitter.com/CyberVeinGroup/status/1385132534372061184

关于算法:R语言混合效应逻辑回归mixed-effects-logistic模型分析肺癌数据

原文链接：http://tecdat.cn/?p=22302 混合效应逻辑回归用于建设二元后果变量的模型，其中，当数据被分组或同时存在固定和随机效应时，后果的对数几率被建模为预测变量的线性组合。混合效应逻辑回归的例子例1：一个钻研人员对40所不同大学的申请进行抽样调查，以钻研预测大学录取的因素。预测因素包含学生的高中GPA、课外活动和SAT分数。一些学校的选择性较多或较少，所以每所学校的基准录取概率是不同的。学校层面的预测因素包含学校是公立还是私立，目前学生与老师的比例，以及学校的排名。例2：一家大型HMO想晓得哪些病人和医生的因素与病人的肺癌在医治后是否失去缓解最相干，这是一项对于肺癌病人的医治成果和生存品质的钻研的一部分。例3：一家电视台想晓得工夫和广告流动如何影响人们是否观看电视节目。他们对四个城市的人进行了为期六个月的抽样调查。每个月，他们都会询问人们在过来一周是否观看了某个节目。三个月后，他们在四个城市中的两个城市推出了一个新的广告流动，并持续监测人们是否观看了该节目。数据形容在这个例子中，咱们将应用一个模仿的数据集来探讨对于肺癌的例子。咱们收集了病人的各种后果，他们被蕴含在医生身上，而医生又被蕴含在医院里。还有一些医生层面的变量，比方咱们将在例子中应用的 "医生教训"。 within(hp, { 已婚 <- factor(已婚, levels = 0:1, labels = c("否", "是")) DID <- factor(DID) HID <- factor(HID) 癌症阶段 <- factor(癌症阶段)当初咱们要对咱们的间断预测变量进行绘图。数据的可视化能够帮忙咱们了解散布状况，发现编码谬误（例如，咱们晓得一个变量的取值范畴是0到7，但咱们在图中看到了999），并让咱们理解变量之间的关系。例如，咱们可能看到两个预测因子高度相干，于是决定只在模型中包含一个，或者咱们可能留神到两个变量之间有曲线关系。数据可视化是一种疾速、直观的形式，能够一次性查看所有这些状况。如果你的大多数预测因子看起来都是互相独立的，数据很好。例如，如果它们是独立的，当你输出另一个预测因子时，一个预测因子的估计值不应该有太大变动（只管标准误差和显著性测验可能会有）。咱们能够通过简略地查看数据来理解所有这些信息以及判断如何建模。 ggpairs(hp\[, c("IL6", "CRP", "住院工夫", "医生教训")\], 咱们的间断预测因子之间仿佛没有强的线性关系。让咱们看看咱们的变量在癌症阶段中的散布状况。因为住院工夫是以天为单位的，咱们能够用气泡图来钻研癌症阶段与它的关系。每个气泡的面积与具备这些数值的察看值的数量成正比。对于间断的预测因子，咱们应用小提琴图。所有的原始数据都按癌症阶段离开显示。咱们减少了小提琴图。小提琴图只是围绕绘图轴反映的核密度图。咱们将小提琴图绘制在具备透明度的抖动点之上，这样就能够看到原始数据。因为IL6和CRP都有偏斜散布的偏向，所以咱们在Y轴上应用了平方根刻度。散布看起来相当失常和对称，你依然能够看到长的右尾，即便应用了平方根刻度（留神，只有刻度被转移，数值自身没有被转换，这很重要，因为这让你看到并解释理论的分数，而不是分数的平方根）。 ggplot( stat_sum(aes(size = ..n.., group = 1)) + scale\_size\_area(max_size=10) ggplot(tp, + geom_jitter(alpha = .1) + geom_violin(alpha = .75) + 因为很难看到二元变量在连续变量的程度上如何变动，咱们能够反过来看看二元后果的每个程度上的连续变量的散布。 ggplot(tmp, geom_boxplot() + facet\_wrap(~variable, scales="free\_y") 分析方法上面是一个分析方法的列表：混合效应逻辑回归，是本页面的重点。混合效应probit回归与混合效应logistic回归十分类似，但它应用的是正态CDF而不是logistic CDF。两者都对二元后果进行建模，能够包含固定和随机效应。固定效应逻辑回归在这种状况下是无限的，因为它可能疏忽了必要的随机效应和/或数据中的非独立性。固定效应的probit回归在这种状况下是无限的，因为它可能疏忽了必要的随机效应或数据中的非独立性。有聚类持重标准差的Logistic回归。这些能够调整非独立性，但不容许有随机效应。有聚类持重标准差的Probit回归。这些能够调整非独立性，但不容许有随机效应。混合效应逻辑回归上面咱们应用glmer命令预计混合效应逻辑回归模型，Il6、CRP和住院工夫为患者程度的间断预测因素，癌症阶段为患者程度的分类预测因素（I、II、III或IV），教训为医生程度的间断预测因素，还有DID的随机截距，医生ID。 #预计模型并将后果存储在m中# 输入后果，固定成果之间不相干print(m, corr = FALSE) 第一局部通知咱们，估计值是基于自适应高斯-赫米特的似然性近似。为了避免出现不收敛的正告，咱们用参数control=glmerControl(optimizer="bobyqa")指定不同的优化器。下一节给咱们提供了可用于比拟模型的根本信息，接着是随机效应估计值。这示意对数尺度上截距的预计变动。如果有其余随机效应，比方随机斜率，它们也会呈现在这里。最下面的局部最初是察看值的总数和第2级察看值的数量。在咱们的案例中，这包含病人（8,525）和医生（407）的总数。最初一节是固定效应估计值的表格。这些估计值代表回归系数。这些是未标准化的，而且是在对数尺度上。估计值前面是它们的标准误差（SE）。系数预计的近似值可能比SEs的近似值稳固得更快。Wald测验，（frac{Estimate}{SE}），依赖于渐进实践，这里指的是当最高级别的单位大小收敛到无穷大时，这些测验将呈正态分布，并由此得出p值（鉴于实在估计值为0，取得察看估计值或更极其的概率）。取得置信区间（CI）。咱们能够应用SE来取得粗略的区间预计。 # 带有95％CI的预计表 cbind(Est = fixef(m), LL = fixef(m) - 1.96 * se, UL = fixef(m) + 1.96 * se)) 如果咱们须要比值比而不是对数刻度上的系数，则能够对估计值和CI求幂。多层bootstrapping（自助法）从GLMMs进行推断是很简单的。除了在每个档次（尤其是最高档次）有很多观测值的状况下，假如（frac{Estimate}{SE}）是正态分布可能不精确。人们提出了各种代替办法，包含蒙特卡洛模仿、贝叶斯预计和bootstrapping。每种办法的施行都可能很简单。咱们将重点探讨一个小的bootstrapping例子。 Bootstrapping是一种重抽样办法，就是利用无限的样本材料经由多次重复抽样，从新建设起足以代表母体样本分布的新样本。它决不是完满的，但它在概念上是间接易懂的，而且容易在代码中实现。一个毛病是，它对计算要求很高。对于大型数据集或简单的模型，每个模型的运行须要几分钟，在成千上万的样本上进行预计，很容易须要几个小时或几天。在本页的例子中，咱们应用了非常少的样本，但在实践中你会应用更多的样本。对于单层次模型，咱们能够实现简略的随机抽样，并进行替换，以进行bootstrapping。对于多层次数据，咱们心愿以与数据生成机制雷同的形式从新取样。咱们从最高级别开始从新取样，而后逐级向下。在咱们的案例中，咱们首先将从医生那里取样，而后在每个取样的医生中，咱们将从他们的病人那里取样。要做到这一点，咱们首先须要写一个函数，在每个档次上从新取样。 sample <- function(dat, cluvar) { id <- sample(cid, size = cid * reps, replace = TRUE) if (replace) { lapply(seq_along(cid), function(i) { cbind( ID = i, RowID = sample( (dat\[, cluvar\] == recid\[i\]), size = length( (dat\[, cluvar\] == recid\[i\]) ) }) } else { lapply(seq_along(cid), function(i) { cbind( ID = i, RowID = (dat\[, cluvar\] == recid\[i\])) ) } )当初，咱们将从新对数据进行取样，并采取100次反复。同样在实践中，你可能会采取数千次。咱们设置种子，以便咱们的后果能够反复。你也很可能须要比你最终想要的更多的反复样本，因为许多样本可能不收敛，所以你不能从它们那里失去预计。 tmp <- sample(hdp, "DID", reps = 100)接下来，咱们在从新取样的数据上从新拟合模型。首先，咱们存储原始模型的估计值，咱们将用它作为自助模型的起始值。而后，咱们建设一个有4个节点的本地集群。接下来，咱们导出数据并在集群上加载。最初，咱们写一个函数来拟合模型并返回估计值。对glmer()的调用被封装在try中，因为不是所有的模型都能在从新采样的数据上收敛。这样能够捕捉到谬误并返回，而不是进行解决。 makeCluster(4)clusterEvalQ(cl, require(lme4))boot <- function(i) { object <- try(glmer(缓解 ~ IL6 + CRP + 癌症阶段 + 住院工夫 subset = Replicate == i, family = binomial, if (class(object) == "try-error") return(object)}当初咱们曾经有了数据、本地集群和拟合函数的设置，咱们筹备理论进行bootstrapping了。来自所有节点的后果被汇总回一个繁多的列表，存储在对象res中。一旦实现，咱们就能够敞开本地集群，终止额定的R实例并开释了内存。 parLapplyLB(cl, X = levels(data$Replicate), fun = boot)# 敞开集群stopCluster(cl)当初咱们有了bootstrapping法的后果，咱们能够对其进行总结。首先，咱们计算胜利收敛的模型的数量。咱们能够计算胜利的平均数，以看到收敛的比例。 # 计算胜利收敛的模型的比例succ <- sapply(res, is.numeric)mean(succ )## \[1\] 1接下来咱们把疏导后果列表转换成矩阵，而后计算每个参数的2.5和97.5百分位。最初，咱们能够将后果制成表格，包含原始估计值和标准误差、均匀疏导估计值，以及bootstrap 的置信区间。 # 合并胜利的后果 do.call(cbind, res\[success\])# 计算出95%CI的2.5和97.5百分位数。 apply( res, 1，quantile, probs = c(0.025, 0.975)## 2.5% 97.5%## (Intercept) -3.61982 -0.985404## IL6 -0.08812 -0.029664## CRP -0.04897 0.006824## 癌症阶段II -0.60754 -0.228019## 癌症阶段III -1.30217 -0.754609## 癌症阶段IV -2.91414 -2.002643## 住院工夫 -0.21596 -0.046420## 医生教训 0.06819 0.207223## NewID.(Intercept) 2.03868 2.476366# 所有后果取整输入round( able, 3)## Est SE BootMean 2.5% 97.5%## (Intercept) -2.053 0.531 -2.205 -3.620 -0.985## IL6 -0.057 0.012 -0.059 -0.088 -0.030## CRP -0.021 0.010 -0.022 -0.049 0.007## 癌症阶段II -0.414 0.076 -0.417 -0.608 -0.228## 癌症阶段III -1.003 0.098 -1.043 -1.302 -0.755## 癌症阶段IV -2.337 0.158 -2.460 -2.914 -2.003## 住院工夫 -0.121 0.034 -0.142 -0.216 -0.046## 医生教训 0.120 0.027 0.128 0.068 0.207## DID.(Intercept) 2.015 NA 2.263 2.039 2.476预测的概率和绘图这些后果很适宜放在表格中或钻研文本中；然而，数字的解释可能很麻烦。图形展现有助于解释，也有助于演讲。在一个逻辑模型中，后果通常是对数几率（也叫对数），这是线性化指数化的对数几率，不在线性尺度上概率对于表格来说，人们常常出现的是几率比。对于可视化来说，对数或概率比例是最常见的。每种办法都有一些长处和毛病。对数表很不便，因为它是线性化的，这意味着一个预测因素减少1个单位，后果就会减少一个系数单位，而且无论其余预测因素的程度如何。毛病是这个量表的可解释性不强。读者很难对对数有一个直观的了解。相同，概率是一个很好的尺度，能够直观地了解后果；然而，它们不是线性的。这意味着预测因子减少一个单位，不等于概率的恒定减少--概率的变动取决于为其余预测因子抉择的值。在一般逻辑回归中，你能够放弃所有预测因子不变，只扭转你感兴趣的预测因子。然而，在混合效应逻辑模型中，随机效应也对后果产生影响。因而，如果你放弃所有不变，那么只有当所有协变量放弃不变，并且你在同一组或具备雷同随机效应的一组时，后果的概率变动才是真的。咱们将探讨一个均匀边际概率的例子。这比条件概率须要更多的工作，因为你必须为每一组计算独自的条件概率，而后将其平均化。首先，让咱们应用这里的符号来定义个别程序。咱们通过获取并将感兴趣的特定预测因子，比如说在j列，设置为常数来创立。如果咱们只关怀预测器的一个值，那就是。然而，更常见的是，咱们心愿预测因子有肯定的取值范畴，以便绘制预测概率在其范畴内的变动状况。咱们能够通过获取预测模型的察看范畴，并在该范畴内平均地抽取k个样本。例如，假如咱们的预测模型的范畴是5到10，咱们想要6个样本，，所以每个样本将与前一个样本相隔1，它们将是. 而后咱们创立不同的k个不同的Xi，其中，在每种状况下，第j列被设置为某个常数。而后咱们计算：这些是所有不同的线性预测因子。最初，咱们采取，这就失去，这是原始尺度上的条件期望，在咱们的例子中是概率。而后咱们能够取每个的期望值，并将其与咱们感兴趣的预测因子的值作比照。咱们还能够绘制图表，不仅显示均匀边际预测概率，而且还显示预测概率的散布。你可能曾经留神到，这些估计值中有很多变数。咱们在应用时，只将咱们感兴趣的预测因子放弃在一个常数，这使得所有其余预测因子都能在原始数据中取值。另外，咱们把留在咱们的样本中，这意味着有些组的代表性比其余组要高或低。如果咱们想的话，咱们能够对所有的群体进行从新加权，使其具备等同的权重。在这个例子中，咱们抉择让所有这些货色放弃原样，是基于这样的假如：咱们的样本的确是咱们感兴趣的人群的良好代表。咱们没有试图筛选有意义的值来放弃协变量（，而是应用了咱们样本的值。这也表明，如果咱们的样本能很好地代表总体，那么均匀边际预测概率就能很好地代表咱们总体中新的随机样本的概率。当初咱们有了一些背景和实践，咱们看看如何理论去计算这些货色。咱们失去一个住院工夫（咱们感兴趣的预测因子）的摘要，而后在其范畴内失去100个值，用于预测。咱们复制一份数据，这样咱们就能够固定其中一个预测因子的值，而后应用预测函数来计算预测值。默认状况下，所有的随机效应都被包含在内。 # 计算预测的概率并存储在列表中 lapply(jvalues, function(j) { predict(m, newdata = tmpdat, type = "response")当初咱们有了所有的预测概率，能够可视化它们。例如，咱们能够看一下多数不同停留时间的均匀边际预测概率。 #几种不同工夫的均匀边际预测概率 t(sapply(pp, function(x) { c(M = mean(x), quantile(x, c(0.25, 0.75))) # 退出工夫的数值并转换为数据框 as.data.frame(cbind(plotdat, values))# 显示前几行head(plotdat # 绘制均匀边际预测概率ggplot(plotdat) + geom_line() + 咱们还能够加上上限和四分位数。能够看到50%的预测概率所处的范畴。 ggplot(plotdat) + geom\_linerange( ) + geom\_line(size = 2) 除了扭转住院工夫之外，咱们还能够对癌症阶段的每一级做同样的均匀边际预测概率。 # 计算预测的概率并存储在一个列表中 lapply( 癌症阶段, function(stage) { predict(m, newdata = tmpdat, type = "response") }) # 取得每个级别的癌症阶段的所有j值的平均值和四分位数 lapply( probs, function(X) { c(M=mean(x), quantile(x, c(.25, .75))) # 放到一个数据框 do.call(rbind, plotdat2)# 增加癌症阶段 factor(rep(levels(癌症阶段 ))# 显示前几行数据head(plotdat2) # 绘制ggplot(plotdat2 ) + geom_ribbon(aes(ymin = Lower, ymax = Upper, fill = 癌症阶段), alpha = .15) + 对于一个住院10天的第四期肺癌患者，其癌症失去缓解的机会看起来相当小。看起来散布也是偏斜的。咱们能够检查一下仅针对该组的预测概率分布。 ggplot( aes(Probs)) + geom_histogram() + 即便应用平方根尺度，将较低的数值拉长，它依然是极其偏斜的。据估计，绝大多数人的病情缓解的概率不到0.1。三层混合效应逻辑回归咱们曾经深入研究了一个带有随机截距的两级逻辑模型。这是最简略的混合效应逻辑模型。当初咱们要简要地看一下如何减少第三档次和随机斜率效应以及随机截距。上面咱们预计一个三层逻辑模型，医生有一个随机截距，医院有一个随机截距。在这个例子中，医生被嵌套在医院内，也就是说，每个医生属于一家而且只有一家医院。另一种状况有时被称为 "穿插分类"，意思是一个医生可能属于多家医院，比方该医生的一些病人来自A医院，另一些来自B医院。在glmer中，你不须要指定组是嵌套还是穿插分类，R能够依据数据计算出来。 # 输入没有固定效应之间相关性的mod后果print(m3a, corr=FALSE) 输入通知咱们族（二元后果的二项式）和链接函数（logit）。接着是通常的拟合指数和随机效应的方差。在这种状况下，医生之间和医院之间的截距（在对数赔率尺度上）的变动。还显示了标准差（只是方差的平方根，而不是预计方差的标准误差）。咱们还失去了每个档次上的单位的数量。最初是固定效应。看一下条件模型的散布也是很有用的，上面咱们用“毛毛虫图”来做。蓝点是带有误差条的条件模型。咱们对医生和医院都是这样做的。例如，对于医生来说，咱们能够看到一个有点长的右尾，即极其的正值比负值多。 lattice::dotplot( (m) ))## $DID ## $HID 咱们也能够在模型中退出随机斜率。咱们只是要为 "住院工夫 "减少一个随机斜率，这个斜率在不同的医生之间变动。就像在惯例的R公式中一样，咱们应用+运算符来 "增加 "一个效应。 ...

关于人工智能:阿里云视频云编码优化的思考与发现

简介：阿里云智能视频云资深技术专家王豪此次作为 LiveVideoStackCon 2021 的讲师，与咱们分享其对编码优化的思考与发现。 *王豪_（天野）_* 阿里云智能视频云资深技术专家 2010 年毕业于华中科技大学，尔后投身多媒体方向的技术开发，从流媒体、视频编码、视频解决到品质评估均有波及，并从零开始打造了一款宽泛商用的视频编码器及其前后解决零碎。退出阿里云视频云后，负责视频编码与加强算法，团队聚焦在视频编码、视频前后解决以及品质评估方向，并重点研发演进窄带高清技术。此次作为 LiveVideoStackCon 2021 的讲师，王豪与咱们分享其对编码优化的思考与发现。 Q1.你最近关注的技术趋势？有哪些是你认为比拟有发展前景的？我集体的技术栈始终聚焦在视频编码和解决方向，也始终在思考，在这个方向上，咱们短期和长期的布局是什么，中短期布局如何保障竞争力，以及长期布局如何防止系统性踏空。利用 AI 辅助视频压缩是业界十分关注的方向，它有这几种思路： 1. 公有编码模式：端到端的视频压缩，基于深度学习的模块级视频压缩优化； 2. 基于实时图像生成的视频压缩，因为 GAN 生成人脸和人体比拟成熟，但在其余场景成熟度不够，因而这个方向在会议场景比拟火，咱们也在继续关注和尝试。 3. 基于规范编解码器的视频编码与解决联结优化，包含两局部：利用视频解决晋升编码压缩率和利用视频编码晋升视频解决成果。这其中，我最关注 “基于规范编解码器的视频编码与解决联结优化”。针对视频后处理，还有如何进行编码决策优化_（包含模式和码率）_，同时扩大到分层编码，这个方向是整个端云联结优化的外围，对工业界利用有很大价值，心愿到时候和大家一起探讨。 Q2.你已经参加上线的音视频业务，印象粗浅的一个是？印象最深的必定是当下正在做的业务。咱们团队正在进行窄带高清第二代的算法优化降级，在如何继续提画质和降码率的过程中走了很多弯路。目前，在窄带高清第二代优化中，咱们从人眼视觉登程，将主观最优转向主观最优，同时利用 AI 进行视频加强，再加上视频编码解决联结优化，使得码率节俭的同时，主观品质也显著失去优化，这项技术更适宜高热内容场景的解决，可能为客户带来更大的商业价值。什么是窄带高清？窄带高清代表的是一种老本与体验相和谐的视频服务理念，阿里云早在 2015 年就提出了 “窄带高清” 的技术概念，其是以人眼主观感触最优为基准的视频编码技术。窄带高清在业界属于内容自适应编码领域（contentadaptive encoding), 外围指标为：谋求带宽，品质，老本的最优均衡。窄带高清的技术价值？直播平台调研数据显示，只有 16% 的用户可能看到超清的视频，54% 的用户可能看到高清的视频，30% 的用户看不到高清视频。窄带高清以人眼主观感触最优为基准的视频编码，可能把超清码率往高清码率更凑近一些，让更多的人能够看到超清视频。窄带高清 1.0: 通过视频前解决晋升视频品质，实现码率节俭。窄带高清 2.0: 引入 AI 进行细节 / 色调自适应修复、加强，从人眼视觉模型登程，将视频的优化指标从经典的 “保真度最高” 调整为 “主观体验最好”，在提供更加清晰的观看体验同时节俭带宽。Q3.你此前承受 LiveVideoStack 的采访时，有探讨过视频 Codec 的将来格局：“先说论断：视频 codec 的将来格局必然是群雄争霸的场面，并且在中美贸易战的影响可能呈现新的变数。因为 HEVC 专利池的各种问题，H.264 一家独大的劣势不复存在，目前 AV1 在国外基于谷歌生态的劣势，曾经在流媒体畛域站住了脚跟，造成三强争霸的场面。对于下一代编码器而言，AV2 预计距公布还有肯定的工夫，这里先不评估，曾经公布的 AVS3 基于以后贸易战的模式下可能有新的机会，而对于 EVC 和 VVC，专利策略将是市场是否承受的关键因素，目前还不好说。” ...

关于机器学习:印度首席大法官力推-AI-进司法曾因歧视女性引争议

内容一览：随着公民法制意识的沉睡，越来越多的人抉择拿起法律的武器保卫本人的合法权益，面对堆积如山的未结案件，如何进步司法机构的效率，成为事不宜迟。原创：HyperAI超神经关键词：AI 法官司法审判智慧法庭 2018 年，印度国家转型委员会公布的报告中指出，印度地区法院、高级法院、最高法院中，沉积的未审结案件数量，曾经超过了 2900 万。依照当初印度司法体系对案件的审理速度，审结齐全部遗留案件，至多须要 324 年。但从天而降的新冠疫情使得状况进一步好转，据《印度时报》报道，截至目前，印度未审结案件数量已达 4000 万。连年减少的未结案件，让印度司法部门倍感压力。如何减速未结案的审理、晋升司法部门的审案效率，成为印度当下的重中之重。印度最高法引入 AI，重构证据收集链路本月初，印度最高法院推出了 AI 工具零碎 SUPACE，试图借助机器学习技术，高效解决案件提交时同步上交的大量数据。 !印度最高法 AI 委员会 SUPACE 发布会的邀请函 SUPACE 全称 Supreme Court Portal for Assistance in Courts Efficiency（最高法院提效部门）。目前 SUPACE 的重要性能次要依赖 NLP 技术，包含：主动从文件中提取日期、工夫等事实，定位各种问题的答案、索引和标注等。 SUPACE 使用方便，工作人员只须要将书面陈说输出零碎，就能够一键比照当事人单方的证据和矛盾叙述，并简便地查找当事人提出的重要事实和问题。 !SUPACE 劣势简介，汉化自 SUPACE 开发团队官网 twitter 据 AI 委员会颁布，在孟买和德里的高级法院中，SUPACE 工具现已利用于刑事案件的审判。除此之外，AI 委员会还在摸索在交通事故理赔案中应用 AI 技术，并为此成立了专门的负责小组。出身律师世家，曾因争议审判遭抗议SUPACE 由印度首席大法官 SA Bobde （沙拉德·阿尔温德·博布德）发动。 SA Bobde 在 1956 年出生于一个律师世家，其曾祖父、祖父、哥哥均为印度资深律师，父亲是 Maharashtra 州的法律顾问。 2013 年 4 月 12 日，时任印度中央邦高级法院首席大法官的 SA Bobde，被提拔为印度最高法院法官，开始了他在最高法院长达 8 年的履职。 ...

关于算法:PPT-下载｜泛娱乐领域音视频技术探索与实践

5G 技术大带宽、低延时、海量连贯的特点，让短视频、直播购物、游戏、音视频社交等变得更加简略，同时，互联网的倒退带来了泛娱乐畛域的多样化体验，让公众对于 AI 以及音视频的体验、参加和互动有了更高的诉求。 B站、伏羲等玩家如何将AI 以及音视频技术利用于泛娱乐产品？技术如何赋能业务以满足用户多样化的需要？ 4月10日，网易 MCtalk 和掘金 JTalk 联结举办的娱乐社交技术沙龙——“泛娱乐畛域音视频技术摸索与实际”在上海胜利举办。本次流动邀请到网易伏羲人工智能实验室资深视觉研究员袁燚、网易音视频实验室高级技术专家韩庆瑞、网易云音乐 Andiord 技术专家贺俊玮以及哔哩哔哩挪动端资深开发工程师臧至聪4位技术大咖，就泛娱乐利用在 AI 以及音视频上的技术实际，与现场百名听众交换分享。《游戏智能捏脸算法钻研与利用》袁燚网易伏羲人工智能实验室资深视觉研究员随着 AI 技术的倒退，AI 与游戏的联合模式一直新陈代谢。捏脸零碎基本上是古代 RPG 游戏的标配，它为玩家筹备了很多的管制条和选项，通过拖动管制条或者间接拖动角色面部，玩家就能够扭转相应部位的面貌从而发明出本人想要的角色了。网易伏羲人工智能实验室资深视觉研究员袁燚分享了他们的智能捏脸算法以及在顺水寒、天谕手游等网易雷火的多款游戏中落地成果。视觉计算 AI 技术可能无效改良以后游戏中角色和场景模型的制作流程和成果，大大加强玩家的参与感和沉迷感。对很多一般玩家来说，想要利用简单的游戏捏脸器去捏一个特定面貌的角色，往往须要破费十分十分多的工夫。袁燚讲述了如何利用人工智能技术赋能玩家捏脸，通过迭代优化的深度神经网络模型，让玩家实现只须要上传单张照片，就能在半秒内失去既像且美捏脸后果的成果。《网易云信视频 RTC 引擎关键技术分享》韩庆瑞网易音视频实验室高级技术专家网易云信视频团队负责人 5G 与 AI 时代已来，音视频技术继续迭代降级，网易云信也推出了全新一代音视频技术架构，对音视频全流程都做了重大降级。视频引擎作为网易云信新一代音视频外围能力模块，承当了 RTC 场景中最为重要的视频通信性能。本次流动中，网易音视频实验室高级技术专家、网易云信视频团队负责人韩庆瑞分享了网易云信新一代视频引擎架构以及其各个模块中的关键技术。他为参会者具体介绍了从摄像头采集视频到视频信息网络传输再到视频显示整个残缺过程中网易云信研发的一系列关键技术，包含网易云信高效的视频解决算法、自研的 NE264 和 NEVC 视频编码器。同时也介绍了网易云信为保障在各种网络情况下，用户都能有最佳的视频体验进行的技术摸索：智能视频 QoE 技术和高性能的 AI 超分计划的技术解读，以及以上技术的落地实际。《网易云音乐音视频翻新业务的摸索和实际》贺俊玮网易云音乐 Android 技术专家对于泛娱乐平台，音视频能力正变得越来越重要，依靠这样的根底，网易云音乐始终致力于可能提供全新的创新能力和场景，将之出现给用户。本次分享中，来自网易云音乐 Andiord 技术专家贺俊玮为咱们介绍了网易云音乐在挪动端音视频翻新业务方向的摸索，从工程优化、设计方法论、质量体系打造、线上大型上演等方面的建设，实现构建疾速高效的音视频业务。介绍了在各业务线翻新业务全面铺开中，网易云音乐基于三方SDK的原子能力构建了适宜本身状态的中台组件和脚手架，解决了多业务线的协调效率问题。此外，还构建了音视频品质评估规范和品质监控体系，以便对业务的全链路进行进一步优化。最初，整体介绍以上能力在线上大型上演实际中的落地。《Bilibili 互动弹幕引擎分享》臧至聪哔哩哔哩挪动端资深开发工程师在集体视频内容行业飞速发展的明天，用户视频体验已不是单单取决于视频内容自身。弹幕作为连贯 UP 主与用户、用户与用户的媒介，已成为与视频内容不可分割的一部分。作为 Bilibili 的“招牌”，弹幕也在 B 站一直演变，直至互动弹幕诞生。本次分享，来自 Bilibili 的资深开发工程师臧至聪，介绍了Bilibili 互动弹幕的诞生从可点的一键三连开始，后产生弹幕刷屏、弹幕投票等互动模式的产品能力化。流动中，臧至聪还具体介绍了实现互动弹幕的自研引擎，其领有跨平台的绘制引擎、对下层业务封装多端对立的 API、反对业务代码的热更新等个性，能够达到跨平台对立、晋升研发效率，以及疾速上线产品性能的成果。 ...

关于边缘计算:行业实战-5G边缘计算自由视角-让体育赛事更畅快

简介：世界本是多维的。进入5G时代，观众对多维度视觉体验的需要日益增长，5G MEC网络与边缘计算的联合，具备大带宽、低提早个性，使视频多维视觉出现成为事实。在第二十三届CUBA中国大学生篮球联赛期间，中国电信（江苏公司、云公司）、阿里云与优酷强强联合，通过5G+边缘计算+“自在视角”这项黑科技，充分发挥多角度、多细节、自在观看的特点，帮忙观众更平面地追踪球赛的精彩霎时。世界本是多维的。进入5G时代，观众对多维度视觉体验的需要日益增长，5G MEC网络与边缘计算的联合，具备大带宽、低提早个性，使视频多维视觉出现成为事实。在第二十三届CUBA中国大学生篮球联赛期间，中国电信（江苏公司、云公司）、阿里云与优酷强强联合，通过5G+边缘计算+“自在视角”这项黑科技，充分发挥多角度、多细节、自在观看的特点，帮忙观众更平面地追踪球赛的精彩霎时。视频类业务倒退至今，已不仅仅是单纯的视频内容的播放出现，观众更多的将其当作一个全新的交换媒介。为了让直播体验施展到极致，优酷与中国电信（江苏公司、云公司）、阿里云三方联结，将5G MEC网络与边缘计算技术相结合，使得自在视角直播在低延时、本地弹性化算力等方面获得巨大成功，这也是中国电信MEC和阿里云边缘计算在生产互联网场景下的首次实际落地，对后续5G+MEC在高新互动视频畛域的利用具备重大意义。所谓“自在视角”，是通过在体育场馆内盘绕部署多台摄像机，将现场采集的多路视频内容编排整合后回传至核心云或边缘节点，通过核心云或边缘节点部署的算力，将视频流做3D渲染重建，再将渲染后的视频流实时传送给观众，让观众能够在150度的范畴内随心滑动观看较量，真正实现“你的视频你做主，你就是这场球赛的导播”。说起视频直播，总是让人有种又爱又恨的感觉。视频直播带给观众的视觉体验和互动体验是传统动态文字传播媒介无奈企及的，然而视频直播中常常随同着呈现一些不那么让人欢快舒心的事件，例如延时久、卡顿、掉线、黑屏等等，这些事件从始至终都困扰着直播利用开发者。那么如此酷炫的自在视角直播又是如何造就的呢？在本次CUBA中国大学生篮球联赛直播过程中，优酷借助现场40台摄像机同步进行视频拍摄，将多路视频通过现场编码器拼合后通过 RTMP 上传给云端计算集群，通过3D重建算法实现6dof视频的生产，而后将视频经由RTMP上行到直播核心。当用户终端抉择进入6dof视频播放，边缘云通过调度服务找到间隔最近的MEC边缘计算节点，用户将直播或点播ID和用户观看视角上行到MEC边缘节点，MEC边缘节点拉取对应的6dof直播HLS流，实现下载，下载解码后，依据用户传入角度通过算法差值计算出对应角度的视频流，并通过5G网络发送给终端用户。在整个链路之中，视频的3D渲染重建依靠于中国电信（江苏公司、云公司）边缘云计算MEC与阿里云边缘计算操作系统的技术整合。以边缘计算模式实现视频数据就近云化解决，进步数据运算能力，升高对用户终端设备自身的性能依赖，进一步优化用户拜访的网络时延，更从容应对大流量、高并发的同时也能升高核心压力，更好满足如赛事直播、综艺直播、在线教育等互联网场景下大带宽、低时延的业务需要。中国电信（江苏公司、云公司）将5G网络与边缘计算MEC产品紧密结合，依靠5G网络低时延、广覆盖的个性，以及中国电信遍布区县、更凑近用户的机房，将视频数据在本地实现解决，极大升高观众观看直播的时延，更好的满足大带宽、低时延业务的需要，为观众打造了低时延、高清、极速的观看体验。为了更加无效地实现对电信MEC边缘云资源的部署、散发和调度，中国电信MEC边缘云也实现了与阿里云边缘计算操作系统的技术对接。阿里云边缘计算操作系统的引入，使得中国电信广覆盖、全程平安、能力凋谢的边缘云MEC计算能力失去更优的编排与管控，进一步优化了用户拜访的网络时延，更从容应对大流量、高并发的同时，也能升高核心节点压力，更好满足如赛事直播、综艺直播、在线教育等互联网场景下大带宽、低时延的业务需要。实际上，阿里云边缘计算操作系统，是基于阿里云的虚拟化以及网络、计算、存储、平安等方面的技术积淀，造成的一个大规模、分布式的、地位无感的、屏蔽底层资源差别、规模差别和应用差别的边缘计算平台。通过能力的凋谢以及运维联动，为下层视频利用提供丰盛的边缘中间件能力。以上两者的技术买通，使得计算无处不在，充分发挥近终端、低延时、弹性算力的价值，赋能视频行业冲破原有业务边界。 5G曾经到来，边缘计算是5G产业大规模利用的助推器。本次中国电信（江苏公司、云公司）、阿里云与优酷的三方单干，能够说买通了5G面向互联网商用之路的一道门。将来，5G边缘计算必将进一进激发视频产业翻新改革，为观众带来更加沉迷式、更震撼新鲜的视频娱乐体验；同时边缘计算将随着5G利用的推动在 S智能制作、云视频直播等一系列toB、toC畛域场景取得更宽泛的部署。版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于算法:算法笔记1快速幂

算法笔记(1)：疾速幂疾速幂（Exponentiation by squaring，平方求幂）是一种简略而无效的小算法，它能够以![[公式]](https://www.zhihu.com/equatio... 让咱们先来思考一个问题：7的10次方，怎么算比拟快？办法1：最奢侈的想法，77=49，497=343，... 一步一步算，共进行了9次乘法。这样算无疑太慢了，尤其对计算机的CPU而言，每次运算只乘上一个个位数，无疑太屈才了。这时咱们想到，兴许能够拆分问题。办法2：先算7的5次方，即77777，再算它的平方，共进行了5次乘法。但这并不是最优解，因为对于“7的5次方”，咱们依然能够拆分问题。办法3：先算77得49，则7的5次方为4949*7，再算它的平方，共进行了4次乘法。模拟这样的过程，咱们失去一个在 ![[公式]](https://www.zhihu.com/equatio... 工夫内计算出幂的算法，也就是疾速幂。递归疾速幂刚刚咱们用到的，无非是一个二分的思路。咱们很天然地能够失去一个递归方程： ![[公式]](https://www.zhihu.com/equatio... 计算a的n次方，如果n是偶数（不为0），那么就先计算a的n/2次方，而后平方；如果n是奇数，那么就先计算a的n-1次方，再乘上a；递归进口是a的0次方为1。递归疾速幂的思路十分天然，代码也很简略（间接把递归方程翻译成代码即可）： //递归疾速幂int qpow(int a, int n){ if (n == 0) return 1; else if (n % 2 == 1) return qpow(a, n - 1) * a; else { int temp = qpow(a, n / 2); return temp * temp; }}留神，这个temp变量是必要的，因为如果不把![[公式]](https://www.zhihu.com/equatio... n /2)*qpow(a, n /2)，那会计算两次![[公式]](https://www.zhihu.com/equatio... ![[公式]](https://www.zhihu.com/equatio... 。在理论问题中，题目经常会要求对一个大素数取模，这是因为计算结果可能会十分微小，然而在这里考查高精度又没有必要。这时咱们的疾速幂也该当进行取模，此时该当留神，准则是步步取模，如果MOD较大，还该当开long long。 //递归疾速幂（对大素数取模）#define MOD 1000000007typedef long long ll;ll qpow(ll a, ll n){ if (n == 0) return 1; else if (n % 2 == 1) return qpow(a, n - 1) * a % MOD; else { ll temp = qpow(a, n / 2) % MOD; return temp * temp % MOD; }}大家晓得，递归尽管简洁，但会产生额定的空间开销。咱们能够把递归改写为循环，来防止对栈空间的大量占用，也就是非递归疾速幂。 ...

关于算法:R语言用LASSOadaptive-LASSO预测通货膨胀时间序列

原文链接：http://tecdat.cn/?p=22273 动机如果你理解数据迷信畛域，你可能据说过LASSO。LASSO是一个对指标函数中的参数大小进行惩办的模型，试图将不相干的变量从模型中排除。它有两个十分天然的用处，第一个是变量抉择，第二个是预测。因为通常状况下，LASSO抉择的变量会比一般最小二乘法（OLS）少得多，其预测的方差会小得多，代价是样本中呈现大量的偏差。 LASSO最重要的特点之一是它能够解决比观测值多得多的变量，我说的是成千上万的变量。这是它最近风行的次要起因之一。实例在这个例子中，我应用最风行的LASSO，glmnet。咱们能够十分疾速地预计LASSO，并应用穿插验证抉择最佳模型。依据我的教训，在工夫序列的背景下，应用信息准则（如BIC）来抉择最佳模型会更好。它更快，并防止了工夫序列中穿插验证的一些简单问题。本文预计LASSO，并应用信息规范来抉择最佳模型。咱们将应用LASSO来预测通货膨胀。 ## == 数据分解成样本内和样本外y.in=y\[1:100\]; y.out=y\[-c(1:100)\]x.in=x\[1:100,\]; x.out=x\[-c(1:100),\]## == LASSO == ##glmnet(x.in,y.in,crit = "bic") plot(lasso) 下面的第一个图显示，当咱们减少LASSO指标函数中的惩办时，变量会归零。第二张图显示了BIC曲线和选定的模型。当初咱们能够计算预测了。 ## == 预测 == ##predict(lasso,x.out) adaptive LASSOLASSO有一个自适应版本，在变量抉择方面有一些更好的个性。请留神，这并不总是意味着更好的预测。该模型背地的想法是应用一些以前晓得的信息来更无效地抉择变量。一般来说，这些信息是由LASSO或其余一些模型预计的系数。 ## = adaLASSO = ##adalasso(x.in,y.in,crit="bic",penalty=factor)predict(adalasso, x.out) ## = 比拟误差 = ##sqrt(mean((y.out-pred.ada)^2) 在这种状况下，adaLASSO产生了一个更准确的预测。一般来说，adaLASSO比简略的LASSO的预测成果更好。然而，这不是一个相对的事实。我见过很多简略LASSO做得更好的案例。参考文献[1] Bühlmann, Peter, and Sara Van De Geer. Statistics for high-dimensional data: methods, theory and applications. Springer Science & Business Media, 2011. [2] Jerome Friedman, Trevor Hastie, Robert Tibshirani (2010). Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33(1), 1-22. URL http://www.jstatsoft.org/v33/i01/ [3] Marcio Garcia, Marcelo C. Medeiros , Gabriel F. R. Vasconcelos (2017). Real-time inflation forecasting with high-dimensional models: The case of Brazil. Internationnal Journal of Forecasting, in press. ...

关于人工智能:阿里云技术大咖分享新内容新交互时代下的新技术新机会

简介：随着 5G、云计算、人工智能的高速倒退，视频泛在化现象趁势而来，人与人、人与物、人与社会之间的内容表白状态、信息交互方式在迅速更迭。随着 5G、云计算、人工智能的高速倒退，视频泛在化现象趁势而来，人与人、人与物、人与社会之间的内容表白状态、信息交互方式在迅速更迭。阿里云视频云始终在关注和推动这样的新内容新交互时代。在此时代背景下，视频云所打造的音视频数智化能力，在一直延展新技术、发明新机会，并一直重构泛滥行业和缔造新的物种。受邀于 LiveVideoStack，阿里云视频云将在 4.16-4.17，与泛滥视频云行业搭档，一起摸索与探讨视频云的新技术、新机会、新产品、新利用。技术发明新商业深谈 “技术商业策略”疫情的风暴席卷寰球，许多公司在艰巨中寻求倒退，也有许多公司在蓬勃中站上浪尖。视频的大时代在减速到来，多媒体新技术、新产品、新利用一直爆发。在这期间，视频云暴发的弱小势能无处不在。视频云的价值在于发明了更低成本、更低门槛、更强体验、全民共享的技术普惠能力，在减速数智降级之上重构了泛滥行业，最显性的是在强力重塑教育、会议、电商、互娱、医疗、金融等行业并翻新其增长模式。将来数智化视频云会一直赋能更多行业，发明新场景、新畛域、新物种，引领行业第二增长曲线，最终将趋于倒退成为全行业通用的底层能力。阿里巴巴研究员，阿里云智能视频云业务负责人林昊（毕玄）《技术商业策略 — When We are Expanding》分享内容：视频云市场的与音视频生态的将来倒退与扭转“新内容、新交互” 的时代概念与业务价值落地资本与技术之间是怎么的关系深耕垂直畛域与扩充业务范围的均衡行业市场挑战的应答策略老本与体验的最佳和谐“阿里视频云窄带高清的优化和思考”随着以 VVC、EVC、AVS3 和 AV1 为代表的新一代视频编解码规范制订实现，面向多样化业务的既有编解码规范的软、硬件实现优化逐步成为工业热点。另一方面，应用 AI 技术来晋升传统视频编码压缩效率正沿面向人眼观看与面向机器工作的两条技术门路蓬勃发展。在该畛域，阿里云早在 2015 年就提出了 “窄带高清” 的技术概念，2016 年正式推出窄带高清技术品牌并产品化。自提出，促动整个行业开始逐渐援用该概念，造成了行业共识并一直演变至今。 “窄带高清” 代表的是一种老本与体验相和谐的视频服务理念，是以人眼主观感触最优为基准的视频编码技术。倒退至今，阿里云视频云的 “窄带高清” 引入 AI 进行细节 / 色调自适应修复、加强，凭借阿里云独特的技术算法，冲破视频编码器的能力下限，在节俭码率的同时，能提供 “主观体验最好” 的观看体验。阿里云智能视频云资深技术专家王豪（天野）《阿里视频云窄带高清的优化和思考》分享内容：窄带高清归根结底是一个压缩问题，随着深度学习的倒退，视频解决，视频生成辅助压缩成为学术界和工业界的钻研重点，在这个方向咱们的观点是什么？窄带高清的终极目标是什么？为达到这个终极目标，阿里云视频云对窄带高清技术的短期、长期思路别离是什么？为什么对窄带来讲，评估的惟一形式是主观？基于该思路，咱们在短期的停顿及对将来的布局与思考。云边端的一体化协同“基于边缘云原生的 RTC 服务架构演进”大规模的计算在本地实现，对于终端性能的要求会更加严格。基于 5G，云原生、容器、SD-WAN 等技术的倒退，咱们能够疾速地将更多的信息传输至云端进行解决，并且借助边缘计算技术分布式、低延时、智能化的个性，终端 + 云端 + 边缘的全新架构模式也将为更多新的媒体服务提供强劲的能源。随着互联网视频技术在多个行业的利用，特地是超低提早场景的倒退，RTC 云服务也在从云架构，逐渐倒退为云原生和边缘云。阿里云视频云基于云 - 边 - 端的一体化协同，将终端算力上移，云端算力下沉，在边缘造成算力交融，从而促成了 RTC 服务架构的演进。阿里云 RTC 传输网络负责人 ...

关于算法:动态规划到底有多难

动静布局到底有多难？动静布局是一个从其余行业借鉴过去的词语。它的大略意思先将一件事件分成若干阶段，而后通过阶段之间的转移达到目标。因为转移的方向通常是多个，因而这个时候就须要决策抉择具体哪一个转移方向。动静布局所要解决的事件通常是实现一个具体的指标，而这个指标往往是最优解。并且：阶段之间能够进行转移，这叫做动静。达到一个可行解(指标阶段) 须要一直地转移，那如何转移能力达到最优解？这叫布局。每个阶段形象为状态（用圆圈来示意），状态之间可能会产生转化（用箭头示意）。能够画出相似如下的图：那咱们应该做出如何的决策序列能力使得后果最优？换句话说就是每一个状态应该如何抉择到下一个具体状态，并最终达到指标状态。这就是动静布局钻研的问题。每次决策实际上不会思考之后的决策，而只会思考之前的状态。形象点来说，其实是走一步看一步这种短视思维。为什么这种短视能够来求解最优解呢？那是因为：咱们将所有可能的转移全副模仿了一遍，最初挑了一个最优解。无后向性（这个咱们前面再说，先卖个关子）而如果你没有模仿所有可能，而间接走了一条最优解，那就是贪婪算法了。没错，动静布局刚开始就是来求最优解的。只不过有的时候顺便能够求总的计划数等其余货色，这其实是动静布局的副产物。好了，咱们把动静布局拆成两局部别离进行解释，或者你大略晓得了动静布局是一个什么样的货色。然而这对你做题并没有帮忙。那算法上的动静布局到底是个啥呢？在算法上，动静布局和查表的递归（也称记忆化递归）有很多类似的中央。我倡议大家先从记忆化递归开始学习。本文也先从记忆化递归开始，逐渐解说到动静布局。记忆化递归那么什么是递归？什么是查表（记忆化）？让咱们缓缓来看。什么是递归？递归是指在函数中调用函数本身的办法。有意义的递归通常会把问题分解成规模放大的同类子问题，当子问题缩写到寻常的时候，咱们能够间接晓得它的解。而后通过建设递归函数之间的分割（转移）即可解决原问题。是不是和分治有点像? 分治指的是将问题一分为多，而后将多个解合并为一。而这里并不是这个意思。一个问题要应用递归来解决必须有递归终止条件（算法的有穷性），也就是说递归会逐渐放大规模到寻常。尽管以下代码也是递归，但因为其无奈完结，因而不是一个无效的算法： def f(x): return x + f(x - 1)下面的代码除非外界干涉，否则会永远执行上来，不会进行。因而更多的状况应该是： def f(n): if n == 1: return 1 return n + f(n - 1)应用递归通常能够使代码短小，有时候也更可读。算法中应用递归能够很简略地实现一些用循环不太容易实现的性能，比方二叉树的左中右序遍历。递归在算法中有十分宽泛的应用，包含当初日趋风行的函数式编程。递归在函数式编程中位置很高。纯正的函数式编程中没有循环，只有递归。实际上，除了在编码上通过函数调用本身实现递归。咱们也能够定义递归的数据结构。比方大家所熟知的树，链表等都是递归的数据结构。 Node { value: any; // 以后节点的值 children: Array<Node>; // 指向其儿子}如上代码就是一个多叉树的定义模式，能够看出 children 就是 Node 的汇合类，这就是一种递归的数据结构。不仅仅是一般的递归函数本文中所提到的记忆化递归中的递归函数实际上指的是非凡的递归函数，即在一般的递归函数上满足以下几个条件：递归函数不依赖内部变量递归函数不扭转内部变量满足这两个条件有什么用呢？这是因为咱们须要函数给定参数，其返回值也是确定的。这样咱们能力记忆化。对于记忆化，咱们前面再讲。如果大家理解函数式编程，实际上这里的递归其实严格来说是函数式编程中的函数。如果不理解也没关系，这里的递归函数其实就是数学中的函数。咱们来回顾一下数学中的函数：在一个变动过程中，假如有两个变量 x、y，如果对于任意一个 x 都有惟一确定的一个 y 和它对应，那么就称 x 是自变量，y 是 x 的函数。x 的取值范畴叫做这个函数的定义域，相应 y 的取值范畴叫做函数的值域。而本文所讲的所有递归都是指的这种数学中的函数。 ...

关于算法:LeetCode-001-数组一系列

数组(一)LeetCode是个很好的刷题网站，然而咱们应该怎么刷呢？自觉的刷题不仅效率不高，笼罩的知识面也十分无限，所以从明天开始我会陆续分享本人做题的路线，心愿此时在看我博客的你能有所方向，咱们一起加油！多说无益，撸起袖子开始干！内容用Java语言编写数组(一)系列题型如下数组的遍历（485）485题：最大间断 1 的个数给定一个二进制数组，计算其中最大间断 1 的个数示例：输出：[1,1,0,1,1,1] 输入：3 解释：结尾的两位和最初的三位都是间断 1 ，所以最大间断 1 的个数是 3.提醒：输出的数组只蕴含 0 和 1 。输出数组的长度是正整数，且不超过 10,000。暴力解法（MyCode）看到这类数组的遍历问题，我想到的第一个解法就是暴力解决比拟大小能够用此Math函数 max = Math.max(mid, max);或者应用三目运算 max=mid>max?mid:max; /*** max 返回间断1的最大数量* mid 两头比拟大小的介质*/class Solution { public int findMaxConsecutiveOnes(int[] nums) { int max=0,mid=0; for(int i=0;i<nums.length;i++){ if(nums[i]==1) mid++; else { if(mid>max){ max=mid; } mid=0; } } if(mid>max) max=mid; return max; }} 执行用时：2 ms, 在所有 Java 提交中击败了89.40%的用户内存耗费：40.4 MB, 在所有 Java提交中击败了5.03%的用户'双指针（Other's Code）先献上我对这个代码的思路和想法，我感觉双指针算法思路挺不错！ class Solution { public int findMaxConsecutiveOnes(int[] nums) { int n = nums.length; int ans = 0; for (int i = 0, j = 0; i < n; j = i) { if (nums[i] == 1) { while (j + 1 < n && nums[j + 1] == 1) j++; ans = Math.max(ans, j - i + 1); i = j + 1; } else { i++; } } return ans; }}统计数组中的元素(697)(442)697题：数组的度给定一个非空且只蕴含非正数的整数数组 nums，数组的度的定义是指数组里任一元素呈现频数的最大值。你的工作是在 nums 中找到与 nums 领有雷同大小的度的最短间断子数组，返回其长度。示例 1：输出：[1, 2, 2, 3, 1]输入：2解释：输出数组的度是2，因为元素1和2的呈现频数最大，均为2.间断子数组外面领有雷同度的有如下所示:[1, 2, 2, 3, 1], [1, 2, 2, 3], [2, 2, 3, 1], [1, 2, 2], [2, 2, 3], [2, 2]最短间断子数组[2, 2]的长度为2，所以返回2.示例 2：输出：[1,2,2,3,1,4,2] 输入：6 提醒：nums.length 在1到 50,000 区间范畴内。 nums[i] 是一个在 0 到 49,999 范畴内的整数。哈希表（MyCode）先介绍一下哈希表的基础知识 HashMap 是一个散列表，它存储的内容是键值对(key-value)映射。 HashMap 实现了 Map接口，依据键的 HashCode 值存储数据，具备很快的访问速度，最多容许一条记录的键为 null，不反对线程同步。 HashMap是无序的，即不会记录插入的程序。 HashMap 继承于AbstractMap，实现了Map、Cloneable、java.io.Serializable 接口。 ...

关于爬虫:从315晚会个人简历泄露谈如何防范非法数据爬取

以“提振生产，从心开始”为主题的“3·15”晚会揭发了招聘平台上的“彩色产业链”，等多家招聘平台存在重大泄露求职者简历景象，并已造成上下游产业链。依据晚会节目曝光，不法分子一方面通过企业账户获取简历，另一方面通过各种渠道批量购买简历，由此大量的个人简历信息源源不断地流入了不法分子的黑手。各地警方已破获多起相似信息泄露的案件，在其中一个嫌疑人的一块硬盘当中，存储的这种公民简历数量就有700多万条。简历不仅是个人隐私信息更是数据。通过对数据的梳理、加工、剖析、开掘，让数据蕴含的价值“活”起来，让个体的形象平面起来，不仅可能帮忙人们更好地组织和布局生产经营，更能无效地进行判断和预测。多个行业存在非法盗取数据的行为在数字化逐渐遍及的明天，数据是企业重要资产。非法爬取、盗用、盗取的爬取行为，不仅造成企业数字资产损失，带来间接的经济损失，更耗费了平台服务和带宽资源，影响业务衰弱倒退。非法盗取数据背地是歹意网络爬虫，简略来说就是一个主动抓取网络数据的程序，比方搜索引擎大量应用的就是这种技术。网络爬虫技术的难度并不高，不过技术自身也没有好坏善恶的别离，而是要看技术使用者是如何去应用：什么数据能够“爬”，什么数据不该“爬”，并且是不是在用户知情和批准的状况上来“爬”，“爬”到的数据有没有很好地加密以避免被窃取。非法盗取数据次要有以下危害：泄露用户隐衷：非法爬取政务和企业的敏感信息，造成用户隐衷数据泄露。例如，非法盗取金融机构个人信息、招聘网站简历数据、App或网站用户账号密码，而后进行转售牟利等。影响业务经营：非法爬取企业业务数据，影响业务的失常经营。例如，非法爬取航空公司的航线、航班、票务数据、哄抢高价机票进行加价倒卖等。带来资产损失：非法爬取平台独有的数据，不仅造成资产损失，用户散失，更毁坏了商业生态。例如，非法盗取视频网站内容、教育品平台课程、文学网站的小说、征询平台的报告等。非法盗取数据的几个技术特色非法盗取数据的歹意爬虫次要有以下几个特色：第一、拜访的指标网页比拟集中：爬虫次要是爬取外围信息，因而只浏览拜访几个固定页面，不拜访其余页面。第二、行为很有法则：因为爬虫是程序化操作，依照事后设定的流程进行拜访等，因而呈现出有法则、有节奏且对立的特色。第三、同一设施上有规模化的拜访和操作：爬虫的目标是最短时间内抓取最多信息，因而同一设施会有大量离散的行为，包含拜访、浏览、查问等。第四、拜访起源IP地址异样：爬虫的IP起源地址出现不同维度上的汇集，而且浏览、查问、购票等操作时不停变换IP地址。第五、频繁应用模仿浏览器和频繁应用代理IP：很多爬虫程序伪装成浏览器进行拜访，比方在程序头或者UA中默认含有相似python-requests/2.18.4等固定字符串；并且通过购买或者租用的云服务、革新路由器、租用IP代理、频繁变更代理IP等进行拜访。第六、操作多集中非业务时间段：爬虫程序运行工夫多集中在无人值守阶段。此时系统监控会放松，而且平台的带宽等资源占用少，爬虫密集的批量爬取不会对带宽、接口造成影响。企业如何防备非法盗取数据防备非法盗取数据的要害就是无效分别爬虫行为，进而及时阻断拦挡。传统的进攻伎俩是通过IP和验证码进行限度，然而这两类伎俩有十分大的局限性。通过IP地址进行限度：当同一IP、同一电脑在肯定工夫内拜访网站的次数，零碎主动限度其拜访浏览等。然而，封禁IP的伎俩可能误伤实在用户，而且“爬虫”幕后的运营者随时可用购买或者租用的云服务、革新路由器、租用IP代理、频繁变更代理IP等办法绕过封禁的规定。通过验证码进行限度：当某一用户拜访次数过多后，就主动让申请跳转到一个验证码页面，只有在输出正确的验证码之后能力持续拜访网站。然而设置简单的验证码会影响用户操作，给客户体验带来负面作用。顶象反爬解决方案提供动静策略的纵深防护，防止歹意爬虫的单点绕过，提供多维度进攻，无效拦挡各种歹意爬虫危险，且不影响失常用户体验。以某航空公司为例。在部署顶象反爬解决方案后，该航空公司的B2C平台上99%的歹意爬虫申请被间接拦挡，失常用户拜访占比进步至90%，拜访效率进步10倍以上，用户体验满意度回升21%，每年为航空公司节俭89%的查问开销。顶象是一家以大规模危险实时计算技术为外围的业务平安公司，已帮忙1400多家企业构建自主可控的危险平安体系，实现业务可继续的增长。

关于算法:R语言用主成分PCA-逻辑回归决策树随机森林分析心脏病数据并高维可视化

原文链接：http://tecdat.cn/?p=22262 在探讨分类时，咱们常常剖析二维数据（一个自变量，一个因变量）。但在理论生存中，有更多的察看值，更多的解释变量。随着两个以上的解释变量，它开始变得更加简单的可视化。数据咱们应用心脏病数据，预测急诊病人的心肌梗死，蕴含变量：心脏指数心搏量指数舒张压肺动脉压心室压力肺阻力是否存活其中咱们有急诊室的察看后果，对于心肌梗塞，咱们想理解谁存活下来了，以失去一个预测模型。然而在运行一些分类器之前，咱们先把咱们的数据可视化。主成分PCA因为咱们有7个解释变量和咱们的因变量（生存或死亡），咱们能够去做一个PCA。 acp=PCA(X) 增加死亡生存变量，就把它当作数字0，1变量。是否存活= 是否存活=="存活")*1 后果不错，咱们看到因变量与局部自变量是同向的。也能够可视化样本和类别 plot(cp ) 咱们能够在这里推导出一个不错的分类器。至多，在前两个成分上投影时，咱们能够看到咱们的类别。当初，咱们不能在前两个主成分上失去一个分类器并将其可视化吗？因为PCA是简略的基于正交投影的，所以咱们能够（这里的数据是标准化的）。给定前两个重量立体上的两个坐标，给定咱们的变换矩阵、归一化重量和一个分类器（这里是基于逻辑回归），咱们能够回到原始空间，并对新数据进行分类。 PCA(X,ncp=ncol(X))function(d1,d2,Mat,reg){ z=Mat %*% c(d1,d2,rep(0,ncol(X)-2)) newd=data.frame(t(z*s+m))pred(reg, newd } 逻辑回归当初思考一个逻辑回归。只是为了简化（去掉非显著变量），咱们应用一个逐步回归的程序来简化模型。 reg_tot=step(glm(是否存活~. ,family=binomial)) 可视化等概率线(如集体有50%的生存机会)应用以下 xgrid=seq(-5,5,length=25 )ygrid=seq(-5,5,length=25 )zgrid=ter(xgrid,ygrid,p)而后，咱们在之前的图形上增加一条等高线 PCA(data,quali.sup=8 )contour( zgrid ) 后果不差，但咱们应该能够做得更好。如果咱们把所有的变量都保留在这里（即便它们不重要），会怎么样呢？ glm(是否存活~., family=binomial) contour(xgrid,ygrid,zgrid ) 在现实生活中，要想真正说出咱们的分类器的一些相干信息，咱们应该在观测值的一个子集上拟合咱们的模型，而后在另一个子集上测试它。在这里，咱们的指标更多的是在某个投影空间上失去一个函数来可视化咱们的分类。决策树默认分类树 > plot( re,type=4,extra=6) 咱们能够在此更改选项，例如每个节点的最小察看数 rpart(factor(是否存活)~ ,+ control=rpart.control(minsplit=10)) 或者 rpart( + control=rpart.control(minsplit=5)) 要将该分类可视化，取得前两个成分的投影 > p=function(d1,d2) pred2(d1,d2 )> zgrid=Outer(xgrid,ygrid,p) PCA( quali.sup=8,graph=TRUE)> image(xgrid,ygrid,zgrid )> contour(xgrid,ygrid,zgrid,add=TRUE,levels=.5) 也能够思考这种状况 rpart( control=rpart.control(minsplit=5)) 最初，咱们还能够生成更多的树，通过采样取得。这就是bagging的概念：咱们boostrap 观测值，成长一些树，而后，咱们将预测值进行汇总。在网格上 > for(i in 1:1200){+ indice = sample(1:nrow(MYOCARDE), + arbre_b = rpart(factor(是否存活)~.,+}>Zgrid = Z/1200可视化随机森林最初，能够应用随机森林算法。 > fore= randomForest(factor(是否存活)~.,> pF=function(d1,d2) pred2(d1,d2,Minv,fore)> zgridF=Outer(xgrid,ygrid,pF)PCA(data,.sup=8,graph=TRUE)> image(xgrid,ygrid,Zgrid,add=TRUE,> contour(xgrid,ygrid,zgridF, 最受欢迎的见解 1.从决策树模型看员工为什么到职 2.R语言基于树的办法：决策树，随机森林 3.python中应用scikit-learn和pandas决策树 4.机器学习：在SAS中运行随机森林数据分析报告 5.R语言用随机森林和文本开掘进步航空公司客户满意度 6.机器学习助推快时尚精准销售工夫序列 7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用 8.python机器学习：举荐零碎实现（以矩阵合成来协同过滤） 9.python中用pytorch机器学习分类预测银行客户散失

关于人工智能:1-秒钟打造智能化视频内容生产利器

简介：视频云大赛——优酷 MEDIA AI 算法挑战赛冠军计划分享视频指标宰割是目前视频算法畛域的前沿话题，越来越多的利用在了各个行业场景里。本次由英特尔与阿里云联结举办、与优酷策略单干的 “新内容新交互 “寰球视频云翻新挑战赛算法赛道，也将眼光聚焦于这一个畛域。大赛自开赛以来，曾经吸引了 2000 多支队伍参赛，汇聚了寰球算法精英。本文将以 “Media AI 阿里巴巴娱乐算法挑战赛” 为例，精选出由优酷人工智能部算法团队提出的冠军计划，为本届大赛选手提供胜利的参赛教训和技术解读。除传统宰割算法须要解决的视角光照变动、指标尺度变动、指标间遮挡等难点之外，面向视频智能生产的人物宰割算法还须要关注如下非凡难点：视频场景内容丰盛多样：要求算法在简单背景烦扰下正确挖掘场景显著配角简单衣着 / 手持 / 附属物：要求算法充沛形容指标丰盛和简单的外观语义指标人物疾速激烈动作：要求算法解决静止含糊、激烈形变带来的误宰割、漏宰割 Media AI 大赛的数据集面向高精度 - 实例级 - 视频人物宰割工作，提供了 1700 段逐帧精密标注视频数据，其中初赛和复赛各 800 段训练集和 50 段测试集，对上述难点都有体现。相比于学术 / 工业界规范的 DAVIS 和 YouTube-VOS 数据集，本数据集含有业界最多人体指标标注标签（18 万帧，30 万标注人体指标），且在标注精度、内容广度等方面均处于行业领先地位。这次数据库依靠优酷站内海量资源，囊括古装剧集、古代剧集、街拍、街舞、静止（跑酷、球类、健身）等丰盛内容，更加合乎智能化视频内容生产的事实需要。通过精细化人工标注，数据集真值掩码图精准勾画视频人物的边缘细节，为训练以及测试宰割算法的准确性和精确性提供了根据。此外，该数据集还针对人物手持物 / 附属物进行了标注，有助于算法对人物与物品从属关系进行学习。冠军计划算法详解在初赛阶段，优酷人工智能部算法团队以 STM（Video Object Segmentation using Space-Time Memory Networks）为根底，进行了彻底的模型复现和以及算法改良。在复赛阶段，以初赛半监督模型为骨干，配合以指标检测、显著性判断、关键帧抉择等模块，实现高精度无监督视频宰割链路。监督视频人物宰割半监督 VOS 的工作指标是在给定第一帧物体掩码的前提下，将该物体在后续帧中间断宰割进去。 1 根本框架提出 Spatial Constrained Memory Reader 以解决 STM 空间连续性有余问题首先 STM 在像素匹配时是基于外观的匹配，没有思考物体在相邻两帧之间空间上的连续性。换言之，STM 会寻找与后面帧中外观类似的物体，但对该物体呈现在何地位不敏感。因而，当一帧中呈现多个外观类似物体时，STM 的宰割后果就有可能产生谬误。 ...

关于算法:R语言进行数据结构化转换BoxCox变换凸规则变换方法

原文链接：http://tecdat.cn/?p=22251线性回归时若数据不遵从正态分布，会给线性回归的最小二乘预计系数的后果带来误差，所以须要对数据进行结构化转换。在探讨回归模型中的变换时，咱们通常会简略地应用Box-Cox变换，或部分回归和非参数估计。这里的要点是，在规范线性回归模型中，咱们有然而有时候，线性关系是不适合的。一种想法能够是转换咱们要建模的变量，而后思考这就是咱们通常应用Box-Cox变换进行的操作。另一个想法能够是转换解释变量，例如，咱们有时会思考间断的分段线性函数，也能够思考多项式回归。 “凸规定”变换“凸规定”(_Mosteller_. F _and_ _Tukey_, J.W. (1978). _Data_ _Analysis_ _and_ _Regression_)的想法是，转换时思考不同的幂函数。 1.“凸规定”为纠正非线性的可能变换提供了一个终点。 2 .通常状况下，咱们应该尝试对解释变量进行变换，而不是对因变量Y进行变换，因为Y的变换会影响Y与所有X的关系，而不仅仅是与非线性关系的关系 3.然而，如果因变量是高度歪斜的，那么将其转换为以下变量是有意义的更具体地说，咱们将思考线性模型。依据回归函数的形态（上图中的四个曲线，在四个象限中），将思考不同的幂。例如让咱们生成不同的模型，看看关联散点图。 > plot(MT(p=.5,q=2),main="(p=1/2,q=2)")> plot(MT(p=3,q=-5),main="(p=3,q=-5)")> plot(MT(p=.5,q=-1),main="(p=1/2,q=-1)")> plot(MT(p=3,q=5),main="(p=3,q=5)") 如果咱们思考图的左下角局部，要失去这样的模式，咱们能够思考或更个别地其中和都大于1.并且越大，回归曲线越凸。让咱们可视化数据集上的双重转换，例如cars数据集。 > tukey=function(p=1,q=1){+ regpq=lm(I(y^q)~I(x^p) )+ u=seq(min(min( x)-2,.1),max( x)+2,length=501)+ polygon(c(u,rev(u)),c(vic\[,2\],rev(vic\[,3\]))^(1/q)+ lines(u,vic\[,2\]^(1/q)+ plot(x^p, y^q )+ polygon(c(u,rev(u))^p,c(vic\[,2\],rev(vic\[,3\])) )+ lines(u^p,vic\[,2\])例如，如果咱们运行 > tukey(2,1)咱们失去如下图，左侧是原始数据集，右侧是通过转换的数据集，其中有两种可能的转换。在这里，咱们只思考了汽车速度的平方（这里只变换了一个重量）。在该转换后的数据集上，咱们运行规范线性回归。咱们在这里增加一个置信度。而后，咱们思考预测的逆变换。这条线画在右边。问题在于它不应该被认为是咱们的最佳预测，因为它显然存在偏差。请留神，在这里，有可能思考另一种形态雷同但齐全不同的变换 > tukey(1,.5) Box-Cox变换当然，也能够应用Box-Cox变换。此外，还能够寻求最佳变换。思考 > for(p in seq(.2,3,by=.1)) bc=cbind(bc,boxcox(y~I(x^p),lambda=seq(.1,3,by=.1))$y)> contour(vp,vq,bc) 色彩越深越好（这里思考的是对数似然）。最佳对数在这里是 > bc=function(a){p=a\[1\];q=a\[2\]; (-boxcox(y~I(x^p),data=base,lambda=q)$y\[50\]> optim(bc,method="L-BFGS-B") 实际上，咱们失去的模型还不错，最受欢迎的见解 1.用R语言模仿混合制排队随机服务排队零碎 2.R语言中应用排队论预测等待时间 3.R语言中实现马尔可夫链蒙特卡罗MCMC模型 4.R语言中的马尔科夫机制转换(Markov regime switching)模型 5.matlab贝叶斯隐马尔可夫hmm模型 6.用R语言模仿混合制排队随机服务排队零碎 7.Python基于粒子群优化的投资组合优化 8.R语言马尔可夫转换模型钻研交通伤亡人数事变预测 9.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

关于算法:Montgomery算法原理及Python实现

Montgomery算法原理及Python实现论文原文：Modular Multiplication Without Trial Division 用处：当a，b，N很大时，减速计算a*b(modN) 一、步骤将a，b映射到Montgomery域内：$$a'=aR(modN),b'=bR(modN)$$ 此处的$R=2^k>N$，令$X=a'b'=abR^2(modN)$ Montgomery约简：$$Input:X\\Output:X/R$$ 约简1次：$X=abR^2(modN)$ -> $X/R=abR(modN)$ 约简2次：$X=abR(modN)$ -> $X/R=ab(modN)$ X/R是不能够间接除的，因为X的低k位很可能不都为0。因而心愿有一个数m使得 $$X+mN=0(modR)$$ 由拓展的欧几里得算法能够解出以下方程的一组特解： $$RR'-NN'=gcd(R,N)$$ 对上述两个公式进行推导，就能够失去m的计算方法： $$XN'+mNN'=0(modR)\\XN'+m(RR'-gcd(R,N))=0(modR)\\XN'=m*gcd(R,N)(modR)\\m=XN'/gcd(R,N)(modR)$$ 蒙哥马利算法限度$gcd(R,N)=1$，接着 $$X+mX=X+XNN'(modR)=X+(XN'(modR))N\\(X+mX)/R=(X+(XN'(modR))N)/R$$ 二、减速的起因：变乘除为移位以下运算将被大大简化： $$aR=a<<k\\bR=b<<k\\(X+mN)/R=(X+mN)>>k$$ 1次蒙哥马利算法中，进行了2次对N取模，2次对R取模。三、Python实现申明：上面的代码来自GitHub，原作者是LivingLeopold import mathdef get_gcd(a,b): if a%b == 0: return b else : return get_gcd(b,a%b)def get_(a, b): if b == 0: return 1, 0 else: k = a // b remainder = a % b x1, y1 = get_(b, remainder) x, y = y1, x1 - k * y1 return x, ydef Multiplicative_inverse_modulo( a , b ): if b < 0: m = abs(b) else: m = b flag = get_gcd(a, b) if flag == 1: x, y = get_(a, b) x0 = x % m return x0 else: print("Error!") exit()print('To calculate a * b ( mod N ),')a , b , N = eval(input('Please input a , b , N (Like 68,57,109)：'))R = 2**(int(math.log2(N)+1))N1 = Multiplicative_inverse_modulo( N , R )N2 = R-N1a_ =( a * R ) % Nb_ =( b * R ) % Nc_ =((( a_ * b_ ) + ((( a_ * b_ ) * N2 ) % R ) * N )/ R ) % Nc = int(((c_ + ( c_* N2 ) % R * N ))/R)print( str(a) + ' * ' + str(b) + ' ( mod ' + str(N) +' ) = ' + str(c))参考文献[1] 高效幂模算法探索：Montgomery算法解析[2] 蒙哥马利算法详解[3] 蒙哥马利算法约简、模乘、幂模[4] 欧几里得算法&辗转相除法，百度百科[5] 拓展的欧几里得算法[6] RSA大数运算实现（1024位n）（5）蒙哥马利模幂[7] Python代码实现蒙哥马利算法 ...

关于机器学习:6种常见的地标识别算法整理和总结

摘要：地标辨认，基于深度学习及大规模图像训练，反对上千种物体辨认及场景辨认，广泛应用于拍照识图、幼教科普、图片分类等场景。本文将为大家带来6种对于地标识的算法整顿和总结。本文分享自华为云社区《地标辨认算法》，原文作者：阿杜。地标辨认，基于深度学习及大规模图像训练，反对上千种物体辨认及场景辨认，广泛应用于拍照识图、幼教科普、图片分类等场景。本文将为大家带来6种对于地标识的算法。一、《1st Place Solution to Google Landmark Retrieval 2020》算法思路： Step1：应用荡涤过的GLDv2数据集训练初始embedding模型。Step2：应用全量GLDv2数据基于Step1失去的模型进行迁徙学习。Step3：逐渐扩充训练图片的尺度（512512，640640，736*736），模型性能失去进一步晋升。Step4：减少荡涤后的数据的训练loss权重，进一步训练模型。Step5：模型交融。 Notes： 1、Backbone模型为Efficientnet+global average pooling，训练应用了cosine softmax loss。2、为了解决类别不平衡问题，应用了weighted cross entropy。经验总结： 1、荡涤后的数据有利于模型疾速收敛。2、全量大数据集有利于模型学习到更好的特色示意。3、减少训练分辨率能晋升模型性能。二、《3rd Place Solution to “Google Landmark Retrieval 2020》算法思路： Step1：应用CGLDv2训练根底模型用于提取GLDv2全量图片特色，应用DBSCAN聚类办法更新图像类别，进行数据荡涤。Step2：应用了Corner-Cutmix的图像增广办法，进行模型训练。Notes：1、backbone为ResNest200和ResNet152，GAP池化，1*1卷积降维到512维，损失函数为cross entropy loss。三、《Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval》算法思路： Step1：应用CNN特色进行KNN搜寻，获取类似图片。Step2：插入Step1脱漏的图片进行从新排序。 Notes： 1、Backbone模型为ResNet-101+Generalized Mean (GeM)-pooling，训练loss为ArcFace loss。2、应用全局特色+部分特色对GLd-v2数据集进行荡涤，用于后续模型训练。四、《2nd Place and 2nd Place Solution to Kaggle Landmark Recognition and Retrieval Competition 2019》算法思路： 1、应用GLD-v2全量数据别离训练Resnet152、ResNet200等模型，训练loss为ArcFace loss、Npairs loss，拼接各个backbone的特色，应用PCA降到512维，作为图像的全局特色。2、应用全局特色进行KNN搜寻，对搜寻后果应用SURF、Hassian-Affine 和root sift部分特色进行再排序，并且应用了DBA和AQE。五、《Detect-to-Retrieve: Efficient Regional Aggregation for Image Search》 ...

关于算法:基于残差收缩网络的时间序列分类算法

工夫序列数据容易受到噪声的扰动而失去意义，所以可能对工夫序列中的噪声进行解决将会对分类精度产生重要影响[1]。残差膨胀网络[2]是一种面向强噪、高冗余数据的分类算法，本来是由M. Zhao在文献[2]首次提出的。 [1]张雅雯. 基于残差网络的工夫序列分类算法钻研[D].北京交通大学,2020.[2]M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020.[3]https://github.com/zhao62/Deep-Residual-Shrinkage-Networks

关于算法:基于深度残差收缩网络的鲁棒通信辐射源个体识别

近年来，己经有越来越多的钻研人员尝试在通信辐射源个体辨认畛域引入基于深度学习的辨认算法，并且在信号参数已知、待辨认样本污浊的理想实验环境中获得了肯定问题。但在实在场景中，因为信号接管环境的变动、接管零碎模式的扭转等因素导致待辨认的数据具备不确定性，信号样本的信噪比变低就是一种典型的数据不确定的演变场景。大多数深度学习模型在上述数据演变场景中难以提取到信号真正具备判断性的特色，其辨认后果将变得不再牢靠。因而，基于深度学习的辐射源个体辨认算法目前依然难以取代依赖专家教训的传统信号剖析算法，前者在理论利用中更多作为一个辅助的分类器呈现[1]。深度残差膨胀网络（Deep Residual Shrinkage Networks）整体架构如图2.1所示。DRSN次要分为三个模块：信号加噪模块、残差膨胀滤波模块以及全连贯降维模块。深度残差膨胀网络[2-3]是一种本来利用在故障诊断畛域的深度学习办法，次要实用于噪声较强的状况。 [1] 宋雨萱. 演变深度学习钻研与通信信号辨认利用[D]. 西安电子科技大学, 2020. [2] M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020. [3] 代码：https://github.com/zhao62/Dee...

关于区块链:HecoCROSS第四期盲盒游戏收官41666HecoCVT拍下价值05BTC盲盒大奖

Heco&CROSS推出Mystery Box盲盒机制，采取“博弈论+盲盒”形式来丰盛目前市场上NFT拍卖模式。每周五举办一期，并依据NFT作品品质、合作方提供的资金反对、以及市场预期进行每期盲盒处分的调整。第四期盲盒流动介绍NFT数量减少：盲盒拍卖NFT作品新增9副，均由出名NFT艺术家池磊创作反对CVT交易：本次流动反对Heco-CVT进行出价，盲盒大奖为0.6BTC等值的Heco-CVT盲盒处分减少：盲盒处分增至0.6BTC，并调配至任意两个盲盒内，中奖率为22%NFT价值降级：获拍的NFT将能够间接用于CROSS平台的NFT借贷服务中。第四期盲盒艺术家与NFT介绍艺术家：池磊池磊是当今中国最具影响力的80后新锐艺术家之一，也是加密数字畛域知名度极高的NFT艺术家，全网领有数百万粉丝数。池磊被誉为亚洲顶级商业艺术家，跨界单干如宝格丽、MCM、newbalance、starter、diesel、天猫、京东、大众汽车、Absolute vodka、budweiser百威、Max & Co. 飞驰汽车、奥迪汽车、三星电子等近百个国内知名品牌。此前，Heco&CROSS的第一、二期盲盒NFT均由池磊创作。 NFT：《重返街头系列》9副NFT《重返街头系列》由出名艺术家池磊创作，是其泛滥艺术作品系列中的重要作品，曾在美国波特兰、法国阿尔勒、澳大利亚悉尼、日本东京、韩国首尔、釜山、中国香港等寰球多个艺术空间及展馆展出，并被澳洲白兔美术馆、中国香港M+博物馆、中国上海摄影艺术核心等出名艺术展馆珍藏。该系列作品还作为Art Beijing 2021受邀作品加入展出，原画作将于2021秋拍现场进行拍卖。第四期盲盒综合数据首轮竞拍——14：00，9副NFT《Back To Street》No.1-No.9的最终获拍价别离是13,000、15,900、19,555、11,000、14,400、15,900、15,000、134,00、13000Heco-CVT，最终获拍成交价为131,155 Heco-CVT，获拍地址可自由选择关上NFT内置盲盒或进行转拍。期间CROSS累计总拜访人数达21,168，竞拍总金额279,557Heco-CVT。转拍数据——NO.1、NO.2、NO.3、NO.4、No.5、No.6、No.9的NFT与内置盲盒均已被获拍者发动二次转拍，其中No.2盲盒在第3次转拍后被胜利开中,买家取得0.1BTC等值的Heco-CVT大奖，获拍价为19,200 Heco-CVT。其中，NO.1、NO.4、NO.5和NO.6被转拍超过5次。结拍数据——19:00前，内置0.5BTC等值Heco-CVT大奖的盲盒的NFT No.6被关上，最终获拍价为41,666Heco-CVT。9副NFT从NO.1-NO.9的最终成交价别离是23,000、19,000、28,000、41,000、20,000、41,666、15,000、13,400、44,500Heco-CVT，综合成交价为245,566Heco-CVT（76,125美元）。最终数据——本次CROSS盲盒流动期间总拜访地址数37,728，累计出价金额达531,623Heco-CVT，近17万美元，单次流动交易量超100万RMB。出价失败的Heco-CVT取回流程： step 1：关上“集体核心” step 2：抉择“拍卖” step 3：抉择“已完结”，抉择出价失败过的NFT step 4：点击“取回”，此过程会领取极少的Heco - HT作为交易GAS 对于Heco&CROSS盲盒流动Mystery Box流动规定和流程如下： step 1：每周一至三进行全网自行投稿至prteam@cybervein.org； step 2：每周四颁布本周入选的艺术家和NFT作品，开启全网预热； step 3：每周五启动，采纳盲拍形式进行竞价； Step 4：NFT均配置一个盲盒，获拍者可抉择关上盲盒查看是否中奖，也可抉择转拍该NFT； Step 5：获拍的NFT能够间接用于CROSS平台的NFT借贷服务中。欢送退出Heco&CROSS盲盒流动 Heco & CROSS以加密艺术品为切入口，最先上线了加密艺术品的NFT板块，始终以来保持原创和保卫版权，广邀寰球各地的艺术家退出咱们，可自行投稿至prteam@cybervein.org，提供优质、多元化、有价的艺术品！如果你对本次流动还存在疑难或者有想理解的，能够增加中国区官网经营号CV小姐姐的微信（微信号：cyberveincvt）理解更多。同时，咱们也很期待宽广用户能对Mystery Box提供贵重的倡议和反馈，欢送大家在本文留言！欢送大家退出并关注CyberVein其余自媒体社交平台，获取最新动静！官网微博 weibo.com/CyberVein 官网CSDN blog.csdn.net/CyberVein 官网GitHub github.com/CyberVein-official 官网电报群 t.me/CyberVeinCommunity 官网推特 twitter.com/cyberveingroup 最新动静 twitter.com/CyberVeinGroup/status/1382606554977816581

关于算法:streamlit算法工程师快速编写demo的利器

本文首发于：行者AI在工作当中，算法工程师常常须要疾速编写一些演示demo，例如疾速演示一些算法，或者须要编写数据标注的工具等。常见的实现形式是算法工程师试用flask等框架编写api，再由前端工程师编写相干的网页调用api。这样毫无疑问是十分耗时，效率低下的。然而，应用streamlit框架就能够疾速搭建demo页面，算法工程师只应用python语言就能够编写比拟精美的demo页面。streamlit框架外部负责解决网页的渲染工作，算法工程师将重点放在算法的流程方面就好。框架装置streamlit框架的装置非常简单，应用pip就能够装置： pip install streamlit装置实现之后，能够应用命令进行版本验证： streamlit --version在这篇文章当中，我会用一个理论工作中的例子简略介绍streamlit框架的应用流程。我的项目筹备Collaborative-Distillation是一个反对高分辨率的图像风格化计划，该模型的输出是格调图片以及待处理的图片，输入是风格化之后的图片。在这个代码仓库当中，咱们须要应用比较复杂的命令行命令来进行风格化操作： # use original VGG-19, normal imagesCUDA_VISIBLE_DEVICES=0 python WCT.py --debug --mode original# use original VGG-19, ultra-res imagesCUDA_VISIBLE_DEVICES=0 python WCT.py --debug --mode original --UHD# use our pruned VGG-19, normal imagesCUDA_VISIBLE_DEVICES=0 python WCT.py --debug --mode 16x# use our pruned VGG-19, ultra-res imagesCUDA_VISIBLE_DEVICES=0 python WCT.py --debug --mode 16x --UHD# If your RAM cannot afford some large images, you can change the content and style size via '--content_size' and '--style_size'CUDA_VISIBLE_DEVICES=0 python WCT.py --debug --mode 16x --UHD --content_size 3000 --style_size 2000然而这样的操作对于用户来说相当简单，所以咱们能够应用streamlit编写一个demo页面，不便用户应用。 ...

关于算法:R语言用Copulas模型的尾部相依性分析损失赔偿费用

原文链接：http://tecdat.cn/?p=22226 两个随机变量之间的相依性问题备受关注,相依性(dependence)是反映两个随机变量之间关联水平的一个概念。它与相关性(correlation)有区别，罕用的相关性度量是Pearson相关系数,它只度量了两个随机变量之间的线性关系,其值不仅依赖于它们的Copula函数,而且还依赖它们的边缘散布函数。直观地说,Copula函数就是两个(或多个)随机变量的联结散布能够示意为它们的边缘散布函数的函数,这个函数就是Copula函数,它与随机变量的边缘散布没有关系,所反映的是两个(多个)随机变量之间的“构造”,这种构造蕴含了两个随机变量相依性的全副信息。 Joe(1990)尾部相依性指数Joe(1990)提出了一个(强)尾部相依性指数。例如，对于下尾，能够思考也就是高低尾(教训)相依性函数咱们的想法是绘制下面的函数。定义下尾对上尾来说，其中是与，相依的生存copula ，即其中当初，咱们能够很容易地推导出这些函数的教训对应关系，即：因而，对于上尾，在左边，咱们有以下图形而对于下尾，在右边，咱们有损失赔偿数据 Copula函数在经济、金融、保险等畛域有宽泛的利用.早在1998年Frees和Valdez(1998)钻研了索赔额与管理费之间的关系,采纳了Copula函数对其进行刻画并利用于保费的定价。对于代码，思考一些实在的数据，比方损失赔偿数据集。损失赔偿费用数据有1,500个样本和2个变量。这两栏蕴含赔偿金付款(损失)和调配的损失调整费用(alae)。后者是与解决索赔相干的额定费用（如索赔考察费用和法律费用）。咱们的想法是，在右边绘制下尾函数，在左边绘制上尾函数。当初，咱们能够将这个图形，与一些具备雷同Kendall's tau参数的copulas图形进行比拟高斯copulas如果咱们思考高斯copulas 。 > copgauss=normalCopula(paramgauss)> Lga=function(z) pCopula(c(z,z),copgauss)/z> Rga=function(z) (1-2*z+pCopula(c(z,z),copgauss))/(1-z)> lines(c(u,u+.5-u\[1\]),c(Lgs,Rgs) Gumbelcopula或Gumbel的copula。 > copgumbel=gumbelCopula(paramgumbel, dim = 2)> lines(c(u,u+.5-u\[1\]) 置信区间然而因为咱们没有任何置信区间，所以依然很难得出结论(即便看起来Gumbel copula比Gaussian copula更适宜)。一个策略能够是从这些copula曲线中生成样本，并可视化。对于高斯copula曲线 > nsimul=500> for(s in 1:nsimul){+ Xs=rCopula(nrow(X),copgauss)+ Us=rank(Xs\[,1\])/(nrow(Xs)+1)+ Vs=rank(Xs\[,2\])/(nrow(Xs)+1)+ lines(c(u,u+.5-u\[1\]),MGS\[s,\],col="red")包含–逐点–90%的置信区间 > Q95=function(x) quantile(x,.95)> lines(c(u,u+.5-u\[1\]),V05,col="red",lwd=2)高斯copula曲线 Gumbel copula曲线只管统计收敛的速度会很慢，评估底层的copula 曲线是否具备尾部相依性简略。尤其是当copula 曲线体现出尾部独立性的时候。比方思考一个1000大小的高斯copula 样本。这是咱们生成随机计划后失去的后果。或者咱们看一下右边的尾巴(用对数比例) 当初，思考10000个样本。在这些图上，如果极限是0，或者是某个严格的正值，是相当难以判定的（同样，当感兴趣的值处于参数的反对边界时，这是一个经典的统计问题）。所以，一个简略的想法是思考一个较弱的尾部相依指数。 === _Ledford_ 和_Tawn(1996)_尾部相关系数形容尾部相依性的另一种办法能够在Ledford & Tawn（1996）中找到。假如和具备雷同的散布。当初，如果咱们假如这些变量是（严格）独立的。但如果咱们假如这些变量是（严格的）同枯燥性的（即这里的变量是相等的，因为它们有雷同的散布），则所以，有这样一个假如：那么a=2能够解释为独立性，而a=1则示意强（完满）正相依性。因而，思考进行如下变换，失去[0,1]中的一个参数，其相依性强度随指数的减少而减少，例如为了推导出尾部相依指数，假如存在一个极限，即这将被解释为一个（弱）尾部相依指数。因而定义函数下尾巴（在右边） ...

关于程序媛:章方征服耶鲁教授的算法大牛程序媛

摘要：作为80后开发者，同时也是一位母亲和女儿，见证了从传统社区到智慧社区给大家的生存带来转变。本文分享自华为云社区《看驯服耶鲁传授的算法程序媛，如何践行“以人为本”开发智慧社区大脑？》，原文作者：石榴裙。家里老人在楼下漫步不慎摔倒、“熊孩子”小区里乱跑出了纰漏…这些情景在新闻上不足为奇，也是很多上班族们放心的偶发状况。如果有一款软件，能够随时关注家人在小区的平安，那么一旦产生紧急情况，就能立刻分割物业解决。那将大大降低社区的意外事件，从而晋升人们生存的幸福感。当初，人们这样的欲望实现了，业主通过手机APP，即可观看到老人和小孩在家里和社区的动向。社区公共区域内的智能摄像头能够自动识别出人群的异样行动，如发现小朋友摔倒，将立刻产生正告，使业主及时掌握情况，让物业服务者尽快解决，业主不再担心家人在社区内的平安。这只是华为和兴海物联打造的智慧社区解决方案中的一个场景缩影。章方亲自参加到了该计划的孵化、开发和落地，“作为80后开发者，同时也是一位母亲和女儿，见证了从传统社区到智慧社区给大家的生存带来转变，很快乐为社区数字化转型出了一份力。”工作中的章方趔趔趄趄进入算法世界真挚、刻苦能够说是章方的代名词。 11年前，章方大学毕业，来到深圳找工作。第一次加入面试，面试官是耶鲁大学传授，题目是“疾速排序算法的工夫复杂度剖析”。与其余面试者口述不同，章方间接上黑板写出了本人的推理过程，传授眼前一亮，过后就跟招聘官举荐：“这个小姑娘肯定要招进来。” 传授起初通知章方，她是第一个敢间接上黑板写出推理过程的面试者，尽管最终答案稍有瑕疵，但推理思路完全正确。她的自信和真挚感动了传授。退出工作后，刚刚毕业的章方感觉本人像老鼠掉入了米缸，一路拼命学。 “遇到难题，我过后还会在电脑前急得掉眼泪，就一边哭一边打代码，过后的信念是不能辜负传授的冀望。” 2017年，在全栈开发工程师的交换群里，章方遇到了兴海物联研发团队的创始人，过后物联网的概念才刚刚衰亡，创始人向章方抛出了橄榄枝，邀请章方退出团队一起“守业”。随后在2017年首届国内物业管理产业博览会上，兴海物联惊艳亮相，多场景全方位展现了公司在科技物管、智慧社区的建设成绩。与华为的相见恨晚2018年，华为与兴海物联正式开启了在智慧园区畛域的策略单干。兴海物联作为中海物业旗下科技子公司，利用自身实践经验、业务了解，联合华为ICT技术底座，独特打造可继续成长的智慧社区。基于华为智慧园区数字平台，单方开启了“智慧社区大脑”的研发，旨在晋升建设智慧社区的降本增效能力，大幅缩小软件开发老本和硬件建设老本，实现规模化、标准化、定制化地疾速复制业务。 “华为智慧园区数字平台完全符合我对‘物联网’的了解和设想，通过对它的学习，我彻底了解了设施层、集成层、平台层和应用层的定义规定，以及它们之间的关系，把我对物联网的了解齐全买通，一下认清了整体物联网平台的倒退逻辑。” 在物联网畛域，目前物联网感知层的数据多源异构，不同的设施有不同的接口和不同的技术标准；网络层、应用层也因为应用的网络类型不同、行业的利用方向不同，而存在不同的网络协议和体系结构。建设对立的物联网体系架构、对立的技术标准是物联网当初正在面对的难题。 “兴海物联和华为一起，推进物联规范的建设，一起实现构建万物互联的智能世界的平凡愿景。” 2020年，章方被委以重任，负责基于数字平台开发智慧社区联结计划。章方就像“打不死的小强”，用业余精力率领团队逐渐冲破。基于华为智慧园区数字平台提供的丰盛的开发工具套件，极大进步了开发效率，不到两个月的工夫交付了智慧社区第一个版本，实现了五看（看车行、看人行、看视频、看设施、看对讲）基本功能，但此时业务流绝对比较简单。章方对将来充满信心，“华为智慧园区数字平台的学习须要很长时间积淀，在平台上开发，就相当于在土壤中种出庄稼，这须要一个过程，第一个版本的开发是大家在适应这个过程。” 随后，公司重新制定产品布局，打造了降级版本的智慧社区联结计划，技术更简单、性能更实用，落地性更强。从业主角度来说，传统社区的物业服务普遍存在以下痛点：门禁出入繁琐存在安全漏洞、停车场通行不便、突发状况物业反馈慢、家人平安状况无奈及时把握、服务水平参差不齐…… 从运营者角度来说，也面临窘境，如：经营管理效率低、物业服务难翻新、平安以人防为主、应急治理难落地…… 华为和兴海联合推出的智慧社区解决方案聚焦社区五大刚需场景，解决了上述社区根底运行服务的痛点。 “看人行”——“五色”名单治理，人脸自动识别：独创“白灰黄红黑”五色名单管理法，通过人脸识别技术对进出社区的人员进行分类，业主为红色名单，自动识别，无需随身携带门禁卡，秒过。 “看车行”——智慧车场云监控，便捷服务你我他：车场集中管理，实现无人值守，云端辨认车牌，更好保障住户平安。精确辨认业主车与访客车，通过建设数据库，实现快捷停车缴费大大提高车场运行效率，车行通顺，人心舒畅。 “看视频”——家庭公区齐买通，儿童老人护平安：公区与家庭联通，安坐家中即可应用“天使之眼”集中观看儿童、老人常去公共区域，保障儿童与老人平安。 “看设施”——紧急事件瞬发现，主动判断迅报警：视频巡检人工智能剖析，紧急事件主动判断报警，联动人员调度处理。 “看对讲”——优质音视频对讲，云对讲场景联动：云对讲多场景呼叫，拓展沟通渠道，晋升沟通效率。目前智慧社区解决方案已在深圳中海华庭社区胜利落地，并作为样板点面向有须要的客户和搭档。中海华庭社区治理运行效率失去晋升，业主享受到更有温度、更高效、更业余的物业服务，建设成为真正看得见、摸得着、感触失去的幸福智慧社区。生存和算法的顾全大局者“章方领有一颗赤子之心，有女性的敏锐，也有开发者的钻研，永远酷爱挑战，是咱们兴海人的楷模。她是公司里典型的精英开发者，肯下功夫、值得信赖、十分业余、顾全大局。” 兴海物联研发团队创始人非常赞叹章方的敬业精神。在工作上，作为兴海人，章方保持言传身教，为团队建立楷模；在生活中，她又是一位生机满满的大姐姐，喜爱户外，常常组织共事徒步爬山。她笑着说，“有次爬梧桐山，咱们从早上八点出门，到早晨八点才回家，好多90后弟弟妹妹们膂力都不如我，我常常拉着他们一起静止。”2020年公司运动会取得冠军回到家庭，章方也是一个一般的妈妈，“只有不加班，周末的工夫都属于家人和孩子，咱们简直走遍了深圳所有的公园，徒步是我放松和陪家人的一种模式。” “我只是一个一般的开发者，当看到本人的工作成绩能够让用户的生存、工作形式变得更便捷，我就感觉很自豪。” 这是每一位开发者最奢侈平庸的欲望，也是每一位开发者最了不起的中央！点击关注，第一工夫理解华为云陈腐技术~

关于区块链:News-BTC特别报道CROSS第四期盲盒4月16日1400启动获拍NFT可用于借贷

局部内容转载自News BTC对CROSS的特地报道，内容波及CROSS目前正在着手研发的NFT借贷服务和明日启动的第四期盲盒玩法解析。 CyberVein与Poly Network正式实现CVT跨链部署，CVT持有者可通过一键跨链工具Poly Bridge实现CVT资产映射，或返回MDEX间接购买Heco-CVT。4月19日，CROSS登陆BSC并凋谢CVT领取性能，届时用户在Heco或BSC链上均可应用CVT参加CROSS拍卖。这标记着CROSS在NFT畛域逐步成为具备创新力的平台之一。首个去中心化NFT借贷服务即日起，所有通过CROSS拍卖胜利的NFT都能够通过抵押来借贷出CVT，贷款期限是7-30天。还款日只须要偿还等量的CVT即可。那么在现实状况下，你能够用第一幅NFT抵押出的CVT来拍下第二幅CVT，这么做的益处是，你只用一幅NFT的CVT就能够失去两幅NFT，资金利用率和NFT增值速度都失去了晋升。在NFT上架后，每幅NFT会有艺术品评估专家通过多重角度的评估，联结给予一个该NFT（市场指导价）。可借出局部的计算公式=[（现行市场指导价+最终成交价格）/2 ]* 30% 这所有只须要通过Poly Network即可将CVT跨入Heco和BSC参加到CROSS进行操作，能够说在以后的NFT畛域内，新增去中心化借贷服务的CROSS走在了最前沿！ Mystery Box四大亮点 CROSS第四期盲盒流动于4月16日启动：首轮竞拍工夫：14:00-16:30 二次转拍工夫：16:30-19:00 竞价形式：盲拍盲盒大奖：0.6BTC等值的Heco-CVT 起拍价：50个Heco-CVT 第四期盲盒的亮点：NFT数量减少：盲盒拍卖NFT作品新增至9副，均由出名NFT艺术家池磊创作；反对CVT出价：用户能够应用Poly Bridge进行映射或返回MDEX间接购买Heco-CVT；盲盒处分减少：奖金被调配至2个盲盒内，别离为0.1和0.5，削减了竞拍的博弈性和复杂性； NFT前期服务：获拍的NFT将能够间接用于CROSS平台的NFT借贷服务中。出价失败的Heco-CVT取回流程：Step 1：关上“集体核心” Step 2：抉择“拍卖” Step 3：抉择“已完结”，抉择出价失败过的NFT Step 4：点击“取回”，此过程会领取极少的Heco - HT作为交易GAS 结语如果说之前的盲盒流动只是简略的算术题，那降级过后的盲盒变成了一个真正的脑力搏杀的战场。如果只用0.6BTC除于9的价格来对NFT估值并参加竞拍，那肯定是会空手而归，倡议中小买家集中守势在一幅NFT上，从NFT价值自身开始计算，让大买家独占全场拿到多幅NFT的状况也再难重现。当然，最重要的一点是，CROSS的盲盒拍卖价值体系将被齐全重塑，NFT自身的价值会愈发地增大，不会再被湮没。随着CROSS NFT借贷服务的呈现，整个NFT交易市场会像DeFi呈现时产生微小的格局变动。 CROSS官网：cycross.io CROSS微博：@CYCROSS CROSS INS：cross_official2020 分割邮箱：prteam@cybervein.org 欢送大家退出并关注CyberVein其余自媒体社交平台，获取最新动静！官网微博weibo.com/CyberVein官网CSDNblog.csdn.net/CyberVein官网GitHubgithub.com/CyberVein-official官网电报群t.me/CyberVeinCommunity官网推特twitter.com/cyberveingroup最新动静twitter.com/CyberVeinGroup/status/1382512999613702144点击“浏览原文”跳转至News BTC浏览CROSS专题报道！

关于区块链:CyberVein项目进展半月报20210410415

欢送大家退出并关注CyberVein其余自媒体社交平台，获取最新动静！官网微博weibo.com/CyberVein官网CSDNblog.csdn.net/CyberVein官网GitHubgithub.com/CyberVein-official官网电报群t.me/CyberVeinCommunity官网推特twitter.com/cyberveingroup最新动静twitter.com/CyberVeinGroup/status/1382512999613702144点击“浏览原文”跳转至CyberVein官网理解更多！

关于sql:数栈SQL优化案例隐式转换

数栈是云原生—站式数据中台PaaS，咱们在github和gitee上有一个乏味的开源我的项目：FlinkX，FlinkX是一个基于Flink的批流对立的数据同步工具，既能够采集动态的数据，也能够采集实时变动的数据，是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个star！star！star！ github开源我的项目：https://github.com/DTStack/fl... gitee开源我的项目：https://gitee.com/dtstack_dev... MySQL是当下最风行的关系型数据库之一，互联网高速倒退的明天，MySQL数据库在电商、金融等诸多行业的生产零碎中被宽泛应用。在理论的开发运维过程中，想必大家也经常会碰到慢SQL的困扰。一条性能不好的SQL，往往会带来过大的性能开销，进而引起整个操作系统资源的适度应用，甚至造成会话沉积，引发线上故障。而在SQL调优的场景中，一类比拟常见的问题，就是隐式类型转换。那什么是隐式转换呢？在MySQL中，当操作符与不同类型的操作数一起应用时，会产生类型转换以使操作数兼容，此时则会产生隐式转换。呈现隐式转换，往往意味着SQL的执行效率将大幅升高。接下来笔者将联合几大常见场景，让大家理论领会什么是隐式转换，以及如何去应答呈现隐式转换的状况，请浏览以下案例。一、传递数据类型和字段类型不统一造成隐式转换一类比拟经典的场景就是传递数据类型和字段类型不统一造成的隐式转换，这种场景也是咱们平时最常遇到的。具体能够看下上面这个例子： 1) 待优化场景 SQL及执行打算如下： select * from dt_t1 where emp_no = 41680; 该表索引如下： key idx_empno (emp_no) [点击并拖拽以挪动] 2）场景解析从执行打算中Type局部：ALL，全表扫描，而没有走idx_empno索引, 个别这种状况可能传递的数据类型和理论的字段类型不统一，那么咱们来看下具体的表构造。 root@localhost mysql.sock 5.7.28-log :[employees] 14:48:10>desc employees;FieldTypeNullKeyDefaultExtraemp_novarchar(14)NOMULNULL birth_datedateNO NULL first_namevarchar(14)NO NULL last_namevarchar(16)NO NULL genderenum('M','F')NO NULL hire_datedateNO NULL 6 rows in set (0.00 sec) 表构造中看到该字段类型为varchar 类型，传递字段为整型，造成隐式转换不能走索引。 3）场景优化该SQL可通过简略改写来避免出现隐式转换，如下： select * from dt_t1 where emp_no='41680'; 当传入数据是与匹配字段统一的varchar类型时，便能够失常应用到索引了，优化成果如下：二、关联字段类型不统一造成隐式转换除了常量匹配的查问场景，关联查问在关联字段不统一的状况下，也会呈现隐式转换。 1) 待优化场景 SELECT count(*) from t1 as aJOIN t2 b on a.id = b.alipay_order_no ; ...

关于算法:R语言向量误差修正模型-VECMs分析长期利率和通胀率影响关系

向量自回归模型预计的先决条件之一是被剖析的工夫序列是安稳的。然而，经济实践认为，经济变量之间在程度上存在着平衡关系，能够使这些变量差分而安稳。这就是所谓的协整关系。因为晓得这种关系能够改善剖析的后果，所以心愿有一个计量经济学模型，可能捕捉到这种关系。所谓的向量误差修改模型（VECMs）就属于这一类模型。下文介绍了VECMs的基本概念，并在R中预计这种模型。模型和数据向量误差修改模型与VAR模型十分类似，能够有如下模式。其中，x为向量x中各变量的第一次差分，Pi为协整关系的系数矩阵，为x的差分变量滞后的系数矩阵，d为确定性项的向量，C为其对应的系数矩阵，p为VAR模式下模型的滞后阶数，为均值为零的误差项，方差-协方差矩阵。由上式可知，与VAR模型惟一不同的是误差修改项xt-1，它反映了如果其中一个变量偏离其平衡值，则x中的变量增长率会如何变动的影响。系数矩阵能够写成矩阵乘积=′，这样误差修改项就变成了′xt-1。协整矩阵蕴含了各层次变量之间的平衡关系信息。′xt-1形容的向量能够解释为变量与平衡值之间的间隔，是所谓的载荷矩阵，形容了因变量向平衡值收敛的速度。为了阐明R向量误差修改模型预计，咱们应用数据集E6(2007)，其中蕴含从季度1972Q2到1998Q4，季节性调整的长期利率和通胀率工夫序列。 plot(data) #绘图数据预计有多种办法能够预计VEC模型。第一种办法是应用一般最小二乘法，这种办法能够失去精确的后果，但不能预计变量之间的协整关系。预计狭义最小二乘法（EGLS）是一种代替办法。然而，最风行的VECMs预计办法是Johansen（1995）的最大似然预计。然而，在预计VEC模型之前，必须指定滞后阶数p、协整矩阵的等级r和确定性项。抉择滞后阶数的一个无效策略是在程度上预计VAR，并抉择最小化信息准则的滞后办法。因为工夫序列体现出强烈的季节性法则，咱们通过指定节令参数=4来管制，其中4是数据的频率。 # 预计 VARVAR(data,ic = "AIC", season = 4 ,....)# AIC倡议的滞后阶数var$p## AIC(n) ## 4依据AIC，能够应用滞后阶数为4，这与Lütkepohl（2007）中应用的数值雷同。这意味着VEC模型对应的VAR在程度上有3个滞后期。因为ca.jo函数要求VAR模型的滞后阶数，咱们设置K=4。在VECM中退出确定性项是一个奇妙的问题。一个常见的策略是在误差修改项中退出一个线性趋势，在方程的非协整局部退出一个常数，这个策略就不做赘述了。在这个例子中，咱们遵循Lütkepohl（2007）的办法，在方程的非协整局部增加一个常数项和季节性伪变量。 cajo函数不仅仅是预计VECM，它还计算了方程的测验统计量。它还计算了r的不同特异性的测验统计量，用户能够在两种办法中进行抉择，即迹测验和特征值测验。在这个例子中，应用了迹测验，即type = "trace"。 # 预计 cajo(e6, ecdet = "none", type = "trace",...) 迹测验表明，r=1，协整关系和载荷矩阵的第一列估计值与Lütkepohl（2007年，第7章）中ML预计的后果统一。 # Betaround(vec@V, 2)## R.l1 Dp.l1## R.l1 1.00 1.0## Dp.l1 -3.96 1.7# Alpharound(vec@W, 2)## R.l1 Dp.l1## R.d -0.10 -0.04## Dp.d 0.16 -0.02然而，模型中非协整局部的预计系数与EGLS预计的后果统一。 round(GAMMA, 2)## constant sd1 sd2 sd3 R.dl1 Dp.dl1 R.dl2 Dp.dl2 R.dl3 Dp.dl3## R.d 0.01 0.01 0.00 0.00 0.29 -0.16 0.01 -0.19 0.25 -0.09## Dp.d -0.01 0.02 0.02 0.03 0.08 -0.31 0.01 -0.37 0.04 -0.34因为应用了不同的参考日期，与Lütkepohl（2007）的后果不同。脉冲响应剖析VECM的脉冲响应函数通常由其VAR模式取得。 # 将VEC转换为VAR，r=1。vec2var(vec, r = 1)而后用通常的形式计算脉冲响应函数。 # 取得IRFirf(impulse = "R", response = "Dp",...) 请留神，和安稳的VAR模型的一个重要区别是，协整VAR模型的脉冲反馈不是必须靠近零，因为变量是不安稳的。参考文献Lütkepohl, H. (2007). _New introduction to multiple time series analysis_ (2nd ed.). Berlin: Springer.

关于算法:R语言如何用潜类别混合效应模型LCMM分析抑郁症状

原文链接：http://tecdat.cn/?p=22206模型背景每一个动静景象都能够用一个潜过程((t)来形容，这个潜过程在间断的工夫t内演变。当对反复测量的标记变量进行建模时，咱们通常不会把它看成是一个有误差测量的潜过程。然而，这正是混合模型实践所做的根本假如。潜过程混合模型利用这个框架将线性混合模型实践扩大到任何类型的后果（有序、二元、间断、类别与任何散布）。潜类别混合模型潜类别混合模型在Proust-Lima等人中介绍（2006 https://doi.org/10.1111/j.1541-0420.2006.00573.x 和2013 https://doi.org/10.1111/bmsp.12000 ）。应用线性混合模型依据工夫对定义为潜过程感兴趣的变量进行建模：其中： X（t）和Z（t）是协变量的向量（Z（t）；是固定效应（即总体均值效应）； ui 是随机效应（即个体效应）；它们依据具备协方差矩阵B 的零均值多元正态分布进行散布；（wi（t））是高斯过程，能够增加到模型中以来放宽对象外部相干构造。同时在察看方程中定义了感兴趣的潜过程标记变量Yij （针对对象i和场合j）的察看之间的关系：其中 tij 是主题i 和场合j 的测量工夫； ij 是一个独立的零均值高斯误差； H 是链接函数，可将潜过程转换为比例和度量。应用了不同的参数族。当标记变量为间断时，H-1 是递增枯燥函数的参数族，其中：线性变换：这简化为线性混合模型（2个参数） Beta累积散布族从新调整（4个参数）当标记变量是离散类别（二元或有序的）时： H是阈值函数，即Y的每个级别对应于要预计（tij）+ ij区间的边界。可识别性与任何潜变量模型一样，必须定义潜变量的度量。在lcmm中，误差的方差为1，均匀截距（在中）为0。示例在本文中，lcmm 通过钻研年龄65岁左右男性的抑郁症状（由CES-D量表测量）的线性轨迹来阐明潜过程混合模型。包含截距和age65的相干随机效应。思考的模型：， _固定效应局部_ 是预计不同间断链接函数的模型H咱们应用65岁左右的年龄变量进行中心化，并以十年为单位。潜过程混合模型能够用不同的链接函数进行拟合，如下所示。这是用参数链接来实现的。线性链接函数定义线性链接函数时，模型将简化为规范线性混合模型。默认状况下具备线性链接函数： lcmm(CESD ~ age65*male, random=~ age65 #链接=线性它与hlme装置的模型完全相同。与hlme对象的惟一区别是截距和残差标准误差的参数化。 hlme(CESD ~ age65*male, random=~ age65 #链接=线性对数似然雷同，但预计参数不在同一范畴内 loglik\[1\] -7056.652 非线性链接函数1：Beta累积散布函数Beta散布的重标累积散布函数(CDF)提供了标记变量与其根本埋伏过程之间的凹、凸或sigmoïd变换。 lcmm( random=~ age65, link='beta')非线性链接函数2：二次I样条二次I样条族近似于间断减少的链接函数。它波及在标记变量范畴内散布的节点。默认状况下，应用位于标记变量范畴内的5个等距结： lcmm(random=~ age65, subject='ID', link='splines')能够指定结的数量及其地位。首先输出节点的数目，接着，再指定地位 equi， quant 或 manual 用于别离等距节点，在标记变量散布分位数或外部结在参数intnodes手动输出。例如， 7-equi-splines 意味着具备7个等距节点，6-quant-splines I样条，意味着具备6个节点的I样条，其位于标记变量散布的分位数处。例如，在分位数处有5个结： lcmm(link='5-quant-splines')抉择最佳模型要抉择最合适的链接函数，能够比拟这些不同的模型。通常，这能够通过应用AIC 或 UACV等顺着依据拟合优度对模型进行比拟来实现。 AIC（每个模型的输入中都有UACV）：在这种状况下，依据AIC规范，由I-splines和5个分位数结点链接函数的模型提供了最佳拟合度。能够在图中比拟不同的预计链接函数： plot(mli, which="linkfunction",xlab="潜过程")legend(x="topleft", legend=c("线性", "beta","样条曲线 (5个等距结点)","样条曲线(5个分位数结点)")) 咱们看到2个样条曲线转换十分靠近。线性模型仿佛不适合，如线性曲线和样条曲线之间的差值所示。Beta转换仅在潜过程的高值时才与样条曲线不同。变换的相信带能够通过蒙特卡洛办法取得： predict(mspl5q,ndraws=2000)legend(legend=c("95% 相信带","分位数样条"),lty=c(2,NA)) 用离散链接函数H预计模型有时，对于仅具备无限数量级别的标记变量，间断链接函数不适合，并且必须解决标记变量的有序性质。lcmm函数通过思考阈值链接函数来解决这种状况。然而，咱们必须晓得，带有阈值链接函数的模型的数值复杂性要重要得多（因为对随机效应散布进行了数值积分）。在拟合这个模型时，必须牢记这一点，随机效应的数量要谨严地抉择。留神，该模型成为累积概率混合模型。这里是一个应用HIER变量(4级)的例子，因为思考到0-52的范畴(例如52个阈值参数)，CESD的阈值链接函数会波及太多参数。 lcmm(HIER ~ age65*male, link='thresholds')拟合后的输入概要该模型的摘要包含收敛性，拟合规范的优度和预计的参数。依据协变量的散布预测的轨迹图，能够依据因变量的比例并依据协变量的散布来计算预测的轨迹： predict(msp, newdata=datnew, var.time="age"而后绘制： plot(women,xlab="年龄")plot(men, add=TRUE)legend(legend=c("女性","男性", "95% 置信区间", "95% 置信区间")) 拟合优度1：残差图特定的残差（右下方面板中的qqplot）应为高斯分布。 ...