关于数据挖掘:R语言生态学进化树推断物种分化历史分类单元数与时间关系支系图可视化

全文链接：http://tecdat.cn/?p=31434

原文出处：拓端数据部落公众号

咱们围绕进化树技术进行一些征询，剖析生物类群在工夫上的多样性是如何变动的。咱们将用到分类单元数-工夫图（Lineages-through-time plot）,该图能够用来形容物种多样化的总体趋势。

数据

3500trees.nexus是nexus格局的文件，外面有3500棵树。

besttree.nexus也是nexus格局的文件，外面有1颗树，是从3500颗树中筛选进去的统一树。

各支系图示

这棵树总共有4大支系（Lineage），当初我须要做的剖析都是须要别离做总的，以及4个支系的，也就是说同样的剖析要做5次，针对5组不同的对象。

分析方法

办法次要是物种多样化速率(diversification rate) 相干的内容。

trees=read.nexus("3500trees.nexus")  besttree=read.nexus("besttree.nexus")

1.mltt plot (multiple lineage through time)

分类单元数-工夫图

lingeage的数值取log的，95%置信区间的ltt plot,两头彩色线的是besttree的，要显示进去。
别离做总的，以及4个支系的，共5个图。

plot(trees)

,log='y')

besttree

# 95% ltt置信区间ltt.ci<-function(tree.all){    ntip=length(tree.all[[1]]$tip.label)    ntree=length(tree.all)

2.gamma statistic

测验分化速率的变化趋势，看的值是正的还是负的。后果须要失去每组的值及P值。

mmaStat(besttree)## [1] -3.693285

3. Monte Carlo constant rates test

测验样品不全是否对分化速率的后果有显著的影响，应该也是每组都要做的。

mc.out <- mcmc.popline(tree.hiv)  plot(sk, l

4.对每个组做几个模型的测验，次要包含Pure-birth, birth-death, Yule 2-rate,density-dependent logistic,density-dependent exponential模型。

tdAICr## --------------Model Summary----------------  ##  ## MODEL pureBirth  ##  ## Parameters:  r1  ##  ## LH 535.1086  ##  ## AIC -1068.217  ##  ## r1 0.1817879  ##  ## a -1068.217  ##  ##  ## --------------------------  ## MODEL bd  ##  ## Parameters:  r1, a  ##  ## LH 535.1086  ##  ## AIC -1066.217  ##  ## r1 0.1817879  ##  ## a 0  ##  ##  ## --------------------------  ## MODEL DDL  ##  ## Parameters:  r1, k  ##  ## LH 542.2213  ##  ## AIC -1080.443  ##  ## r1 0.2537928  ##  ## a -1080.443  ##  ## k 554  ##  ##  ## --------------------------  ## MODEL DDX  ##  ## Parameters:  r1, X  ##  ## LH 536.991  ##  ## AIC -1069.982  ##  ## r1 0.3098342  ##  ## a -1069.982  ##  ## x 0.1131752  ##  ##  ## --------------------------  ##  ## Best Constant Rate Model = pureBirth  AIC  -1068.217  ##  ## Best Rate Variable Model = DDL  AIC  -1080.443  ##  ## delta AICrc =  12.2254##       model params np mtype       LH        r1 r2         a        xp   k  ## 1 pureBirth     r1  1    RC 535.1086 0.1817879 NA -1068.217        NA  NA  ## 2        bd  r1, a  2    RC 535.1086 0.1817879 NA     0.000        NA  NA  ## 3       DDL  r1, k  2    RV 542.2213 0.2537928 NA -1080.443        NA 554  ## 4       DDX  r1, X  2    RV 536.9910 0.3098342 NA -1069.982 0.113175

最受欢迎的见解

1.PYTHON用户散失数据挖掘：建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的办法：决策树，随机森林

3.python中应用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本开掘进步航空公司客户满意度

6.机器学习助推快时尚精准销售工夫序列

7.用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

8.python机器学习：举荐零碎实现（以矩阵合成来协同过滤）

9.python中用pytorch机器学习分类预测银行客户散失