关于数据挖掘:R语言生态学进化树推断物种分化历史分类单元数与时间关系支系图可视化附代码数据

3次阅读

共计 2686 个字符,预计需要花费 7 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=31434

最近咱们被客户要求撰写对于生态学进化树的钻研报告,包含一些图形和统计输入。

咱们围绕进化树技术进行一些征询,剖析生物类群在工夫上的多样性是如何变动的

咱们将用到分类单元数 - 工夫图(Lineages-through-time plot), 该图能够用来形容物种多样化的总体趋势。

数据

3500trees.nexus 是 nexus 格局的文件,外面有 3500 棵树。

besttree.nexus 也是 nexus 格局的文件,外面有 1 颗树,是从 3500 颗树中筛选进去的统一树。

各支系图示

这棵树总共有 4 大支系(Lineage),当初我须要做的剖析都是须要别离做总的,以及 4 个支系的,也就是说同样的剖析要做 5 次,针对 5 组不同的对象。

分析方法

办法次要是物种多样化速率(diversification rate) 相干的内容。

trees=read.nexus("3500trees.nexus")  
besttree=read.nexus("besttree.nexus")


点击题目查阅往期内容

生态学建模:加强回归树(BRT)预测短鳍鳗生存散布和影响因素

左右滑动查看更多

01

02

03

04

1.mltt plot (multiple lineage through time)

分类单元数 - 工夫图

lingeage 的数值取 log 的,95% 置信区间的 ltt plot, 两头彩色线的是 besttree 的,要显示进去。别离做总的,以及 4 个支系的,共 5 个图。

plot(trees)

,log='y')

besttree

# 95% ltt 置信区间

ltt.ci<-function(tree.all){ntip=length(tree.all[[1]]$tip.label)  
  ntree=length(tree.all)

2.gamma statistic

测验分化速率的变化趋势,看 γ 的值是正的还是负的。后果须要失去每组的 γ 值及 P 值。

mmaStat(besttree)

## [1] -3.693285

3. Monte Carlo constant rates test

测验样品不全是否对分化速率的后果有显著的影响,应该也是每组都要做的。

mc.out <- mcmc.pop
line(tree.hiv)  
plot(sk, l

4. 对每个组做几个模型的测验,次要包含 Pure-birth, birth-death, Yule 2-rate,density-dependent logistic,density-dependent exponential 模型。

tdAICr
## --------------Model Summary----------------  
##  
## MODEL pureBirth  
##  
## Parameters:  r1  
##  
## LH 535.1086  
##  
## AIC -1068.217  
##  
## r1 0.1817879  
##  
## a -1068.217  
##  
##  
## --------------------------  
## MODEL bd  
##  
## Parameters:  r1, a  
##  
## LH 535.1086  
##  
## AIC -1066.217  
##  
## r1 0.1817879  
##  
## a 0  
##  
##  
## --------------------------  
## MODEL DDL  
##  
## Parameters:  r1, k  
##  
## LH 542.2213  
##  
## AIC -1080.443  
##  
## r1 0.2537928  
##  
## a -1080.443  
##  
## k 554  
##  
##  
## --------------------------  
## MODEL DDX  
##  
## Parameters:  r1, X  
##  
## LH 536.991  
##  
## AIC -1069.982  
##  
## r1 0.3098342  
##  
## a -1069.982  
##  
## x 0.1131752  
##  
##  
## --------------------------  
##  
## Best Constant Rate Model = pureBirth  AIC  -1068.217  
##  
## Best Rate Variable Model = DDL  AIC  -1080.443  
##  
## delta AICrc =  12.2254

##       model params np mtype       LH        r1 r2         a        xp   k  
## 1 pureBirth     r1  1    RC 535.1086 0.1817879 NA -1068.217        NA  NA  
## 2        bd  r1, a  2    RC 535.1086 0.1817879 NA     0.000        NA  NA  
## 3       DDL  r1, k  2    RV 542.2213 0.2537928 NA -1080.443        NA 554  
## 4       DDX  r1, X  2    RV 536.9910 0.3098342 NA -1069.982 0.113175


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言生态学:进化树推断物种分化历史:分类单元数与工夫关系、支系图可视化》。

点击题目查阅往期内容

Python 决策树、随机森林、奢侈贝叶斯、KNN(K- 最近街坊)分类剖析银行拉新流动开掘潜在贷款客户
R 语言逻辑回归 (Logistic Regression)、回归决策树、随机森林信用卡守约剖析信贷数据集 R 语言基于 Bagging 分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R 语言样条曲线、决策树、Adaboost、梯度晋升(GBM) 算法进行回归、分类和动静可视化
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
matlab 应用分位数随机森林(QRF)回归树检测异样值
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
R 语言中应用线性模型、回归决策树主动组合特色因子程度
R 语言中自编基尼系数的 CART 回归决策树的实现
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言实现偏最小二乘回归法 partial least squares (PLS)回归
R 语言多项式回归拟合非线性关系
R 语言逻辑回归(Logistic 回归)模型分类预测病人冠心病危险
R 语言用部分加权回归 (Lowess) 对 logistic 逻辑回归诊断和残差剖析
R 语言混合效应逻辑回归(mixed effects logistic)模型剖析肺癌数据

正文完
 0