共计 2245 个字符,预计需要花费 6 分钟才能阅读完成。
全文链接:http://tecdat.cn/?p=31434
原文出处:拓端数据部落公众号
咱们围绕进化树技术进行一些征询,剖析生物类群在工夫上的多样性是如何变动的。咱们将用到分类单元数 - 工夫图(Lineages-through-time plot), 该图能够用来形容物种多样化的总体趋势。
数据
3500trees.nexus 是 nexus 格局的文件,外面有 3500 棵树。
besttree.nexus 也是 nexus 格局的文件,外面有 1 颗树,是从 3500 颗树中筛选进去的统一树。
各支系图示
这棵树总共有 4 大支系(Lineage),当初我须要做的剖析都是须要别离做总的,以及 4 个支系的,也就是说同样的剖析要做 5 次,针对 5 组不同的对象。
分析方法
办法次要是物种多样化速率 (diversification rate) 相干的内容。
trees=read.nexus("3500trees.nexus")
besttree=read.nexus("besttree.nexus")
1.mltt plot (multiple lineage through time)
分类单元数 - 工夫图
lingeage 的数值取 log 的,95% 置信区间的 ltt plot, 两头彩色线的是 besttree 的,要显示进去。
别离做总的,以及 4 个支系的,共 5 个图。
plot(trees)
,log='y')
besttree
# 95% ltt 置信区间
ltt.ci<-function(tree.all){ntip=length(tree.all[[1]]$tip.label)
ntree=length(tree.all)
2.gamma statistic
测验分化速率的变化趋势,看 γ 的值是正的还是负的。后果须要失去每组的 γ 值及 P 值。
mmaStat(besttree)
## [1] -3.693285
3. Monte Carlo constant rates test
测验样品不全是否对分化速率的后果有显著的影响,应该也是每组都要做的。
mc.out <- mcmc.pop
line(tree.hiv)
plot(sk, l
4. 对每个组做几个模型的测验,次要包含 Pure-birth, birth-death, Yule 2-rate,density-dependent logistic,density-dependent exponential 模型。
tdAICr
## --------------Model Summary----------------
##
## MODEL pureBirth
##
## Parameters: r1
##
## LH 535.1086
##
## AIC -1068.217
##
## r1 0.1817879
##
## a -1068.217
##
##
## --------------------------
## MODEL bd
##
## Parameters: r1, a
##
## LH 535.1086
##
## AIC -1066.217
##
## r1 0.1817879
##
## a 0
##
##
## --------------------------
## MODEL DDL
##
## Parameters: r1, k
##
## LH 542.2213
##
## AIC -1080.443
##
## r1 0.2537928
##
## a -1080.443
##
## k 554
##
##
## --------------------------
## MODEL DDX
##
## Parameters: r1, X
##
## LH 536.991
##
## AIC -1069.982
##
## r1 0.3098342
##
## a -1069.982
##
## x 0.1131752
##
##
## --------------------------
##
## Best Constant Rate Model = pureBirth AIC -1068.217
##
## Best Rate Variable Model = DDL AIC -1080.443
##
## delta AICrc = 12.2254
## model params np mtype LH r1 r2 a xp k
## 1 pureBirth r1 1 RC 535.1086 0.1817879 NA -1068.217 NA NA
## 2 bd r1, a 2 RC 535.1086 0.1817879 NA 0.000 NA NA
## 3 DDL r1, k 2 RV 542.2213 0.2537928 NA -1080.443 NA 554
## 4 DDX r1, X 2 RV 536.9910 0.3098342 NA -1069.982 0.113175
最受欢迎的见解
1.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
2. R 语言基于树的办法:决策树,随机森林
3.python 中应用 scikit-learn 和 pandas 决策树
4. 机器学习:在 SAS 中运行随机森林数据分析报告
5. R 语言用随机森林和文本开掘进步航空公司客户满意度
6. 机器学习助推快时尚精准销售工夫序列
7. 用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用
8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)
9.python 中用 pytorch 机器学习分类预测银行客户散失