关于数据挖掘:拓端tecdatR语言复杂网络分析聚类社区检测和可视化

全文链接：http://tecdat.cn/?p=18770

原文出处：拓端数据部落公众号

【视频】KMEANS均值聚类和档次聚类：R语言剖析生存幸福品质系数可视化实例

KMEANS均值聚类和档次聚类：R语言剖析生存幸福品质系数可视化实例

，时长06:05

为了用R来解决网络数据，咱们应用婚礼数据集。

> nflo=network(flo,directed=FALSE)> plot(nflo, displaylabels = TRUE,+ boxed.labels =+ FALSE)

下一步是igraph。因为咱们有邻接矩阵，因而能够应用它

graph\_from\_adjacency_matrix(flo,+ mode = "undirected")

咱们能够在两个特定节点之间取得最短门路。咱们给节点赋予适当的色彩

 all\_shortest\_paths(iflo, )  > plot(iflo)

咱们还能够可视化边，须要从输入中提取边缘

> lins=c(paste(as.character(L)\[1:4\],+ "--" + as.character(L)\[2:5\]  sep="" ,+ paste(as.character(L) 2:5\],+ "--", > E(ifl )$color=c("grey","black")\[1+EU\]> plot(iflo)

也能够应用D3js可视化

> library( networkD3 )> simpleNetwork (df)

下一个问题是向网络增加一个顶点。最简略的办法是通过邻接矩阵实现概率

> flo2\["f","v"\]=1> flo2\["v","f"\]=1

而后，咱们进行集中度测量。

目标是理解它们之间的关系。

 betweenness(ilo) > cor(base)betw close deg eigbetw 1.0000000 0.5763487 0.8333763 0.6737162close 0.5763487 1.0000000 0.7572778 0.7989789deg 0.8333763 0.7572778 1.0000000 0.9404647eig 0.6737162 0.7989789 0.9404647 1.0000000

能够应用档次聚类图来可视化集中度度量

hclust(dist( ase  ,+ method="ward")

查看集中度度量的值，查看排名

 > for(i in 1:4) rbase\[,i\]=rank(base\[,i\])

在此，特征向量测度十分靠近顶点的度数。

最初，寻找聚类（以防这些家庭之间暴发和平）

> kc <- fastgreedy.community ( iflo )

在这里，咱们有3类

最受欢迎的见解

1.采纳spss-modeler的web简单网络对所有腧穴进行剖析

2.用R语言和python进行社交网络中的社区检测

3.R语言文本开掘NASA数据网络剖析，tf-idf和主题建模

4.在R语言中应用航空公司简单网络对疫情进行建模

5.python附属关系图模型基于模型的网络中密集重叠社区检测

6.应用Python和SAS Viya剖析社交网络

7.关联网络分析：已迁离北京外来人口的数据画像

8.情感语义网络：游记数据感知游览目的地形象

9.用关联规定数据挖掘摸索药物配伍中的法则