共计 1743 个字符,预计需要花费 5 分钟才能阅读完成。
全文链接:http://tecdat.cn/?p=31035
原文出处:拓端数据部落公众号
咱们已经为一位客户进行了短暂的征询工作,他正在构建一个次要基于安卓包分类的剖析应用程序。
数据源是安卓的我的项目,把同一类性能的安卓代码的头部,每一个文件都有 import 包名。把所有 import 的包名都抓了下来存到了 mysql, 这是数据源 , 须要用 r 剖析这些包名。
用 r 给这些包做统计,同名的包有多少,占百分之多少,做可视化图,打标签。
这个我的项目的目标是,比方一类性能是发 email 的 app,每一个我的项目里 java 文件头部都有援用的包名,通过把所有的包名一剖析,发现 80% 的我的项目外面都有同一个包,那么就认为这个包的性能就是 email , 而后再通过标签关联 java 文件。
导入数据
channel <- odbcConnect("test", uid="root", pwd="123");
sqlTables(channel);# 查看数据中的表
data<-sqlFetch(channel,"test")# 查看表的内容,存到数据框里
画直方图显示词频重合率
# 做出百分比统计直方图
barplot(table(data$package)/sum(table(data$package)))
# 一共多少包
unique(data$package)
删去没有反复的包
norepeat=which(table(data$package)==1)
data=data[-as.numeric(norepeat),]
for(i in names(table(data$package))[index][-1]){
#找出 project 名
data$project[data$package ==i]
变换数据
cordata2=matrix(0,length(unique(data$project)),length(unique(data$package)))
colnames(cordata2)=unique(data$package)
rownames(cordata2)=unique(data$project)
计算出反复率
画网络图
这个是 git 上的我的项目,每一个点是一个我的项目,不同色彩示意不同语言,每个点之间有线连着,示意每个我的项目的分割,可能是关注人一样,也可能是作者一样。当把包名打上标签后,有可能不同包名是一个标签,那么就能够画出这种分割图。
}
}
close(f)
cat(paste(c("Successfully output to", getwd(), "/", filename, "/n"), collapse=""))
}
topajek(events, filename="mypajek.net")
对图进行删减,删去连贯少的边
newe = censor.edgeweight(e, floor=0.5); newe
V(e)$color = rainbow(max(V(e)$sg),alpha=0.8)[V(e)$sg]
plot(newe,layout=layout.fruchterman.reingold, vertex.size=5,
vertex.color=V(e)$color, edge.width=1,edge.arrow.size=0.08,
用网络图可视化
所有数据:
以 chat 为基地:
以 email 为基地:
Kmeans 算法聚类
聚类数为 3,将数据聚成 3 个类别
y$name1=as.numeric(y$name)
可视化聚类后果
最受欢迎的见解
1. R 语言 k -Shape 算法股票价格工夫序列聚类
2. R 语言基于温度对城市档次聚类、kmean 聚类、主成分剖析和 Voronoi 图
3. R 语言对用电负荷工夫序列数据进行 K -medoids 聚类建模和 GAM 回归
4. r 语言鸢尾花 iris 数据集的档次聚类
5.Python Monte Carlo K-Means 聚类实战
6. 用 R 进行网站评论文本开掘聚类
7. R 语言 KMEANS 均值聚类和档次聚类:亚洲国家地区生存幸福品质异同可视化 **
8.PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯模型和 KMEANS 聚类用户画像
9. R 语言基于 Keras 的小数据集深度学习图像分类