关于数据挖掘:关联规则Apriori挖掘豆瓣读书评论爬虫采集数据与可视化

作者：

在

原文链接：http://tecdat.cn/?p=26341

豆瓣读书是豆瓣网的一个子版块。本文数据来源于豆瓣读书网站，剖析内容将基于豆瓣读书的图书评分和评论信息。主题将紧紧围绕以下几点：有哪些书籍值得举荐？个别书籍的价格是多少？一本书的评分和评论数量之间是否存在某种关系？

热门书籍散布

截至爬取之日，热门书评数量实时增长，别离是：

①：评分>=8.0且评论超过10w+的书籍； ②：只有评论超过10w+的书； ③：按书评数量排名TOP8；

通过比照，我发现一些值得一读再读的名著总是在列表中，而且列表中的大部分书籍都是开卷即无益的好书。降低标准后，也呈现了一些无益的书籍（《平庸的世界》之类的）。

由此能够得出结论，数据分析算法应该是综合多种数据失去的权重模型，所以评论量大或者评分高的书不肯定值得一读，综合思考失去的后果能够被认为是偏心的。比方郭敬明的《梦里花落知多少》，路遥的《平庸的世界》。

书籍的价格个别都是在什么范畴？

对于读书爱好者来说，这是一个比较关心的问题。

从上图咱们能够发现，大部分书籍的价格在20-40之间，其余价格区间的书籍绝对较少。计算机专业书籍的价格在60-90之间，低于10元价格范畴的书籍局部是电子书。咱们诧异地发现有很多书的价格超过100元！

能够发现，这些百元以上的书籍，大部分都是史料书籍。价格高的起因之一是这些书个别分为很多卷，钻研意义重大，消耗大量人力。

热门书籍评估指标Apriori关联规定剖析

接下来，咱们钻研3个要害评估指标：评分、评分数量和评论数量之间的关系。Apriori是罕用的关联规定开掘办法之一，能够找出3个评估指标之间的暗藏关联。

应用平行多维图来察看风行书籍评分、评分数量和评论数量的风行关联规定。咱们发现大部分书籍的评分在8.0-8.9之间，评分数量在20万-70万之间。

评论最多的书有追风筝人、解忧的杂货店、白夜行等，评分在8.1以上。基本上，具备更多评论的作品具备更高的评分。然而，有些超高分（9分以上）的作品，评论数量却没有设想中的多！

本文章中的所有信息（包含但不限于剖析、预测、倡议、数据、图表等内容）仅供参考，__拓端数据（__tecdat__）__不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。

最受欢迎的见解

1.探析大数据期刊文章钻研热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本开掘tf-idf主题建模，情感剖析n-gram建模钻研

4.python主题建模可视化lda和t-sne交互式可视化

5.r语言文本开掘nasa数据网络剖析，tf-idf和主题建模

6.python主题lda建模和t-sne可视化

7.Python中的Apriori关联算法市场购物篮剖析

8.通过Python中的Apriori算法进行关联规定开掘

9.python爬虫进行web抓取lda主题语义数据分析

评论

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

更多文章