关于数据挖掘:关联规则Apriori挖掘豆瓣读书评论爬虫采集数据与可视化

34次阅读

共计 1182 个字符,预计需要花费 3 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=26341

豆瓣读书是豆瓣网的一个子版块。本文数据来源于豆瓣读书网站,剖析内容将基于豆瓣读书的图书评分和评论信息。主题将紧紧围绕以下几点:有哪些书籍值得举荐?个别书籍的价格是多少?一本书的评分和评论数量之间是否存在某种关系?

热门书籍散布

截至爬取之日,热门书评数量实时增长,别离是:

①:评分 >=8.0 且评论超过 10w+ 的书籍;②:只有评论超过 10w+ 的书;③:按书评数量排名 TOP8;

通过比照,我发现一些值得一读再读的名著总是在列表中,而且列表中的大部分书籍都是开卷即无益的好书。降低标准后,也呈现了一些无益的书籍(《平庸的世界》之类的)。

由此能够得出结论,数据分析算法应该是综合多种数据失去的权重模型,所以评论量大或者评分高的书不肯定值得一读,综合思考失去的后果能够 被认为是偏心的。比方郭敬明的《梦里花落知多少》,路遥的《平庸的世界》。

书籍的价格个别都是在什么范畴?

对于读书爱好者来说,这是一个比较关心的问题。

从上图咱们能够发现,大部分书籍的价格在 20-40 之间,其余价格区间的书籍绝对较少。计算机专业书籍的价格在 60-90 之间,低于 10 元价格范畴的书籍局部是电子书。咱们诧异地发现有很多书的价格超过 100 元!

能够发现,这些百元以上的书籍,大部分都是史料书籍。价格高的起因之一是这些书个别分为很多卷,钻研意义重大,消耗大量人力。

热门书籍评估指标 Apriori 关联规定剖析

接下来,咱们钻研 3 个要害评估指标:评分、评分数量和评论数量之间的关系。Apriori 是罕用的关联规定开掘办法之一,能够找出 3 个评估指标之间的暗藏关联。

应用平行多维图来察看风行书籍评分、评分数量和评论数量的风行关联规定。咱们发现大部分书籍的评分在 8.0-8.9 之间,评分数量在 20 万 -70 万之间。

评论最多的书有追风筝人、解忧的杂货店、白夜行等,评分在 8.1 以上。基本上,具备更多评论的作品具备更高的评分。然而,有些超高分(9 分以上)的作品,评论数量却没有设想中的多!

本文章中的所有信息(包含但不限于剖析、预测、倡议、数据、图表等内容)仅供参考,__拓端数据(__tecdat__)__不因文章的全副或局部内容产生的或因本文章而引致的任何损失承当任何责任。


 

最受欢迎的见解

1. 探析大数据期刊文章钻研热点

2.618 网购数据盘点 - 剁手族在关注什么

3.r 语言文本开掘 tf-idf 主题建模,情感剖析 n -gram 建模钻研

4.python 主题建模可视化 lda 和 t -sne 交互式可视化

5.r 语言文本开掘 nasa 数据网络剖析,tf-idf 和主题建模

6.python 主题 lda 建模和 t -sne 可视化

7.Python 中的 Apriori 关联算法市场购物篮剖析

8. 通过 Python 中的 Apriori 算法进行关联规定开掘

9.python 爬虫进行 web 抓取 lda 主题语义数据分析

正文完
 0