精美词云
《沉睡年代》热评爬取解说
点击好评
多页爬取解说
热评爬取剖析
一个热评对应一个class值为comment-item
的div标签
所以咱们只需获取全副class值为comment-item
的div标签即可获取以后页面全副热评
然而,热评具体又存储在class值为comment-item
div标签下的class值为short
的span标签下
所以咱们只需获取全副class值为short
的span标签即可获取以后页面全副热评
spans = data.find_all(class_="short")for i in spans: global_text += ",".join(jieba.cut(str(i.text).strip()))
残缺代码
import matplotlib.pyplot as pltimport wordcloudimport jiebafrom imageio import imreadimport requestsfrom bs4 import BeautifulSoupglobal_text = ""def getDetail(data): global global_text data = BeautifulSoup(data,"html.parser") spans = data.find_all(class_="short") for i in spans: global_text += ",".join(jieba.cut(str(i.text).strip())) # 对获取到的热评分词def toWordCloud(): global global_text mask = imread("./9.png") #设置背景图 wcd = wordcloud.WordCloud( font_path="C:\Windows\Fonts\msyh.ttc", background_color='white', #设置背景色彩 random_state=80, # 色彩品种 mask=mask) wcd.generate(global_text) wcd.to_file("res.jpg") #保留为图片 plt.imshow(wcd) plt.axis('off') plt.show()if __name__ == '__main__': headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64" } url = 'https://movie.douban.com/subject/30228394/comments?percent_type=h&start={}&limit=20&status=P&sort=new_score' for i in range(6,10): new_url = url.format(i * 20) response = requests.get(url=url,headers=headers) response.encoding = 'utf-8' getDetail(response.text) toWordCloud()
最初
我是 Code皮皮虾,一个酷爱分享常识的 皮皮虾爱好者,将来的日子里会不断更新出对大家无益的博文,期待大家的关注!!!
创作不易,如果这篇博文对各位有帮忙,心愿各位小伙伴能够==一键三连哦!==,感激反对,咱们下次再见~~~
==分享纲要==</font>
大厂面试题专栏
Java从入门到入坟学习路线目录索引</font>
<font size="5">开源爬虫实例教程目录索引
更多精彩内容分享,请点击 Hello World (●'◡'●)
本文爬虫源码已由 GitHub https://github.com/2335119327/PythonSpider 曾经收录(外延更多本博文没有的爬虫,有趣味的小伙伴能够看看),之后会继续更新,欢送Star。