乐趣区

关于python爬虫:Python爬虫小白教学篇豆瓣93超高评分觉醒年代热评爬取生成精美词云


精美词云


《沉睡年代》热评爬取解说

点击好评


多页爬取解说


热评爬取剖析

一个热评对应一个 class 值为 comment-item 的 div 标签

所以咱们只需获取全副 class 值为 comment-item 的 div 标签即可获取以后页面全副热评

然而,热评具体又存储在 class 值为 comment-itemdiv 标签下的 class 值为short 的 span 标签下

所以咱们只需获取全副 class 值为 short 的 span 标签即可获取以后页面全副热评

spans = data.find_all(class_="short")
for i in spans:
     global_text += ",".join(jieba.cut(str(i.text).strip()))


残缺代码

import matplotlib.pyplot as plt
import wordcloud
import jieba
from imageio import imread
import requests
from bs4 import BeautifulSoup


global_text = ""

def getDetail(data):
    global global_text
    data = BeautifulSoup(data,"html.parser")
    spans = data.find_all(class_="short")
    for i in spans:
        global_text += ",".join(jieba.cut(str(i.text).strip())) # 对获取到的热评分词


def toWordCloud():
    global global_text
    mask = imread("./9.png") #设置背景图
    wcd = wordcloud.WordCloud(
        font_path="C:\Windows\Fonts\msyh.ttc",
        background_color='white', #设置背景色彩
        random_state=80, # 色彩品种
        mask=mask)
    wcd.generate(global_text)

    wcd.to_file("res.jpg") #保留为图片
    plt.imshow(wcd)
    plt.axis('off')
    plt.show()


if __name__ == '__main__':
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64"
    }
    url = 'https://movie.douban.com/subject/30228394/comments?percent_type=h&start={}&limit=20&status=P&sort=new_score'
    for i in range(6,10):
        new_url = url.format(i * 20)
        response = requests.get(url=url,headers=headers)
        response.encoding = 'utf-8'
        getDetail(response.text)

    toWordCloud()


最初

我是 Code 皮皮虾,一个酷爱分享常识的 皮皮虾爱好者,将来的日子里会不断更新出对大家无益的博文,期待大家的关注!!!

创作不易,如果这篇博文对各位有帮忙,心愿各位小伙伴能够 == 一键三连哦!==,感激反对,咱们下次再见~~~

== 分享纲要 ==</font>

大厂面试题专栏

Java 从入门到入坟学习路线目录索引 </font>

<font size=”5″> 开源爬虫实例教程目录索引

更多精彩内容分享,请点击 Hello World (●’◡’●)

本文爬虫源码已由 GitHub https://github.com/2335119327/PythonSpider 曾经收录(外延更多本博文没有的爬虫, 有趣味的小伙伴能够看看), 之后会继续更新,欢送Star

退出移动版