小三:怎么了小二?一副愁眉不展的样子。
小二:唉!这不是快过年了吗,家里又催相亲了 …
小三:当初不是风行网恋吗,你能够试试相亲软件呀。
小二:这玩意靠谱吗?
小三:我也没用过,你本人看看软件评论区吧。
小二:这 … 不过也只能先到评论区看看了。
本文以 360 手机助手为例,地址为:http://zhushou.360.cn/
,相亲软件抉择 3 个比拟风行的,别离为:世纪佳缘、百合婚恋、有缘网,咱们应用 Python 爬取软件评论区,看看用户评估状况。
先来看一下这三款软件的下载量和好中差评占比状况(下图单位为万次)。
上面开始爬取评论区,以世纪佳缘为例,首先,在搜寻框输出世纪佳缘进行搜寻,如图所示:
接着,点击搜寻到的软件进入其详情页,如图所示:
将页面向下拉就能够看到评论区了,如图所示:
此时关上开发者工具并抉择 Network
项,点击查看更多评论,而后能够看到 getComments
申请,如图所示:
通过这个申请咱们就能够动静获取评论区数据了,其中参数 star
为开始的评论索引,参数 count
为每次加载的评论个数,能够通过参数 callback
、baike
指定不同利用,爬取代码实现如下:
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8",
"Connection": "keep-alive",
"Host": "comment.mobilem.360.cn",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
}
def comment_spider(param, file_name):
base_url = "http://comment.mobilem.360.cn/comment/getComments?c=message&a=getmessage&&count=50"
start = 0
for i in range(1, 50):
print("第 {} 页".format(i))
url = base_url + param + "&start=" + str(start)
r = requests.get(url, headers=headers)
data = re.findall("{\"errno\"(.*)\);}catch\(e\){}", r.text)
# 转为 Json 格局
jdata = json.loads("{\"errno\"" + data[0])
for message in jdata["data"]["messages"]:
content = message["content"]
print(content)
with open(file_name + ".txt", "a", encoding="utf-8") as f:
f.write(content)
start = start + 50
time.sleep(2)
咱们将爬取的评论数据存到了 txt 文件中。
接着,咱们将评论数据进行词云展现,代码实现如下:
with open("yy.txt", "r", encoding="utf-8") as f:
content = f.read()
stylecloud.gen_stylecloud(text=content, max_words=600,
collocations=False,
font_path="SIMLI.TTF",
icon_name="fas fa-heart",
size=800,
output_name="yy.png")
Image(filename="yy.png")
最初,通过词云看一下用户对上述软件的评估状况。
世纪佳缘:
百合婚恋:
有缘网:
小二:看了有缘网的评论,我感觉本人和相亲软件无缘 …
小三:…
源码在公众号 Python 小二 后盾回复 201207 获取。
申明:本文不形成对上述相亲软件的任何应用倡议。