摆脱剧荒教你用Python爬取豆瓣电影最新榜单

jiezi

5 年前

作者 | 吹牛 Z
来源 | 数据不吹牛

【导读】本文以豆瓣电影（非 TOP250）为例，从数据爬取、清洗与分析三个维度入手，详解和还原数据爬取到分析的全链路。阅读全文大概需要 5 分钟，想直接看结果或下载源码 + 数据集的旁友可以空降到文末。

旁友，暑假，已经过了一大半了。

这个遥远而炙热的名词，虽然和小 Z 这个上班狗已经没有任何关系，但在房间穿着裤衩，吹着空调，吃着西瓜，看着电影，依然是假期最好的打开方式。现在裤衩、空调、西瓜都唾手可得，压力全在电影这边了。

关于电影推荐和排行，豆瓣是个好地方，只是电影 TOP250 排名实在是太经典，经典到有点老套了。

小 Z 想来点新花样，于是按默认的“评分最高”来排序，Emmm，结果好像比较小众：

又按年代进行筛选，发现返回的结果和预期差的更远了。

怎么办捏？不如我们自己对豆瓣电影进行更全面的爬取和分析，再 DIY 评分规则，结合电影上映年代做一个各年代 TOP100 电影排行榜。

1、网址规律探究

听说看的人越多，评分越有说服力，所以我们进入导航页，选择“标记最多”。（虽然标记的多并不完全等于看的多，但也差不多了）

要找到网址变化规律，常规的套路就是先右键“审查元素”，然后通过不断的点击“加载更多”刷新页面的方式来找规律。

网址规律异常的简单，开头 URL 不变，每翻一页，start 的数值增加 20 就 OK 了。

一页是 20 部电影，开头我们立下的 FLAG 是要爬取 9000 部电影，也就是爬取 450 页。

2、单页解析 + 循环爬取

豆瓣灰常贴心，每一页都是 JSON 格式存储的规整数据，爬取和清洗都省了不少事儿：

这里我们只需要伪装一下 headers 里面的 user-agent 就可以愉快的爬取了：

headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36′}

直接上单页解析的代码：

def parse_base_info(url,headers): html = requests.get(url,headers = headers) bs = json.loads(html.text) df = pd.DataFrame()for i in bs[‘data’]: casts = i[‘casts’] #主演 cover = i[‘cover’] #海报 directors = i[‘directors’] #导演 m_id = i[‘id’] #ID rate = i[‘rate’] #评分 star = i[‘star’] #标记人数 title = i[‘title’] #片名 url = i[‘url’] #网址 cache = pd.DataFrame({‘ 主演 ’:[casts],’ 海报 ’:[cover],’ 导演 ’:[directors],’ID’:[m_id],’ 评分 ’:[rate],’ 标记 ’:[star],’ 片名 ’:[title],’ 网址 ’:[url]}) df = pd.concat([df,cache])return df

然后我们写一个循环，构造所需的 450 个基础网址：

两个凑一起，跑起来：

result = pd.DataFrame()# 看爬取了多少页 count = 1for url in urls:df = parse_base_info(url,headers = headers)result = pd.concat([result,df])time.sleep(random.random() + 2)print(‘I had crawled page of:%d’ % count)count += 1

一个大号的功夫，包含电影 ID、电影名称、主演、导演、评分、标记人数和具体网址的数据已经爬好了：

下面，我们还想要批量访问每一部电影，拿到有关电影各星级评分占比等更丰富的信息，后续我们想结合评分分布来进行排序。

3、单部电影详情爬取

我们打开单部电影的网址，取巧做法是直接右键，查看源代码，看看我们想要的字段在不在源代码中，毕竟，爬静态的源代码是最省力的。

电影名称？在的！导演信息？在的！豆瓣评分？还是在的！一通 CTRL+ F 搜索发现，我们所有需要的字段，全部在源代码中。那爬取起来就太简单了，这里我们用 xpath 来解析：

defparse_movie_info(url,headers = headers,ip = ”):if ip == ”: html = requests.get(url,headers = headers)else: html = requests.get(url,headers = headers,proxies = ip) bs = etree.HTML(html.text)# 片名 title = bs.xpath(‘//div[@id = “wrapper”]/div/h1/span’)[0].text #上映时间 year = bs.xpath(‘//div[@id = “wrapper”]/div/h1/span’)[1].text #电影类型 m_type = []for t in bs.xpath(‘//span[@property = “v:genre”]’): m_type.append(t.text) a = bs.xpath(‘//div[@id= “info”]’)[0].xpath(‘string()’)# 片长 m_time =a[a.find(‘ 片长: ‘) + 4:a.find(‘ 分钟 n ’)] #时长 #地区 area = a[a.find(‘ 制片国家 / 地区:’) + 9:a.find(‘n 语言 ’)] #地区 #评分人数 try: people = bs.xpath(‘//a[@class = “rating_people”]/span’)[0].text# 评分分布 rating = {} rate_count = bs.xpath(‘//div[@class = “ratings-on-weight”]/div’)for rate in rate_count: rating[rate.xpath(‘span/@title’)[0]] = rate.xpath(‘span[@class = “rating_per”]’)[0].textexcept: people = ‘None’ rating = {}# 简介 try: brief = bs.xpath(‘//span[@property = “v:summary”]’)[0].text.strip(‘n u3000u3000’)except: brief = ‘None’try: hot_comment = bs.xpath(‘//div[@id = “hot-comments”]/div/div/p/span’)[0].textexcept: hot_comment = ‘None’ cache = pd.DataFrame({‘ 片名 ’:[title],’ 上映时间 ’:[year],’ 电影类型 ’:[m_type],’ 片长 ’:[m_time],’ 地区 ’:[area],’ 评分人数 ’:[people],’ 评分分布 ’:[rating],’ 简介 ’:[brief],’ 热评 ’:[hot_comment],’ 网址 ’:[url]})return cache

第二步我们已经拿到了 9000 部电影所有的网址，只需写个循环，批量访问就可以了。然鹅，尽管设置了访问时间间隔，爬取上千个页面我们就会发现，豆娘还是会把我们给 BAN（禁）掉。

回忆一下，我们没有登录，不需要 cookies 验证，只是因为频繁的访问骚扰到了豆娘。那这个问题还是比较好解决的，此处不留爷，换个 IP 就留爷。细心的朋友已经发现了，上面针对单部电影的页面解析，有一个默认 IP 参数，我们只需要在旧 IP 被禁后，传入新的 IP 就可以了。

PS：代理 IP 如果展开讲篇幅太长，网上有许多免费的 IP 代理（缺点是可用时间短，不稳定）和付费的 IP 代理（缺点是不免费）。另外，要强调一下这里我们传入的 IP 长这样：{‘https’:’https://115.219.79.103:0000′}

movie_result = pd.DataFrame()ip = ”# 这里构建自己的 IP 池 count2 = 1cw = 1for url,name in zip(result[‘ 网址 ’].values[6000:],result[‘ 片名 ’].values[6000:]):#for name,url in wrongs.items():try: cache = parse_movie_info(url,headers = headers,ip = ip) movie_result = pd.concat([movie_result,cache])#time.sleep(random.random()) print(‘ 我们爬取了第:%d 部电影 ——-%s’ % (count2,name)) count2 += 1except: print(‘ 滴滴滴滴滴，第 {} 次报错 ’.format(cw)) print(‘ip is:{}’.format(ip)) cw += 1 time.sleep(2)continue

电影页面数据爬取结果如下：

1、基本信息表和电影内容表合并

base_info 表里面是我们批量抓取的电影基本信息，movie_info 则是我们进入每一部电影，获取到的感兴趣字段汇总，后面的分析是需要依赖两张表进行的，所以我们合并之：

2、电影年份数据清洗

我们发现之前爬取的上映时间数据不够规整，前面都带了一个“-”：

要把前面多余的符号去掉，但发现无论怎么用 str.replace 返回的都是 Nan，原来这里 pandas 把所有数字默认成负的，所以只需要把这一列所有数字乘 - 1 即可：

3、评分分布规整

最终我们是希望能够把电影整体评分（如某电影 8.9 分）和不同评分等级（5 星的占比 70%）结合起来分析的。而刚才爬取评分数据的时候，为了偷懒，用的是一个字典把各评分等级和对应的占比给包起来了，然鹅，pandas 默认把他当成了字符串，不能直接当做字典处理：

灵光一闪？这种字典形式的字符串，用 JSON 解析一下不就变字典了？HAVE A TRY：

结果，疯狂报错：

报错貌似在提示我们是最外围的引号错误导致了问题，目前我们用的是双引号（”{‘a’:1}”）难道只能用单引号(‘{‘a’:1}’)？先试试吧：

报错解决了。接下来，我们把字典形式的评分拆成多列，例如每个星级对应一列，且百分比的格式变成数值型的，写个循环函数，用 apply 应用一下即可：

把单列字典的评分分布转化成分开的 5 列，且每一列是数值型的 def get_rate(x,types):try:return float(x[types].strip(‘%’))except:passmovie_combine[‘5 星 ’] = movie_combine[‘format_评分 ’].apply(get_rate,types = ‘ 力荐 ’)movie_combine[‘4 星 ’] = movie_combine[‘format_评分 ’].apply(get_rate,types = ‘ 推荐 ’)movie_combine[‘3 星 ’] = movie_combine[‘format_评分 ’].apply(get_rate,types = ‘ 还行 ’)movie_combine[‘2 星 ’] = movie_combine[‘format_评分 ’].apply(get_rate,types = ‘ 较差 ’)movie_combine[‘1 星 ’] = movie_combine[‘format_评分 ’].apply(get_rate,types = ‘ 很差 ’)

现在我们的数据长这样的：

OK，清洗到此告一段落。

大家还记得开头的 FLAG 吗？我们要制作各年代 TOP100 电影排行榜。所以直接按照年代划分电影，然后按照电影评分排个序不就完事了！

然鹅这听起来有点话糙理也糙。如果只按照电影的总的评分来排序，会忽视掉内部评分细节的差异性，举个例子，搏击俱乐部：

总评分 9.0 分，打出 5 星好评的占比 60.9%，4 星的有 30.5%。

同为 9 分佳作，给美丽心灵打出 5 星好评的有 56.0%，和搏击俱乐部相比少了 4.9%，而 4 星的人数则高出了 6%。可以不负责任的做一个概括：两部都是 9 分经典，但观众给搏击俱乐部的 5 星倾向要高于美丽心灵。

GET 到这个点，我们就可以对电影评分排序制定一个简单的规则：先按照总评分排序，然后再对比 5 星人数占比，如果一样就对比 4 星，以此类推。这个评分排序逻辑用 PYTHON 做起来不要太简单，一行代码就搞定：

但是仔细看排序结果，我们会发现这样排序的一些小瑕疵，一些高分电影其实是比较小众的，比如“剧院魅影：25 周年纪念演出”和“悲惨世界：25 周年纪念演唱会”等。

而我们想要找的，是人民群众所喜闻乐见的电影排名，这里只有通过评分人数来代表人民的数量，我们先看一看所有电影的评分人数分布：

评分人数跨度极大，为了减少极值对于平均的影响，就让中位数来衡量人民群众是否喜闻乐见，所以我们只留下大于中位数的评分。

接着，看看历年电影数量分布情况：

直到 2000 年初，筛选后的电影年上映数才逼近 200，更早时期的电影好像 20 年加起来还不到 100 部。为了让结果更加直观，我们来按年代统计电影的上映时间。这里涉及到给每部电影上映时间进行归类，有点棘手啊 …

绞尽脑细胞，终于找到了一个比较讨巧的办法，先构造年代标签，再借用 cut 函数按十年的间隔切分上映时间，最后把标签传入参数。

得勒！数据直观的反映出各年代上映量，20 世纪 80 年代前真的是少得可怜。看到这里，不由想到我们最开始立的那个“制作年代 TOP100 榜单”的 FLAG，因为早期电影量的贫乏，是完全站不住脚的了。

不慌，一个优秀的数据分析师，一定是本着具体问题具体分析的精神来调整 FLAG 的：

基于年代上映量数据，我们从 20 世纪 30 年代开始制作排名；为了避免有些年代电影过少，优化成各年代 TOP 10% 的电影推荐；同时，为了避免近年电影过多，每个年代推荐的上限数不超过 100 部。

看到这三个条件，连一向自傲的潘大师（pandas）都不禁长叹了口气。然鹅大师之所以是大师，就是因为在他眼里没有什么是不可能的。思考 1 分钟后，确定了灵活筛选的套路：

final_rank = pd.DataFrame()for century,count in zip(century_f.index,century_f.values): f1 = movie_f2.loc[movie_f[‘ 年代 ’] == century,:] #1000 部以下的，取 TOP10% if count < 1000: return_num = int(count * 0.1) #1000 部以上的，取前 100 部 else: return_num = 100 f2 = f1.iloc[:return_num,:] final_rank = pd.concat([final_rank,f2])

根据上一步构造的 century_f 变量，结合每个年代上映电影量，不足 1000 部的筛选前 10%，超过 1000 部的只筛选前 100 部，结果，就呼之而出了。

在附上代码和榜单之前，我预感到大部分旁友是和我一样懒的（不会仔细看榜单），所以先整理出各年代 TOP5 电影（有些年代不足 TOP5），做一个精华版的历史电影排行榜奉上：

从峰回路转、结尾让人大呼牛逼的《控方证人》，到为无罪真理而辩的《十二怒汉》，再到家庭为重不怒自威的《教父》系列、重新诠释希望和坚韧的《肖申克的救赎》以及将励志提升到新高度的《阿甘正传》（小 Z 阅片尚浅，榜单上只看过这些）。

每一部好的电影，都是一块从高空坠落的石头，它总能在人们的心湖上激起水花和涟漪，引起人们对生活、社会以及人性的思考。而烂片，就是从高空坠落的空矿泉水瓶，它坠势汹汹，但最终只会浮在水面，让看过的人心存芥蒂，感觉灵魂受到污染。

有了新的电影排名榜单，再也不用担心剧荒了。

数据爬取

数据清洗

数据分析

按照总评分，5 星评分人数占比，4 星占比，3 星.. 依次类推 movie_combine.sort_values([‘ 评分 ’,’5 星 ’,’4 星 ’,’3 星 ’,’2 星 ’,’1 星 ’],ascending = False,inplace = True)