大家好,我是查理。
知己知彼,方可百战不殆。在学习技术的时候咱们往往面临太多抉择而手足无措,可能是各个方面都有涉猎,对某个畛域没有深入研究,看似什么都会,真要让你做个什么货色的时候就显得捉肘见襟。如果咱们能从招聘职位所需的技能开始学习,便可练就一身硬功夫,为实战利用中打下良好的根底。
咱们的目标次要是通过 python 抓取拉钩网的招聘详情,并筛选其中的技能关键词,存储到 excel 中。
一、获取职位需要数据
通过观察能够发现,拉勾网的职位页面详情是由 http://www.lagou.com/jobs/ + ***** (PositionId).html 组成,而 PositionId 能够通过剖析 Json 的 XHR 取得。而红框里的职位形容内容是咱们要抓取的数据。
晓得了数据的源头,接下来就依照惯例步骤包装 Headers,提交 FormData 来获取反馈数据。
获取 PositionId 列表所在页面:
# 获取职位的查问页面,(参数别离为网址,以后页面数,关键词)def get_page(url, pn, keyword):
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Host': 'www.lagou.com',
'Connection': 'keep-alive',
'Origin': 'http://www.lagou.com'
}
if pn == 1:
boo = 'true'
else:
boo = 'false'
page_data = urllib.urlencode([('first', boo),
('pn', pn),
('kd', keyword)
])
req = urllib2.Request(url, headers=headers)
page = urllib2.urlopen(req, data=page_data.encode('utf-8')).read()
page = page.decode('utf-8')
return page
通过 Json 获取 PositionId:
#获取所需的岗位 ID,每一个招聘页面详情都有一个所属的 ID 索引
def read_id(page):
tag = 'positionId'
page_json = json.loads(page)
page_json = page_json['content']['positionResult']['result']
company_list = []
for i in range(15):
company_list.append(page_json[i].get(tag))
return company_list
合成指标 url:
# 获取职位页面,由 positionId 和 BaseUrl 组合成指标地址
def get_content(company_id):
fin_url = r'http://www.lagou.com/jobs/%s.html' % company_id
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Host': 'www.lagou.com',
'Connection': 'keep-alive',
'Origin': 'http://www.lagou.com'
}
req = urllib2.Request(fin_url, headers=headers)
#page = urllib.urlopen(req).read()
page = urllib2.urlopen(req).read()
content = page.decode('utf-8')
return content
二、对数据进行解决
获取数据之后,须要对数据进行荡涤,通过 BeautifulSoup 抓取的职位内容蕴含 Html 标签,须要让数据脱去这层“外衣”。
# 获取职位需要(通过 re 来去除 html 标记),能够将职位详情独自存储
def get_result(content):
soup = Bs(content, 'lxml')
job_description = soup.select('dd[class="job_bt"]')
job_description = str(job_description[0])
rule = re.compile(r'<[^>]+>')
result = rule.sub('', job_description)
return result
当初失去的数据就是职位形容信息,咱们要从职位信息当中筛选咱们所关注的任职要求关键词。
咱们将这些关键词筛选进去,存储到 List 当中。通过对整个 500+ 职位进行爬取,咱们失去了职位技能关键词的总表。
# 过滤关键词:目前筛选的形式只是选取英文关键词
def search_skill(result):
rule = re.compile(r'[a-zA-z]+')
skil_list = rule.findall(result)
return skil_list
对关键词依照 500+ 职位需要呈现的频次进行排序,选取频次排序 Top80 的关键词,去除有效的关键词。
# 对呈现的关键词计数,并排序,选取 Top80 的关键词作为数据的样本
def count_skill(skill_list):
for i in range(len(skill_list)):
skill_list[i] = skill_list[i].lower()
count_dict = Counter(skill_list).most_common(80)
return count_dict
三、对数据进行存储和可视化解决
# 对后果进行存储并生成 Area 图
def save_excel(count_dict, file_name):
book = xlsxwriter.Workbook(r'E:\positions\%s.xls' % file_name)
tmp = book.add_worksheet()
row_num = len(count_dict)
for i in range(1, row_num):
if i == 1:
tag_pos = 'A%s' % i
tmp.write_row(tag_pos, ['关键词', '频次'])
else:
con_pos = 'A%s' % i
k_v = list(count_dict[i-2])
tmp.write_row(con_pos, k_v)
chart1 = book.add_chart({'type':'area'})
chart1.add_series({
'name' : '=Sheet1!$B$1',
'categories' : '=Sheet1!$A$2:$A$80',
'values' : '=Sheet1!$B$2:$B$80'
})
chart1.set_title({'name':'关键词排名'})
chart1.set_x_axis({'name': '关键词'})
chart1.set_y_axis({'name': '频次 (/ 次)'})
tmp.insert_chart('C2', chart1, {'x_offset':15, 'y_offset':10})
book.close()
数据可视化展现
如发现错误或看不懂的中央,可在评论区提出,大家一起交换!
如果文章对您有帮忙,点赞 + 关注,您的反对是我最大的能源