xpath获取标签属性乱码解决

问题在于解码和编码修改前的代码
#-*- coding: utf-8 -*-

import requests
from lxml import etree

url = ‘http://top.baidu.com/buzz?b=1&fr=20811′
response = requests.get(url)
r = etree.HTML(response.text)
item_list = r.xpath(“//table[@class=’list-table’]//tr”)
# print(item_list)
for i in item_list[1:]:
first_name = i.xpath(“./td[@class=’first’]/span”)
keyword_name = i.xpath(“./td[@class=’keyword’]/a[@class=’list-title’]”)
try:
print(first_name[0].text)
print(keyword_name[0].text)
except:
pass
print(‘***************************************************************’)

打印输出中文字全部为乱码
1ÂêÉ¯Ä¸Ç×ÀÏ¹«³ö¹ì

2É±ÓãµÜ¸¸×Ó´òÈË

3·ÉÐÐÔ±Íü´øÔ¿³×

4¿ìÂ¹¸ß¹Ü±»ÅÐÎÞÆÚ

5¶«º£º½¿ÕÔÙÏÖÎ¥¹æ

6ÏÈ·æ´´Ê¼ÈËÈ¥ÊÀ

7öª·æ·ñÈÏÇúÆæÖÂ°©

8¹Â´æ6É±³Ô¼¦

9IG 2:0 OMG

10Ð¡S°®Çé±£ÏÊÊõ

11ÖÐ¹ú0-2º«¹ú

12Û¬ÁÖ¼¤¶¯Å³â²ÃÅÐ

13µÇ±´À³ÓëÕÅÁ¦ºÏÓ°

14¼ÃÄÏÎ¥½¨±ðÊû±»²ð

15ÎÞÏÞ¼« ÐÄ¼¡Ëðº¦

16Ã¢¹û»ØÓ¦Áõ»¶ÍÂ²Û

17ÎâÒà·² 100Íò

18Àî³ÐîçÎªÅ®¶ùÇìÉú

19Ä§µÀ×æÊ¦±»Ëø

20ÇÐ¶ûÎ÷×â½èÒÁ¹ÏÒò

21±´¿ËººÄ·°®È®

22Æ»¹ûÊÐÖµ´óËõË®

23×ßÂ·¿´ÊÖ»ú·£10Ôª

24¹ú¼ÊÓÍ¼Û×òÈÕÊÕÕÇ

25¹ú×ãÂäºóº«¹ú

26shadowÌæ²¹

27ÉòÃÎ³½»ØÓ¦Âô¼Ù»õ

28Ì¨ÄÏÅ®Í¯ÔâÄ¸Å°ËÀ

29ÖÐº«´óÕ½Ê×·¢

30ÖÐÑ§ÎªÀÏÊ¦ÉèÁµ°®¼Ù

31ºú¾²ÆØ¹âºÀÃÅÉú»î

32¹ËÍ¢ìÇÒªÈ¢ÈçÀ¼

33Ó¢¹úÒé»á·ñ¾öÍÑÅ·

34¿ÏÄáÑÇ¾Æµê±¬Õ¨

35µÎµÎ°²È«ÔÙÉý¼¶

36ÖÜÐÇ³ÛÕÅ°ØÖ¥ÖØ¾Û

37Õã½ÑØº£¸ßËÙ¿ªÍ¨

38°×ÓîÐøÔ¼Ò¼ÐÄ

39Ê®´ó×î¶Â»¥ÁªÍø¹«Ë¾

40ÖÜ½ÜÂ×É¹ÂèÂè½üÕÕ

41º®¼ÙÌìÊýÅÅÐÐ°ñ

42°ëÊý·ÉÐÐÔ±ÍËÐÝ

43ºã´óÂò¶Ï±£ÀûÄá°Â

44ÐÂ»ª±£ÏÕÍò·åÀëÖ°

45ÐðÀûÑÇ±¬Õ¨

46º«¾ç¹¬½«ÅÄÖÐ¹ú°æ

47½ûÖ¹Î´³ÉÄêÈËÕûÈÝ

48³ÂÒâºÏëÂèÂè

49Ê×¸ÖÄÐÀº»÷°ÜÉÏº£

50Ñî×Ï¹ØÏþÍ® ÍÈ

处理方式：
先查看 response的编码print(response.encoding)然后对中文部分 encode(‘ISO-8859-1’).decode(‘gbk’)附上修改过后的代码和输出
#-*- coding: utf-8 -*-

import requests
from lxml import etree

url = ‘http://top.baidu.com/buzz?b=1&fr=20811′
response = requests.get(url)
print(response.encoding)
r = etree.HTML(response.text)
item_list = r.xpath(“//table[@class=’list-table’]//tr”)
# print(item_list)
for i in item_list[1:]:
first_name = i.xpath(“./td[@class=’first’]/span”)
keyword_name = i.xpath(“./td[@class=’keyword’]/a[@class=’list-title’]”)
try:
print(first_name[0].text.encode(‘ISO-8859-1’).decode(‘gbk’))
print(keyword_name[0].text.encode(‘ISO-8859-1’).decode(‘gbk’))
except:
pass
print(‘***************************************************************’)

1玛莎母亲老公出轨

2佘诗曼回应蛇精脸

3杀鱼弟父子打人

4飞行员忘带钥匙

5快鹿高管被判无期

6先锋创始人去世

7东海航空再现违规

8IG 2:0 OMG

9济南大白宫被拆

10济南违建别墅被拆

11登贝莱与张力合影

12无限极心肌损害

13孤存6杀吃鸡

14霆锋否认曲奇致癌

15中国0-2韩国

16郜林激动怒斥裁判

17小S爱情保鲜术

18业主割断安全绳

19芒果回应刘欢吐槽

20吴亦凡 100万

21李承铉为女儿庆生

22魔道祖师被锁

23伊瓜因发烧

24切尔西租借伊瓜因

25贝克汉姆爱犬

26苹果市值大缩水

27走路看手机罚10元

28国际油价昨日收涨

29国足落后韩国

30shadow替补

31沈梦辰回应卖假货

32中韩大战首发

33台南女童遭母虐死

34中学为老师设恋爱假

35胡静曝光豪门生活

36顾廷烨要娶如兰

37英国议会否决脱欧

38肯尼亚酒店爆炸

39滴滴安全再升级

40周星驰张柏芝重聚

41浙江沿海高速开通

42十大最堵互联网公司

43周杰伦晒妈妈近照

44寒假天数排行榜

45半数飞行员退休

46恒大买断保利尼奥

47新华保险万峰离职

48韩剧宫将拍中国版

49叙利亚爆炸

50禁止未成年人整容

xpath获取标签属性乱码解决

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

xpath获取标签属性乱码解决

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复