关于python:聊天没有表情包被嘲讽用python爬取了十万张表情包

前言

事件要从几天前说起，我有一个敌人，他在和他喜爱的小姐姐聊天时，聊天的氛围始终十分尬，这时他就想发点表情包来弛缓一下氛围，但一看本人的表情包珍藏都是这样的。。。

。。。这发过来，根本就间接和小姐姐说拜拜了，而后他就向我求救问我有没有表情包，表情包我是没有，但网站有呀，来来，爬虫整起。

剖析页面

明天爬取的网站是斗图吧，有一说一表情包是真的多，看这惊人的页数

接下来就该看看怎么拿到表情包图片的url了，首先关上谷歌浏览器，而后点F12进入爬虫高兴模式

而后实现下图的操作，先点击1号箭头，而后再选中一个表情包即可，红色框中就是咱们要爬取的对象，其中表情包的src就在外面

当初咱们就搞清楚了怎么拿到表情包的url了，就开始写代码了

具体实现

解析页面

获取网页内容

这里就是获取爬取网页的信息

def askURL(url):
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
    }
    req = urllib.request.Request(url=url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(req)
        html = response.read()
    except Exception as result:
        print(result)
    return html

解析网页内容

# 取出图片src的正则式imglink = re.compile(
    r'<img alt="(.*?)" class="img-responsive lazy image_dta" data-backup=".*?" data-original="(.*?)" referrerpolicy="no-referrer" src=".*?"/>',
    re.S)def getimgsrcs(url):
    html = askURL(url)
    bs = BeautifulSoup(html, "html.parser")
    names = []
    srcs = []
    # 找到所有的img标签
    for item in bs.find_all('img'):
        item = str(item)
        # 依据下面的正则表达式规定把图片的src以及图片名拿下来
        imgsrc = re.findall(imglink, item)
        # 这里是因为拿取的img标签可能不是咱们想要的，所以匹配正则规定之后可能返回空值，因而判断一下
        if (len(imgsrc) != 0):
            imgname = ""
            if imgsrc[0][0] != '':
                imgname = imgsrc[0][0] + '.' + getFileType(imgsrc[0][1])
            else:
                imgname = getFileName(imgsrc[0][1])
            names.append(imgname)
            srcs.append(imgsrc[0][1])
    return names, srcs

到当初为止，曾经拿到了所有的图片的链接和名字，那么就能够开始下载了

文件下载

多线程下载

因为文件切实有点多，所以最好采纳多线程的形式下载，我这里只是给了一个样例，大家依照这个逻辑写一下就好

 pool = ThreadPoolExecutor(max_workers=50)
         for j in range(len(names)):
            pool.submit(FileDownload.downloadFile, urls[j], filelocation[j])

成绩

总共是爬了十万多张表情包，这次咱也是表情包小户了

以上就是本次分享的所有内容，如果你感觉文章还不错，欢送关注公众号：Python编程学习圈，每日干货分享，发送“J”还可支付大量学习材料，内容笼罩Python电子书、教程、数据库编程、Django，爬虫，云计算等等。或是返回编程学习网，理解更多编程技术常识。

关于python:聊天没有表情包被嘲讽用python爬取了十万张表情包

前言

剖析页面

具体实现

解析页面

获取网页内容

解析网页内容

文件下载

多线程下载

成绩

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于python:聊天没有表情包被嘲讽用python爬取了十万张表情包

前言

剖析页面

具体实现

解析页面

获取网页内容

解析网页内容

文件下载

多线程下载

成绩

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复