关于验证码:如何优雅的破解HCaptcha验证码

HCaptcha介绍

HCaptcha是国外出名的验证码服务商，其次要性能就是为网站提供验证码服务，防止网站被歹意爬虫肆意爬取信息。相比于HCaptcha，大家可能更加相熟Google reCaptcha（Google提供的验证码服务），但因为某些起因，国内是无奈应用Google reCaptcha的，所以HCaptcha便成为少数国际型网站更优的一个抉择。

本文会介绍一种优雅的形式来冲破HCaptcha验证码，在介绍冲破形式前，先简略介绍与体验一下HCaptch。

HCaptcha的交互模式如下，首先咱们须要点击复选框，如下图：

点咱们点击复选框时，验证码会先通过其危险剖析引擎判断以后用户的危险，如果是低危险用户，便能够间接通过，反之，验证码会弹出对话框，让你答复对话框中的问题，如下图：

HCaptcha验证码会给你一个问题，比方上图的问题是【请点击每张蕴含火车的图片】，咱们须要从上面的九张图中抉择出含有火车的图片，如果九张图片中，没有火车，则点击【跳过】按钮，如果有，则将所有带有火车的图片都抉择上，跳过按钮会变成【查看】按钮，如下图：

通过验证后，便会呈现如下后果：

体验HCaptcha

为了防止历史数据的影响，倡议应用Chrome的无痕模式来拜访该网站，如下图所示：

点击图中的HCaptcha，便能够体验HCaptcha验证码的残缺流程了。

至此，HCaptcha的大体状况咱们曾经相熟了，那么咱们要怎么冲破该验证码呢？当然是应用机器学习相干的技术啦，上面咱们介绍一款简略好用的平台。

解决方案

对于HCaptcha验证码，咱们能够应用YesCaptcha服务来破解，该服务应用起来非常简单，通过邮箱注册一个账户。

YesCaptcha不止反对HCaptcha，还反对Google reCaptcha V2/V3版本的破解，这里咱们先关注其对HCaptch的破解。

注册完YesCaptcha后，会取得一个clientKey，基于该clientKey便能够应用YesCaptcha提供的破解服务了。

对于HCaptcha相干破解，须要在YesCaptcha中创立破解验证码服务的API。

浏览文档后，发现只须要构建出上面表格中的参数并申请创立工作的API，便能够实现验证码的破解了。

属性	类型	必须	阐明
type	string	是	HCaptchaClassification 10 点数
queries	list[string]	是	Base64 编码的图片，不要蕴含 "data:image/*;base64,"
以列表模式拼合1到9张图片：[base64, base64,base64,……]
question	String	是	问题 ID, 请查表，反对中英文，其余语言请自行转换

代码实现

通过文档可知，咱们须要HCaptcha验证码九宫格中图片对应的Base64以及验证码中的问题，通过Chrome的Network可知，HCaptcha取得验证码图片，该接口会返回JSON格局的数据，其中就蕴含了验证码的问题以及九宫格中的图片，如下图所示：

通过Selenium自动化浏览器，取得上图所示的数据，随后配合requests库和base64库，将图片转为相应的base64编码，具体代码如下：

headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36'}def get_as_base64(url):    return base64.b64encode(requests.get(url).content)def get_captcha_image_base64(data):    image_result = []    for d in data:        img_base64 = get_as_base64(d['datapoint_uri'])        img_base64 = img_base64.decode('utf-8')        image_result.append({            'url': d['datapoint_uri'],            'task_key': d['task_key'],            'base64': img_base64        })    return image_result

有了验证码九宫格图片对于的base64后，联合取得的问题，便能够申请YesCaptcha创立破解工作的服务了，代码如下：

def create_task(question, queries):    url = 'https://api.yescaptcha.com/createTask'    data = {        "clientKey": clientKey,        "task": {            "type": "HCaptchaClassification",            "question": question,            "queries": queries,        }    }    r = requests.post(url, json=data, timeout=60)    return r.json()

将上述代码整合起来，便可失去一个残缺的流程：

if __name__ == '__main__':    with open('data.json', encoding='utf8') as f:        data = f.read()    data = json.loads(data)    question = data.get('requester_question', {}).get('zh')    tasklist = data.get('tasklist')    images = get_captcha_image_base64(tasklist)    queries = [d['base64'] for d in images]    result = create_task(question=question, queries=queries)    pprint.pprint(result)

以下图为例，通过上述代码进行破解。

运行上述代码后，取得后果如下：

{'errorCode': '', 'errorId': 0, 'solution': {'objects': [True,                          True,                          True,                          True,                          False,                          False,                          True,                          True,                          True]}, 'status': 'ready', 'taskId': '13463c20-d031-11ec-b16d-c664134fc872'}

其中solution便是此次破解工作的后果，它的程序与你申请时queries参数的程序统一，基于solution的后果，利用Selenium便可实现相应的点击操作，如下图所示

点击【查看】按钮，实现HCaptcha验证码的破解

因为本文侧重于如何破解HCaptcha，所以没花篇幅探讨如何应用Selenium去自动化浏览器取得数据，但这个内容非常简单，网上相干内容也比拟多，就不破费笔墨介绍了。

最近整顿了一套编程学习材料分享给大家，全是干货内容，蕴含教程视频、电子书、源码笔记、学习路线图、实战我的项目、面试题等等，关注gzh【Python编程学习圈】就能收费获取，回复关键词【学习材料】即可，抓紧时间吧！