【导语】:Bleach 是 Mozilla 官网开发的 HTML 清理库,用 Python 实现。它应用简略,可能疾速精确地清理文本中的 HTML 片段,还能提取出其中的链接,通过点击链接,你就能平安地查阅对应的内容。
简介
在日常的工作中,你是否碰到过带有 HTML 片段的内容,比方博客上的用户评论,或者商品的形容信息?在解决这些内容时,你是否因其中蕴含的有效标记,不残缺标签以及不平安链接而困扰?如果你曾碰到过上述问题,那么 Bleach 库将会解决你的懊恼。Bleach 是一个基于白名单的 HTML 清理库,能够本义或去除标记和属性。简而言之,你能够自定义一个列表,其中包含容许存在的标签或属性,当接管到一部分 HTML 文本时,Bleach 可能把文本中的其余标签换码,并去除其余属性;另外,Bleach 还能平安地链接到文本,例如:你能够把一部分 HTML 文本中的所有 URL 转化为平安的 HTML 链接,同时你还能给这些链接自定义属性,还能删除某些不平安的链接。
我的项目地址:
https://github.com/mozilla/bl…
装置
用 pip 装置:
pip install bleach
应用简略
- 假如咱们想清理一部分 HTML 中的
<i></i>
标签:
import nbsp;bleach
result = bleach.clean(
"<b><i> 开源前哨 </i></b>",
tags=["b"]
)
print(result)
输入后果如下:<b><i> 开源前哨 </i></b>
- 假如咱们想清理一部分 HTML 中的某个属性:
import bleach
result = bleach.clean(
'<p class="foo"style="color: red; font-weight: bold;"> 开源前哨 </p>',
tags=['p'],
attributes=['style'],
styles=['color'],
)
print(result)
输入后果如下:<p style="color: red;"> 开源前哨 </p>
- 假如咱们想提取链接,并加一个题目:
from bleach.linkifier import Linker
def set_title(attrs, new=False):
attrs[(None, 'title')] = '京东商城'
return attrs
linker = Linker(callbacks=[set_title])
result = linker.linkify('shopping https://www.jd.com Buy things.')
print(result)
输入后果如下:
shopping <a href="https://www.jd.com/" title="京东商城">https://www.jd.com</a> Buy things.
- 假如咱们想删除某个链接:
from bleach.linkifier import Linker
def remove_link(attrs, new=False):
if attrs[(None, 'href')].startswith('https:'):
return None
return attrs
linker = Linker(callbacks=[remove_link])
result = linker.linkify('<a href="https://www.abc.com">a website</a>')
print(result)
输入后果如下:a website
Bleach 的简略介绍就到这里,更多内容详见该库的官网文档:https://bleach.readthedocs.io/
开源前哨
日常分享热门、乏味和实用的开源我的项目。参加保护 10 万 + Star 的开源技术资源库,包含:Python、Java、C/C++、Go、JS、CSS、Node.js、PHP、.NET 等。