关于ide:BleachMozilla-出品快速准确地清理-HTML

【导语】：Bleach 是 Mozilla 官网开发的 HTML 清理库，用 Python 实现。它应用简略，可能疾速精确地清理文本中的 HTML 片段，还能提取出其中的链接，通过点击链接，你就能平安地查阅对应的内容。

在日常的工作中，你是否碰到过带有 HTML 片段的内容，比方博客上的用户评论，或者商品的形容信息？在解决这些内容时，你是否因其中蕴含的有效标记，不残缺标签以及不平安链接而困扰？如果你曾碰到过上述问题，那么 Bleach 库将会解决你的懊恼。Bleach 是一个基于白名单的 HTML 清理库，能够本义或去除标记和属性。简而言之，你能够自定义一个列表，其中包含容许存在的标签或属性，当接管到一部分 HTML 文本时，Bleach 可能把文本中的其余标签换码，并去除其余属性；另外，Bleach 还能平安地链接到文本，例如：你能够把一部分 HTML 文本中的所有 URL 转化为平安的 HTML 链接，同时你还能给这些链接自定义属性，还能删除某些不平安的链接。

https://github.com/mozilla/bl…

用 pip 装置：

pip install bleach

假如咱们想清理一部分 HTML 中的  标签：

import nbsp;bleach  
result = bleach.clean(  
    "<b><i> 开源前哨 </i></b>",  
    tags=["b"]  
)  
print(result)

输入后果如下：
 开源前哨 

假如咱们想清理一部分 HTML 中的某个属性：

import bleach  
result = bleach.clean(  
    '<p class="foo"style="color: red; font-weight: bold;"> 开源前哨 </p>',  
    tags=['p'],  
    attributes=['style'],  
    styles=['color'],  
)  
print(result)

输入后果如下：
 开源前哨 

假如咱们想提取链接，并加一个题目：

from bleach.linkifier import Linker  
def set_title(attrs, new=False):  
    attrs[(None, 'title')] = '京东商城'  
    return attrs  
linker = Linker(callbacks=[set_title])  
result = linker.linkify('shopping https://www.jd.com Buy things.')  
print(result)

输入后果如下：

shopping <a href="https://www.jd.com/" title="京东商城">https://www.jd.com</a> Buy things.

假如咱们想删除某个链接：

from bleach.linkifier import Linker  
def remove_link(attrs, new=False):  
    if attrs[(None, 'href')].startswith('https:'):  
        return None  
    return attrs  
linker = Linker(callbacks=[remove_link])  
result = linker.linkify('<a href="https://www.abc.com">a website</a>')  
print(result)

输入后果如下：
a website

Bleach 的简略介绍就到这里，更多内容详见该库的官网文档：https://bleach.readthedocs.io/

开源前哨 日常分享热门、乏味和实用的开源我的项目。参加保护 10 万 + Star 的开源技术资源库，包含：Python、Java、C/C++、Go、JS、CSS、Node.js、PHP、.NET 等。

关于ide:BleachMozilla-出品快速准确地清理-HTML

简介

我的项目地址:

装置

应用简略