关于日志:基于-log4j2-插件实现统一日志脱敏性能远超正则替换

32次阅读

共计 3209 个字符,预计需要花费 9 分钟才能阅读完成。

前言

金融用户敏感数据如何优雅地实现脱敏?

日志脱敏之后,无奈依据信息疾速定位怎么办?

通过了这两篇文章之后,咱们对日志脱敏应该有了肯定的了解。

然而理论我的项目中,咱们遇到的状况往往更加简单:

1)我的项目的 java bean 定义不标准,大量接口应用 map。

2)历史我的项目泛滥,革新老本微小。

种种原因,导致应用注解的形式消耗大量的工夫。然而个别给咱们革新的工夫是无限的。

那么,有没有一种办法能够对立对敏感信息进行脱敏解决呢?

答案是有的,咱们能够基于 log4j2 实现本人的脱敏策略,对立实现日志的脱敏。

log4j2 Rewrite

咱们能够基于 log4j2 RewritePolicy 对立应用脱敏策略。

本我的项目自 V1.2.0 增加对应反对,后续将晋升对应的可拓展性。

阐明:如果应用 slf4j 接口,实现为 log4j2 时也是反对的。

应用入门

maven 引入

引入外围脱敏包。

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>sensitive-log4j2</artifactId>
    <version>1.2.1</version>
</dependency>

其余的个别我的项目中也有,如 log4j2 包:

<dependency>
    <groupId>org.apache.logging.log4j</groupId>
    <artifactId>log4j-api</artifactId>
    <version>${log4j2.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.logging.log4j</groupId>
    <artifactId>log4j-core</artifactId>
    <version>${log4j2.version}</version>
</dependency>

log4j2.xml 配置

例子如下:

<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="WARN" packages = "com.github.houbb.sensitive.log4j2.rewrite">
    <Appenders>
        <Console name="Console" target="SYSTEM_OUT">
        </Console>
        <Rewrite name="rewrite">
            <AppenderRef ref="Console"/>
            <SensitiveRewritePolicy/>
        </Rewrite>
    </Appenders>
    <Loggers>
        <Root level="DEBUG">
            <AppenderRef ref="rewrite" />
        </Root>
    </Loggers>
</Configuration>

几个步骤:

  1. 指定 package 为 packages = "com.github.houbb.sensitive.log4j2.rewrite"
  2. 依照 log4j2 Rewrite 标准,指定重写策略为 SensitiveRewritePolicy
  3. 输入时,间接指定为对应的重写之后的后果 <AppenderRef ref="rewrite" />

测试

失常的日志打印:

private static final String TEST_LOG = "mobile:13088887777; bankCard:6217004470007335024, email:mahuateng@qq.com, amount:123.00," +
        "IdNo:340110199801016666, name1: 李明, name2: 李晓明, name3: 李泽今天, name4: 山东小栗旬" +
        ", birthday:20220517, GPS:120.882222, IPV4:127.0.0.1, address: 中国上海市徐汇区 888 号;";

logger.info(TEST_LOG);

主动脱敏成果如下:

mobile:130****7777|9FC4D36D63D2B6DC5AE1297544FBC5A2; bankCard:6217***********5024|444F49289B30944AB8C6C856AEA21180, email:mahu*****@qq.com|897915594C94D981BA86C9E83ADD449C, amount:123.00, IdNo:3****************6|F9F05E4ABB3591FC8EA481E8DE1FA4D6, name1: 李 *|15095D14367F7F02655030D498A4BA03, name2: 李 **|035E3C0D1A0410367FE6EB8335B2BFDE, name3: 李泽 **|B87138E5E80AEC87D2581A25CAA3809D, name4: 山东 ***|6F2178D34BC7DD0A07936B5AFF39A16F, birthday:********|1F88D983FAFC50022651122B42F084A0, GPS:**********|E281A9A52DE915154285148D68872CA2, IPV4:127******|F528764D624DB129B32C21FBCA0CB8D6, address: 中国上海市徐 ******|821A601949B1BD18DCBAAE27F2E27147;

ps: 这里是为了演示各种成果,理论默认对应为 1,2,3,4 这几种策略。

log4j2 配置定制化

为了满足各种用户的场景,在 V1.2.1 引入了 SensitiveRewritePolicy 策略的可配置化。

默认配置

log4j2 配置中,SensitiveRewritePolicy 配置默认等价于

<SensitiveRewritePolicy
        prefix=":=&apos;&quot;"
        scanList = "1,2,3,4"
        replaceList = "1,2,3,4"
        defaultReplace = "12"
        replaceHash = "md5"
/>

属性阐明

SensitiveRewritePolicy 策略的属性阐明。

属性 阐明 默认值 备注
prefix 须要脱敏信息的匹配前缀 :='" 升高误判率
replaceHash 哈希策略模式 md5 反对 md5/none 两种模式
scanList 敏感扫描策略列表 1,2,3,4 1~10 内置的 10 种敏感信息扫描策略,多个用逗号隔开
replaceList 敏感替换策略列表 1,2,3,4 1~10 内置的 10 种敏感信息替换策略,多个用逗号隔开
defaultReplace 敏感替换默认策略 12 1~13 内置的 13 种敏感信息替换策略,指定一个。当列表没有匹配时,默认应用这个

其中 1-13 的内置策略阐明如下:

策略标识 阐明
1 手机号
2 身份证
3 银行卡
4 邮箱
5 中国人名
6 出生日期
7 GPS
8 IPV4
9 地址
10 护照
11 匹配任意不覆盖
12 匹配任意半覆盖
13 匹配任意全覆盖

不足之处

这里的策略自定义和 log4j2 的插件化比起来,的确算不上弱小,然而能够满足 99% 的脱敏场景。

后续有工夫思考相似 log4j2 的 plugins 思维,实现更加灵便的自定义策略。

性能

正则的替换可能会导致 cpu 飙升等问题,替换的策略也有限度。

实现的底层不是基于正则的,性能要远高于正则,大略是 2 倍左右,合乎企业级利用性能。

后续将增加对应的 benchmark。

开源地址

为了便于大家学习,我的项目已开源

https://github.com/houbb/sensitive

小结

理论我的项目中,倡议二者联合应用。

基于 log4j2 的形式对立解决十分不便,然而是性能和准确性要有肯定的折中。

如果是新我的项目,倡议应用注解的形式,通过日志标准规范开发,后续拓展性也更加灵便。

正文完
 0