摘要:如何保障企业大数据在满足各业务部门数据拜访需要的同时又能精细化保障数据拜访平安、防止数据泄露是每个企业大数据资产管理者必须关注的话题。
现在,企业大数据资产在企业辅助决策、用户画像、举荐零碎等诸多业务流程中扮演着越来越重要的作用,如何保障企业大数据在满足各业务部门数据拜访需要的同时又能精细化保障数据拜访平安、防止数据泄露是每个企业大数据资产管理者必须关注的话题。
笔者联合在华为云数据湖摸索服务中的技术积淀与丰盛的企业数据安全治理教训,从以下几点来探讨如何精细化保障企业大数据安全。
1、企业大数据的平安挑战
2、数据资产权限治理的通用做法
3、以华为云 DLI 为例,对数据资产治理的实际 & 案例剖析
4、将来瞻望
数据隔离、分层拜访、受权,难题多多
企业大数据的与日俱增,天然面临着大数据安全的挑战:数据起源宽泛,来源于不同的业务单元,又要服务于各种业务单元,还须要对不同层级的员工设置不一样的权限。如何防备企业数据不被未经受权的用户拜访,治理数据在不同业务单元的共享,隔离企业敏感数据……企业可能面临着以下的挑战:
1.1 数据隔离
不同的我的项目业务数据须要隔离,如游戏经营数据,企业在设计大数据分析平台时可能冀望 A 游戏产生的业务数据用来撑持 A 游戏经营剖析,B 游戏产生的业务数据是撑持 B 游戏经营剖析,那么须要对业务数据按我的项目进行隔离,A 游戏经营部门员工只可拜访 A 游戏经营数据,B 游戏经营部门员工只可拜访 B 游戏经营数据
1.2 数据分层拜访
不同层级业务部门对数据具备不同的拜访权限,高层级部门能够拜访底层级部门的数据,而低层级部门不可拜访高层级部门的数据。如省级部门能够拜访地市级数据,而地市级部门只可拜访本地市数据,不可拜访跨区数据,也不可拜访省级部门数据。这就要求对数据的权限治理须要具备分层治理能力,可能分层级授予不同的权限。
1.3 列级数据受权
不同业务部门对同一份数据的拜访权限要求不同,所以要求可能对数据进行精细化受权。如银行零碎中,用户表中的身份证号信息是敏感信息,柜台零碎能够查问用户的身份证号,但举荐零碎就不须要身份证信息,只须要用户 ID 就能够了。这种场景下须要对用户表可能分列受权,对不同的业务单元不同的权限。
1.4 批量受权
随着企业规模的增大,企业员工可能十分宏大,分部门受权,批量受权也是很常见的业务场景。例如销售部门上面员工很多,如果单个单个的给销售人员受权,会十分麻烦,人员流动时勾销受权也很简单,这时就须要可能批量受权或者根本角色的受权模型,来实现一次受权,部门内员工均可应用的目标。
四种权限模型,孰优孰劣?
目前比拟风行的大数据分析平台的有 Hadoop,Hive,Spark 等,它们应用的权限模型有 POSIX 模型、ACL 模型、SQL Standard 模型和 RBAC 模型。其中 Hadoop 大数据平台应用了 POSIX 和 ACL 权限模型来治理数据,HIVE 和 Spark 应用了 ACL 和 RBAC 权限模型来治理数据。
POSIX 权限模型是基于文件的权限模型,与 Linux 零碎的文件系统权限相似。即一个文件有相应的 OWNER 和 GROUP,只能反对设置 OWNER,、GROUP 和其余用户的权限,可受权限也只有读写执行权限。
这种模型不适用于企业用户,有一个显著的毛病就是它只有一个 GROUP,不能实现不同的 GROUP 有不同的权限,也无奈实现精细化的权限治理,只能在文件级受权,所受权限也只有读写与执行权限。
ACL 即 Access Control List,ACL 权限模型能够补救 POSIX 权限模型的有余,能够实现比拟精细化的权限治理。通过设置访问控制列表,咱们能够授予某一个用户多个权限,也能够授予不同用户不同的权限。但 ACL 也有显著的毛病,当用户数较大时,ACL 列表会变得宏大而难以保护,这在大企业中问题尤其显著。
RBAC(Role-Based Access Control)模型也是业界罕用的一种权限模型。是基于用户角色的权限治理模型,其首先将一个或多个权限受权某一个角色,再把角色与用户绑定,也实现了对用户的受权。一个用户能够绑定一个或多个角色,用户具备的权限为所绑定角色权限的并集。RBAC 能够实现批量受权,能够灵便保护用户的权限,是以后比拟风行的权限治理模型。
SQL Standard 模型是 Hive/Spark 应用权限模型之一,实质是应用 SQL 形式的受权语法来管理权限。Hive 中的权限模型也是基于 ACL 和 RBAC 模型,即能够给独自的用户间接受权,也可能通过角色进行受权。
数据湖摸索怎么做数据资产治理?
华为云 DLI 联合了 ACL 和 RBAC 两种权限模型来治理用户权限。DLI 中波及到的概念有:
DLI 用户:DLI 用户为 IAM 账号及其下的子用户,上面拜访权限阐明的用户均指 IAM 账号及其下的子用户。
DLI 资源:DLI 的资源分为数据库 (Database)、表(table)、视图(View)、作业(Job)和队列(Queue)。资源是按我的项目隔离的,不同我的项目的资源不可相互拜访。表和视图是数据库(Database) 下的子资源。
DLI 权限:DLI 权限为执行 DLI 相干操作所须要的权限。DLI 中的权限比拟细,每项操作对应的权限都不一样,如创立表对应 CREATE_TABLE 权限,删除表对应 DROP_TABLE 权限, 查问对应 SELECT 权限等等。
DLI 应用对立身份认证(IAM)的策略和 DLI 的访问控制列表(ACL)来治理资源的拜访权限。其中对立身份认证(IAM)的策略管制我的项目级资源的隔离,和定义用户为我的项目的管理员还是普通用户。访问控制列表(ACL)管制队列,数据库,表,视图,列的拜访权限和受权治理。
DLI 应用对立身份认证来实现用户认证和用户角色治理。DLI 在 IAM 中预约义了几个角色:Tenant Administrator(租户管理员),DLI Service Admin(DLI 管理员),DLI Service User(DLI 普通用户)。其中具备租户管理员或 DLI 管理员角色的用户在 DLI 内是管理员,能够操作该项目标所有资源,包含创立数据库,创立队列,操作我的项目下的数据库,表,视图,队列,作业。普通用户不可创立数据库,不可创立队列,依赖管理员的受权,能够执行创立表,查问表等操作。
DLI 应用 ACL 和 RBAC 两种模型来治理用户权限。管理员或资源的所有者能够授予另外一个用户单个或多个权限,也可能创立角色,授予权限给创立好的角色,而后绑定角色和用户。
DLI 提供了 API 和 SQL 语句两种形式来实现以上权限治理,不便用户灵便受权。具体应用形式能够参考 DLI 的权限治理。
案例剖析
拿银行的大数据实际来剖析下如何利用 DLI 来治理数据的权限。家喻户晓,银行积攒了大量的用户数据,包含用户信息,交易信息,账户信息等等数以亿计的数据。而银行业务也是十分的简单,波及到柜员零碎,监管部门,经营部门,营销部门等等各个业务线,各业务线对数据的要求不同,拜访的权限不同。咱们拿反洗钱业务与画像业务来简略介绍下如何利用 DLI 平台实现大数剖析和数据资产权限治理。
典型的反洗钱业务个别是大额预警和黑名单机制,须要从海量的交易数据中筛选出大额交易或者是黑名单人员交易数据,将这些数据反馈给监管人员进行进一步剖析,波及到的数据是交易数据,账户信息和黑名单信息。
画像个别会剖析用户的交易类型与交易数据,推断出用户的兴趣爱好,给用户画像,标记用户的趣味点在哪些地方。波及交易信息中的交易类型和账号信息。
这两项业务中在 DLI 中,由数据管理员生成生成用户信息表,交易数据表,账户信息表,黑名单信息表,并导入相应的数据。
在检查钱业务,授予反洗钱业务部门或人员账户信息表的查问权限,交易数据表的查问权限,黑名单信息的查问权限,通过对账户信息表和交易数据表和黑名单表的联结查问,能够查找出异样交易信息及相干交易人员,反馈给反洗钱监管人员。
在画像业务中,由数据管理员授予画像业务部门或人员用户信息表的查问权限,交易数据表中交易金额和交易类型,交易商户等列的查问权限,账户信息表中的账户 ID 和用户 ID 列的查问权限,通过这几张表的联结与聚合查问,找出用户罕用交易信息,蕴含交易类型,金额,及相干地点等信息,描绘出用户画像信息。
将来瞻望
传统企业数据资产面临着几个难题。各业务部门均会产生数据,数据规范不统一,保护简单。各业务部门数据存在在不同的零碎中,数据容易造成孤岛,无奈无效开掘利用。部门间数据共享简单,容易造成网状受权网络,保护老本微小。
数据湖 DLI 计划能够解决这样的难题,应用对立的数据管理平台、数据存储、数据规范,进行对立的数据资产治理、受权治理。
华为云 828 企业上云节期间,数据湖摸索 DLI 也在流动产品之列,有数据分析需要的企业连忙趁着促销动手试试。
点击关注,第一工夫理解华为云陈腐技术~