关于存储:通用数据保护条例的监管下你的数据湖断舍离了吗
通用数据保护条例(GDPR)是当今技术世界中的重要法规,也是泛滥在亚马逊云科技私有云当中建设解决方案的用户们所必须遵循的数据处理要求。GDPR中提出一项“删除权”,或者叫“被忘记权”条款,要求通过施行相干解决方案保障删除特定用户的集体数据。 在亚马逊云科技大数据与剖析生态系统的背景之下,每一套架构,无论其面向怎么的指标,都须要应用Amazon Simple Storage Service(Amazon S3)作为外围存储服务。只管Amazon S3领有丰盛的性能选项与完整性,但却短少一种开箱即用的机制将用户标识符同蕴含用户数据的Amazon S3对象映射起来。 在本文中,咱们将介绍一套框架,帮忙革除您组织中的亚马逊云科技托管数据湖内的各特定用户数据。此外,咱们还将独特理解一套由多种不同亚马逊云科技存储层形成的剖析解决方案,以及针对Amazon S3的示例代码。 Amazon Simple Storage Servicehttps://aws.amazon.com/cn/s3/ 想要理解更多数据湖仓的相干常识?敬请关注亚马逊云科技中国峰会北京站的大数据与智能湖仓分论坛!更多最新技术公布和实际翻新的内容尽在8.19-20北京、9.15深圳分会,快来点击图片报名吧~ 参考架构为了解决数据革除框架施行中的种种挑战,咱们在这里将问题简化为一个简略用例,即如何在应用亚马逊云科技作为数据管道的平台当中实现用户数据删除。下图阐明了用例的根本状况。 咱们引入了建设并保护索引元存储库的想法,该存储库可能跟踪每位用户的记录地位,帮忙咱们高效找出这些地位,从而放大搜寻空间。 您能够应用以下架构,在组织的亚马逊云科技数据湖内删除特定用户的数据。 对于此初始版本,咱们创立了三个用户流,这些用户流负责将各项任务与适合的亚马逊云科技服务映射起来: 用户流1:实时元数据存储更新 Amazon S3 ObjectCreated或ObjectDelete事件会触发一项Amazon Lambda函数,此函数将解析对象并执行增加/更新/删除操作,以使元数据索引放弃最新。您也能够为任意其余存储层建设相似的简略工作流,具体包含Amazon Relational Database Service(RDS),Amazon Aurora或Amazon Elasticsearch Service(ES)。在本示例中,咱们应用Amazon DynamoDB与Amazon RDS for PostgreSQL作为索引元数据存储选项,这里应用的具体方法宽泛实用于其余技术场景。 Amazon Relational Database Servicehttps://aws.amazon.com/cn/rds/Amazon Aurorahttps://aws.amazon.com/cn/rds...Amazon Elasticsearch Servicehttps://aws.amazon.com/cn/ela...Amazon DynamoDBhttps://aws.amazon.com/cn/dyn...Amazon RDS for PostgreSQLhttps://aws.amazon.com/cn/rds...用户流2:革除数据 当用户要求删除其数据时,咱们会通过Amazon CloudWatch触发一个Amazon Step Functions状态机来协调工作流。第一步是触发Lambda函数,由该函数查问元数据以辨认出蕴含用户记录的存储层,并将生成的报告保留在Amazon S3报告存储桶内。接下来,由基于Lambda Node JS的工作节点创立并获取Amazon Step Functions流动,并通过Amazon Simple Email Service(SES)将带有批准及回绝链接的电子邮件发送给审核人员。 Amazon Simple Email Servicehttps://aws.amazon.com/cn/ses/下图所示为亚马逊云科技管理控制台上显示的Amazon Step Functions状态机根本架构。 审核人员从两条链接中抉择其一,而后调用Amazon API Gateway端点,由该端点调用Amazon Step Functions以复原工作流。如果抉择批准链接,则Amazon Step Functions将触发一项Lambda函数,此函数将存储桶内的报告作为输出,据此删除存储层内的对象或记录,而后更新索引元存储库。在革除作业实现之后,Amazon Simple Notification Service(SNS)会向用户发送操作胜利或失败的告诉邮件。 ...