共计 1378 个字符,预计需要花费 4 分钟才能阅读完成。
有一个常常反复的统计数据,明天存在的所有数据中有 90% 是在过来两年中创立的。
这个数字的出处是含糊和有争议的,它能够追溯到近 10 年前,所以即便过后是真的,明天这个百分比可能更高。但无可争议的是,信息的指数级增长仍在持续。IDC 预测,到 2025 年,寰球数据总量将从 2018 年的 33 字节减少 175 字节。
在整体数据增长中,越来越多的非结构化数据会带来平安和合规危险。据估计,组织领有的高达 90% 的数据当初是非结构化的,并且以每年 55-65% 的速度增长。这包含文档、电子表格、照片、视频、音频、网页、文本文件、社交媒体和幻灯片演示等内容,其中可能蕴含难以跟踪和治理的敏感或个人身份信息 (PII)。
例如,人们可能会将所有应用程序的明码保留在未加密或无明码的 Excel 文件中,而后将其存储在 OneDrive 上的文件夹中,因为他们认为它是平安的。或者有人可能会为工作或签证申请拍摄蕴含大量 PII 的护照的照片或扫描件,并与 HR 共享,从而将其存储在 OneDrive 或 SharePoint 上。这些事件咱们都做过,而且很容易做到,而无需真正思考。
数据分类与合规危险
这种非结构化数据的问题在于它不存在于数据库中并且具备预约义的数据模型或模式。尽管数据库中的结构化数据更容易分类和治理,但很难晓得视频或电子表格的内容是什么以及它是否蕴含明码或 PII。
这会产生数据治理危险——尤其是在医疗保健、金融服务和政府等高度监管的行业中,这些行业有任务恪守美国衰弱保险流通与责任法案 (HIPAA) 和萨班斯 - 奥克斯利法案等数据保护立法和法规法案(SOX)。
也存在安全隐患。许多现有的数据分类工具无奈告诉您,例如,Word 文件是否被宏病毒感化。因而,您不仅须要可能对云环境中的非结构化数据进行分类并辨认任何蕴含 PII 或敏感数据的数据,还须要可能扫描该信息以查找平安威逼。
云数据治理挑战
围绕非结构化数据造成数据治理挑战的另一个因素是云的宽泛采纳。所有这些数据不再存储在笔记本电脑、PC、文件服务器和网络附加存储 (NAS) 上,而是随着组织远离本地基础设施,当初存储在 Office 365 或 Google Workspace 等云平台中。许多公司甚至配置笔记本电脑和零碎,因而员工只能将数据保留到 OneDrive。
然而在这次云迁徙的过程中,组织并没有花工夫整顿他们的数据。这只是晋升和转移。他们实际上是将一堆非结构化数据从一个中央挪动到另一个中央。这只是挪动问题,而不是解决围绕不足可见性的外围问题。
当然,也有市场上曾经呈现多年的数据分类工具。但它们没有跟上时代的步调,也不是为云而设计的,因而在性能和能力上存在差距。一种工具可能会报告您的数据,但不会修复它。另一个将修复它并将其组织成更结构化的形式,但只能在一个平台上工作。
许多这些较旧的产品也不与最新的文件格式兼容,并且无奈进行光学字符识别 (OCR)。例如,如果您想检查和分类诸如护照照片之类的货色,您须要 OCR 主动解析图像并将姓名、护照号码、地址和其余 PII 捕捉为文本格式而不是图像格式。
您还须要一种古代工具,能够在分类时编辑任何集体或敏感信息。该工具须要为管理员检测和标记该信息,但对其进行编辑以使其无奈查看。
非结构化数据的这种增长只会继续下去,组织必须把握其云环境中的分类和治理,以便他们可能辨认和爱护敏感信息,并防止代价昂扬或破坏性的平安和合规性违规。