关于数据挖掘:火山引擎DataLeap的Catalog系统搜索实践一背景与功能需求

火山引擎DataLeap的Data Catalog零碎通过汇总和组织各种元数据，解决了数据生产者梳理数据、数据消费者找数和了解数的业务场景，其中搜寻是Data Catalog的次要性能之一。本文具体介绍了火山引擎DataLeap的Catalog零碎搜寻实际：性能的设计与实现。

Data Catalog可能帮忙大公司更好地梳理和治理本人的资产，是Data-drvien公司的重要平台。一个通用的Data Catalog平台通常蕴含元数据管理，搜寻，血统，标签，术语等性能。其中，搜寻是Data Catalog的入口性能，承当着让用户“找到数”的次要能力。在火山引擎DataLeap的Data Catalog零碎中，每天有70%以上的用户会应用搜寻性能。

业界次要的Augmented Data Catalog须要反对Google一样的搜寻体验来搜寻数据资产，以满足不同角色的用户的找数需要。火山引擎DataLeap也一样，搜寻须要反对的次要性能包含：

反对多种不同类型资产的搜寻。目前零碎中曾经蕴含15+种数据源，能够分为几大类：数仓表比方Hive，看板，数据集，实时表，Topic，对象存储，分布式文件系统如LasFS等。带来的次要挑战是不同类型的资产，搜寻的字段和权重有显著差别。
反对个性化。目前零碎的用户遍布整个公司，角色涵盖数据工程师，数据分析师，产品经理，项目经理，销售和数据科学家等等，须要实现的数据工作工作差别也比拟大，比方数据开发，数据治理，BI，数据分析和机器学习等等，因而个性化对Data Catalog的搜寻尤为重要。
反对各种业务元数据的高级筛选。数据资产除了名称/别名/形容等字段，通常还会有一些业务元数据，如我的项目/业务域/负责人/负责人部门/标签/业务术语/生命周期状态等。通过反对指定业务元数据进行筛选，帮忙用户减小搜寻范畴，更快搜到对应资产。
反对秒级的实时性。这里的实时性是指元数据的变更须要在秒级别反映到Data Catalog的搜寻里，例如新建表须要在操作实现后1～2秒内即能搜到相应的表，删除表须要不再显示在搜寻后果中。起因是用户新建或更新资产后通常会到咱们的零碎上查看相应的变更是否失效。用户手动在浏览器操作搜寻的工夫通常是秒级，超过这个工夫会给用户带来困惑，升高整个Data Catalog的应用体验。
反对Google相似的搜寻举荐(Type as you search)性能。搜寻补全性能是搜寻的一个导航性能，能够在用户键入内容时提醒他们能够输出的相干内容，从而进步搜寻精度。这个性能对响应速度有肯定的要求，同时因为数据资产的特殊性，前缀雷同的资产数量较多，因而也须要依据资产的热度进行肯定的排序。
反对多语言。数据资产的名称/形容/标签/术语等须要反对多种语言，搜寻的输出也可能是不同的语言，最罕用的比方英文和中文。不同语言的分词，专有名词字典，文本特色等都会带来一些挑战。

为了满足上述需要，火山引擎DataLeap的Catalog零碎采纳了个性化综合搜寻的计划。区别于联结搜寻（federated search），用户须要指定搜寻的具体资产类型或在搜寻后果页对不同的资产分栏显示，综合搜寻（unified search）容许用户在一个搜寻框中进行搜寻输出而无需指定搜寻的资产类型。

同时，搜寻服务会在同一个搜寻后果页返回不同类型的相干资产，并依据匹配水平和用户的个性化数据进行混合排序。劣势是能给不同的用户针对不同资产的搜寻需要提供对立的搜寻体验，同时提供了用户跨类型圈定资产的能力。另外，综合搜寻使得火山引擎DataLeap的Catalog零碎能够在页面上进行标准化透出，从而能够从技术上进行搜寻标准化，达到新数据源接入即可搜寻。

关于数据挖掘:火山引擎DataLeap的Catalog系统搜索实践一背景与功能需求

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据挖掘:火山引擎DataLeap的Catalog系统搜索实践一背景与功能需求

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复