关于数据库:文末福利云上论剑谈谈如何构建新的数据系统技术体系

6次阅读

共计 1244 个字符,预计需要花费 4 分钟才能阅读完成。

✏️ 编者按:

11 月 13 日至 14 日,中国计算机协会(CCF)主办的全国开放式散布与并行计算学术年会(DPCS 2021)圆满落下帷幕。DPCS 2021 旨在为分布式计算与零碎相干畛域研究者、开发者和用户提供一个学术交流和展现成绩的平台。会议内容涵盖凋谢环境下的分布式解决和并行计算模型、数据中心网络与大数据、分布式边缘智能、边缘计算、算力网络、区块链、新型分布式系统与利用等。

大会上,Zilliz 合伙人、研发总监郭人通博士受邀发表了题为《非结构化数据 + AI + 云原生:构建新的数据系统技术体系》的报告,与工程院院士郑纬民、十余名杰青、长江、优青等出名学者,以及来自华为、阿里、微软、快手等国内外知名企业的专家云上论剑。学术界与工业界交换碰撞,共话分布式计算与零碎的倒退现状与趋势,摸索产学研单干契机。让咱们一起来看看郭人通博士的分享吧!

随着 5G、物联网等技术的高速倒退,各行业都在着手构建丰盛的数据采集通路,咱们正在把事实世界更加平面地投射到数字空间。此刻,咱们正在同时经验着 「非结构化数据」「人工智能」「云原生」 三场改革,将来的数据根底软件将会面临怎么的改革?目前,神经网络应用正在减速落地,Embedding 作为一种用神经网络示意语义的外围数据模式,呈现出爆炸性的增长,然而在根底软件层面,不足对向量数据的治理及剖析能力。针对这个问题,Zilliz 团队先后发动两个开源我的项目:开源向量数据库 Milvus 和其孪生我的项目 Towhee。

开源向量数据库 Milvus 目前是 LF AI & Data 基金会的毕业我的项目,可能治理大量非结构化数据集,在新药发现、举荐零碎、聊天机器人等方面具备宽泛的利用。

Towhee 则是一个开源的非结构化数据语义提取平台。在研发 Milvus 数据库的过程中,工程师们发现大量用户在 「非结构化数据的语义了解」「向量化编码」 两方面遇到了许多艰难。Towhee 我的项目的发动,正是心愿围绕开源社区构建一套标准化的 Embedding pipeline,并提供丰盛的 Embedding 算子,从而大幅度降低用户们做 Embedding 工作的门槛。

郭人通博士还总结了研发过程中令他感触最深的三大难点: 多剖析引擎合作框架、混合向量索引、多层索引存储构造

只管面临重重挑战,他置信将来的数据根底软件将会 以非结构化数据作为数据根底,以人工智能作为计算伎俩,以云原生作为环境底座 ,Zilliz 团队也将会在这一畛域一直精进摸索。


想要具体理解开源我的项目 Milvus

和 Towhee 的架构设计?

关注 Zilliz 公众号并回复「学术年会」

支付本次报告 PPT!


Zilliz 以从新定义数据迷信为愿景,致力于打造一家寰球当先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的暗藏价值。

Zilliz 构建了 Milvus 向量数据库,以放慢下一代数据平台的倒退。Milvus 数据库是 LF AI & Data 基金会的毕业我的项目,可能治理大量非结构化数据集,在新药发现、举荐零碎、聊天机器人等方面具备宽泛的利用。

正文完
 0