举荐算法与零碎在寰球范畴内已失去广泛应用,为用户提供了更个性化和智能化的产品举荐体验。在举荐零碎畛域,AI 建模中特色数据的复用、一致性等问题重大影响了建模效率。阿里云机器学习平台 PAI 推出特色平台(PAI-FeatureStore)。在所有须要特色的 AI 建模场景,用户可通过 Feature Store 轻松地共享和重用特色数据,缩小资源和工夫老本、晋升工作效率。
什么是特色平台
特色平台(Feature Store)是一种中心化的数据管理和共享平台,用于组织、存储和治理机器学习和数据迷信中应用的特色数据。在多个细分场景解决 AI 模型的训练和推理输出特色数据问题。
阿里云机器学习平台 PAI-FeatureStore 与阿里云多个云产品的深度联合,封装从特色到模型的全链路。并且,基于举荐算法流程的开发,实现与已有的成熟举荐流程无缝连接,进一步晋升算法工程师和开发人员的效率。
通过 PAI-FeatureStore,无效地晋升工作效率、缩小资源老本和开发工夫。作为一个集中的、可扩大的、高效的特色数据存储和拜访解决方案,解决了在 AI 建模中特色数据的复用、一致性、可发现性和可管理性等问题。PAI-FeatureStore 主动实现在线和离线表的构建,保障在线和离线的一致性,同时在特色表只存一份的状况下,可能向多人共享特色;离线存储方面反对阿里云云原生大数据计算服务 MaxCompute,在线存储方面反对阿里云实时数仓 Hologres、GraphCompute 和 TableStore 等产品,算法工程师无需深刻理解各个存储产品的应用细节,通过网页手动操作或 Python SDK 即可实现特色解决。
PAI-FeatureStore 实用场景及劣势性能
阿里云机器学习平台 PAI-FeatureStore 实用于举荐场景、用户增长、广告或者是金融风控场景等须要特色的 AI 建模场景,为数据分析师和建模人员提供对立的数据特色存储和治理平台,不便进行数据处理、特征提取和剖析。
目前 PAI-FeatureStore 次要性能如下:
- 离线数据和在线数据统一:PAI-FeatureStore 中,各个产品的数据同步操作都封装为一行数据同步的代码,帮忙用户屏蔽了不同存储产品繁琐的数据受权等操作细节,保证数据一致性,进步特色数据处理和应用的准确率和效率;
<!—->
- 主动关联特色表:PAI-FeatureStore 中,反对将模型训练所须要的各种特色组合在一起,导出成模型训练所须要的训练表。当训练所需的特色散落在多张不同的表里时,PAI-FeatureStore 反对主动将多张表关联导出。并且,反对序列表导出、按 event_time 关联导出、主动按表大小排序及优化导出工夫等;
- 主动模型特征分析:PAI-FeatureStore 反对 PAI-EAS 主动剖析出模型须要应用的特色,并且主动加载好相干特色。通过指定好 PAI-FeatureStore 中的我的项目名、模型特色名等,预测引擎能主动剖析出所须要的特色并进行加载,简化应用流程;
- 实时特色秒级读取:PAI-FeatureStore 反对客户对特色进行分类的注册。在实时特征值存在秒级别变动的举荐场景中,对特色链路要求高,当有线上申请来读取特色时,PAI-FeatureStore 会判断须要读取的若为实时特色,间接对在线存储的进行读取。上千个实时特色的读取能够在 15ms,满足低提早要求;
- 多版本特色治理:PAI-FeatureStore 反对增量开掘特色,解决特色品种简单,线上数据起源多样的问题。不便线上模型迭代,同时节约存储资源;
此外,PAI-FeatureStore 还有深度联合 PAI 全链路举荐零碎 PAI-REC,实现离在线一致性查看;通过 SDK 可间接应用 PAI-FeatureStore 所有产品能力;反对 PAI-EAS 间接从 MaxCompute 拉取特色,缩小在线存储压力等性能。
如何应用 PAI-FeatureStore
应用步骤请参考产品文档:https://help.aliyun.com/zh/pai/user-guide/feature-store/
PAI-FeatureStore 预计将于 2023 年 9 月中下旬 在全 Region 正式上线。
目前 PAI-FeatureStore 仅供 白名单申请应用,如果您心愿应用 PAI-FeatureStore 性能,您在钉钉搜寻群号“34415007523”或扫描下方二维码进入申请答疑群。