更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
在人们的日常生活中,网购曾经成为人们生存中不可或缺的购物模式。
依据《中国社交电商行业倒退白皮书(2022)》的数据显示,2022 年社交电商市场交易规模达到 28542.8 亿元,预计 2023 年中国社交电商行业交易规模将达 34165.8 亿元。
这么宏大的市场规模背地,如何解决电商场景下的各项生态治理问题显得尤为重要,某电商平台的治理团队就提供了一个优良实际范本。
在该电商平台的社交电商场景下,以短视频优质我的项目为例,平台治理团队会对当天公布的挂购物车类短视频进行标签辨认,判断其优质水平及具体起因。通过算法模型辨认后,视频将被提交至奖惩核心,依据优质水平进行流量搀扶或限度。而在治理过程中,数据处理流程也存在很多的挑战和痛点。
- 首先是数量挑战:大数据量的训练集,难以疾速进行数据预处理。业务算法模型的训练集通常很大,达到百万甚至千万级。如果将这些海量数据放在本地或其余开发机上解决,速度会很慢,无奈满足业务需要,即便应用多线程解决,并发度也难以达到业务需要。
- 其次是准确度挑战:难以验证算法模型准确度。算法模型的准确性通常通过有偏和无偏两个维度进行验证。模仿算法模型上线后的召回状况和准确率,以及对业务的影响,无论是有偏还是无偏测试集,都须要确保测试集标签的准确性。如果测试集标签的准确性不高,会影响模型评估的准确性。
- 最初是监控挑战。要想做好后续的指标监控,首先须要建设本人平台的统计指标,如召回率、漏放率、审出率、驳回率等。这些指标须要做成数据集,再建设本人的监控看板。同时,如果平台呈现背面案例,须要团队进行深刻的剖析,并优化算法模型。如果没有高效的工具或平台进行辅助,会消耗大量的人力和资源。
为了解决这些痛难点,该电商平台治理团队接入了火山引擎 DataLeap 的大数据研发平台能力,三步搭建起了高效的算法模型数据处理流程。
第一步:在算法开发阶段,进行数据预处理,产出训练数据集。
在应用 DataLeap 之前,因为算法模型的测试集量级较大,数据处理效率低;而当初,该电商平台治理团队利用火山引擎 DataLeap 的 Notebook 工作进行数据预处理,解决后的数据会被存储在 Hive 表或 HDFS 上,这些数据能够在 HDFS 上短暂保留,满足了理论利用场景中收集长时间数据的需要,不用受存储有效期为 7 天的限度。
团队能够离线解决这些数据,生成训练集,进行模型训练。因为火山引擎 DataLeap 的 Notebook 能力能够反对工作的主动运行,无需人工搭建 Notebook 环境进行数据训练,大大节俭了人力老本,进步了数据处理和统计效率。
(图:DataLeap 数据开发平台示例)
第二步:算法上线,验证模型成果
训练好的模型须要进行评估,以便理解其成果如何。团队可利用 DataLeap 将线上的 Kafka 数据写入 Hive 中,而后离线剖析 Hive 表中的数据,用来理解模型的成果。不同模型平台治理团队关注的指标可能有所不同,借助 DataLeap 能够应用不同的指标来评估模型的成果,例如准确率、召回率、AUC 或 ACC 等。
第三步:利用火山引擎 DataWind 搭建监控看板
而在监控板块,DataLeap 可与火山引擎智能数据洞察 DataWind 晦涩配合,搭建监控看板,监控人员每日能够及时地获取到数据后果,同时也会对背面案例进行深刻的剖析,进而优化算法模型。
在火山引擎 DataLeap 的助力下,该平台治理团队去年全年累计开掘辨认优质短视频超 147 万条,助力超 26 万名电商作者均匀流量增长 56%;累计处罚违规低质短视频超 3280 万条、违规低质直播超 1500 万场。整体内容品质有显著改观,消费者好感度回升 7.2%。
除数据处理能力之外,火山引擎 DataLeap 还能够提供数据集成、开发、运维、资产等能力,帮忙用户晋升数据研发效率、升高治理老本,减速推动企业的数字化转型,目前曾经利用于泛互联网、制作、新批发、汽车等畛域,帮忙数据团队无效的升高工作老本和数据保护老本、开掘数据价值、为企业决策提供数据撑持。
点击跳转大数据研发治理套件 DataLeap 理解更多