共计 1059 个字符,预计需要花费 3 分钟才能阅读完成。
当初人们的日常生活中,网购曾经成为人们生存中不可或缺的购物模式。依据中国电子商会公布的《中国社交电商行业倒退白皮书(2022)》的数据显示,2022 年社交电商市场交易规模达到 28542.8 亿元,预计 2023 年中国社交电商行业交易规模将达 34165.8 亿元。同时在 2022 年,抖音电商每月新增超 2 亿条短视频、900 多万场电商直播,在优质内容驱动下,用户购物行为快速增长。
这么大市场规模背地,如何解决电商场景下的商品平安、内容平安、商家达人社区平安,晋升服务体验,做好内容生态等问题显得尤为重要。
DataLeap 是火山引擎自研的一站式大数据中台解决方案,集数据集成、开发、运维、治理、资产治理能力于一身的大数据研发治理套件。利用火山引擎 DataLeap 用户能够很好的监测电商场景下的商品平安、内容平安、商家达人社区平安,对于做好内容生态带了极大的便当。据理解,火山引擎平台治理团队目前已达百人团队规模,团队散布遍布国内外,次要监测一些电商场景下红线违规的问题,同时一些优质的商品信息和短视频,使其在整个生电商的生态外面有更多露出,欠缺平台的治理能力建设。
在日常做一些电商平台治理会遇到如下挑战与痛点:
1、大数据量的训练集如何疾速进行数据预处理
以前在去筹备这种训练集的时候,模型的训练集一般来说可能都是百万级、千万级的。如果把这种十分大的一个数据,把它放到本地,比方像 workspace 或者是一些其余开发机上去做解决,它会很慢,有时候即便研发人员开多线程或者多过程解决起来的话,并发度还是不够的。
2、如何验证模型的精确
模型准确性验证个别是从两个维度,一个维度是有偏,另一个维度是无偏。个别要是来评估这个模型的话,须要在离线训练模型的时候去验证,这个时候可能是一个有偏测试集,让正负样本尽量平衡一点,再去验证指标,在正式上线之前结构一个无偏的测试集去模仿,等真正的把这个模型上线之后,预计它的召回是什么样的,召回之后它的准确性怎么样,以及评估一下这个模型的一个影响面,难点就在于此。不论是有偏还是无偏测试集,对于测试集标签的准确性要求是比拟高的,如果测试集的标签准确性不高,就会影响模型评估的准确性,这也是难点。
3、如何监控
要想做好监控,首先要有本人平台的统计指标:比方召回率、漏放率、审出率、驳回率 等等,把指标做成数据集,建设属于本人的监控看板,同时如果平台有 badcase,要进行深刻的剖析,进而优化算法模型。那么这一整个流程下来,如果没有很好的工具辅助,是十分低效的。
如何解决好上述的挑战与痛点?后续文章笔者会接着剖析。