作者:emma
0. 引言
每天早上醒来,眼睛一睁开就面临一个难题:明天穿什么?这时候脑海里往往会冒出很多选项,却都不能令我称心,纠结中常常想着想着就又睡着了。20 分钟后发现睡过了惊醒,抓起文化衫和短裤套上就走,匆忙中身上还滴上了牙膏。
于是在共事眼中,我始终是个蓬头垢面的女程序员,我也确实没让大家悲观,常常以文化衫拖鞋的形象呈现,自夸反正都嫁人了,穿了给你们看没意思。
然而每天的早上我却从未轻言放弃,依旧会去想:明天穿什么?这个问题。好像是一个我永远解决不了,却又不甘心绕过去的问题。
如何解决
数据分析和举荐做多了,看到什么都有了收集数据来解决问题的激动。于是有了这个开脑洞的想法:用数据分析解决每天早上起床困扰我的事件,让我可能开心自信的去下班。
我梳理了工作上用数据解决问题的 整体流程:
- 定义分明须要解决的问题。
- 数据收集,荡涤数据。
- 定义指标并进行统计计算。
- 对指标进行细分和下钻比照,察看数据得出结论。
- 拿出一些典型的 case 具体分析。
- 通过 4 和 5 的论断,优化策略。
- 应用优化后的策略,继续察看 4 中定义的指标。
两头还会存在很多细节问题,比方指标是否合乎预期,遇到问题的假如和验证。
写进去,贴墙上,口头。每次开坑都有一种兴奋和缓和并存的简单情感。
数据分析就是这样刺激的事件,脑海中会涌现出很多灵感。须要把他们梳理好,否则很容易中途跑偏。
不看到数据的时候,永远不晓得有什么论断。跑进去的数据是否和本人的期待一样?如果不一样会是什么起因?不一样的话又要做何种假如和验证?
后果有时候兴奋,也常常防止不了失落。最怕的不是论断不合乎预期,而是搜查了半天没有发现什么有用的论断。只能承受临时没有论断也是一种论断。把这些数据放在心里,兴许哪天又有什么灵感去用。
真是一项逻辑理智和灵感碰撞的工作!
1. 定义分明须要解决的问题
其实我并不是没有衣服,尽管算不上多的要命,但也塞满了半个衣柜。已经刚刚开始本人赚钱的时候,也“挥霍”买了不少淘宝爆款。然而没有衣服穿的感觉貌似素来没有隐没过。
梳理一下:
- 我对目前可抉择的衣服常常感觉不称心
- 我不晓得如何去买,仿佛始终在买却还是不够
从举荐策略的角度,能够认为衣柜就是咱们的候选池子。生存中的各种场合,各种节令代表不同特色用户(其实都是我,在不同状况下百变的我!)的需要。
如 (工作日,下班,春天,上班想去静止,心愿简略明快,前几天穿过的序列(xxxxx),脏了洗了的序列(xxxxx)) 或者(周末,带孩子去公园,夏天,会跑跑跳跳拍照,心愿不便口头上相,…..)
举荐成果:集体感触,纠结很久 or 感觉衣服不够。阐明成果有待进步。
这里 抉择衣服策略 和 评估指标 - 集体感触是否合情意,都绝对主观,较难量化,毕竟女人如此简单我本人都搞不懂本人。
且咱们每次对本人的穿搭不称心都会感觉是因为没有衣服穿,也就是池子(衣服)有余。
所以心愿解决的问题是:固定散发策略和评估指标的状况下,如何优化池子来晋升成果 。
当然因为池子也是依据我本人的决策买来的,所以问题是要解决:如何优化建设池子(买衣服)这个策略 。毕竟买衣服犹豫的工夫往往比穿衣服还要长。
如果可能有清晰的认知我须要什么样的衣服,肯定能省很大的功夫。
2. 数据收集,荡涤数据
根底数据建设和荡涤。洁净的数据永远最重要。
2.1 根底数据建设
根底数据:每一件衣服,及其相干属性。相干属性是便于前面的统计和下钻。每件衣服拍照是为了一一 case 剖析。
如果说这次剖析花了我整整一个周末的工夫,那 80% 的工作量都在这里。
我把衣柜外面所有的衣服都抹平,照了照片。打了一些标签,整顿在 excel 表格外面。
联合剖析的指标,标签次要依据买衣服决策时思考的因素,穿衣服时的决策因素,最终这件衣服穿不穿 三方面,打了以下标签:
type(背心 短袖,睡衣,卫衣,连体裤等),节令(春秋,夏,冬)
购买工夫(学生时代,下班后,一年内),购买渠道(商场,淘宝,他人送的)。色彩(花,灰,条纹…)
特地水平 (特地,有点特点,中规中矩),上身频率(高,中,低,渐低,再也不想穿)
其实还想标更多的,比方和谁一起买的。买的时候次要目标是,买时是否试穿等。但我切实没膂力了,回顾每件衣服都的前世今生是件很疲劳的事件。
2.2 脏数据处理
如果不当时抽一些样本来看,或者做一些简略的校验,很容易被脏数据带坑里。他们往往用很小的量和很异样的值,把均值等的指标带偏。
我剔除了一些衣服。次要有:前辈感觉我适宜穿肯定要送我,为了非凡的事件买的无奈穿第二次,比方演出服 这两种。这些衣服不是我被动抉择的,暂且不列入剖析范畴。
3. 定义指标 进行统计计算
3.1 数量
简略直观也是举荐池最重要的指标。究竟咱们“衣服总是不够用”的诉求在于数量。
这里次要采纳的比照和细分思维。因为总量必定是不少的,感觉不够用肯定是集中在某些细分的标签上。细分和比照,就是要找出这些标签。
先看一下总量。
这个数量其实我也不晓得算多还是少。这就是数据分析外面一个问题: 很多数据要有个整体平均值 或者比照,能力晓得大小。一些数据通过长期察看这类业务数据,均值和散布心里大略无数,看到就能够晓得大小。比方挪动端 feeds 广告的点击率,个别都会在 1%+。云音乐各 tab 的渗透率等数据,都是提前通晓的。
而我没有他人衣服数量的材料或者平均值散布。只能简略估算一下,99 件是衣服和裤子 外衣和内搭,都算上的。
三个节令,每个节令就 30 件衣服,上半身和下半身均分的话,每个节令变成 15 身衣服。4 个月 15 身衣服,总量也不算很多吧(心虚的挠头),至多不是很夸大的多。
对数量指标进行简略的下钻和比照 —– 很简略也很容易得出结论的办法
夏天衣服最多,冬天衣服起码。和北方的气象匹配。
看每个数据的时候,咱们心里都会有一个大略预判。比方分节令的数据,看数据之前从气象能够初步判断应该是夏天最多。当数据和咱们的预期合乎的时候,也是对数据准确性的一个验证。
当呈现数据和咱们预期不合乎时,则须要关注和进一步验证查看。
分工夫看 近 10 年买的衣服还是占绝大多数。新衣服占 33%,也有 22% 的衣服是 7 年以前的。还有多数 10 年以上本科买的衣服。看来我没胖多少。
应用频率从低到高的散布,是左偏的。确实有很多衣服应用频率很低(不偏好)。应证了本人“总感觉没有适合衣服”的感触指标是把这个散布调整到靠右。
商场买的衣服最多,喜爱看中就拿走的痛快。
正式衣服比拟少和集体气质无关。没什么正式场合需要。合乎预期
各个维度进行一些简略的 cross,有一些进一步的论断
应用频率偏低的问题,春天衣服最重大,喜爱的衣服较少。冬天目前在用的衣服都还比拟常穿。
场合 cross 节令,发现夏天真是个浪漫的节令,假期风情比拟多。三个节令正式的衣服各一件,完满且够用,下次看到偏正式的衣服,能够不必花工夫思考了。
场合 cross 特地水平。假期 比拟特地的衣服偏多,工作日更多中规中矩的衣服。比拟正当。
衣服还有不可疏忽的一点 - 搭配属性。衣服怎么配不到一起,也是筛选的一大苦恼。
对上装 / 下装的比例进行剖析。除去连衣裙,连体裤这种不须要搭配的。
高低拆卸比不适合的中央浮现了:
- 春装 11.5 件上衣配一条裤子
- 下装百搭的牛仔裤非常少,须要针对性补货
数量指标的剖析,让我对本人的衣橱有了更多的理解。把握了哪些品类须要补货。哪些比拟短缺。
除了数量,品质十分重要。女生多多少少都在不停买衣服,然而为什么始终在买衣服,始终还都感觉不够穿。
重点剖析一下再也不想穿的衣服,到底都是什么样子的。从失败教训中总结教训。
3.2 淘汰率
定义淘汰率 = 再也不想穿的衣服 / 所有衣服
“买来没怎么穿过的衣服”是我心中最大的痛。又占中央 又没穿 又费钱,还要被说:你看柜子里那么多衣服 怎么还说没衣服!
剖析一下淘汰率高的衣服有什么特色,能够防止踩雷。也在当前买衣服纠结的时候,给本人一些领导。
同样,维度细分思维,和比照思维。做为次要的伎俩。
整体淘汰率 30%。三分之一的有效衣服,占比还是比拟高的。
分节令看,冬天分外高一些。冬天的衣服尽管应用频率高的比拟多,再也不想穿的也比拟多。有一些是须要淘汰掉了。
这里想探讨一个问题。维度十分多,在咱们下钻的时候如何选取。
大规模的数据和高维度状况,咱们能够通过机器学习的办法,能够指定淘汰率这个指标,而后算各个特色的贡献度。
然而在数据分析中,可解释性十分重要的,很多数据是为了验证咱们的假如。不须要精准预测、或者去训练模型。(当然如果用模型,个别还是会看看高贡献度的特色,是否合乎预期,是否有什么启发)
所以在数据分析中,优先选择下钻的维度是:最有可能有区分度的,能够验证一些假如的,或者在场景下有非凡含意的。
比方数量上很多下钻都依照了“节令”维度去开展。因为节令这个维度是有非凡含意的。春夏秋的衣服不能互穿。所以优先下钻这个维度,更容易发现一些问题。
而淘汰率这个指标,优先下钻最有可能有区分度的,也是能够验证假如的维度:购买工夫。
不想穿的衣服,和新旧是否有间接关系呢?如果只是因为曾经买很久旧了不想穿,那并不是购买时决策的问题。
淘汰率从高到低顺次为,研究生 or 下班后购买 > 本科购买 > 一年内购买。
淘汰率并不是越新的衣服越低。本科衣服的淘汰率低于下班后。这是否代表晚期眼光更好呢?须要留神的一点是,衣橱中本科时候购买的衣服只占 5%。
这里的起因能够设想:本科买的衣服是十年前的了,能留到当初的,大概都是最喜爱的一批了。如果把本科所有的衣服都留到当初,那淘汰率必定会大不少。
一年内买的衣服淘汰率是最低的。近期审美坑还是比拟少。
所以淘汰率指标中有一个不太偏心的中央:近一年买的衣服 淘汰率显著低。
那么如果有一类衣服淘汰率低,不肯定是因为我的决策英明眼光独到,也有可能是因为近期买的多,一年内的衣服占比重大。
那么后面看到的,夏天衣服淘汰率低,是因为夏天衣服一年内买的多吗?
cross 节令和购买工夫来看。
能够看到夏天在一年内和一年之前购买的衣服上的淘汰率 都比春秋要低。而且一年内的分外低。
思考到夏天短袖居多,不容易踩坑。
值得注意的是冬装。一年内购买的淘汰率比一年之前要高。冬装现役尽管有一些应用频率很高的。但近期买的,齐全不想穿的概率也较高。近期须要感性购物。
购买渠道也是一个重要的维度。近期网购的比重越来越大。
然而比拟闹心的是,网购的衣服,淘汰率竟然比他人送的还高。
格调维度来看
更特立独行的衣服 更容易被淘汰。中规中矩的衣服绝对平安,合乎常理。
尤其是春天特地的样式,须要审慎,淘汰率逆天。夏天花色多点问题不大。
4. 典型的 case 具体分析
有哪些维度失败率比拟高,有了一个大体理解之后。为了进一步把 badcase 印在心里,吃一堑长一智。
我对再也不想穿的衣服,具体是怎么回事儿做了起因标记。采纳溯源思维。并一一例举解决方案
5. 输入论断:买衣服策略
综上,这个周末总结出以下几条策略
- 十分须要牛仔长裤;
- 去商场外面,试穿买冬天的衣服。冬天的衣服始终是一些比拟旧的在穿,坏了就完了有危险;
- 夏天的衣服短缺且集体满意度高。能够暂缓购买;能够偶然网购精益求精;
- 春装不要买花里胡哨的。买来根本没在穿;
- 网购来了不适合的衣服果决退货。网购不难看为淘汰起因第一名;
6 随着决策变动,继续察看数据
不做扩散的数据,要做剖析体系。是十分重要的一点。
剖析中能发现问题的指标积淀下来。变成察看业务状况,以及策略所的产生变动是至关重要的。
当 step6 的各项措施被执行后更新原始数据,察看指标变动。及时调整方向,才是放弃衣柜“生态衰弱”的要害。
然而工夫无限,对于原始数据收集录入这块我有点解体。心愿能坚持下去吧。
最初
总结一下本文遇到的数据分析办法和要点:
- 须要对问题进行梳理和定义。
- 设置要害指标。
- 洁净的根底数据至关重要。
- 对要害指标进行下钻和比照剖析,办法虽简略但能够失去不少论断。
- 能够设置一些假如加以验证。
- 要留神指标是否偏心,如果指标存在一些人造偏差,记得分桶剖析。
- 剖析 badcase 是制订策略的利器。
- 防止一次性工作,长期察看形成剖析体系。
谢谢你看到这里,我去拾掇一百多件衣服了。
本文公布自网易云音乐技术团队,文章未经受权禁止任何模式的转载。咱们长年招收各类技术岗位,如果你筹备换工作,又恰好喜爱云音乐,那就退出咱们 staff.musicrecruit@service.ne…。