概率论是帮助我们认识、理解世界的非常有用的一门学科

概率论是帮助我们认识、理解世界的非常有用的一门学科

商业洞察 丨口述 / 刘 嘉、刘 润 编辑 / 程 志

这是刘润公众号的第1379篇原创文章

前几天,我收到一本书:《刘嘉概率论通识讲义》。

刘嘉。南京大学副教授,得到《概率论22讲》主理人。我还很有幸,是刘嘉老师的大学同班同学。

读完,写得真好。

我常说,数学,是理解万物的秘密。

为什么?

在我的年度演讲上,我讲了一个大数据挖掘的故事。

有一次,被誉为快消品行业的颠覆者萨里格监测到,某品牌的台式制冰机销量很好,但评论很差。“几个月后,便时不时停止工作了”;“有时显示冰满了的灯会亮起,但是没有满”;“一年半,就坏了”。

消费者很想买一款产品,但质量问题,却在阻止他们付钱。这就是机会。

萨里格团队,赶紧开始研究。结果发现,这些问题,都是由抽水泵导致的。于是,他立刻找到了制造商,解决问题,并迅速在亚马逊上推出了自己的制冰机。

很快,这款制冰机的销量,占据了亚马逊总销量的1/4,并最终拿下了搜索结果,排名第一的位置。

这个结果背后,离不开萨里格在浩如烟海的大数据中挖掘出“金矿”的能力。

而对我们每个人来说,随着数字化的深入发展,这个能力对我们每个人来说会变的越来越重要。而大数据挖掘最底层其实就是数学,是概率。

所以,借着此书出版之际,我找机会和刘嘉老师进行了一次对话,请他给我们讲讲概率,讲讲大数据给我们带来的变化以及机会。

下面,我就把刘嘉老师的观察分享给你,希望对你有所启发。

个体概率和群体概率有什么不同?

人人都说大数据带来了变化,到底有什么变化呢?当然有很多,我今天说说从概率的角度来看,大数据和传统的数据分析最大的差异是——从寻找群体共同特征,到寻找个体独特差异。

这样就把解决问题的视角从事转向了人。

什么意思呢?

首先,我们来说一下什么是个体概率和群体概率。

我讲一个故事,让你感受一下。二胎政策放开后,我同事要去做试管婴儿。医院说,试管婴儿的成功率是50%,这是群体概率。

这是怎么得出来的呢?分母是所有种植试管婴儿的周期数,分子是成功的种植周期数。50%的意思是,一半的周期是成功的。

但对于我同事来说,她做一次,也就是一个种植周期,要么成功,要么失败,要么是100%,要么是0%。她需要知道的是,自己的年龄和身体的状况,她这个具体的个体究竟这一次成功的概率是多少?

这里表现出群体概率和个体概率之间的冲突和差异。

医生用群体概率来思考和决策,50%的概率,那么试管婴儿这个技术是值得上市的,因为这样就可以让很多有迫切需求的患者满足愿望。

同样,一个药物,有效率90%,能够缓解或者治愈90%的病人,这就是很好的药了。你看到没有,群体概率是针对一件事儿来的。

但是,对每一个个体来说,他们有基因的差异、生活习惯的差异,身体条件的差异,每一个患者是用个体概率来体验和承受的。我想,这是医学最难解的问题之一吧。

从中间我们能得到什么?

第一, 群体概率和个体概率针对的对象不同,回答的问题也不同,不能混淆,也不能相互替代和攻击。

第二, 其实,每个个体概率也有个期望值,只是我们常常很难找到。

如果要开启概率论的冷酷时刻,我们设想,我同事要是反复做试管婴儿,100次,1000次,10000次,她成功的概率不会是0,也不会是100%,大概率也不是50%,但一定会是一个相对稳定的值,这就是她做试管婴儿的数学期望,是个体概率。

但很明显,我们做不了这个试验。

但是有些事是可以做的,比如某一班航班,它执飞的误点率长时间就会趋于稳定,因为这班航班可能飞了3000次,我们就有了一个稳定的预期。

个体概率可以做什么事?

了解个体概率,做事的思路与只知道群体概率的时候有什么差别呢?

理解了个体概率和群体概率的差异,就是机会。

疫情前,南京有个涉及航空延误险的案子,大概的情况是:有个人从2015年至今,她一共实施航空延误险理赔近900次,获得理赔金近300万元。

不谈法律问题,从概率的角度来说,她是怎么预测对这么多次航班延误的呢?她就是利用个体概率和整体概率不一样的特点,专门寻找延误率高的航班购买航班延误险。比如只寻找极端天气预报下的航班。

这个小群体的出现概率大于整体,所以利用这个BUG可以获利。

保险公司针对的是所有飞机延误的普遍规律,整体概率是针对这件事,它不用管某一班飞机的个体概率。

而如果能计算出每一班具体的飞机延误的概率,我们的服务视角才能转向具体坐这班飞机的这个人身上。

视角从事情转变到人身上,能改变很多事情的逻辑。

举个例子:一家服装店,根据以往的交易数据,我们能得到这家店的转化率,有多少顾客进店之后,有多少人消费,这是个概率。注意,这个概率不是针对客人的,是针对这家店的。这是个整体概率。

但你很清楚,人和人之间是不一样的,有的人比如我,就是逛逛,而老耿是真的想去买,我们两个的购买概率是不一样的。但最后都被平均了,形成了整体的转化率,商家是看不到我和老耿之间的差异的。

这时候,我们能做的事是把店开在市口好的地方,也就是流量高的地方,总量多了,转化率不变的情况下,销售额就高了,所谓的坪效就提升了。

但电商网站不一样了,它想寻求的概率是你在这家店买东西的概率,寻求的是个体概率。无论是猜你喜欢,给你推荐,它的本质是寻找具体某个人,购买某家店商品的概率。这时候,它把购买概率更高的人引入这家店,流量保持一致的情况下,销售额就能提高。这就是所谓的精准营销、个性化推荐。

再比如,我不知道各位淘宝的亲们,你们有没有注意过淘宝的退货险?还记得多少钱嘛?你仔细观察,你会发现这个价格是不断变化的。同样一件商品,可能你退货险的价格是8毛钱,而你女朋友的退货险的价格是2块钱。退货险是根据每个人,买某家店,某个商品可能退货的概率而自动得出的。再根据你这次7天后退货还是没退货,自动调整下一次退货险的价格。

分享一个小小的经验。我一般买东西的退货险是1块钱左右,如果突然我想付款买一件商品,发现它的退货险是5块钱,这说明什么?这说明淘宝觉得我退这件货的概率大幅度提升了,那我就要小心了,我会再回去看看商品的评价,评估一下,我是不是真的需要这件商品,或者这件商品是不是真的符合它的说明,你知道,毕竟淘宝比我还了解我自己。

找个体概率的思路,我们做事的方式如何改变?

知道这些有什么用处呢?

我们的问题是,如何找到每一个个体概率的稳定值呢?

因为,我们现在是为一个一个个体服务的,我们最需要回答的是,每一个个体成功的概率是多少。无论是做试管婴儿、退换货、购买产品、还是各种面对每个个体的决策问题。

我们使用群体概率的思路,最常用的就是分组。把接近一个个体的相似条件组合起来。

比如我同事38岁,那么就把30-39岁的女性做试管婴儿的群体找到,再找这个群体的概率,显然这个概率比整体概率更接近我同事的个体概率稳定值。

如果30-39岁这样分组还很大,不满意,那就再分,35-39怎么样?要不然就和保险公司的逻辑一样,就是38岁怎么样?或者再细致,就我同事生日那一天的群体怎么样?

哪怕像北京三院做的周期再多,也经不起这样细分啊。而且,就算精确到生日,试管婴儿的成功率可能还要看体重、看基因、看体质。群体概率的思路做到极致,就会遇到问题。没有相同的两个人,包括双胞胎也至少有一点点差异,对有些事情来说,这点点差异可能就是巨大的不同。

群体概率这种细致分组的思路,做到底,数据依旧是不够的。用细分的群体概率代替个体概率,可能保证在现有条件下犯错最小,但是却永远代替不了个体概率本身。

但是大数据带来了希望。

第一,数据多了,禁得起细分了。我不是一个北京三院的数据,如果我有这个世界上所有的试管婴儿成功率的数据,我就可以分的更细致了。但这还不是最主要的。

第二,有多维度的数据相互验证了。如果我有了不是试管婴儿本身的其它数据,比如基因,比如身高体重,比如生活习惯,我们就能寻找到决定试管婴儿成功率的关键因子,在不同的关键因子上能计算出对每个个体的成功概率了。

举个信用卡诈骗的例子,曾经有一种诈骗方式,收一些人的身份证去办信用卡,前几个月稳定消费,按时还款,几个月后就会提高额度,然后诈骗团伙就提现走人。银行从交易数据中根本看不出问题。而如果有了这个身份证行为数据,比如这个身份证关联的手机所在的地理位置,微信登录地点,快递地址。你想想,一个福建的身份证,一直在南京刷信用卡,也没有福建到南京的交通记录,淘宝账号快递地址都是福建,那南京这张信用卡大概率有问题啊。你看,获得这些多维度的行为数据,相互验证,就是为了计算这张信用卡是诈骗的个体概率。

所以你知道为什么大数据总是在说需要多维度的行为数据,那是计算个体概率的基础啊。

第三, 有了不断更新的数据,可以不断地修正个体概率。你知道服务个体最大的挑战是个体会变化的。个体的需求是变化的,个体的身体是变化的。如果有了大数据,同事根据当下情况,每个阶段服药的状况反馈,变化治疗的节奏、剂量,动态的可以调整具体这个人做试管婴儿成功的概率。

就比如,个人信用,不断地通过各种服务的履约情况、收入变化情况、还款情况、消费情况,动态地调整你当前的信用,这种动态地调整在概率论中就是以频率法为基础,使用贝叶斯方法进行了。当前的人工智能,数字化转型,本质都是使用数据对个体概率不断的调整。

这三点综合在一起,对个体概率的逼近就比传统的统计方法强太多了。

而只有做到了对个体概率的计算,我们才能真正把解决问题的视角从事情转向人。

我同事这样的问题,最终只能靠大数据,才能找到和她类似的群体,寻找到当下她的个体概率。才能更好的服务于她这个人,帮助她做更为正确的决策。

预测概率是决策的基础,能预测整体的确定性,到能预测个体的概率,这就是我想跟你分享的大数据带来的改变。

大数据的坑

当然,大数据带来的这个改变,也有几个不足:

1) 针对你服务的问题而言,需要多少数据,是视情况而定的。有时候需要的不是更多的数据,而是更相关的数据,维度也许比数量更重要。

2) 理论上来说,数据永远是不够的,再怎么全面的数据,从上帝视角来看都是局部。所以,大数据本质上永远是一个优化的过程,而不是0和1这样确定的结果。

3) 大数据依赖于模型,而针对问题需要“对”的模型,但所有公司的模型都是不公开的,个体即便觉得有问题,也没有办法抗辩。

现在个人数据立法了,我们要保护个人数据的隐私。因为一旦开始对个体的概率计算,必然会导致一系列的隐私问题和价格歧视。平台最好的盈利方式必然是对每个人用他最能接受的价格卖给他们产品。但如果你理解了我今天说的,你就知道这应该是一个平衡。没有数据,我同事做试管婴儿的困境就永远无法解决。而滥用数据,我同事就会在别的领域受到不公平的对待。

最后的话

说到概率思维,想到网络上一个很有意思的段子。

全班倒数第一的“学渣”找到倒数第二的说:“考试借我抄抄哈”,倒数第二的同学很高兴,觉得很有面子。

考试结果出来,倒数第二的同学成了倒数第一,而那个原来倒数第一的同学竟然提高了好几个名次。

倒数第二的同学无法理解,明明你抄我的,怎么我是倒数第一,而你却提高了好几名呢?

倒数第一的“学渣”说:“排除了咱俩的答案后,选出正确答案的可能性,果然提高了”。

你看,连“学渣”都在用概率思维提高自己的成绩,我们当然更需要学习概率思维。

最后的最后,作为一名曾经的数学专业的同学,我在学了十几门不同的数学课程后,我得出一个结论——概率论是帮助我们认识、理解世界的非常有用的一门学科。

-END-

原文链接:https://www.1588tao.com/17759.html,转载请注明出处。

0

站点公告

请新用户在购买前先检测一下链接是否有效,在进行购买下载(失效链接可以随时问客服是否可修复在进行购买),2022年4月之后发布的文章均可检测网盘链接有效。由于属于虚拟资源,链接失效修复不了属于正常情况,介意着不要购买会员。
显示验证码
没有账号? 注册  忘记密码?
'); })();