期望值最大化原则和它在生活上的应用

如果你是老板,不妨给大家设置一个好的收益函数,如果你是员工,按照公司的章程,最大化自己的利益是合情合理的事情。科学原理不仅适用于科学本身,也适用于生活。

Posted by 吴军 on July 16, 2020

/文 吴军

我们聊了几次信息时代管理的原则。世界上很多原理是相通的,科学上很多理论后来被用于了管理,而管理学的很多原理,也可以找到科学根据。今天我们来聊最优化理论和信息论中一个重要的方法——期望值最大化(Expectation Maximization)。它一方面是今天各种机器学习算法重要的理论基础,另一方面在管理学又有非常广泛的应用,并能指导现实生活。

期望值最大化方法的有效性在数学上可以严格地被证明。只要给出一个收益函数(也称为利润函数或者成本函数,因为利润的反面可以理解为成本)在每一时刻,算出能够最大化收益(期望值)的方向,沿着这个方向走一小步,然后再从新的起点重复这个过程,不论从何处起始,最后一定能够达到收益最大的那个终点。

当然,上面这段描述或许还有一点抽象,我举两个现实生活中的例子你就好理解了。

比如,前一阵中国足球队在主场输给小组最弱的对手叙利亚后,又客场输给了乌兹别克斯坦队,提前告别了俄罗斯世界杯。经过近四十年快两代人的努力,中国足球终于从亚洲强队变为了亚洲软柿子,虽然各级领导着急,但是无论是砸钱还是换帅都没有用。其实有一个很简单的方法,不仅让中国足球能够冲出亚洲,而且有望夺得世界冠军。只要教育部宣布,从今往后高考一半分数看文化课成绩,另一半看足球成绩,马上中国所有的广场都会被踢球的孩子占领,大妈奶奶们为了儿子孙子,也不跳广场舞了,所有的家长给孩子安排的课外活动都会是足球,各省市都会往足球上砸钱。

高考中足球成绩,就是前面说的收益函数,只要这个函数一确定,整个社会就变成了一个机器学习的系统,期望值最大化方法会自动优化全社会,让足球成绩达到最大值。

期望值最大化方法也被看成是宇宙演变和物种进化背后的动力。在宇宙的演化中,物理学的基本原理,比如各物质之间的四种基本作用力,其实就是收益函数,质子和中子通过强核力形成原子核,弱核力保证原子核不要太大,电磁力保证原子核和电子能够形成原子,以及原子可以结合形成各种分子乃至万物,万有引力保证物质能够形成星球,等等。宇宙的演变其实就是在这很少的几条规则限制下不断优化的过程,最后孕育出生命。而物种的进化也是如此,其实是我们的DNA不断优化适应环境过程。

在人和人的关系上,在一个组织内部,也是不自觉地按照期望值最大化方法在不断完善。一个人交朋友,开始可能有比较大的随意性,但是他内心有一个衡量标准(收益函数),就是最大化自己的收益,久而久之,对他好的人,能彼此产生“化学反应”的人,以及距离比较近(方便于帮助他)的人,就成了他的朋友,其它人就渐渐淡出了他的生活圈。

当然,每个人内心里的收益函数是不同的。在一个组织内,尤其是一个公司里,更是如此,创始人定下一个什么样的价值观(收益函数),员工就会不自觉地会去朝着收益最大化的方向努力。有一家大公司在制定年终奖标准时,把每个员工一半的奖金和他对公司价值观的认可挂钩,久而久之你就发现他们的员工出去说话都怪怪的,有意无意在宣传他们的价值观。外人是否相信不知道,但是天天说至少把自己都说得相信了。

在美国IBM公司把申请专利和员工绩效挂钩,于是它就成了历年来获得美国专利的绝对冠军。Google对员工发专利最初有不错的激励机制(收益函数),但是一度因为为了省那点小钱,大幅降低了对员工申请专利的奖励。我当时就和全公司主管科研的尤斯塔斯讲,虽然我不在乎那点钱,依然会申请专利,但是绝大部分员工一定懒得申请专利,吃亏的一定是公司。尤斯塔斯对我讲,我们现在不断教育员工专利的重要性,也相信员工不会因为少了一千块奖金就不申请专利,但结果却是Google人均申请专利数量锐减,以至于后来在和微软、苹果的专利之争上非常被动。于是Google一改政策,申请一个专利可以获得1万美元的奖金,很快在专利榜上默默无闻的Google一下子挤进了前十名。

从这些例子可以看出,公司设置什么样的收益函数,员工就会最大化它。这也是我为什么在商学院讲课时反复强调,创始人的基因会决定公司的基因,以及创始人一开始最重要的事情就是定规矩。Google从小公司开始,给单元测试写得好的员工发奖,给代码经常出错的员工小的惩戒,于是它自然而然地发展成一个重视工程质量的公司。Facebook从一开始就强调产品的迭代速度,因此它就成为一个以产品(而非技术)驱动的公司。有的公司一开始就给部门订销售指标,那些公司就成为只盯着下个季度KPI的短视的公司。

我有时看到一些公司,大会小会教育员工,而下面的人都在玩手机,不禁摇头。其实在一个现代的组织中,但凡有点独立思考能力的人都会发现那些领导有意无意设定的收益函数,然后不自觉地调整自己的行为去最大化自己的利益。与其教育员工,不如设置一个好的收益函数。既然宇宙的演变都遵循这样的规律,又怎么可能要求员工降低自己的期望值同时又保证公司的收益呢?

如果你是老板,不妨给大家设置一个好的收益函数,如果你是员工,按照公司的章程,最大化自己的利益是合情合理的事情。科学原理不仅适用于科学本身,也适用于生活。