Honglei Xie

Book Review: The Lady Tasting Tea

June 09, 2020 | 0 Minute Read

Here is the book review on this stimulating book: The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century that I wrote in Chinese almost 10 years ago at the time when I was a college student majoring in Statistics. Honestly I feel a bit embarrassed about some immature thoughts when looking back to this essay. Time flies but I’m glad I still remember the very moment of raising my mind of becoming a statistician.

《女士品茶 ——20世纪统计怎样变革了科学》书评

书评本来是个很私人化的东西,因为往往一个人在写书评的时候不由自主地带有自己主观的感情色彩,很容易误导还没有看过该书的人,但是我自认为《女士品茶》应该是本很小众化的书,证据是它都没再版了,如果你想买还只能花高价在淘宝上买人家的二手书。因为小众,所以杀伤力不大。鉴于此,所以才有本书评的诞生。

首先它有个极具迷惑性的标题,但是我想说这本书和女士以及茶都无关,倒是它的副标题——20世纪统计怎么变革了科学——一语中的。纯科普读物,但是写得很生动,对一些概念的讨论和剖析十分之深刻。作者是个美国生物统计学家,读完整本书就一个感受——热血沸腾啊!

开篇就介绍了一群无聊的剑桥精英们喝下午茶时突发奇想的一个实验,一位女士声称她可以分辨出奶茶是先放的奶还是先放的茶,当然就有人不信啦,然后一个瘦小的英国绅士就建议来做个实验。大家都知道,如果这位女士毫无分辨能力,她也有50%的概率猜中这杯奶茶是先放的奶还是先放的茶,于是这位绅士设计了一个巧妙的实验,就是端出10杯奶茶,当然这些奶茶除了奶和茶放的顺序不同以外其他条件都要精准地相同,比如温度比如搅拌均匀什么的。说到这里大家都明白其实这就是一个假设检验的简单问题,只有实验设计得足够地好,结论并不难得出。这个瘦小的英国绅士就是20世纪最伟大的统计学家——R.A.Fisher,正如你看到的,没有之一。

当然这本书不止是写了Fisher做出了哪些伟大的成就,还写了很多很多20世纪卓越的统计学家们——第一个给出概率数学化定义的Kolmogorov,在Fisher之前做了好多奠基性的工作的K.Pearson,创建非参数估计的Wilcoxon,发现t分布可爱的Gosset先生以及作为女性统计学家的杰出代表Cox和Cunliffe……即使如此,我丝毫不掩饰自己对于自负的Fisher先生的喜爱。正如宏观经济学只有两个时代,前凯恩斯时代和后凯恩斯时代一样,在我眼中,20世纪的统计学也只有两个时期,前Fisher时期和后Fisher时期,前者主要是K.Pearson的生物统计在一统天下,但是自从Fisher的出现,在他22岁第一篇论文发表之后,统计学界就没人理垂垂老矣的K.Pearson了!

随着这些伟大的统计学家们的出世,20世纪的科学界,无论是生物、化学、物理、工程……几乎各个领域都经受了一场统计革命带来的深刻变革。在这场革命之前,人们的宇宙观是机械的,也就是传说中的Determinism——所发生的任何事情都预先地决定于两点:一是宇宙的初始条件,二是描绘其运动的数学公式。在牛顿提出三大定律之后科学家都是这么干的,谁也没觉得有什么不妥,如果观测值和模型的预测值不符合?那肯定是误差的原因,只要实验的器械越来越好,测量值越来越精确,这种误差会越来越小的。但是事实却相反!随着测量值的越来越精确,反倒离预测值越来越远。决定论彻底奔溃。统计革命就是来反驳这样一种宇宙观的,它的核心思想是所有的观测值都来自于概率分布,而科学的目的就在于估计这些分布的参数。在这个思想上发现了许多的数理统计理论,比如大家都很熟悉但是也被诟病很多的假设检验、拟合优度检验、非参数检验……其中有几朵奇葩是我最感兴趣的。

第一个,假设检验。其实都被人说烂了,即使诟病很多,悖论也很多(有兴趣的可Google下“彩票悖论”和Gate Crashers),比如其中比较著名的“彩票悖论”,就是对小概率事件的一个有力反驳。在统计这个归纳法为主要方法论的世界里,小概率事件是不可能发生的,这也是极大似然估计方法的理论基础,换言之,发生的就不是小概率事件,那么用这套理论就无法解释彩票这件事情——按理说中彩票一定是小概率事件,但是我们经常可以看到有人在中彩票,这就是个矛盾了。另外,假设检验里的“不拒绝”这件事与“接受”是不等价的,在这个暧昧不清的中间世界里,我们似乎找到了统计学区别于数学的不够“严谨”的地方。但是不可否认提出假设检验的人还是非常有想象力的啊。

第二个,贝叶斯。其实我一直觉得概率应该都是条件概率,这比较符合我的认知和直觉。贝叶斯层次模型非常令人着迷,当分布的参数也是随机的,并且具有一个概率分布的时候,我们就有了超参数。你再有想象力一点就会知道还会有超-超参数,超-超-超参数…你要是觉得这纯粹是一群高智商无聊的统计学家搞出来的自娱自乐的玩意儿就错了!事实证明,统计理论是最具有实用性的,比如刚刚我说的那个超-超-超参数就运用在二战时期的密码分析上,比如日本人崛起的一个重要原因——优秀的质量管理水平——就拜美国统计学家Deming的几场讲座所赐。另外,你不知道的事里也许包括——其实,凯恩斯也是个统计学家。没错,就是写《就业、利息和货币通论》这部神书的John Maynard Keynes!他老人家的博士论文居然是《关于概率的讨论》。他在概率论方面提出了“个人概率”的观点,算是贝叶斯学派的一员,个人觉得一点都不make sense,里面分析的套路非常Keynes,无非就是和人们的心理、人们所处的文化背景有关什么的。

第三个,鞅。看到鞅的时候我还是小小震动了一下,我对上学期的金融工程开始热爱的一个原因就是我在notes上看到了鞅这个字眼。这个字看着就让人觉得世界美好,科学有趣;因为鞅的存在,我偏执地认为金融工程也应该很美好很有趣的,于是有了后来。总之在《女士品茶》这本书上再次看到鞅,心里既震动又温暖。但是这次不是在为期权定价,这次说的是随机数列趋向于一个正态分布的充分条件。我们都知道中心极限定理,但是鞅的提出在中心极限定理之前好久。虽然和后者比起来有幼稚的地方吧但是我觉得它的思想很闪光啊,下一个数的最佳估计值就是上一个数。鞅的思想在为期权定价上面发挥得淋漓尽致,金工的老师有次给我说华尔街那些人也基本上是这么干的,理论值和实际值的偏差在可允许的范围之内。但是现在的情况是否还是这样呢?那就有很大一个问号了。

最后,我不想矫情地把统计学思想和人生扯到一起。我认为那些潜心研究统计学理论的科学家们可能没怎么思考过这档子事儿,我也觉得似乎没那个好大的必要。不过,我还是想以另一个方式结束这篇书评。也许你猜到了,我想要质疑,质疑这场统计学革命。我不是拿起石头砸自己的脚,实际情况是上述提到的诸多这场革命留下来的宝贵遗产我都还没学会,但是我也想斗胆质疑下它。图基说:“世上没有什么事情神圣到不容质疑。”Fisher也好,XX领袖也好。我一直在怀疑人类是否有这个能力能构造出一个完美的模型来解释现实,然后完美地把参数估计出来,然后完美地给出预测。比如,一个很简单的问题,什么是概率?有人可以说清吗?也许那些工程师们化学家们生物学家们根本不屑回答这个问题,他们不用理会这个问题的答案照样可以让统计学满足他们的实际需要——用那些现成的模型——正确或是错误的。Kolmogorov给出了概率的数学化定义,任何一本概率论的教材上应该都有这个定义,但是我们只是背了这个抽象的定义却没办法在实际生活中找到对应。在这个问题的回答上我想我会一直做个悲观的不可知论者。当我学到更高一级的知识,知道了我以前理解的概率定义的浅薄,知道了我们应该在测度空间里来定义概率,但同时我们也应该保持警惕,所谓“尽信书不如无书”,谁又能保证我们目前认识到的概率就是逻辑完备,无懈可击的呢?不过好在我们仍然可以看到统计学在当今世界的各个领域里起到了无可比拟的巨大作用,理论上也许会被数学家诟病,但是在实务里却能够让统计学家挺起腰杆来——在发达国家里任何一种新药的研发都必须要有统计学家的签字!

《女士品茶》的最后一章里作者很俗气地展望了统计学的下一个100年,特别提到了中国的内地!他说可能在什么地方有另外一个Fisher正工作于科学的最前沿。有下一场的统计学革命么?但愿我能见证下一个Fisher的出世。