女士品茶:统计学如何变革了科学和生活
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

分布与参数

高尔顿提出的相关公式已经与即将改变20世纪所有科学领域的革命性新思想非常接近了。不过,首次将这种思想以公式形式完整表达出来的人却是他的学生卡尔·皮尔逊。

为了理解这种革命性思想,你需要抛开一切已有的科学观念。老师常常教导我们,科学就是测量。我们通过仔细的测量发现了描述自然的数学公式。在高中物理课上,老师告诉我们,物体自由落体的距离与时间的关系可以用一个公式表示,公式中包含一个符号g,表示重力加速度常量。老师告诉我们,可以用实验确定g的值。不过,当高中学生为确定g的值而进行一系列实验——让小型重物滚下斜坡、测量它们抵达斜坡不同位置所需时间时,发生了什么现象呢?他们很少能测出正确的结果。学生的实验次数越多,他们就越困惑,因为不同的实验测出了不同的g值。这时,老师从高高的讲台上探下身来,安慰学生们说,他们之所以没有得到正确的结果,并不是因为他们马虎粗心或者抄错了数字。

老师并没有告诉学生们,所有的实验都是不准确的,即使是最仔细的科学家,也很少能测出准确的数字。每个实验都会出现无法预测的、难以观测到的干扰。室内的空气可能过于温暖;下滑的重物可能在滑动之前停顿了一微秒;一只蝴蝶经过时产生的一丝微风可能也会产生影响。我们真正从实验中得到的只是一堆数字,其中没有一个数字是正确的,但我们可以用这些数字对准确值作出近似的估计。

根据皮尔逊的革命性思想,我们无须将实验结果看作仔细测量的精确数字。相反,它们只是一堆数字,更常用的说法叫做数字的分布。这种数字的分布可以写成数学公式,用于描述某个观测值等于某个给定值的概率。这个数在某个具体实验中取什么值是无法预测的。我们只能谈论数值的概率,而不是确定的数值。每个实验的结果是随机的,因为它们是无法预测的。不过,我们可以用分布的统计模型描述这种随机性的数学本质。

科学界花了很长时间才意识到观测值固有的随机性。18、19世纪,天文学家和物理学家提出的数学公式对观测值的预测准确性是可以被人们接受的。人们觉得观测值和预测值之间的偏差是观测仪器本身的不精确造成的,可以忽略不计。他们认为,行星和其他天体按照基本运动公式所决定的精确轨道运行。不确定性是糟糕的测量仪器导致的,并不是大自然固有的。

随着物理学测量仪器精度的不断提高,随着这种测量科学在生物学和社会学上的扩展,大自然的固有随机性变得越来越明显。如何处理这个问题呢?一种方法是保留精确的数学公式,将观测值和预测值之间的偏差看作不重要的微小误差。实际上,早在1820年,拉普拉斯就在数学论文中描述了首个概率分布:误差分布,即这些不重要的微小误差概率的数学公式。这种分布被普通民众称为“钟形曲线”,或者叫正态分布。

皮尔逊在正态分布或者叫误差分布的基础上又向前迈进了一步。皮尔逊在研究生物学积累的数据时,想到具有概率分布的可能不是测量值的误差,而是测量值本身。我们测量到的数据只是随机分布的一部分,而随机分布的概率是由分布函数这个数学函数描述的。皮尔逊发现了一系列分布函数,他称之为“偏斜分布”。他宣称偏斜分布可以描述科学家在一切数据中可能看到的任何一种分布。在这个体系中,每个分布由四个数值确定。

确定分布函数的数值与观测值并不是同一种“数值”。这些数值无法观测,但是可以根据观测值的分布方式推算出来。这些数值后来被称为参数——这个词来自希腊语,意为“准观测值”。能够完整描述皮尔逊体系中数字的四个参数分别叫做:

1. 均值——观测值分布的中间值;

2. 标准差——大多数观测值相对于均值的分散程度;

3. 对称度——观测值偏向均值一边的程度;

4. 峰度——罕见观测值相对于均值的分散程度。

用皮尔逊的偏斜分布系统思考问题,思想就会发生某种微妙的转变。在皮尔逊之前,科学的处理对象是看得见摸得着的真实存在。开普勒试图发现能够描述行星在太空中运行规律的数学公式;哈维的实验试图确定血液在某个动物静脉和动脉中的流动方式;化学处理的是元素和由元素组成的化合物。不过,开普勒试图掌控的“行星”实际上只是一组数据,用来给地球上的观测者所看到的天空中微弱的光点定位。血液在一匹马静脉中的准确流动路径可能与另一匹马不同,或者与某个人不同。没有人能制造出纯粹的铁单质,尽管人们知道铁是一种元素。

皮尔逊提出,这些可以观测到的现象只是一些随机的映象,概率分布才是真实的东西。科学研究的真正对象不是我们可以触摸观测到的物体,而是描述我们观测的事物随机性的数学函数。在科学研究中,我们真正需要确定的是分布的四个参数。从某种程度上说,我们永远无法真正确定这四个参数,只能通过数据对它们进行估计。

皮尔逊没有认识到最后这个区别。他认为,如果我们收集到足够多的数据,就可以获得参数的真实值。他的年轻对手费希尔指出,皮尔逊的许多估计方法并不是最优方法。20世纪30年代后期,在卡尔·皮尔逊人生的最后时刻,年轻而又聪明的波兰数学家耶日·内曼(Jerzy Neyman)指出,皮尔逊的偏斜分布系统并没有涵盖所有分布,而且无法解决许多重要的问题。

不过,让我们放过1934年孤独年迈的卡尔·皮尔逊,回头来看不到四十岁、充满干劲的皮尔逊,当时他对自己发现的偏斜分布充满了热情。1897年,他接手了高尔顿位于伦敦的生物统计实验室,组织许多年轻女性(被称为“计算员”)根据高尔顿在人体测量方面积累的数据计算相关的分布参数。到了世纪之交,高尔顿、皮尔逊和拉斐尔·韦尔登(Raphael Weldon)联合创办了一个新的科学期刊,用于将皮尔逊的思想应用到生物学数据上。高尔顿用他的财富建立了一个信托基金,以支持这家新创办的期刊。在创刊号上,编辑们制定了一个雄心勃勃的计划。