统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)
上QQ阅读APP看书,第一时间看更新

9.4 重新配对

前面说过,按照定义,相关系数的值位于闭区间[-1,+1]。然而,但是很多人不知道X和Y的形态(分布)并不一定限定在这个定义区间[1]。具体而言,X和Y的数据本身的形态是不一样的,相关系数区间的大小要比定义的相关系数区间小一些。显然,较小的相关系数区间需要计算经调整的相关系数(见9.5节)。

重新配对的过程决定了实际相关系数区间的大小。重新配对用到原来的X-Y数据对生成新的X-Y重新配对后的数据对,这些重新配对后的数据生成了最强的正相关和负相关关系,继而确定了实际相关系数的区间大小。重新配对的基本要素包括:

1)最强的正相关来自最大的X值和最大的Y值配对;次大的X值和次大的Y值;直到最小的X值和最小的Y值,以此类推。

2)最强的负相关来自最大的X值和最小的Y值配对;次大的X值和次小的Y值;最小的X值和最大的Y值,以此类推。

继续看表9.1中的数据,我重新配对了表9.2的X-Y数据,得到

rX,Y(负配对)=-0.99

rX,Y(正配对)=+0.99

表9.2 表9.1数据的重新配对(X,Y)

为完整起见,我做了一幅重新配对的散点图。不幸的是,由于样本数太少,这幅图没有太大用处。负配对和正配对数据的散点图分别为图9.2和图9.3。

图9.2 rnegY和rnegX负配对散点图

图9.3 rposY和rposX正配对散点图

由于R平方调整了,所以相关系数也因X和Y数据的形态而发生改变,调整后的相关系数实际区间是[-0.99,+0.90]。我们在下一节讨论这个区间的计算过程。

[1] 我看到的第一个给出这个限制的文献是在图基EDA,1977。其实更早之前我就知道——在读研究生时,我就这样猜想,只是无法提供比EDA更早的参考资料。